CN112887779B

CN112887779B - 基于语音节奏进行自动滚动字幕的方法、系统及装置

Info

Publication number: CN112887779B
Application number: CN202110075327.5A
Authority: CN
Inventors: 殷明; 周见光; 周凯峰
Original assignee: Hangzhou Xiaozhongquan Technology Co ltd
Current assignee: Hangzhou Xiaozhongquan Technology Co ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-11-18
Anticipated expiration: 2041-01-20
Also published as: CN112887779A

Abstract

本发明公开一种基于语音节奏进行自动滚动字幕的方法，包括以下步骤：获取待滚动字幕的语音数据，当语音空白间隙时间超过预先设定值时，进行断句处理；将断句处理后的语音数据进行分帧提取特征处理，以使得每一帧都为固定长度，并将每一帧转为特征向量；将特征向量输入语音识别模型中，将断句处理后的语音数据转换为人声语音特征符号；将人声语音特征符号与预设的字幕文字提取的特征符号进行比对，若相似度高于阈值，则匹配成功；动态计算出平滑的滚动速度，并将对应字幕向上滚动。本发明能实现用户自由控制字幕提词的功能，在不增加人力资源同时，实现了字幕自动提词，避免出现忘词、错词等一系列状况。

Description

基于语音节奏进行自动滚动字幕的方法、系统及装置

技术领域

本发明涉及字幕控制技术领域，尤其涉及一种基于语音节奏进行自动滚动字幕的方法、系统及装置。

背景技术

随着现在在线直播、直播教学、在线课堂、短视频制作等新媒体的兴起，越来越多的领域需要用到字幕提词功能，并且后期要生成和语音同步的字幕文件，例如在教学、演讲时，准备字幕可以避免出现忘词、错词等一系列状况。

目前市场上，字幕需要人工进行滚动，这就要求有额外人力资源，提高了生产所需的成本。故亟需一种能够识别语音节奏并跟随节奏自动滚动字幕的程序来解决这个问题。

发明内容

本发明针对现有技术中的缺点，提供了一种基于语音节奏进行自动滚动字幕的方法、系统及装置。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种基于语音节奏进行自动滚动字幕的方法，包括以下步骤：

获取待滚动字幕的语音数据，当语音空白间隙时间超过预先设定值时，进行断句处理；

将断句处理后的语音数据进行分帧提取特征处理，以使得每一帧都为固定长度，并将每一帧转为特征向量；

将特征向量输入语音识别模型中，将断句处理后的语音数据转换为人声语音特征符号；

将人声语音特征符号与预设的字幕文字提取的特征符号进行比对，若相似度高于阈值，则匹配成功；

动态计算出平滑的滚动速度，并将对应字幕向上滚动。

作为一种可实施方式，所述待滚动字幕的语音数据为人声。

作为一种可实施方式，还包括以下步骤：

若相似度不高于阈值，则匹配失败，发出告警并重新获取待滚动字幕的语音数据。

作为一种可实施方式，所述动态计算出平滑的滚动速度，具体为：

将当前断句处理后的语音数据完成识别后，将对应语音数据的文字累积至队列中，并将对应语音数据所用的时间累积至队列的总时长中；

基于队列的总时长与队列的总字数得到队列中最近的每字时间；

通过最近的每字时间及下一句语音数据的字数得到下一句语音数据的滚动时间；

基于滚动时间以及下一句语音数据所显示的屏幕高度得到此句语音数据滚动完显示屏幕高度所需的第二滚动速度；

在预设时间内，基于当前滚动速度与第二滚动速度得到显示下一句语音数据的变化速度；

基于变化速度、预设时间及预设的滚动帧率，得到每帧的速度变化值，以及每帧的移动像素数；

通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

作为一种可实施方式，当前滚动速度设置为V，初始滚动速度为V0设置为0，队列设置为Q，总时长设置为TQ，当前至下一句应增加的速度设置为Va，队列字数设置为CQ，最近的每字时间设置为Tw，下一句语音数据的字数设置为C1，滚动时间设置为T1，高度设置为H1，第二滚动速度设置为V1，预设时间设置为T0，T0＝3.5秒，变化速度设置为Va，每帧的速度变化值设置为Vaf，每帧的移动像素数设置为Hf，新的滚动速度设置为V2，则有：

最近的每字时间Tw：Tw＝TQ/CQ；

滚动时间T1：T1＝Tw*C1；

第二滚动速度V1：V1＝H1/T1；

变化速度Va：Va＝V1-V；

每帧的速度变化值Vaf：Vaf＝Va/T0/F；

新的滚动速度V2：V2＝V+Vaf；

每帧的移动像素数Hf：Hf＝V2/F。

一种基于语音节奏进行自动滚动字幕的系统，包括语音获取模块、语音提取模块、语音特征转换模块、特征符号匹配模块和文字滚动模块；

所述语音获取模块，用于获取待滚动字幕的语音数据，当语音空白间隙时间超过预先设定值时，进行断句处理；

所述语音提取模块，用于将断句处理后的语音数据进行分帧提取特征处理，以使得每一帧都为固定长度，并将每一帧转为特征向量；

所述语音特征转换模块，用于将特征向量输入语音识别模型中，将断句处理后的语音数据转换为人声语音特征符号；

所述特征符号匹配模块，将人声语音特征符号与预设的字幕文字提取的特征符号进行比对，若相似度高于阈值，则匹配成功；

所述文字滚动模块，被设置为：动态计算出平滑的滚动速度，并将对应字幕向上滚动。

作为一种可实施方式，所述语音获取模块被设置为：所述待滚动字幕的语音数据为人声。

作为一种可实施方式，所述文字滚动模块，被设置为：

通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下所述的方法步骤：

动态计算出平滑的滚动速度，并将对应字幕向上滚动。

一种基于语音节奏进行自动滚动字幕的装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下所述的方法步骤：

动态计算出平滑的滚动速度，并将对应字幕向上滚动。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明能实现用户自由控制字幕提词的功能，在不增加人力资源同时，实现了字幕自动提词，避免出现忘词、错词等一系列状况；

使用本发明提供的滚动字幕方法及系统，在字幕滚动结束后，可以生成和语音节奏一致的字幕文件，便于后续作品展示时直接进行使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的整体流程示意图；

图2是本发明系统的整体框架示意图；

图3是本发明一具体实施例的整体流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

目前市场上，字幕需要人工进行滚动，这就要求有额外人力资源，提高了生产所需的成本。故亟需一种能够识别语音节奏并跟随节奏自动滚动字幕的方式来解决这个问题。如何才能解决此技术问题呢，请参照以下实施例。

实施例1：

一种基于语音节奏进行自动滚动字幕的方法，如图1所示，包括以下步骤：

S100、获取待滚动字幕的语音数据，当语音空白间隙时间超过预先设定值时，进行断句处理；

S200、将断句处理后的语音数据进行分帧提取特征处理，以使得每一帧都为固定长度，并将每一帧转为特征向量；

S300、将特征向量输入语音识别模型中，将断句处理后的语音数据转换为人声语音特征符号；

S400、将人声语音特征符号与预设的字幕文字提取的特征符号进行比对，若相似度高于阈值，则匹配成功；

S500、动态计算出平滑的滚动速度，并将对应字幕向上滚动。

本发明能将获取到的用户的语音数据经过一系列处理最终计算出平滑的滚动速度，基于滚动速度控制对应的字母向上滚动，实现用户自由控制字幕提词的功能，在不增加人力资源同时，实现了字幕自动提词，避免出现忘词、错词等一系列状况。

在本申请中，人声语音特征符号其实是拼音，而预设的字幕文字提取的特征符号也是拼音，在匹配的过程中，是同时提取人声语音的特征符号的拼音以及预设的字幕文字提取的特征符号的拼音，通过拼音进行比对，若相似度高于预先设置的阈值，则可以认定为匹配成果，通过拼音识别和比对效率比直接对比是比直接识别文字的效率高。

结合附图3，详细阐释本发明的步骤：在接收到输入的语音数据A，在出现语音空隙时间超过设定值时(比如设定值为0.18s，根据大量人声语音调试的结果得出，设定值太大会导致正常的停顿被忽略，太小则会导致语音识别太频繁，降低识别速度)，将接收到的人声或者语音数据进行缓存，每当出现语音空白间隙大于设定值时，进行断句处理，得到分段的语音数据An；

对分段的语音数据An进行分帧提取特征，每一帧都为固定长度，将每一帧都转为一个特征向量Rn；

将所述特征向量Rn输入一套基于深度学习实现的语音识别模型，将声音PCM数据转为人声语音特征符号RTn，在此，声音PCM数据是指所述的语音空隙时长超过设定值后，

当前缓存的待处理的语音数据；

将所述识别结果人声语音特征符号RTn与预置的字幕文字Tn提取的特征符号进行对比，判断相似度高于阈值，则判定为匹配成功；

接收到的匹配成功信息，则动态计算出平滑的滚动速度，并将字幕向上滚动。

另外，如果语音数据识别完成后，将依次对所述分段后的所有语音数据A进行识别，判断对应字幕信息匹配成功信息并进行滚动，直至无新的语音数据输入时，结束语音识别。

在一个实施例中，分帧提取特征，每一帧占有比较短的固定时长(比如25ms亦或者其他数据)，进行短时傅里叶分析，转换为特征向量；

另外，于其他实施例中，所述语音识别模型，其原理是通过采用卷积神经网络(CNN)和连接性时序分类(CTC)算法，使用大规模的中文语音数据进行特征处理后，形成训练集、验证集以及测试集进行深度学习训练、测试及验证等步骤，进而获得最优化的语音识别模型；另外，语音识别模型使用TensorFlow等开源工具根据该模型进行推理计算，从而将声音PCM数据转为人声语音特征符号。由于语音识别模型采用的是现有技术，并不是本发明的重点内容，在此对其实现方式不再赘述。

本发明中，主要获取的语音数据是人声，目前并不支持获取机器语言实现自由控制字幕提词的功能。

在步骤S400中，还包括以下步骤：

在本发明中，重点的内容在于通过识别语言数据之后，动态计算出平滑的滚动速度，那么具体的包括：

S510、将当前断句处理后的语音数据完成识别后，将对应语音数据的文字累积至队列中，并将对应语音数据所用的时间累积至队列的总时长中；

S520、基于队列的总时长与队列的总字数得到队列中最近的每字时间；

S530、通过最近的每字时间及下一句语音数据的字数得到下一句语音数据的滚动时间；

S540、基于滚动时间以及下一句语音数据所显示的屏幕高度得到此句语音数据滚动完显示屏幕高度所需的第二滚动速度；

S550、在预设时间内，基于当前滚动速度与第二滚动速度得到显示下一句语音数据的变化速度；

S560、基于变化速度、预设时间及预设的滚动帧率，得到每帧的速度变化值；以及每帧的移动像素数；

S570、通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

为了能获得更优的有益效果，对步骤S500中每个单独的步骤涉及到的计算公式进行限定，当然，能够实现这些步骤的计算公司并不局限于此，本实施例只是公开的最优方式。假设当前滚动速度设置为V，初始滚动速度为V0设置为0，队列设置为Q，总时长设置为TQ，当前至下一句应增加的速度设置为Va，队列字数设置为CQ，最近的每字时间设置为Tw，下一句语音数据的字数设置为C1，滚动时间设置为T1，高度设置为H1，第二滚动速度设置为V1，预设时间设置为T0，T0＝3.5秒，变化速度设置为Va，每帧的速度变化值设置为Vaf，每帧的移动像素数设置为Hf，新的滚动速度设置为V2，则根据步骤S510-步骤S570可以推导出以下公式：

最近的每字时间Tw：Tw＝TQ/CQ；

滚动时间T1：T1＝Tw*C1；

第二滚动速度V1：V1＝H1/T1；

变化速度Va：Va＝V1-V；

每帧的速度变化值Vaf：Vaf＝Va/T0/F；

新的滚动速度V2：V2＝V+Vaf；

每帧的移动像素数Hf：Hf＝V2/F。

以上计算公式只是本实施例中得到的最佳实施方式，当然其他公式也是可以实现的，只是没有这些计算公式得到的技术效果好，在此不再赘述。

在一个具体实施例中，将步骤S510-步骤S570以及具体计算公式结合起来，得到的具体步骤如下：

设滚动速度为V，初始滚动速度为V＝0，则当识别完每一句语言数据后，将该语言数据的文字累积入一个最长50个字的队列Q，并将对应所用的时间累积入队列Q的总时长TQ里；计算当前应增加的速度Va，令Q的字数为CQ，则得最近的每字时间Tw：

Tw＝TQ/CQ；

令下一句的字数为C1，则得下一句的滚动时间T1：

T1＝Tw*C1；

设下一句的屏幕显示高度为H1，则得该句滚动完其高度所需的速度V1：

V1＝H1/T1；

为了平滑滚动速度，将当前滚动速度V在T0时间内变化到V1，其中T0是固定经验值3.5秒，则得总的变化速度Va：

Va＝V1-V；

滚动帧率为F＝30，则得每帧的速度变化值Vaf：

Vaf＝Va/T0/F；

然后计算新的滚动速度V2：

V2＝V+Vaf；

则得每帧的移动像素数Hf：Hf＝V2/F，每帧的移动像素数是具体到以帧为单位的速度，是滚动速度的具体实施值；

通过以上方式能精确的获得新的滚动速度，通过新的滚动速度得到每帧的移动像素数，可以得到具体的实施值，通过实施值能更好的控制应字幕向上滚动的速度，更过更新的滚动速度V2会在下一个循环中作为当前滚动速度，再经过此步骤得到第二新的滚动速度，依次循环。

实施例2：

一种基于语音节奏进行自动滚动字幕的系统，如图2所示，包括语音获取模块100、语音提取模块200、语音特征转换模块300、特征符号匹配模块400和文字滚动模块500；

所述语音获取模块100，用于获取待滚动字幕的语音数据，当语音空白间隙时间超过预先设定值时，进行断句处理；

所述语音提取模块200，用于将断句处理后的语音数据进行分帧提取特征处理，以使得每一帧都为固定长度，并将每一帧转为特征向量；

所述语音特征转换模块300，用于将特征向量输入语音识别模型中，将断句处理后的语音数据转换为人声语音特征符号；

所述特征符号匹配模块400，将人声语音特征符号与预设的字幕文字提取的特征符号进行比对，若相似度高于阈值，则匹配成功；

所述文字滚动模块500，被设置为：动态计算出平滑的滚动速度，并将对应字幕向上滚动。

在一个实施例中，所述语音获取模块100被设置为：所述待滚动字幕的语音数据为人声。

在一个实施例中，所述文字滚动模块500，被设置为：

通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

在一个实施例中，所述特征符号匹配模块400被设置为：

实施例3：

动态计算出平滑的滚动速度，并将对应字幕向上滚动。

在一个实施例中，处理器执行计算机程序时，实现所述待滚动字幕的语音数据为人声。

在一个实施例中，处理器执行计算机程序时，实现还包括以下步骤：

在一个实施例中，处理器执行计算机程序时，实现所述动态计算出平滑的滚动速度，具体为：

通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

在一个实施例中，处理器执行计算机程序时，实现当前滚动速度设置为V，初始滚动速度为V0设置为0，队列设置为Q，总时长设置为TQ，当前至下一句应增加的速度设置为Va，队列字数设置为CQ，最近的每字时间设置为Tw，下一句语音数据的字数设置为C1，滚动时间设置为T1，高度设置为H1，第二滚动速度设置为V1，预设时间设置为T0，T0＝3.5秒，变化速度设置为Va，每帧的速度变化值设置为Vaf，每帧的移动像素数设置为Hf，新的滚动速度设置为V2，则有：

最近的每字时间Tw：Tw＝TQ/CQ；

滚动时间T1：T1＝Tw*C1；

第二滚动速度V1：V1＝H1/T1；

变化速度Va：Va＝V1-V；

每帧的速度变化值Vaf：Vaf＝Va/T0/F；

新的滚动速度V2：V2＝V+Vaf；

每帧的移动像素数Hf：Hf＝V2/F。

实施例4：

在一个实施例中，提供了一种基于语音节奏进行自动滚动字幕装置，该基于语音节奏进行自动滚动字幕可以是服务器也可以是移动终端。该基于语音节奏进行自动滚动字幕装置包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该基于语音节奏进行自动滚动字幕装置的处理器用于提供计算和控制能力。该基于语音节奏进行自动滚动字幕装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库存储基于语音节奏进行自动滚动字幕装置的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于语音节奏进行自动滚动字幕的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于语音节奏进行自动滚动字幕的方法，其特征在于，包括以下步骤：

动态计算出平滑的滚动速度，并将对应字幕向上滚动，其中，所述动态计算出平滑的滚动速度，具体为：

基于变化速度、预设时间及预设的滚动帧率，得到每帧的速度变化值；

通过当前滚动速度和每帧的速度变化值得到新的滚动速度；

基于新的滚动速度及预设的滚动帧率，得到每帧的移动像素数。

2.根据权利要求1所述的基于语音节奏进行自动滚动字幕的方法，其特征在于，所述待滚动字幕的语音数据为人声。

3.根据权利要求1所述的基于语音节奏进行自动滚动字幕的方法，其特征在于，还包括以下步骤：

4.根据权利要求1所述的基于语音节奏进行自动滚动字幕的方法，其特征在于，当前滚动速度设置为V，初始滚动速度为V0设置为0，队列设置为Q，总时长设置为TQ，当前至下一句应增加的速度设置为Va，队列字数设置为CQ，最近的每字时间设置为Tw，下一句语音数据的字数设置为C1，滚动时间设置为T1，高度设置为H1，第二滚动速度设置为V1，预设时间设置为T0，T0＝3.5秒，变化速度设置为Va，每帧的速度变化值设置为Vaf，每帧的移动像素数设置为Hf，新的滚动速度设置为V2，则有：

最近的每字时间Tw：Tw＝TQ/CQ；

滚动时间T1：T1＝Tw*C1；

第二滚动速度V1：V1＝H1/T1；

变化速度Va：Va＝V1-V；

每帧的速度变化值Vaf：Vaf＝Va/T0/F；

新的滚动速度V2：V2＝V+Vaf；

每帧的移动像素数Hf：Hf＝V2/F。

5.一种基于语音节奏进行自动滚动字幕的系统，其特征在于，包括语音获取模块、语音提取模块、语音特征转换模块、特征符号匹配模块和文字滚动模块；

所述文字滚动模块，被设置为：动态计算出平滑的滚动速度，并将对应字幕向上滚动，其中，所述文字滚动模块，被设置为：

通过当前滚动速度和每帧的速度变化值得到新的滚动速度。

6.根据权利要求5所述的基于语音节奏进行自动滚动字幕的系统，其特征在于，所述语音获取模块被设置为：所述待滚动字幕的语音数据为人声。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述的方法步骤。

8.一种基于语音节奏进行自动滚动字幕的装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的方法步骤。