CN109389999A

CN109389999A - 一种高性能的音视频自动断句方法和系统

Info

Publication number: CN109389999A
Application number: CN201811141404.7A
Authority: CN
Inventors: 邱理; 陈镇诚
Original assignee: Beijing Yimu Information Technology Co Ltd
Current assignee: Shenzhen million curtain Mdt InfoTech Ltd.
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-02-26
Anticipated expiration: 2038-09-28
Also published as: CN109389999B

Abstract

本发明提供了一种高性能的音视频自动断句方法及相应的系统，通过MNS消息队列对待处理的信息进行统一管理，通过多线程的处理方式实现对大量任务的连续处理，从而提高了处理效率；从wav格式文件中选取非噪音采样点，可以有效排除噪音或背景音的影响，降低无意义断句的概率；根据语言习惯设置句间时长阈值t₀，当相邻非噪音采样点t＞t₀时，即认为该部分满足语句长度的最低要求，此时即可进行分句；制作字幕时，为了调整时间轴、使语句和文字相匹配，以分句点的时间戳作为相应文字的起始时间，一一进行匹配，从而完成字幕的配置。通过上述方法进行自动断句，可以有效缩短断句时间、提高断句准确性，从而大大节省时间成本和人力成本。

Description

一种高性能的音视频自动断句方法和系统

技术领域

本发明属于音视频字幕制作技术领域，特别涉及一种高性能的音视频自动断句方法和系统。

背景技术

目前在制作音视频字幕时，主要通过人工进行语音断句。人工语音断句的前提是将语音全部听一遍，通过拍打快捷键、记忆抓取、语音识别等来标注一句话的开始点和结束点。由于人为拍打往往存在一定的延时，导致得到的开始点和结束点出现错位，需要另外进行手动调整。因此，整个流程需要消耗大量时间，且精准度不高。比如，30分钟的音频需要耗时40分钟至1小时的断句时间，效率极其低下。而在字幕制作环节中，如果不进行断句，而是直接由人工进行听写，往往很难进行并行化，而人听写的速度会比机器自动断句速度慢，会增加大量的时间成本和人力成本。

发明内容

为了解决上述技术问题，本发明提供了一种高性能的音视频自动断句方法和系统。

本发明具体技术方案如下：

本发明一方面提供了一种高性能的音视频自动断句方法，包括如下步骤：

S1：从MNS消息队列中读取待处理的消息，MNS中的工作线程根据队列任务下载对应的媒体文件、并转换成wav格式文件；

S2：设置一个句间时长阈值t₀，从所述wav格式文件中随机选取多个非噪音采样点，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，即将在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳，相邻两个分句点之间即为一个独立的分句；

S3：制作与所述wav格式文件相配合的字幕，并按照所述时间戳对所述字幕进行断句并标记；根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配，完成字幕的配置。

进一步地3.，所述步骤S1中，所述MNS消息队列包括一个输入通道和至少两个输出通道，所述输出通道为任务消息的消费进程或消费线程，所述消费进程＝＝CPU的个数，所述消费线程＝＝CPU的个数。

进一步地，所述步骤S2的具体方法如下：

S2.1：设置一个振幅阈值为噪音阈值A₀，从所述wav格式文件中随机选取多个采样点，将振幅A＞A₀的所述采样点设为非噪音采样点；

S2.2：设置一个句间时长阈值t₀，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳；

S2.3：设置一个分句时长阈值T₀，根据所述分句点将所述wav格式文件分成多个分句，并计算每个分句的时长T；将T＜T₀的分句设为有效分句，将T≥T₀的分句返回步骤S2.1，重新进行分句。

进一步地，每个所述采样点包括多个帧且帧数相等，振幅A为所述采样点中所有有效帧的最大振幅，t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔，T为在前分句点的最末帧与在后分句点的第一帧之间的时长，所述时间戳为所述分句点的最末帧的时间点。

进一步地，所述步骤S2.1的具体方法如下：

S2.1.1：设置一个振幅阈值为噪音阈值A₀，从所述wav格式文件中随机选取多个采样点；

S2.1.2：从所述采样点中选择所有振幅超过仪器定量限的帧作为有效帧，并据此计算平均振幅A；

S2.1.3：选出平均振幅A＞A₀的所有采样点，设为非噪音采样点。

进一步地，步骤S2.3的具体方法如下：

S2.3.1：设置一个分句时长阈值T₀，根据所述分句点将所述wav格式文件分成多个分句，每个分句从在前分句点的最末帧开始、至在后分句点的第一帧结束；

S2.3.2：计算每个分句的时长T，并选出所有T＜T₀的分句，设为有效分句；

S2.3.3：将所有T≥T₀的分句返回步骤S2.1，提高噪音阈值A₀，重新进行分句。

进一步地，所述步骤S3中，所述字幕的每个分句的起始时间与对应的所述时间戳相同，结束时间与所述wav格式文件中对应的分句的最末帧的时间点相同。

本发明另一方面提供了一种高性能的音视频自动断句系统，包括如下部分：

消息队列管理模块，用于对MNS消息队列中的消息进行管理，并按顺序从所述MNS消息队列中读取待处理的消息；

格式转换模块，用于从所述下载对应的媒体文件、并转换成wav格式文件；

断句模块，用于设置一个句间时长阈值t₀，从所述wav格式文件中随机选取多个非噪音采样点，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，即将在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳，相邻两个分句点之间即为一个独立的分句；

字幕制作模块，用于制作与所述wav格式文件相配合的字幕，并按照所述时间戳对所述字幕进行断句并标记；

字幕匹配模块，根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配，完成字幕的配置。

进一步地，所述断句模块包括如下部分：

采样单元，用于设置一个振幅阈值为噪音阈值A₀，并从所述wav格式文件中随机选取多个采样点，将振幅A＞A₀的所述采样点设为非噪音采样点；

分句点筛选单元，用于设置一个句间时长阈值t₀，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳；

分句单元，用于设置一个分句时长阈值T₀，根据所述分句点将所述wav格式文件分成多个分句，并计算每个分句的时长T；将T＜T₀的分句设为有效分句，将T≥T₀的分句返回所述采样单元，提高噪音阈值A₀并重新进行分句。

进一步地，所述系统还包括如下部分：

错误信息回调模块，用于将断句过程中的错误信息回调至相应步骤进行重新处理，同时写入日志进行备份。

本发明的有益效果如下：本发明提供了一种高性能的音视频自动断句方法及相应的系统，通过MNS消息队列对待处理的信息进行统一管理，通过多线程的处理方式实现对大量任务的连续处理，从而提高了处理效率；从wav格式文件中选取非噪音采样点，可以有效排除噪音或背景音的影响，降低无意义断句的概率；根据语言习惯设置句间时长阈值t₀，当相邻非噪音采样点t＞t₀时，即认为该部分满足语句长度的最低要求，此时即可进行分句，不满足这一条件时即不进行分句；制作字幕时，为了调整时间轴、使语句和文字相匹配，以分句点的时间戳作为相应文字的起始时间，一一进行匹配，从而完成字幕的配置。通过上述方法进行自动断句，可以有效缩短断句时间、提高断句准确性，从而大大节省时间成本和人力成本。

附图说明

图1为实施例1所述的一种高性能的音视频自动断句方法的流程图；

图2为实施例2所述的一种高性能的音视频自动断句方法中步骤S2的流程图；

图3为实施例3所述的一种高性能的音视频自动断句方法中步骤S2.1的流程图；

图4为实施例4所述的一种高性能的音视频自动断句系统的结构示意图；

图5为实施例5所述的一种高性能的音视频自动断句系统的结构示意图。

具体实施方式

下面结合附图和以下实施例对本发明作进一步详细说明。

实施例1

如图1所示，本发明实施例1提供了一种高性能的音视频自动断句方法，包括如下步骤：

S2：设置一个句间时长阈值t₀，从wav格式文件中随机选取多个非噪音采样点，并对相邻非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，即将在先的非噪音采样点设为分句点，并记录分句点的时间戳，相邻两个分句点之间即为一个独立的分句；

S3：制作与wav格式文件相配合的字幕，并按照时间戳对字幕进行断句并标记；根据时间戳将经过断句的字幕与媒体文件进行匹配，完成字幕的配置。

本实施例提供了一种高性能的音视频自动断句方法，通过MNS消息队列对待处理的信息进行统一管理，通过多线程的处理方式实现对大量任务的连续处理，从而提高了处理效率；从wav格式文件中选取非噪音采样点，可以有效排除噪音或背景音的影响，降低无意义断句的概率；根据语言习惯设置句间时长阈值t₀，当相邻非噪音采样点t＞t₀时，即认为该部分满足语句长度的最低要求，此时即可进行分句，不满足这一条件时即不进行分句；制作字幕时，为了调整时间轴、使语句和文字相匹配，以分句点的时间戳作为相应文字的起始时间，一一进行匹配，从而完成字幕的配置。在实际操作过程中，每一步操作均需要通过回调接口通知外部系统并写入日志文件，从而保证信息不发生丢失，同时在出现错误时也可以及时得到反馈。

通过上述方法进行自动断句，可以有效缩短断句时间、提高断句准确性，从而大大节省时间成本和人力成本。

实施例2

实施例2在实施例1的基础上公开了一种高性能的音视频自动断句方法，该实施例2进一步限定了步骤S1中，MNS消息队列包括一个输入通道和至少两个输出通道，输出通道为任务消息的消费进程或消费线程，消费进程＝＝CPU的个数，消费线程＝＝CPU的个数。

消费进程或消费线程的个数均在启动前根据服务器CPU的个数进行自动化设置，一般默认为与CPU的个数相同，以保证多个消费进程或消费线程同时运行，不发生冲突、也不会出现闲置资源。

如图2所示，步骤S2的具体方法如下：

S2.1：设置一个振幅阈值为噪音阈值A₀，从wav格式文件中随机选取多个采样点，将振幅A＞A₀的采样点设为非噪音采样点；

判断采样点是否噪音的依据是声波振幅，振幅过小时无法与噪音进行明确区分，因此只有振幅A＞噪音阈值A₀时，才能认为其是不同于噪音的声音(即语音)，此时将相应的采样点设为非噪音采样点，只有非噪音采样点才能用来进行下一步的判断；

S2.2：设置一个句间时长阈值t₀，并对相邻非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，将相邻非噪音采样点中在先的非噪音采样点设为分句点，并记录分句点的时间戳；

筛选好非噪音采样点后，还需对其是否可以用来分句进行判断，此时的评判标准为句间时长，当相邻非噪音采样点时间间隔t过短时，不符合人类语言习惯，可以认为此时的两个非噪音采样点距离过近、不能用于分句；只有当t＞句间时长阈值t₀时，才能认为其是有效分句，相应的非噪音采样点才能认为是分句点；

S2.3：设置一个分句时长阈值T₀，根据分句点将wav格式文件分成多个分句，并计算每个分句的时长T；将T＜T₀的分句设为有效分句，将T≥T₀的分句返回步骤S2.1，重新进行分句；

初步确认分句点后，由于选择采样点时随机性较大，相邻采样点的距离可能较长，因此还需要进一步判断分句是否彻底，此时的评判标准为分句时长阈值T₀；当某个分句的时长T≥T₀时，说明该分句过长、实质上可能包含不止一个句子，此时需要将该分句返回步骤S2.1，重新采样、重新分句，直至新的分句时长小于T₀，此时的分句才能认为是有效分句。

步骤S3中，字幕的每个分句的起始时间与对应的时间戳相同，结束时间与wav格式文件中对应的分句的最末帧的时间点相同，该方式可以使每一句字幕都与其对应的语句出现的时间完全一致，从而提高使用者的阅读体验。

实施例3

实施例3在实施例1的基础上公开了一种高性能的音视频自动断句方法，该实施例3进一步限定了采样点为一段连续的帧，并且每个采样点的帧数相等，此时为了保证数据有效可靠，振幅A为采样点中所有有效帧的最大振幅，t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔，T为在前分句点的最末帧与在后分句点的第一帧之间的时长，时间戳为分句点的最末帧的时间点。

如图3所示，基于上述前提，步骤S2.1的具体方法如下：

S2.1.1：设置一个振幅阈值为噪音阈值A₀，从wav格式文件中随机选取多个采样点；

S2.1.2：从采样点中选择所有振幅超过仪器定量限的帧作为有效帧，并据此计算平均振幅A；

低于仪器定量限以下虽然能被检测到，但不能被准确定量，因此将这些帧淘汰、只保留振幅超过定量限的帧，以免平均振幅A产生误差；

步骤S2.3的具体方法如下：

S2.3.1：设置一个分句时长阈值T₀，根据分句点将wav格式文件分成多个分句，每个分句从在前分句点的最末帧开始、至在后分句点的第一帧结束；

上述分句方法可以避免分句内部的帧丢失、也可以防止外部不相干的帧混入，从而保证分句时长的准确性；

S2.3.3：将所有T≥T₀的分句返回步骤S2.1，提高噪音阈值A₀，重新进行分句；

对于未能彻底分句的过长的句子，可能是由于采样点选择不当导致，也可能是由于噪音影响所致，因此返回步骤S2.1时可以提高噪音阈值A₀、再重新进行采样和分句，以便降低噪音的影响。

实施例4

如图4所示，本发明实施例4提供了一种高性能的音视频自动断句系统，包括如下部分：

消息队列管理模块1，用于对MNS消息队列中的消息进行管理，并按顺序从MNS消息队列中读取待处理的消息；

格式转换模块2，用于从下载对应的媒体文件、并转换成wav格式文件；

断句模块3，用于设置一个句间时长阈值t₀，从wav格式文件中随机选取多个非噪音采样点，并对相邻非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，即将在先的非噪音采样点设为分句点，并记录分句点的时间戳，相邻两个分句点之间即为一个独立的分句；

字幕制作模块4，用于制作与wav格式文件相配合的字幕，并按照时间戳对字幕进行断句并标记；

字幕匹配模块5，根据时间戳将经过断句的字幕与媒体文件进行匹配，完成字幕的配置。

本实施例提供了一种高性能的音视频自动断句系统，消息队列管理模块1通过MNS消息队列对待处理的信息进行统一管理，通过多线程的处理方式实现对大量任务的连续处理，从而提高了处理效率；断句模块3根据格式转换模块2提供的wav格式文件选取非噪音采样点，并进行判断和分句；字幕制作模块4和字幕匹配模块5将字幕中的分句与音视频文件中的语句一一进行匹配，从而完成字幕的配置。

通过上述系统进行自动断句，可以有效缩短断句时间、提高断句准确性，从而大大节省时间成本和人力成本。

实施例5

如图5所示，实施例5在实施例4的基础上公开了一种高性能的音视频自动断句系统，该实施例5进一步限定了断句模块3包括如下部分：

采样单元31，用于设置一个振幅阈值为噪音阈值A₀，并从wav格式文件中随机选取多个采样点，将振幅A＞A₀的采样点设为非噪音采样点；

分句点筛选单元32，用于设置一个句间时长阈值t₀，并对相邻非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，将相邻非噪音采样点中在先的非噪音采样点设为分句点，并记录分句点的时间戳；

分句单元33，用于设置一个分句时长阈值T₀，根据分句点将wav格式文件分成多个分句，并计算每个分句的时长T；将T＜T₀的分句设为有效分句，将T≥T₀的分句返回采样单元31，提高噪音阈值A₀并重新进行分句。

系统还包括如下部分：

错误信息回调模块6，用于将断句过程中的错误信息回调至相应步骤进行重新处理，同时写入日志进行备份，从而保证信息不发生丢失，同时在出现错误时也可以及时得到反馈。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种高性能的音视频自动断句方法，其特征在于，包括如下步骤：

2.如权利要求1所述的高性能的音视频自动断句方法，其特征在于，所述步骤S1中，所述MNS消息队列包括一个输入通道和至少两个输出通道，所述输出通道为任务消息的消费进程或消费线程，所述消费进程＝＝CPU的个数，所述消费线程＝＝CPU的个数。

3.如权利要求1所述的高性能的音视频自动断句方法，其特征在于，所述步骤S2的具体方法如下：

4.如权利要求3所述的高性能的音视频自动断句方法，其特征在于，每个所述采样点包括多个帧且帧数相等，振幅A为所述采样点中所有有效帧的最大振幅，t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔，T为在前分句点的最末帧与在后分句点的第一帧之间的时长，所述时间戳为所述分句点的最末帧的时间点。

5.如权利要求4所述的高性能的音视频自动断句方法，其特征在于，所述步骤S2.1的具体方法如下：

6.如权利要求4所述的高性能的音视频自动断句方法，其特征在于，步骤S2.3的具体方法如下：

7.如权利要求1所述的高性能的音视频自动断句方法，其特征在于，所述步骤S3中，所述字幕的每个分句的起始时间与对应的所述时间戳相同，结束时间与所述wav格式文件中对应的分句的最末帧的时间点相同。

8.一种高性能的音视频自动断句系统，其特征在于，包括如下部分：

消息队列管理模块(1)，用于对MNS消息队列中的消息进行管理，并按顺序从所述MNS消息队列中读取待处理的消息；

格式转换模块(2)，用于从所述下载对应的媒体文件、并转换成wav格式文件；

断句模块(3)，用于设置一个句间时长阈值t₀，从所述wav格式文件中随机选取多个非噪音采样点，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，即将在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳，相邻两个分句点之间即为一个独立的分句；

字幕制作模块(4)，用于制作与所述wav格式文件相配合的字幕，并按照所述时间戳对所述字幕进行断句并标记；

字幕匹配模块(5)，根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配，完成字幕的配置。

9.如权利要求8所述的高性能的音视频自动断句系统，其特征在于，所述断句模块(3)包括如下部分：

采样单元(31)，用于设置一个振幅阈值为噪音阈值A₀，并从所述wav格式文件中随机选取多个采样点，将振幅A＞A₀的所述采样点设为非噪音采样点；

分句点筛选单元(32)，用于设置一个句间时长阈值t₀，并对相邻所述非噪音采样点之间的时间间隔t进行计算；当t＞t₀时，将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点，并记录所述分句点的时间戳；

分句单元(33)，用于设置一个分句时长阈值T₀，根据所述分句点将所述wav格式文件分成多个分句，并计算每个分句的时长T；将T＜T₀的分句设为有效分句，将T≥T₀的分句返回所述采样单元(31)，提高噪音阈值A₀并重新进行分句。

10.如权利要求8所述的高性能的音视频自动断句系统，其特征在于，所述系统还包括如下部分：

错误信息回调模块(6)，用于将断句过程中的错误信息回调至相应步骤进行重新处理，同时写入日志进行备份。