CN106792145A

CN106792145A - 一种音视频自动叠加字幕的方法和装置

Info

Publication number: CN106792145A
Application number: CN201710095914.4A
Authority: CN
Inventors: 应鸣; 孙伟涛; 吴奕刚
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2017-05-31

Abstract

本发明涉及一种音视频自动叠加字幕的方法和装置，包括：从音视频文件中提取音频数据；自动识别音频信息并生成字幕文件；对音视频文件进行延时处理；将音视频文件与字幕文件合成带字幕的音视频文件。本发明通过采用独立装置将音视频文件中的音频信息分离提取出来，进而采用独立装置将该音频数据自动识别并生成对应的字幕信息，最后通过合成装置将该字幕信息与原音视频文件严格时间同步并叠加起来形成带字幕信息的音视频文件，改变了传统的人工制作字幕的字幕添加方式，有效节省了时间、提高效率，同时，采用硬件设备精准同步和大大提高了字幕与音视频画面的同步效果，提高了观赏体验。

Description

一种音视频自动叠加字幕的方法和装置

技术领域

本发明涉及一种音视频自动叠加字幕的方法和装置，尤其涉及一种视频图像处理和音视频处理技术领域的音视频自动叠加字幕的方法和装置。

背景技术

随着社会的发展和地域文化的快速相互渗透，音视频数据信息作为一种直观的信息传递模式一直扮演者重要的媒介角色。字幕的出现就是为了解决地域文化和语言差异而引入的，给音视频信息同步加上字幕信息，不仅可以有效帮助听力功能衰弱、障碍的人群很好的把握、理解音视频想要传递的信息，还能消除因为读音相同而意义完全不同的同音字引起的歧义，在文化交流快速国际化的今天，字幕还能起到同步翻译，消除语言引起的观看、理解音视频信息障碍的作用。

传统的字幕添加方法是，有速录人员通过观看音视频文件，同时快速记录在每个时刻听到的声音信息，用文字的方式记录下来并做好时间戳备注，最后又通过人工校对的方式将字幕添加到音视频数据的特定时间戳位置上完成字幕添加。该方式不仅对速录人员提出很高的要求，而且还经常需要反复观看记录才能完善记录内容，在添加字幕时往往会因时间轴上存在的误差需要做大量精细调整，消耗大量人力资源且效率不高。

发明内容

针对现有音视频文件添加字幕信息技术中存在的不足，本发明一种音视频自动叠加字幕的方法和装置，提出一种通过采用硬件模块自动采集音视频数据中的音频数据，并将该数据信息进行数据格式转换，进而采用字幕生成模块对转换后的数据进行特征提取并对比音频文字数据库，匹配出最接近的文字信息从而形成字幕，又采用延时模块对音视频数据进行自动延时，最后利用字幕叠加模块对音视频数据和字幕数据进行时间轴自动精确同步操作后，将字幕信息叠加到音视频数据形成带有字幕信息的音视频数据文件。硬件模块自动完成识别和字幕生成工作，有效去除了人工速录方式的低效和高要求的缺点，同时采用硬件模块自动实现字幕和音视频数据的时间轴同步，不仅省去了传统人工的反复时间轴校正和修订的繁琐工作，还有效提高了同步进度和字幕添加质量，大大改进了字幕添加工作的效率，提高了字幕添加质量。

本发明解决其技术问题所采用的技术方案包括以下步骤：

提取音频数据步骤，通过音视频数据分离技术，将音频数据从音视频数据中分离并提取出来。

优选的，所述分离技术包括：对输入的音视频数据进行解封装、解码，剥离出音频数据信息。

优选的，所述分离并提取是指将所述剥离出的音频数据信息统一转换成PCM数据。

生成字幕步骤，对音频数据进行分析匹配，计算出对应的文字信息，并将文字信息形成字幕数据。

优选的，所述分析匹配包括：对PCM数据在时域和频域提取特征，并将该特征与文字模型数据库中的素材进行比对，找出匹配度最高的模型记录。

优选的，所述字幕数据是指带有时间标签的字幕文本。

音视频延时步骤，对音视频文件进行特定的延时操作。

优选的，所述特定延时是指字幕生成所产生的统计最大延时时间，利用该延时值对音视频数据整体进行延时处理。

叠加字幕步骤，将生成的字幕数据叠加到延时后的音视频数据上形成带有字幕信息的音视频文件。

优选的，所述步骤包括：对数据的字幕数据和音视频数据进行时间轴的精准同步，将同步后的字幕数据和音视频数据叠加起来形成带字幕信息的音视频数据。

本发明解决其技术问题所采用的技术方案包括以下模块：

音频分离模块，用于从音视频数据中分离出音频数据信息，并生成后续处理模块接受的数据格式。

优选的，所述分离指对输入音视频数据进行解封装、解码操作，从而提取出音频信息。

优选的，所述数据格式为PCM格式。

提取音频生成字幕模块，用于对特定格式的音频信息进行特征提取，并根据提取的信息生成字幕。

优选的，所述特征提取指对所述格式数据进行时域和频域的特征提取过程。

优选的，所述生成字幕包括：将所述特征与字幕模型库进行比较找出匹配度最高的文字信息，并生成带有时间信息字幕数据。

音视频延时模块，用于对音视频数据进行特定时间的延迟处理。

优选的，所述特定时间指所述生成字幕产生的最大延时。

对音视频叠加字幕模块，用于将生成字幕数据叠加到音视频数据形成带有字幕信息的音视频数据。

优选的，所述叠加过程必须在对字幕数据和音视频数据进行时间轴同步确认后才能进行。

采用上述技术方案，本发明具有以下优点：

本发明涉及一种音视频自动叠加字幕的方法和装置，提出一种通过采用硬件模块自动采集音视频数据中的音频数据，并将该数据信息进行数据格式转换，进而采用字幕生成模块对转换后的数据进行特征提取并对比音频文字数据库，匹配出最接近的文字信息从而形成字幕，又采用延时模块对音视频数据进行自动延时，最后利用字幕叠加模块对音视频数据和字幕数据进行时间轴自动精确同步操作后，将字幕信息叠加到音视频数据形成带有字幕信息的音视频数据文件。硬件模块自动完成识别和字幕生成工作，有效去除了人工速录方式的低效和高要求的缺点，同时采用硬件模块自动实现字幕和音视频数据的时间轴同步，不仅省去了传统人工的反复时间轴校正和修订的繁琐工作，还有效提高了同步进度和字幕添加质量，大大改进了字幕添加工作的效率，提高了字幕添加质量。

附图说明

图1为本发明较佳实施方式的一种音视频自动叠加字幕的方法和装置的步骤示意图。

图2为本发明较佳实施方式的一种音视频自动叠加字幕的方法和装置的系统模块图。

图3为本发明较佳实施方式的一种音视频自动叠加字幕的方法和装置的详细流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一个实施例，而不是全部实施例。基于本发明中的实施例，本领域的一般技术人员在没有做出创造性劳动的前提下所获得的其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种音视频自动叠加字幕的方法，参见图1所示，该方法包括一下步骤：

步骤S1：从音视频文件中提取音频数据。

步骤S2：自动识别音频信息并生成字幕文件。

步骤S3：对音视频文件进行延时处理。

步骤S4：将音视频文件与字幕文件合成带字幕的音视频文件。

本发明实施例公开了一种音视频自动叠加字幕的装置，参见图2所示，该装置包括一下模块：

模块M1：音频分离模块，用于从音视频数据中分离提取出音频数据信息并转换成特定数据格式供字幕生成工作使用。

模块M2：提取音频生成字幕模块，用于对特定格式的音频数据进行特征提取、比对，从而从音频文字数据库中查找出最匹配的文字信息生成字幕信息。

模块M3：音频延时模块，用于对音视频数据进行特定时间长度的延时操作。

模块M4：对音频叠加字幕模块，用于对字幕信息和音视频数据信息进行时间轴精准同步，并将同步后的字幕叠加到音视频数据信息上形成带有字幕信息的音视频数据文件。

本发明实施例中，通过采用硬件模块自动采集音视频数据中的音频数据，并将该数据信息进行数据格式转换，进而采用字幕生成模块对转换后的数据进行特征提取并对比音频文字数据库，匹配出最接近的文字信息从而形成字幕，又采用延时模块对音视频数据进行自动延时，最后利用字幕叠加模块对音视频数据和字幕数据进行时间轴自动精确同步操作后，将字幕信息叠加到音视频数据形成带有字幕信息的音视频数据文件。

可见，本发明实施例中，通过硬件模块自动完成识别和字幕生成工作，有效去除了人工速录方式的低效和高要求的缺点，同时采用硬件模块自动实现字幕和音视频数据的时间轴同步，不仅省去了传统人工的反复时间轴校正和修订的繁琐工作，还有效提高了同步进度和字幕添加质量，大大改进了字幕添加工作的效率，提高了字幕添加质量。

本发明实施例公开了一种音视频自动叠加字幕的方法和装置，参见图2，相对上两个实施例，本实施例对技术方案作了进一步的说明和优化。具体的，本实施例中一种音视频自动叠加字幕的方法和装置包含以下步骤：

S1：提取音频数据步骤,通过音视频数据分离技术，将音频数据从音视频数据中分离并提取出来。

优选的，通过步骤S0向所述模块M1、M3逐帧输入音视频数据，所述模块M1接收到数据后执行步骤S11：从音视频文件中提取音频数据。

优选的，通过执行步骤S11，对音视频数据文件进行解封装、解码，得到音频数据，然后将所述数据输入步骤S12：保存音频数据。

优选的，通过执行步骤S12，将各种格式的音频数据转换成PCM数据，然后将所述数据输入所述模块M2。

S2：生成字幕步骤，对音频数据进行分析匹配，计算出对应的文字信息，并将文字信息形成字幕数据。

优选的，所述模块M2接收到模块M1处理得出的数据后执行步骤S21：提取音频数据特征。

优选的，通过执行步骤S21，实现对音频数据的时域和频域的特征提取，并将所述特征输入步骤S22：数据库匹配查找。

优选的，通过执行步骤S22，将所述特征与语音文字数据库的特征记录进行比对，找出匹配度最高的文字信息，并将该信息输送给步骤S23：生成字幕文件。

优选的，通过执行步骤S23，对查找到的匹配文字信息添加时间戳内容后生成字幕信息，并将该字幕信息传递给模块M4。

S3：音视频延时步骤，对音视频文件进行特定的延时操作。

优选的，通过执行步骤S3，模块M3对步骤S0输入的音视频数据信息进行一定时间的延时处理，并将处理结果输入模块M4。

优选的，所述一定时间的延时指所述步骤S2执行过程中产生的延时时间的最大值。

S4：叠加字幕步骤，将生成的字幕数据叠加到延时后的音视频数据上形成带有字幕信息的音视频文件。

优选的，模块M4接收到模块M2、M3输入的数据信息后，执行步骤S41：匹配同步字幕与音视频。

优选的，通过执行步骤S41，对模块M2输入的字幕信息和模块M3输入的音视频数据信息进行精准的时间轴同步操作，并将同步后的数据输给步骤S42：对音视频叠加字幕。

优选的，通过执行步骤S42，实现将字幕信息叠加到音视频数据上，最终生成所需的带字幕信息的音视频数据文件。

综上所述，通过步骤S0向模块M1、M3输入音视频数据信息，然后针对模块M1，通过执行步骤S11，实现对输入音视频数据的解封装、解码操作提取出音频数据信息，对操作结果执行步骤S12，实现对音频数据信息的数据格式转换，生成PCM数据文件，对该数据文件执行步骤S21，实现对PCM数据文件的时域和频域的特征提取，对将提取的特征值执行步骤S22，实现对所述特征的语音文字数据库查找匹配，对获得的最佳匹配结果执行步骤S23，实现对匹配出的文字信息添加时间戳信息，进而生成字幕文件并传递给模块M4，而模块M3在接收到S0输入的音视频数据信息后，对所述数据信息执行步骤S3，实现对所述音视频数据信息进行一定时间的延时操作，所述时间为步骤S2执行产生的最大延时值，将经过S3处理后的数据输入模块M4，M4在接收到M2、M3输入的数据信息后，通过执行步骤S41，实现对M2输入的字幕信息和M3输入的音视频数据信息进行时间轴上的精准同步操作，对执行同步操作后的结果执行步骤S42，实现将字幕信息叠加到音视频数据信息上生成带字幕信息的音视频数据文件。通过采用硬件模块自动采集音视频数据中的音频数据，并将该数据信息进行数据格式转换，进而采用字幕生成模块对转换后的数据进行特征提取并对比音频文字数据库，匹配出最接近的文字信息从而形成字幕，又采用延时模块对音视频数据进行自动延时，最后利用字幕叠加模块对音视频数据和字幕数据进行时间轴自动精确同步操作后，将字幕信息叠加到音视频数据形成带有字幕信息的音视频数据文件。

以上所述仅为举例性，而非为限制性。本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种音视频自动叠加字幕的方法，其特征在于，该方法包含以下

步骤：

提取音频数据步骤，通过音视频数据分离技术，将音频数据从音视频数据中分离并提取出来；

生成字幕步骤，对音频数据进行分析匹配，计算出对应的文字信息，并将文字信息形成字幕数据；

音视频延时步骤，对音视频文件进行特定的延时操作；

2.如权利要求1所述的一种音视频自动叠加字幕的方法，其特征在

于，所述提取音频数据步骤中，所述分离技术包括：对输入的音视频数据进行解封装、解码，剥离出音频数据信息。

3.如权利要求1、2所述的一种音视频自动叠加字幕的方法，其特征

在于，所述提取音频数据步骤中，所述分离并提取是指将所述剥离出的音频数据信息统一转换成PCM数据。

4.如权利要求1所述的一种音视频自动叠加字幕的方法，其特征在

于，所述生成字幕步骤中，所述分析匹配包括：对PCM数据在时域和频域提取特征，并将该特征与文字模型数据库中的素材进行比对，找出匹配度最高的模型记录。

5.如权利要求一种音视频自动叠加字幕的方法，其特征在于，所述

生成字幕步骤中，所述字幕数据是指带有时间标签的字幕文本。

6.如权利要求一种音视频自动叠加字幕的方法，其特征在于，所述

音频延时步骤中，所述特定延时是指字幕生成所产生的统计最大延时时间，利用该延时值对音视频数据整体进行延时处理。

7.如权利要求一种音视频自动叠加字幕的方法，其特征在于，所述

叠加字幕步骤，包括：对数据的字幕数据和音视频数据进行时间轴的精准同步，将同步后的字幕数据和音视频数据叠加起来形成带字幕信息的音视频数据。

8.一种音视频自动叠加字幕的装置，其特征在于，该装置包含以下

模块：

音频分离模块，用于从音视频数据中分离出音频数据信息，并生成后续处理模块接受的数据格式；

提取音频生成字幕模块，用于对特定格式的音频信息进行特征提取，并根据提取的信息生成字幕；

音视频延时模块，用于对音视频数据进行特定时间的延迟处理；

9.如权利要求8所述的一种音视频自动叠加字幕的装置，其特征在

于，所述音频分离模块中，所述数据格式为PCM格式；所述提取音频生成字幕模块中，所述特征提取包括时域和频域的特征提取，所述生成字幕包括：将所述特征与字幕模型库进行比较找出匹配度最高的文字信息，并生成带有时间信息字幕数据。

10.如权利要求8所述的一种音视频自动叠加字幕的装置，其特征在

于，所述音频延时模块中，所述特定时间是指所述生成字幕产生的最大延时；所述对音视频叠加字幕模块，所述叠加必须在对字幕数据和音视频数据进行时间轴同步确认后才能进行。