CN105721796A

CN105721796A - 一种视频字幕自动生成装置和方法

Info

Publication number: CN105721796A
Application number: CN201610169140.0A
Authority: CN
Inventors: 高万林; 张莉; 宋越; 于丽娜; 陶莎; 张港红
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-06-29

Abstract

本发明涉及视频处理技术领域，尤其涉及一种视频字幕自动生成装置和方法。该装置包括依次连接的视频获取机构、分流机构、文字转化机构、整合机构和显示屏，所述视频获取机构用于获取视频信息，所述分流机构包括图像流模块和音频流模块，所述图像流模块和音频流模块将视频信息分流为图像流和音频流；所述文字转化机构与所述音频流模块连接，用于将所述音频流转换为文字流；所述整合机构还连接所述图像流模块和音频流模块，用于将所述图像流、音频流和文字流进行同步整合；所述显示屏与所述整合机构连接，用于播放完成整合后的视频。实现字幕的自动生成，其生成字幕的效率更高，满足大规模视频文件字幕添加的要求。

Description

一种视频字幕自动生成装置和方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频字幕自动生成装置和方法。

背景技术

随着多媒体技术的广泛流行，视频文件的获取途径也越来越多，视频的内容也十分的广泛，大多数视频在播放的时候，伴随着字幕的提示，便于观看者更清楚的理解视频内容。

但是目前的字幕基本上都是通过字幕添加人员一边观看视频，一边进行手动输入，形成文字库，当播放视频时，根据播放的视频提取相应的文字，从而为视频文件添加字幕。但是当视频量增大时，人工手动添加字幕已经无法为大规模的视频文件提供高效的字幕文件。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是解决人工手动添加字幕费时费力且效率较低的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种视频字幕自动生成装置，包括依次连接的视频获取机构、分流机构、文字转化机构、整合机构和显示屏，所述视频获取机构用于获取视频信息，所述分流机构包括图像流模块和音频流模块，所述图像流模块和音频流模块将视频信息分流为图像流和音频流；所述文字转化机构与所述音频流模块连接，用于将所述音频流转换为文字流；所述整合机构还连接所述图像流模块和音频流模块，用于将所述图像流、音频流和文字流进行同步整合；所述显示屏与所述整合机构连接，用于播放完成整合后的视频。

优选地，所述文字转化机构包括依次连接的模数转换模块、语义分析模块和文字生成模块，所述模数转换模块与所述音频流模块连接，用于将所述音频流的模拟信号转换为数字信号，所述语义分析模块接收数字信号并进行计算，所述文字生成模块根据计算结果生成文字流。

优选地，所述整合机构包括流媒体编码模块，所述流媒体编码模块用于对所述图像流、音频流和文字流进行编码，并将编码后的信息传递给显示屏。

优选地，所述整合机构还包括帧同步模块，所述帧同步模块用于将所述图像流、音频流和文字流进行同步整合。

优选地，上述任一项所述的视频字幕自动生成装置还包括存储机构，所述存储机构与所述整合机构连接，用于将完成整合后的视频进行存储。

本发明还提供了一种视频字幕自动生成方法，包括步骤S1，获取所需添加字幕的视频信息；S2，将视频信息进行分流，分为图像流和音频流；S3，对音频流转换为文字流；S4，将图像流、音频流和文字流同步播放。

优选地，所述步骤S1中通过视频采集模块获取视频信息，或者是从视频存储单元中获取视频信息。

优选地，所述步骤S3还包括S31，将音频流的模拟信号转换为数字信号；S32，对数字信号进行分析计算；S33，根据计算结果生成文字流。

优选地，所述步骤S4还包括S41，对图像流、音频流和文字流进行编码和同步整合处理，并在显示屏上显示；S42，将整合后的图像流、音频流和文字流以视频文件的格式进行存储。

(三)有益效果

本发明的上述技术方案具有如下优点：本发明提供了一种视频字幕自动生成装置，该装置包括依次连接的视频获取机构、分流机构、文字转化机构、整合机构和显示屏，分流机构包括图像流模块和音频流模块，用于将视频获取机构获取的视频分为图像流和音频流，文字转化机构与音频流模块连接，将音频流转化为文字流，最后通过整合机构将图像流、音频流和文字流进行同步整合然后在显示屏上显示。该装置根据获取的视频的音频信息经过转化计算获得与之匹配的文字信息，并自动整合后在显示屏上显示。本发明还提供了一种视频字幕自动生成方法，首先获取视频信息，然后对视频信息进行分流，分为图像流和音频流，然后将音频流转换为文字流，最后将图像流、音频流和文字流同步播放，实现字幕的自动生成，其生成字幕的效率更高，满足大规模视频文件字幕添加的要求。

附图说明

图1是本发明实施例提供的视频字幕自动生成装置的结构示意图；

图2是本发明实施例提供的视频字幕自动生成方法的流程图。

图中：1：视频获取机构；2：分流机构；3：文字转化机构；4：整合机构；5：显示屏；6：存储机构；21：图像流模块；22：音频流模块；31：模数转换模块；32：语义分析模块；33：文字生成模块；41：流媒体编码模块；42：帧同步模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的机构或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明实施例提供的一种视频字幕自动生成装置，包括依次连接的视频获取机构1、分流机构2、文字转化机构3、整合机构4和显示屏5，视频获取机构1用于获取视频信息，视频获取机构1获取视频的方式主要有两种，一种是采用视频采集模块获取视频，另一种是从视频数据库内提取，也就是说获取的视频可以是正在拍摄的，也可以是已经拍摄好的视频文件，视频获取机构1获取视频信息后将该视频信息传递给分流机构2进行分流，分流机构2包括图像流模块21和音频流模块22，图像流模块21和音频流模块22将视频信息分流为图像流和音频流；文字转化机构3与音频流模块22连接，用于将音频流转换为文字流；整合机构4还连接图像流模块21和音频流模块22，用于将图像流、音频流和文字流进行同步整合；显示屏5与整合机构4连接，用于播放完成整合后的视频，整合完成的视频能够实现图像、声音和文字的同步播放，也就是说该装置根据获取的视频信息能够实现字幕的自动生成，并且实现字幕与图像、声音的同步播放，其解决了人工添加字幕效率低、质量差的问题，使得生成字幕的效率更高，满足大规模视频文件字幕添加的要求。

该装置中的文字转化机构3包括依次连接的模数转换模块31、语义分析模块32和文字生成模块33，模数转换模块31与音频流模块22连接，用于将音频流的模拟信号转换为数字信号，语义分析模块32接收数字信号并进行计算，该语义分析模块32通过机器学习的方式，对该语义分析模块32用大量的有字幕的特定专业视频进行训练，使得该语义分析模块32在使用时对特定的专业词语有较高的识别率，从而能够生成较高质量的特定专业视频字幕，文字生成模块33根据语义分析模块32的计算结果生成文字流。

进一步地，整合机构4包括流媒体编码模块41，流媒体编码模块41同时与图像流模块21、音频流模块22和文字生成模块33连接，用于对图像流、音频流和文字流进行编码，并将编码后的信息传递给显示屏5。整合机构4还包括帧同步模块42，帧同步模块42用于将图像流、音频流和文字流进行同步整合，避免出现画面和声音不匹配的问题。

另外，该视频字幕自动生成装置还包括存储机构6，存储机构6与整合机构4连接，用于将完成整合后的视频进行存储，存储机构6包括视频存储模块和数据管理模块，编码后的图像流、音频流和文字流以视频文件的格式保存在视频存储模块中，同时本次视频处理的相关数据结果保存至数据管理模块中，这样使用时最终可以及时观看和获取含有字幕的视频文件，并通过数据管理模块获取当前视频字幕处理过程中的相关信息。

如图2所示，本发明还提供了一种视频字幕自动生成方法，包括步骤S1，获取所需添加字幕的视频信息；S2，将视频信息进行分流，分为图像流和音频流；S3，对音频流转换为文字流；S4，将图像流、音频流和文字流同步播放。实现自动生成字幕的效果。

进一步地，步骤S1中通过视频采集模块获取视频信息，或者是从视频存储单元中获取视频信息。

进一步地，步骤S3还包括S31，将音频流的模拟信号转换为数字信号；S32，对数字信号进行分析计算；S33，根据计算结果生成文字流。

进一步地，步骤S4还包括S41，对图像流、音频流和文字流进行编码和同步整合处理，并在显示屏上显示；S42，将整合后的图像流、音频流和文字流以视频文件的格式进行存储，同时本次视频处理的相关数据结果保存至数据管理模块中。

使用时，在上述方法中，可以采用本发明提供的视频字幕自动生成的装置来实现，也可以采用其他装置来实现。

综上所述，本发明提供的字幕自动生成装置和方法，首先利用书品获取机构获取需要添加字幕的视频，并将该视频分流为图像流和音频流，对音频流进行分析计算，根据计算结果将音频流转换为相应的文字流，文字转化机构事先经过机器训练，对特定的专业词语有较高的识别率，从而能够生成较高质量的特定专业视频字幕，最后将图像流、音频流和文字流进行同步整合，避免出现画面和声音不一致的情况，将整合完成的视频在显示频上显示出来，实现了视频字幕的自动生成，其生成字幕的效率更高，满足大规模视频文件字幕添加的要求。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频字幕自动生成装置，其特征在于：包括依次连接的视频获取机构、分流机构、文字转化机构、整合机构和显示屏，所述视频获取机构用于获取视频信息，所述分流机构包括图像流模块和音频流模块，所述图像流模块和音频流模块将视频信息分流为图像流和音频流；所述文字转化机构与所述音频流模块连接，用于将所述音频流转换为文字流；所述整合机构还连接所述图像流模块和音频流模块，用于将所述图像流、音频流和文字流进行同步整合；所述显示屏与所述整合机构连接，用于播放完成整合后的视频。

2.根据权利要求1所述的视频字幕自动生成装置，其特征在于：所述文字转化机构包括依次连接的模数转换模块、语义分析模块和文字生成模块，所述模数转换模块与所述音频流模块连接，用于将所述音频流的模拟信号转换为数字信号，所述语义分析模块接收数字信号并进行计算，所述文字生成模块根据计算结果生成文字流。

3.根据权利要求2所述的视频字幕自动生成装置，其特征在于：所述整合机构包括流媒体编码模块，所述流媒体编码模块同时与所述图像流模块、音频流模块和文字生成模块连接，用于对所述图像流、音频流和文字流进行编码，并将编码后的信息传递给显示屏。

4.根据权利要求3所述的视频字幕自动生成装置，其特征在于：所述整合机构还包括帧同步模块，所述帧同步模块用于将所述图像流、音频流和文字流进行同步整合。

5.根据权利要求1-4任一项所述的视频字幕自动生成装置，其特征在于：还包括存储机构，所述存储机构与所述整合机构连接，用于将完成整合后的视频进行存储。

6.一种视频字幕自动生成方法，其特征在于：包括步骤

S1，获取所需添加字幕的视频信息；

S2，将视频信息进行分流，分为图像流和音频流；

S3，对音频流转换为文字流；

S4，将图像流、音频流和文字流同步播放。

7.根据权利要求6所述的视频字幕自动生成方法，其特征在于：所述步骤S1中通过视频采集模块获取视频信息，或者是从视频存储单元中获取视频信息。

8.根据权利要求6所述的视频字幕自动生成方法，其特征在于：所述步骤S3还包括

S31，将音频流的模拟信号转换为数字信号；

S32，对数字信号进行分析计算；

S33，根据计算结果生成文字流。

9.根据权利要求6所述的视频字幕自动生成方法，其特征在于：所述步骤S4还包括

S41，对图像流、音频流和文字流进行编码和同步整合处理，并在显示屏上显示；

S42，将整合后的图像流、音频流和文字流以视频文件的格式进行存储。