CN103559214B

CN103559214B - 视频自动生成方法及装置

Info

Publication number: CN103559214B
Application number: CN201310473974.7A
Authority: CN
Inventors: 杨颖�; 高万林
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2017-02-08
Anticipated expiration: 2033-10-11
Also published as: CN103559214A

Abstract

本发明公开了一种视频自动生成方法及装置，涉及多媒体技术领域，所述方法包括：S1：获取解说词文档和解说词语音文件；S2：对所述解说词文档进行分行处理，以获得行文本字幕；S3：采用自动语音识别技术对所述解说词语音文件进行识别，得到识别结果；S4：将所述行文本字幕与所述识别结果进行对齐，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；S5：将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成，以生成视频。本发明通过对解说词文档和解说词语音文件分别进行处理，并将处理后的结果进行合成，以生成视频，减少了视频制作的工作量，并提高了视频的制作效率。

Description

视频自动生成方法及装置

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频自动生成方法及装置。

背景技术

目前，我国农村医疗条件和设施薄弱，医疗卫生建设步伐相对滞后，且由于经济相对落后，科学文化水平较低，农村居民普遍缺乏医疗卫生与营养健康意识，不利于群众的营养健康保健和疾病的防御防范，尤其是妇女、儿童及老人等弱势群体缺乏基本的营养知识及健康保健技术，其营养健康水平严重落后于发达地区。

故而需要经常制作教学类或宣传类视频（例如：营养健康及常见疾病防治题材的多媒体视频）等类似视频，这类视频的编辑制作过程中，需要为每帧画面准备相应的内容素材，所述素材包括：显示字幕和画面背景语言，有的视频为了更加吸引人，还在所述素材中增加背景图片或背景视频。通常情况下，由专家撰写每个题材的内容介绍，即解说词文档，再由专门的播音人员朗读该解说词文档获得该文档对应的解说词语音文件，得到解说词文档和解说词语音文件后，仅是制作视频的开始，为了最终编辑还需要将解说词文档分成每帧画面的字幕，并且由专门人员对每帧画面的字幕标注与解说词语音文件对应的时间位置，通常，语音中每个字的朗读时间都在秒级以内，对于一篇2000字左右的解说词文档就有上百行字幕及半个小时左右的解说词语音文件，想要较好的标注效果，则需要由该专门人员反复听解说词语音文件，才能在语音文件中找每行字幕首尾的精确时间位置，其耗费的工作量很大，并且视频的制作效率非常低。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是：如何减少视频制作的工作量，并提高视频的制作效率。

（二）技术方案

为解决上述技术问题，本发明提供了一种视频自动生成方法，所述方法包括以下步骤：

S1：获取解说词文档和解说词语音文件；

S2：对所述解说词文档进行分行处理，以获得行文本字幕；

S3：采用自动语音识别技术对所述解说词语音文件进行识别，得到识别结果；

S4：将所述行文本字幕与所述识别结果进行对齐，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；

S5：将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成，以生成视频。

其中，步骤S2中，对所述解说词文档进行分行处理包括：

S201：按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群，并去掉所有标点符号；

S202：对每行意群进行字数统计；

S203：判断每行意群的字数是否超过第一预设字数，若是，则将当前意群从其首字至尾字的方向每达到第二预设字数的截断位置进行自动截断换行，以形成行文本字幕，所述第一预设字数大于所述第二预设字数。

其中，步骤S202还包括：

通过全监督式分词模型对每行意群均进行分词处理，以获得任意相邻两个词语的分割位置；

步骤S203中，将当前意群从其首字至尾字的方向每达到第二预设字数的位置进行自动截断换行包括：

S2031：获得当前意群从其首字至尾字方向每达到第二预设字数的截断位置；

S2032：判断所述截断位置是否为分割位置，若是，则直接进行自动截断换行，否则选择距所述截断位置最近一个分割位置进行自动截断换行。

其中，步骤S3包括：

S301：提取所述解说词语音文件的39维Mel频率倒谱系数音频特征；

S302：依照所述解说词文档生成以字为单位的字典及语言模型，并随机选择隐马尔可夫模型工具中的一个声学模型；

S303：通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练；

S304：通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别，以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息。

其中，步骤S4包括：

S401：将每个行文本字幕均转换成文字音节序列C，将所述识别结果文本转换为文字音节序列T，所述文字音节序列C和文字音节序列T的最小单元为音节，所述音节为字的拼音；

S402：通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间。

其中，步骤S402包括：

S4021：将文字音节序列T在横轴标出，将所述文字音节序列C在纵轴标出；

S4022：搜索路径时采用3个搜索方向，所述3个搜索方向分别对应斜率为0.5、1或2的直线；

S4023：将路径代价最小时的路径作为最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间，所述路径代价的计算公式为：

Cost(c_i,t_j)=D(c_i,t_j)+min{Cost(c_i-2,t_j-1),Cost(c_i-1,t_j-1),Cost(c_i-1,t_j-2)}

其中，Cost(c₁,t₁)=D(c₁,t₁)，D(c_i,t_j)为音节c_i和t_j之间的欧式距离，表示两个音节的相似度，相似度越大，D(c_i,t_j)越小；设所述文字音节序列C的音节个数为M个，C={c₁,c₂,…c_m,…,c_M}，c_i为文字音节序列C中第i个音节，1≤i≤M；设所述文字音节序列T的音节个数为N个，T={t₁,t₂,…,t_n,…,t_N}，t_j为文字音节序列T中第j个音节，1≤j≤N。

其中，步骤S4023之后还包括：

S4024：若所述最优路径无法找出，则选择隐马尔可夫模型工具中未被选择过的一个声学模型，并返回步骤S303，直至找出所述最优路径后，再执行步骤S5。

其中，步骤S5之前还包括：

S501：获取每个行文本字幕对应的背景画面内容；

步骤S5包括：

将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成，以生成视频。

其中，步骤S501包括：

S5011：通过全监督式分词模型对所述解说词文档进行分词处理，以获得所述解说词文档中的词语；

S5012：通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注，以获得所述解说词文档中的所有名词；

S5013：对所述解说词文档中的名词进行词频统计，并选择词频从大到小的前N个名词作为关键词，所述N为不小于1的整数；

S5014：在网络上抓取与每个关键词对应视频和/或图片，并将抓取的视频和/或图片保存至本地；

S5015：判断当前行文本字幕是否具有关键词，若有，则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容，否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容，直至每个行文字字幕均进行了判断。

本发明还公开了一种视频自动生成装置，所述装置包括：

获取模块，用于获取解说词文档和解说词语音文件；

分行处理模块，用于对所述解说词文档进行分行处理，以获得行文本字幕；

语音识别模块，用于采用自动语音识别技术对所述解说词语音文件进行识别，得到识别结果；

对齐模块，用于将所述行文本字幕与所述识别结果进行对齐，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；

合成模块，用于将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成，以生成视频。

（三）有益效果

本发明通过对解说词文档和解说词语音文件分别进行处理，并将处理后的结果进行合成，以生成视频，减少了视频制作的工作量，并提高了视频的制作效率。

附图说明

图1是本发明一种实施方式的视频自动生成方法的流程图；

图2是最优路径的搜索结果示意图；

图3是本发明一种实施例的视频自动生成方法的流程图；

图4是本发明一种实施方式的视频自动生成装置的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是本发明一种实施方式的视频自动生成方法的流程图；参照图1，所述方法包括以下步骤：

S1：获取解说词文档和解说词语音文件；

S2：对所述解说词文档进行分行处理，以获得行文本字幕；

本实施方式通过对解说词文档和解说词语音文件分别进行处理，并将处理后的结果进行合成，以生成视频，减少了视频制作的工作量，并提高了视频的制作效率。

为保证分行的效果和速度，优选地，步骤S2中，对所述解说词文档进行分行处理包括：

S201：按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群（所述意群即每个句子中，相邻的逗号和逗号之间、或相邻的逗号和句号之间的文字内容），并去掉所有标点符号；

S202：对每行意群进行字数统计；

S203：判断每行意群的字数是否超过第一预设字数，若是，则将当前意群从其首字至尾字的方向每达到第二预设字数的截断位置进行自动截断换行，以形成行文本字幕，所述第一预设字数大于所述第二预设字数，本实施方式中，第一预设字数为20字，第二预设字数为17字，但并不限定其保护范围，第一预设字数还可选择为19字、18字等，第二预设字数还可选择为16字、15字等。

为保证在分行处理时，不把一个完整的词语分到两行，优选地，步骤S202还包括：

通过全监督式分词模型（CRF模型）对每行意群均进行分词处理，以获得任意相邻两个词语的分割位置；

优选地，步骤S3包括：

S301：提取所述解说词语音文件的39维Mel频率倒谱系数（MFCC）音频特征；

S302：依照所述解说词文档生成以字为单位的字典及语言模型，并随机选择隐马尔可夫模型工具中的一个声学模型，本实施方式中，所述语言模型为三元（Trigram）语言模型，但不限定本发明的保护范围，所述语言模型还可选择二元语言模型等，但处理效果会差于选择所述三元语言模型；

S304：通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型（HTK）工具对所述解说词语音文件进行识别，以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息。

为实现每个行文本字幕对应的音频起止点时间的自动标注，优选地，步骤S4包括：

其中，搜索所述最优路径是为了对齐每个行文本字幕与对应的识别结果文本，从而实现对每个行文本字幕在所述解说词语音文件中的音频起止点时间的自动标注，该对其过程为一个递归搜索过程，其核心是通过基于动态时间归整DTW的文本匹配算法找到识别结果文本中的可信任的对齐区域（称作“锚点”），利用锚点将识别结果文本分为已对齐部分及未对齐部分，然后对于未对齐部分重复上述递归过程。

为保证搜索效果，优选地，步骤S402包括：

S4022：为防止盲目搜索，故而不允许有横轴或者纵轴过分倾斜的路径，搜索路径时采用3个搜索方向，所述3个搜索方向分别对应斜率为0.5、1和2，搜索到的最优路径如图2所示；

其中，Cost(c₁,t₁)=D(c₁,t₁)，D(c_i,t_j)为音节c_i和t_j之间的欧式距离，表示两个音节的相似度，相似度越大，D(c_i,t_j)越小；设所述文字音节序列C的音节个数为M个，C={c₁,c₂,…,c_M}，c_i为文字音节序列C中的第i个音节，1≤i≤M；设所述文字音节序列T的音节个数为N个，T={t₁,t₂,…,t_N}，t_j为文字音节序列T中的第j个音节，1≤j≤N。

为避免防止之前所选择的声学模型不合适，而导致的最优路径无法找出，优选地，步骤S4023之后还包括：

为实现在视频中增加背景画面内容，优选地，步骤S5之前还包括：

S501：获取每个行文本字幕对应的背景画面内容；

步骤S5包括：

步骤S501中获取背景画面内容可以采用默认的背景画面内容，如通过拍摄并剪辑视频、flash制作动画、photoshop制作图片等方式制作背景画面，但为了提高背景画面内容与解说词文档之间的契合度，同时丰富背景画面内容，本实施方式中采用自动搜索技术获取背景画面内容，首先利用目前比较成熟的自然语言处理技术进行解说词文档中的关键词提取，然后依据提取的关键词自动搜索互联网及本地机获取相关的图片和视频，优选地，步骤S501包括：

S5013：对所述解说词文档中的名词进行词频统计，并选择词频从大到小的前X个名词作为关键词，所述X为不小于1的整数，本实施方式中，X为20，但并不限定本发明的保护范围；

S5014：在网络上抓取与每个关键词对应视频和/或图片，并将抓取的视频和/或图片保存至本地；本实施方式中，在网络上抓取与每个关键词对应视频和/或图片时，采用元搜索技术在网络上搜索与每个关键词相匹配的图片和/或视频，分别调用google、搜狗及百度等搜索引擎，抓取相关的图片和/或视频，如果图像的分辨率低于预设分辨率、视频长度超过预设视频长度，则将其舍弃，并将其余的图片和/或视频经过过滤、整合后存储到以该关键词命名的本地存储目录下。

S5015：判断当前行文本字幕是否具有关键词，若有，则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容，否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容，直至每个行文字字幕均进行了判断；本实施例中，针对各个行文本字幕，其相关的背景画面内容选取目录应为该行文本字幕中包含的关键词对应的存储目录。

为保证当前行文本字幕的播放时间和与之对应的背景画面内容的播放时间一致，步骤S5015中，将视频作为当前行文本字幕对应的背景画面内容时，若所述视频的播放时间比所述行文本字幕的播放时间长，则将所述视频从其起始时间截取预设时间的视频，所述预设时间不大于所述文本字幕的播放时间，所述文本字幕的播放时间为音频起止点时间之差。

为便于对背景画面内容的播放时间进行人为调整，还可接受操作人员的编辑操作指令，对所述背景画面内容进行调整。

实施例

下面以一个具体的实施例来说明本发明，但不限定本发明的保护范围。参照图3，本实施例的方法包括以下步骤：

步骤101：获取解说词文档和解说词语音文件；

步骤102：按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群，并去掉所有标点符号；

步骤103：对每行意群进行字数统计，通过全监督式分词模型对每行意群均进行分词处理，以获得任意相邻两个词语的分割位置；

步骤104：判断每行意群的字数是否超过20字，若是，则获得当前意群从其首字至尾字方向每达到17字的截断位置；

步骤105：判断所述截断位置是否为分割位置，若是，则直接进行自动截断换行，否则选择距所述截断位置最近一个分割位置进行自动截断换行，以形成行文本字幕；

步骤106：提取所述解说词语音文件的39维MFCC音频特征；

步骤107：依照所述解说词文档生成以字为单位的字典及语言模型，并随机选择HTK工具中的一个声学模型；

步骤108：通过所述39维MFCC音频特征对所述声学模型进行训练；

步骤109：通过所述字典、语言模型及训练后的声学模型采用所述HTK工具对所述解说词语音文件进行识别，以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息；

步骤110：将每个行文本字幕均转换成文字音节序列C，将所述识别结果文本转换为文字音节序列T；

步骤111：将文字音节序列T在横轴标出，将所述文字音节序列C在纵轴标出；

步骤112：搜索路径时采用3个搜索方向，所述3个搜索方向分别对应斜率为0.5、1和2；

步骤113：将路径代价最小时的路径作为最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；

步骤114：若所述最优路径无法找出，则选择HTK工具中未被选择过的一个声学模型，并返回步骤108，直至找出所述最优路径后，再执行步骤119；

步骤115：通过全监督式分词模型对所述解说词文档进行分词处理，以获得所述解说词文档中的词语；

步骤116：通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注，以获得所述解说词文档中的所有名词；

步骤117：对所述解说词文档中的名词进行词频统计，并选择词频从大到小的前20个名词作为关键词；

步骤118：在网络上抓取与每个关键词对应视频和/或图片，并将抓取的视频和/或图片保存至本地；

步骤119：判断当前行文本字幕是否具有关键词，若有，则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容，否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容，直至每个行文字字幕均进行了判断；

步骤120：接受操作人员的编辑操作指令，对所述背景画面内容进行调整。

步骤121：将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成，以生成视频。

本发明还公开了一种视频自动生成装置，参照图4，所述装置包括：

获取模块，用于获取解说词文档和解说词语音文件；

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种视频自动生成方法，其特征在于，所述方法包括以下步骤：

S1：获取解说词文档和解说词语音文件；

S2：对所述解说词文档进行分行处理，以获得行文本字幕；

S5：将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成，以生成视频；

步骤S3包括：

S304：通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别，以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息；

所述步骤S4包括：

S402：通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；

所述步骤S402包括：

Cost(c_i,t_j)＝D(c_i,t_j)+min{Cost(c_i-2,t_j-1),Cost(c_i-1,t_j-1),Cost(c_i-1,t_j-2)}

其中，Cost(c₁,t₁)＝D(c₁,t₁)，D(c_i,t_j)为音节c_i和t_j之间的欧式距离，表示两个音节的相似度，相似度越大，D(c_i,t_j)越小；设所述文字音节序列C的音节个数为M个，C＝{c₁,c₂,…c_m,…,c_M}，c_i为文字音节序列C中第i个音节，1≤i≤M；设所述文字音节序列T的音节个数为N个，T＝{t₁,t₂,…,t_n,…,t_N}，t_j为文字音节序列T中第j个音节，1≤j≤N。

2.如权利要求1所述的方法，其特征在于，步骤S2中，对所述解说词文档进行分行处理包括：

S202：对每行意群进行字数统计；

3.如权利要求2所述的方法，其特征在于，步骤S202还包括：

4.如权利要求1所述的方法，其特征在于，步骤S4023之后还包括：

5.如权利要求1所述的方法，其特征在于，步骤S5之前还包括：

S501：获取每个行文本字幕对应的背景画面内容；

步骤S5包括：

6.如权利要求5所述的方法，其特征在于，步骤S501包括：

7.一种视频自动生成装置，其特征在于，所述装置包括：

获取模块，用于获取解说词文档和解说词语音文件；

合成模块，用于将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成，以生成视频；

所述语音识别模块进一步用于：

提取所述解说词语音文件的39维Mel频率倒谱系数音频特征；依照所述解说词文档生成以字为单位的字典及语言模型，并随机选择隐马尔可夫模型工具中的一个声学模型；通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练；通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别，以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息；

所述对齐模块进一步用于：

将每个行文本字幕均转换成文字音节序列C，将所述识别结果文本转换为文字音节序列T，所述文字音节序列C和文字音节序列T的最小单元为音节，所述音节为字的拼音；

通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间；具体包括：

将文字音节序列T在横轴标出，将所述文字音节序列C在纵轴标出；

搜索路径时采用3个搜索方向，所述3个搜索方向分别对应斜率为0.5、1或2的直线；

将路径代价最小时的路径作为最优路径，以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间，所述路径代价的计算公式为：

Cost(c_i,t_j)＝D(c_i,t_j)+min{Cost(c_i-2,t_j-1),Cost(c_i-1,t_j-1),Cost(c_i-1,t_j-2)}其中，Cost(c₁,t₁)＝D(c₁,t₁)，D(c_i,t_j)为音节c_i和t_j之间的欧式距离，表示两个音节的相似度，相似度越大，D(c_i,t_j)越小；设所述文字音节序列C的音节个数为M个，C＝{c₁,c₂,…c_m,…,c_M}，c_i为文字音节序列C中第i个音节，1≤i≤M；设所述文字音节序列T的音节个数为N个，T＝{t₁,t₂,…,t_n,…,t_N}，t_j为文字音节序列T中第j个音节，1≤j≤N。