CN103559214B - 视频自动生成方法及装置 - Google Patents

视频自动生成方法及装置 Download PDF

Info

Publication number
CN103559214B
CN103559214B CN201310473974.7A CN201310473974A CN103559214B CN 103559214 B CN103559214 B CN 103559214B CN 201310473974 A CN201310473974 A CN 201310473974A CN 103559214 B CN103559214 B CN 103559214B
Authority
CN
China
Prior art keywords
word
commentary
document
syllable
text subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310473974.7A
Other languages
English (en)
Other versions
CN103559214A (zh
Inventor
杨颖�
高万林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201310473974.7A priority Critical patent/CN103559214B/zh
Publication of CN103559214A publication Critical patent/CN103559214A/zh
Application granted granted Critical
Publication of CN103559214B publication Critical patent/CN103559214B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种视频自动生成方法及装置,涉及多媒体技术领域,所述方法包括:S1:获取解说词文档和解说词语音文件;S2:对所述解说词文档进行分行处理,以获得行文本字幕;S3:采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;S4:将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;S5:将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。本发明通过对解说词文档和解说词语音文件分别进行处理,并将处理后的结果进行合成,以生成视频,减少了视频制作的工作量,并提高了视频的制作效率。

Description

视频自动生成方法及装置
技术领域
本发明涉及多媒体技术领域,特别涉及一种视频自动生成方法及装置。
背景技术
目前,我国农村医疗条件和设施薄弱,医疗卫生建设步伐相对滞后,且由于经济相对落后,科学文化水平较低,农村居民普遍缺乏医疗卫生与营养健康意识,不利于群众的营养健康保健和疾病的防御防范,尤其是妇女、儿童及老人等弱势群体缺乏基本的营养知识及健康保健技术,其营养健康水平严重落后于发达地区。
故而需要经常制作教学类或宣传类视频(例如:营养健康及常见疾病防治题材的多媒体视频)等类似视频,这类视频的编辑制作过程中,需要为每帧画面准备相应的内容素材,所述素材包括:显示字幕和画面背景语言,有的视频为了更加吸引人,还在所述素材中增加背景图片或背景视频。通常情况下,由专家撰写每个题材的内容介绍,即解说词文档,再由专门的播音人员朗读该解说词文档获得该文档对应的解说词语音文件,得到解说词文档和解说词语音文件后,仅是制作视频的开始,为了最终编辑还需要将解说词文档分成每帧画面的字幕,并且由专门人员对每帧画面的字幕标注与解说词语音文件对应的时间位置,通常,语音中每个字的朗读时间都在秒级以内,对于一篇2000字左右的解说词文档就有上百行字幕及半个小时左右的解说词语音文件,想要较好的标注效果,则需要由该专门人员反复听解说词语音文件,才能在语音文件中找每行字幕首尾的精确时间位置,其耗费的工作量很大,并且视频的制作效率非常低。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何减少视频制作的工作量,并提高视频的制作效率。
(二)技术方案
为解决上述技术问题,本发明提供了一种视频自动生成方法,所述方法包括以下步骤:
S1:获取解说词文档和解说词语音文件;
S2:对所述解说词文档进行分行处理,以获得行文本字幕;
S3:采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
S4:将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
S5:将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。
其中,步骤S2中,对所述解说词文档进行分行处理包括:
S201:按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群,并去掉所有标点符号;
S202:对每行意群进行字数统计;
S203:判断每行意群的字数是否超过第一预设字数,若是,则将当前意群从其首字至尾字的方向每达到第二预设字数的截断位置进行自动截断换行,以形成行文本字幕,所述第一预设字数大于所述第二预设字数。
其中,步骤S202还包括:
通过全监督式分词模型对每行意群均进行分词处理,以获得任意相邻两个词语的分割位置;
步骤S203中,将当前意群从其首字至尾字的方向每达到第二预设字数的位置进行自动截断换行包括:
S2031:获得当前意群从其首字至尾字方向每达到第二预设字数的截断位置;
S2032:判断所述截断位置是否为分割位置,若是,则直接进行自动截断换行,否则选择距所述截断位置最近一个分割位置进行自动截断换行。
其中,步骤S3包括:
S301:提取所述解说词语音文件的39维Mel频率倒谱系数音频特征;
S302:依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择隐马尔可夫模型工具中的一个声学模型;
S303:通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练;
S304:通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息。
其中,步骤S4包括:
S401:将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T,所述文字音节序列C和文字音节序列T的最小单元为音节,所述音节为字的拼音;
S402:通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间。
其中,步骤S402包括:
S4021:将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;
S4022:搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1或2的直线;
S4023:将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间,所述路径代价的计算公式为:
Cost(ci,tj)=D(ci,tj)+min{Cost(ci-2,tj-1),Cost(ci-1,tj-1),Cost(ci-1,tj-2)}
其中,Cost(c1,t1)=D(c1,t1),D(ci,tj)为音节ci和tj之间的欧式距离,表示两个音节的相似度,相似度越大,D(ci,tj)越小;设所述文字音节序列C的音节个数为M个,C={c1,c2,…cm,…,cM},ci为文字音节序列C中第i个音节,1≤i≤M;设所述文字音节序列T的音节个数为N个,T={t1,t2,…,tn,…,tN},tj为文字音节序列T中第j个音节,1≤j≤N。
其中,步骤S4023之后还包括:
S4024:若所述最优路径无法找出,则选择隐马尔可夫模型工具中未被选择过的一个声学模型,并返回步骤S303,直至找出所述最优路径后,再执行步骤S5。
其中,步骤S5之前还包括:
S501:获取每个行文本字幕对应的背景画面内容;
步骤S5包括:
将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成,以生成视频。
其中,步骤S501包括:
S5011:通过全监督式分词模型对所述解说词文档进行分词处理,以获得所述解说词文档中的词语;
S5012:通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注,以获得所述解说词文档中的所有名词;
S5013:对所述解说词文档中的名词进行词频统计,并选择词频从大到小的前N个名词作为关键词,所述N为不小于1的整数;
S5014:在网络上抓取与每个关键词对应视频和/或图片,并将抓取的视频和/或图片保存至本地;
S5015:判断当前行文本字幕是否具有关键词,若有,则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容,否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容,直至每个行文字字幕均进行了判断。
本发明还公开了一种视频自动生成装置,所述装置包括:
获取模块,用于获取解说词文档和解说词语音文件;
分行处理模块,用于对所述解说词文档进行分行处理,以获得行文本字幕;
语音识别模块,用于采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
对齐模块,用于将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
合成模块,用于将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。
(三)有益效果
本发明通过对解说词文档和解说词语音文件分别进行处理,并将处理后的结果进行合成,以生成视频,减少了视频制作的工作量,并提高了视频的制作效率。
附图说明
图1是本发明一种实施方式的视频自动生成方法的流程图;
图2是最优路径的搜索结果示意图;
图3是本发明一种实施例的视频自动生成方法的流程图;
图4是本发明一种实施方式的视频自动生成装置的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施方式的视频自动生成方法的流程图;参照图1,所述方法包括以下步骤:
S1:获取解说词文档和解说词语音文件;
S2:对所述解说词文档进行分行处理,以获得行文本字幕;
S3:采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
S4:将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
S5:将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。
本实施方式通过对解说词文档和解说词语音文件分别进行处理,并将处理后的结果进行合成,以生成视频,减少了视频制作的工作量,并提高了视频的制作效率。
为保证分行的效果和速度,优选地,步骤S2中,对所述解说词文档进行分行处理包括:
S201:按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群(所述意群即每个句子中,相邻的逗号和逗号之间、或相邻的逗号和句号之间的文字内容),并去掉所有标点符号;
S202:对每行意群进行字数统计;
S203:判断每行意群的字数是否超过第一预设字数,若是,则将当前意群从其首字至尾字的方向每达到第二预设字数的截断位置进行自动截断换行,以形成行文本字幕,所述第一预设字数大于所述第二预设字数,本实施方式中,第一预设字数为20字,第二预设字数为17字,但并不限定其保护范围,第一预设字数还可选择为19字、18字等,第二预设字数还可选择为16字、15字等。
为保证在分行处理时,不把一个完整的词语分到两行,优选地,步骤S202还包括:
通过全监督式分词模型(CRF模型)对每行意群均进行分词处理,以获得任意相邻两个词语的分割位置;
步骤S203中,将当前意群从其首字至尾字的方向每达到第二预设字数的位置进行自动截断换行包括:
S2031:获得当前意群从其首字至尾字方向每达到第二预设字数的截断位置;
S2032:判断所述截断位置是否为分割位置,若是,则直接进行自动截断换行,否则选择距所述截断位置最近一个分割位置进行自动截断换行。
优选地,步骤S3包括:
S301:提取所述解说词语音文件的39维Mel频率倒谱系数(MFCC)音频特征;
S302:依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择隐马尔可夫模型工具中的一个声学模型,本实施方式中,所述语言模型为三元(Trigram)语言模型,但不限定本发明的保护范围,所述语言模型还可选择二元语言模型等,但处理效果会差于选择所述三元语言模型;
S303:通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练;
S304:通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型(HTK)工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息。
为实现每个行文本字幕对应的音频起止点时间的自动标注,优选地,步骤S4包括:
S401:将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T,所述文字音节序列C和文字音节序列T的最小单元为音节,所述音节为字的拼音;
S402:通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间。
其中,搜索所述最优路径是为了对齐每个行文本字幕与对应的识别结果文本,从而实现对每个行文本字幕在所述解说词语音文件中的音频起止点时间的自动标注,该对其过程为一个递归搜索过程,其核心是通过基于动态时间归整DTW的文本匹配算法找到识别结果文本中的可信任的对齐区域(称作“锚点”),利用锚点将识别结果文本分为已对齐部分及未对齐部分,然后对于未对齐部分重复上述递归过程。
为保证搜索效果,优选地,步骤S402包括:
S4021:将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;
S4022:为防止盲目搜索,故而不允许有横轴或者纵轴过分倾斜的路径,搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1和2,搜索到的最优路径如图2所示;
S4023:将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间,所述路径代价的计算公式为:
Cost(ci,tj)=D(ci,tj)+min{Cost(ci-2,tj-1),Cost(ci-1,tj-1),Cost(ci-1,tj-2)}
其中,Cost(c1,t1)=D(c1,t1),D(ci,tj)为音节ci和tj之间的欧式距离,表示两个音节的相似度,相似度越大,D(ci,tj)越小;设所述文字音节序列C的音节个数为M个,C={c1,c2,…,cM},ci为文字音节序列C中的第i个音节,1≤i≤M;设所述文字音节序列T的音节个数为N个,T={t1,t2,…,tN},tj为文字音节序列T中的第j个音节,1≤j≤N。
为避免防止之前所选择的声学模型不合适,而导致的最优路径无法找出,优选地,步骤S4023之后还包括:
S4024:若所述最优路径无法找出,则选择隐马尔可夫模型工具中未被选择过的一个声学模型,并返回步骤S303,直至找出所述最优路径后,再执行步骤S5。
为实现在视频中增加背景画面内容,优选地,步骤S5之前还包括:
S501:获取每个行文本字幕对应的背景画面内容;
步骤S5包括:
将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成,以生成视频。
步骤S501中获取背景画面内容可以采用默认的背景画面内容,如通过拍摄并剪辑视频、flash制作动画、photoshop制作图片等方式制作背景画面,但为了提高背景画面内容与解说词文档之间的契合度,同时丰富背景画面内容,本实施方式中采用自动搜索技术获取背景画面内容,首先利用目前比较成熟的自然语言处理技术进行解说词文档中的关键词提取,然后依据提取的关键词自动搜索互联网及本地机获取相关的图片和视频,优选地,步骤S501包括:
S5011:通过全监督式分词模型对所述解说词文档进行分词处理,以获得所述解说词文档中的词语;
S5012:通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注,以获得所述解说词文档中的所有名词;
S5013:对所述解说词文档中的名词进行词频统计,并选择词频从大到小的前X个名词作为关键词,所述X为不小于1的整数,本实施方式中,X为20,但并不限定本发明的保护范围;
S5014:在网络上抓取与每个关键词对应视频和/或图片,并将抓取的视频和/或图片保存至本地;本实施方式中,在网络上抓取与每个关键词对应视频和/或图片时,采用元搜索技术在网络上搜索与每个关键词相匹配的图片和/或视频,分别调用google、搜狗及百度等搜索引擎,抓取相关的图片和/或视频,如果图像的分辨率低于预设分辨率、视频长度超过预设视频长度,则将其舍弃,并将其余的图片和/或视频经过过滤、整合后存储到以该关键词命名的本地存储目录下。
S5015:判断当前行文本字幕是否具有关键词,若有,则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容,否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容,直至每个行文字字幕均进行了判断;本实施例中,针对各个行文本字幕,其相关的背景画面内容选取目录应为该行文本字幕中包含的关键词对应的存储目录。
为保证当前行文本字幕的播放时间和与之对应的背景画面内容的播放时间一致,步骤S5015中,将视频作为当前行文本字幕对应的背景画面内容时,若所述视频的播放时间比所述行文本字幕的播放时间长,则将所述视频从其起始时间截取预设时间的视频,所述预设时间不大于所述文本字幕的播放时间,所述文本字幕的播放时间为音频起止点时间之差。
为便于对背景画面内容的播放时间进行人为调整,还可接受操作人员的编辑操作指令,对所述背景画面内容进行调整。
实施例
下面以一个具体的实施例来说明本发明,但不限定本发明的保护范围。参照图3,本实施例的方法包括以下步骤:
步骤101:获取解说词文档和解说词语音文件;
步骤102:按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群,并去掉所有标点符号;
步骤103:对每行意群进行字数统计,通过全监督式分词模型对每行意群均进行分词处理,以获得任意相邻两个词语的分割位置;
步骤104:判断每行意群的字数是否超过20字,若是,则获得当前意群从其首字至尾字方向每达到17字的截断位置;
步骤105:判断所述截断位置是否为分割位置,若是,则直接进行自动截断换行,否则选择距所述截断位置最近一个分割位置进行自动截断换行,以形成行文本字幕;
步骤106:提取所述解说词语音文件的39维MFCC音频特征;
步骤107:依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择HTK工具中的一个声学模型;
步骤108:通过所述39维MFCC音频特征对所述声学模型进行训练;
步骤109:通过所述字典、语言模型及训练后的声学模型采用所述HTK工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息;
步骤110:将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T;
步骤111:将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;
步骤112:搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1和2;
步骤113:将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
步骤114:若所述最优路径无法找出,则选择HTK工具中未被选择过的一个声学模型,并返回步骤108,直至找出所述最优路径后,再执行步骤119;
步骤115:通过全监督式分词模型对所述解说词文档进行分词处理,以获得所述解说词文档中的词语;
步骤116:通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注,以获得所述解说词文档中的所有名词;
步骤117:对所述解说词文档中的名词进行词频统计,并选择词频从大到小的前20个名词作为关键词;
步骤118:在网络上抓取与每个关键词对应视频和/或图片,并将抓取的视频和/或图片保存至本地;
步骤119:判断当前行文本字幕是否具有关键词,若有,则将对应的视频和/或图片作为当前行文本字幕对应的背景画面内容,否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容,直至每个行文字字幕均进行了判断;
步骤120:接受操作人员的编辑操作指令,对所述背景画面内容进行调整。
步骤121:将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成,以生成视频。
本发明还公开了一种视频自动生成装置,参照图4,所述装置包括:
获取模块,用于获取解说词文档和解说词语音文件;
分行处理模块,用于对所述解说词文档进行分行处理,以获得行文本字幕;
语音识别模块,用于采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
对齐模块,用于将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
合成模块,用于将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种视频自动生成方法,其特征在于,所述方法包括以下步骤:
S1:获取解说词文档和解说词语音文件;
S2:对所述解说词文档进行分行处理,以获得行文本字幕;
S3:采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
S4:将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
S5:将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频;
步骤S3包括:
S301:提取所述解说词语音文件的39维Mel频率倒谱系数音频特征;
S302:依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择隐马尔可夫模型工具中的一个声学模型;
S303:通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练;
S304:通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息;
所述步骤S4包括:
S401:将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T,所述文字音节序列C和文字音节序列T的最小单元为音节,所述音节为字的拼音;
S402:通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径,以获得每个行文本字幕在所 述解说词语音文件中的音频起止点时间;
所述步骤S402包括:
S4021:将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;
S4022:搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1或2的直线;
S4023:将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间,所述路径代价的计算公式为:
Cost(ci,tj)=D(ci,tj)+min{Cost(ci-2,tj-1),Cost(ci-1,tj-1),Cost(ci-1,tj-2)}
其中,Cost(c1,t1)=D(c1,t1),D(ci,tj)为音节ci和tj之间的欧式距离,表示两个音节的相似度,相似度越大,D(ci,tj)越小;设所述文字音节序列C的音节个数为M个,C={c1,c2,…cm,…,cM},ci为文字音节序列C中第i个音节,1≤i≤M;设所述文字音节序列T的音节个数为N个,T={t1,t2,…,tn,…,tN},tj为文字音节序列T中第j个音节,1≤j≤N。
2.如权利要求1所述的方法,其特征在于,步骤S2中,对所述解说词文档进行分行处理包括:
S201:按照标点符号通过模式匹配方法将所述解说词文档划分为多行意群,并去掉所有标点符号;
S202:对每行意群进行字数统计;
S203:判断每行意群的字数是否超过第一预设字数,若是,则将当前意群从其首字至尾字的方向每达到第二预设字数的截断位置进行自动截断换行,以形成行文本字幕,所述第一预设字数大于所述第二预设字数。
3.如权利要求2所述的方法,其特征在于,步骤S202还包括:
通过全监督式分词模型对每行意群均进行分词处理,以获得任意相邻两个词语的分割位置;
步骤S203中,将当前意群从其首字至尾字的方向每达到第二预设字数的位置进行自动截断换行包括:
S2031:获得当前意群从其首字至尾字方向每达到第二预设字数的截断位置;
S2032:判断所述截断位置是否为分割位置,若是,则直接进行自动截断换行,否则选择距所述截断位置最近一个分割位置进行自动截断换行。
4.如权利要求1所述的方法,其特征在于,步骤S4023之后还包括:
S4024:若所述最优路径无法找出,则选择隐马尔可夫模型工具中未被选择过的一个声学模型,并返回步骤S303,直至找出所述最优路径后,再执行步骤S5。
5.如权利要求1所述的方法,其特征在于,步骤S5之前还包括:
S501:获取每个行文本字幕对应的背景画面内容;
步骤S5包括:
将所述解说词语音文件、所述行文本字幕、所述音频起止点时间和背景画面内容进行合成,以生成视频。
6.如权利要求5所述的方法,其特征在于,步骤S501包括:
S5011:通过全监督式分词模型对所述解说词文档进行分词处理,以获得所述解说词文档中的词语;
S5012:通过全监督式词性标注模型对所述解说词文档中的词语进行词性标注,以获得所述解说词文档中的所有名词;
S5013:对所述解说词文档中的名词进行词频统计,并选择词频从大到小的前N个名词作为关键词,所述N为不小于1的整数;
S5014:在网络上抓取与每个关键词对应视频和/或图片,并将抓取的视频和/或图片保存至本地;
S5015:判断当前行文本字幕是否具有关键词,若有,则将对应 的视频和/或图片作为当前行文本字幕对应的背景画面内容,否则将默认的图片和/或视频作为当前行文本字幕对应的背景画面内容,直至每个行文字字幕均进行了判断。
7.一种视频自动生成装置,其特征在于,所述装置包括:
获取模块,用于获取解说词文档和解说词语音文件;
分行处理模块,用于对所述解说词文档进行分行处理,以获得行文本字幕;
语音识别模块,用于采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;
对齐模块,用于将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;
合成模块,用于将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频;
所述语音识别模块进一步用于:
提取所述解说词语音文件的39维Mel频率倒谱系数音频特征;依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择隐马尔可夫模型工具中的一个声学模型;通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练;通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息;
所述对齐模块进一步用于:
将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T,所述文字音节序列C和文字音节序列T的最小单元为音节,所述音节为字的拼音;
通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;具体包括:
将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;
搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1或2的直线;
将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间,所述路径代价的计算公式为:
Cost(ci,tj)=D(ci,tj)+min{Cost(ci-2,tj-1),Cost(ci-1,tj-1),Cost(ci-1,tj-2)}其中,Cost(c1,t1)=D(c1,t1),D(ci,tj)为音节ci和tj之间的欧式距离,表示两个音节的相似度,相似度越大,D(ci,tj)越小;设所述文字音节序列C的音节个数为M个,C={c1,c2,…cm,…,cM},ci为文字音节序列C中第i个音节,1≤i≤M;设所述文字音节序列T的音节个数为N个,T={t1,t2,…,tn,…,tN},tj为文字音节序列T中第j个音节,1≤j≤N。
CN201310473974.7A 2013-10-11 2013-10-11 视频自动生成方法及装置 Expired - Fee Related CN103559214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310473974.7A CN103559214B (zh) 2013-10-11 2013-10-11 视频自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310473974.7A CN103559214B (zh) 2013-10-11 2013-10-11 视频自动生成方法及装置

Publications (2)

Publication Number Publication Date
CN103559214A CN103559214A (zh) 2014-02-05
CN103559214B true CN103559214B (zh) 2017-02-08

Family

ID=50013461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310473974.7A Expired - Fee Related CN103559214B (zh) 2013-10-11 2013-10-11 视频自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN103559214B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392633B (zh) * 2014-11-12 2020-08-25 国家电网公司 一种面向电力系统仿真培训的讲解控制方法
CN105744291B (zh) * 2014-12-09 2018-11-27 北京奇虎科技有限公司 视频数据处理方法及系统、视频播放设备和云端服务器
CN104599693B (zh) * 2015-01-29 2018-07-13 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN104731959B (zh) * 2015-04-03 2017-10-17 北京威扬科技有限公司 基于文本的网页内容生成视频摘要的方法、装置及系统
CN104731960B (zh) * 2015-04-03 2018-03-09 北京威扬科技有限公司 基于电子商务网页内容生成视频摘要的方法、装置及系统
CN104900233A (zh) * 2015-05-12 2015-09-09 深圳市东方泰明科技有限公司 一种声音与文本全自动匹配对齐的方法
CN105244022B (zh) * 2015-09-28 2019-10-18 科大讯飞股份有限公司 音视频字幕生成方法及装置
CN105931641B (zh) * 2016-05-25 2020-11-10 腾讯科技(深圳)有限公司 字幕数据生成方法和装置
CN107707931B (zh) * 2016-08-08 2021-09-10 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN107291676B (zh) * 2017-06-20 2021-11-19 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN107943839A (zh) * 2017-10-30 2018-04-20 百度在线网络技术(北京)有限公司 基于图片和文字生成视频的方法、装置、设备及存储介质
CN107948730B (zh) * 2017-10-30 2020-11-20 百度在线网络技术(北京)有限公司 基于图片生成视频的方法、装置、设备及存储介质
CN107832382A (zh) * 2017-10-30 2018-03-23 百度在线网络技术(北京)有限公司 基于文字生成视频的方法、装置、设备及存储介质
CN109756751B (zh) * 2017-11-07 2023-02-03 腾讯科技(深圳)有限公司 多媒体数据处理方法及装置、电子设备、存储介质
CN109992754B (zh) * 2017-12-29 2023-06-16 阿里巴巴(中国)有限公司 文档处理方法及装置
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
CN110807126B (zh) * 2018-08-01 2023-05-26 腾讯科技(深圳)有限公司 文章转换成视频的方法、装置、存储介质及设备
CN109195007B (zh) * 2018-10-19 2021-09-07 深圳市轱辘车联数据技术有限公司 视频生成方法、装置、服务器及计算机可读存储介质
CN109614537A (zh) * 2018-12-06 2019-04-12 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备
CN109754783B (zh) * 2019-03-05 2020-12-25 百度在线网络技术(北京)有限公司 用于确定音频语句的边界的方法和装置
CN110210299A (zh) * 2019-04-26 2019-09-06 平安科技(深圳)有限公司 语音训练数据生成方法、装置、设备及可读存储介质
CN110728971B (zh) * 2019-09-25 2022-02-18 云知声智能科技股份有限公司 一种音视频合成方法
CN110781649B (zh) * 2019-10-30 2023-09-15 中央电视台 一种字幕编辑方法、装置及计算机存储介质、电子设备
CN110798733A (zh) * 2019-10-30 2020-02-14 中央电视台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN113938745B (zh) * 2020-07-14 2023-05-09 Tcl科技集团股份有限公司 一种视频生成方法、终端及存储介质
CN111930289B (zh) * 2020-09-09 2021-05-07 智者四海(北京)技术有限公司 一种处理图片和文本的方法和系统
CN112133309B (zh) * 2020-09-22 2021-08-24 掌阅科技股份有限公司 音频和文本的同步方法、计算设备及存储介质
CN113014988B (zh) * 2021-02-23 2024-04-05 北京百度网讯科技有限公司 视频处理方法、装置、设备以及存储介质
CN113343831A (zh) * 2021-06-01 2021-09-03 北京字跳网络技术有限公司 视频中说话人分类方法、装置、电子设备和存储介质
CN113517004B (zh) * 2021-06-16 2023-02-28 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 视频生成方法、装置、终端设备及介质
CN114238689A (zh) 2021-12-17 2022-03-25 北京百度网讯科技有限公司 视频生成方法、装置、电子设备、存储介质和程序产品
CN114401377A (zh) * 2021-12-30 2022-04-26 杭州摸象大数据科技有限公司 金融营销视频生成方法、装置、计算机设备及存储介质
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN102801925A (zh) * 2012-08-08 2012-11-28 无锡天脉聚源传媒科技有限公司 一种字幕加配的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540847A (zh) * 2008-03-21 2009-09-23 株式会社康巴思 字幕制作系统及字幕制作方法
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103324760B (zh) * 2013-07-11 2016-08-17 中国农业大学 使用解说词文档自动生成营养健康教育视频的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN102801925A (zh) * 2012-08-08 2012-11-28 无锡天脉聚源传媒科技有限公司 一种字幕加配的方法及装置

Also Published As

Publication number Publication date
CN103559214A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
CN103559214B (zh) 视频自动生成方法及装置
US20190043500A1 (en) Voice based realtime event logging
Hazen Automatic alignment and error correction of human generated transcripts for long speech recordings.
CN101533401B (zh) 声音数据检索系统以及声音数据的检索方法
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
JPWO2005027092A1 (ja) 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US20080270138A1 (en) Audio content search engine
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2009036999A (ja) コンピュータによる対話方法、対話システム、コンピュータプログラムおよびコンピュータに読み取り可能な記憶媒体
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
CN105551485B (zh) 语音文件检索方法及系统
CN111986656B (zh) 教学视频自动字幕处理方法与系统
CN108810446A (zh) 一种视频会议的标签生成方法、装置、设备和介质
JP6857983B2 (ja) メタデータ生成システム
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
JP2012043000A (ja) 検索装置、検索方法、及び、プログラム
CN105931641A (zh) 字幕数据生成方法和装置
CN110691271A (zh) 一种新闻视频生成方法、系统、装置和存储介质
Levin et al. Automated closed captioning for Russian live broadcasting
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
CN106897379B (zh) 语音文件的lrc时间轴文件自动生成方法及相关设备
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
JP2000324395A (ja) 字幕へのタイミング情報付与方法
Chaudhuri et al. Learning contextual relevance of audio segments using discriminative models over AUD sequences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20181011

CF01 Termination of patent right due to non-payment of annual fee