CN101382937B - 基于语音识别的多媒体资源处理方法及其在线教学系统 - Google Patents

基于语音识别的多媒体资源处理方法及其在线教学系统 Download PDF

Info

Publication number
CN101382937B
CN101382937B CN2008100682537A CN200810068253A CN101382937B CN 101382937 B CN101382937 B CN 101382937B CN 2008100682537 A CN2008100682537 A CN 2008100682537A CN 200810068253 A CN200810068253 A CN 200810068253A CN 101382937 B CN101382937 B CN 101382937B
Authority
CN
China
Prior art keywords
video
content
speech recognition
module
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100682537A
Other languages
English (en)
Other versions
CN101382937A (zh
Inventor
王岚
邵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN2008100682537A priority Critical patent/CN101382937B/zh
Publication of CN101382937A publication Critical patent/CN101382937A/zh
Application granted granted Critical
Publication of CN101382937B publication Critical patent/CN101382937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于语音识别的多媒体资源处理方法及其在线教学系统,其方法包括:对音视频进行同步采集,并进行数据处理,将其中的音频文件处理成为可语音识别的格式;对音频文件进行语音识别,生成脚本文件,并与所述视频文件进行中文字幕的自动生成与同步;对视频文件进行内容索引,并对所述音频文件的脚本文件进行基于内容的自动故事分段,匹配标注后存储到视频数据库中。本发明方法及系统由于采用了多媒体资源自动处理技术,利用计算机的高性能计算极大地提高了字幕等信息处理速度,减少了人工处理的参入程度,从而加快了视频制作的过程,提高了工作效率。

Description

基于语音识别的多媒体资源处理方法及其在线教学系统 
技术领域
本发明涉及一种多媒体自动处理方法及系统,尤其涉及的是一种针对教学课程相关的大量视频等多媒体文件进行自动处理和在线管理的方法及系统。 
背景技术
现有技术中,随着多媒体技术的急速发展,大量的教学课程以多媒体的形式呈现,包括摄录下来的教学课程视频,相关演示文稿等等,平均每小时的教学视频饱含上万字的文本内容。 
面对如此海量的多媒体信息,多数在线教学网站仍然采用人工手动方式,即利用大量的高级打字员对视频文件等多媒体资料进行字幕制作,同步演示文稿等工作。这种建立在人工聆听和收看基础上的操作,是一种原始的人工处理方式,需要耗费大量的资源和处理时间,提供的在线服务缓慢、低效。 
此外,手工方式建立的索引和标注,只能对视频进行粗略的分类和匹配,难以实现有效的视频内容检索和精确定位。 
另一方面,目前大规模连续语音识别技术(Large Vocabulary ContinuousSpeech Recognition,简称LVCSR)技术也趋近成熟,针对朗读方式的非特定人连续语音识别率可以达到90%以上;基于内容的多媒体信息索引和检索技术则可以根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索,在没有人工介入的情况下能自动识别或理解媒体内容,并对其进行索引和检索;机器翻译(Machine Translation)技术则提供了根据统计模型来实现较高质量自动翻译的功能。 
现有技术中,有部分专利针对教学领域的应用和问题提出了一些解决 方法,如:中国专利号“200610116585.9”,专利名称“电子课堂互动教学平台系统”,在该专利申请公开文献中,发明人提出了一种基于网络的电子课堂系统,实现对教学资源的管理等功能。但是,该系统对教学中多媒体资源的管理方式依然是人工处理的方法,处理效率非常低,在线服务非常缓慢。 
又如:中国专利号“03142208.X”,专利名称“基于MPEG-7的远程教学领域的流媒体检索系统”,在该专利申请公开文献中,发明人提出了一种通过抽取特征值方法来对视频进行标注,并继而提供查询的方法。但是,该系统也存在诸多问题,包括:支持的视频格式单一;特征值抽取的准确率较低,对人工半自动标注的需求较多;未将远程教学中的其他多媒体内容,如演示文稿等进行整合处理;对远程教学中所需的功能支持比较单一。 
但是,目前能够有效针对远程教学中的实际功能需求,同时交叉融合应用语音识别、多媒体检索等上述技术的教学课程多媒体管理系统仍然还是空白。 
现有技术还有待于改进和发展。 
发明内容
本发明的目的在于提供一种基于语音识别的多媒体资源处理方法及系统,主要针对教学课程的多媒体资源进行高效和自动处理,多媒体资源包括数字化视频,以及相关演示文稿,字幕等,本发明方法所涉及的多媒体资源自动处理技术可以为教学课程数字化、网络化提供最有力的技术支持,可以在此基础上构建快速、高效、海量信息的在线学习(远程教育)网站。 
本发明的技术方案包括: 
一种基于语音识别的多媒体资源处理方法,其包括以下步骤: 
A、对音视频进行同步采集,并进行数据处理,将其中的音频文件处理成为可语音识别的格式; 
B、对音频文件进行语音识别,生成脚本文件,并与视频文件进行中文字幕的自动生成与同步;所述对音频文件进行语音识别,生成脚本文件的 步骤具体包括:B1、对输入的音频进行语音信号特征提取;B2、使用语音分段模块根据语音信号的波形特征和能量特征,将输入的音频信号进行分类与分割,并送入解码器进行语音识别;B3、将含有语音内容文本信息和时间信息的内容形成脚本文件; 
C、对视频文件进行内容索引,并对所述音频文件的脚本文件进行基于内容的自动故事分段,将所述脚本文件和视频文件进行匹配标注后存储到视频数据库中;所述的步骤C进一步包括:建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配,确定各页演示文稿的播放时间,用于实现演示文稿与学术报告和教学课程视频的自动同步播放。 
所述的方法,其中,所述步骤C还包括: 
C1、对所述脚本文件抽取多层次的词汇信息进行自动故事分段; 
C2、将所述脚本文件以XML节点形式存入XML数据库,对相应的教学课程视频内容建立XML索引和标识集合,用于基于内容的多媒体检索和定位。 
所述的方法,其中,所述步骤C2还包括:通过使用倒排索引以及XQuery语法的查询,从所述XML数据库中检索得到结果,并对相应的视频文件进行操作。 
所述的方法,其中,所述步骤B的语音识别包括: 
中文语音识别系统和英文语音识别系统;其中文/英文的语音识别过程包括: 
B1、对输入的音频进行语音信号特征提取; 
B2、使用语音分段模块根据语音信号的波形特征和能量特征,将输入的音频信号进行分类与分割,并送入解码器进行语音识别; 
B3、将含有语音内容文本信息和时间信息的内容形成脚本文件。 
所述的方法,其中,所述步骤B2还包括: 
所述解码器在语音识别中所使用的声学模型,为经过聚类的三音素模型,语言模型为基于词的三元和四元语言模型。 
所述的方法,其中,所述步骤B1中还包括:所提取的语音信号特征为 带有音调的感知线性预测特征。 
所述的方法,其中,语音识别包括中文语音识别和英文语音识别,当输入的语音为英文时,所述英文语音识别还包括机器翻译过程,具体包括: 
B21、训练时将英文源文本和对应的中文目标文本进行短语层次的分割,并进行双语文本的规整; 
B22、对中文目标文本进行建模,形成语言模型; 
B23、结合源短语到目标短语的概率,双语规整概率,以及语言模型概率,利用有限状态机实现对源文本的搜索,得到翻译文本。 
所述的方法,其中,对所述脚本文件还提供一字幕编辑辅助软件,用于用户修改自动生成字幕中的错误,其包括:修改、添加、删除字幕内容中的错误信息;修改、添加、删除字幕时间信息中的错误信息;以及对时间进行修正。 
一种基于语音识别的多媒体资源处理的系统,其包括一数据采集模块,一数据处理模块,至少一语音识别模块,所述语音识别模块包括语音分段模块和解码器;其中,还包括中文字幕自动生成与同步模块、基于内容的自动故事分段处理模块、基于内容的多媒体信息检索模块和演示文稿自动同步模块; 
所述数据采集模块用于同步采集音视频;所述数据处理模块用于将所述数据采集模块采集的视频和音频文件进行数据处理,将其中的音频文件处理成为可语音识别的格式,向所述识别模块提供标准的输入音频文件;所述语音识别模块用于对输入的音频进行语音信号特征提取,使用语音分段模块根据语音信号的波形特征和能量特征,将输入的音频信号进行分类与分割,送入解码器进行语音识别,并将含有语音内容文本信息和时间信息的内容形成脚本文件; 
一中文字幕自动生成与同步模块,用于对所述音视频文件进行同步标注,并存储到视频数据库;一基于内容的自动故事分段处理模块,用于对所述音频文件的脚本文件进行基于内容的自动故事分段,将所述脚本文件和视频文件进行匹配标注;一基于内容的多媒体信息检索模块,用于对经过标注的视频数据库进行检索使用;一演示文稿自动同步模块,用于建立 所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配,确定各页演示文稿的播放时间,用于实现演示文稿与学术报告和教学课程视频的自动同步播放。 
所述的系统,其中,所述语音识别模块包括一中文语音识别系统和一英文语音识别系统,所述英文语音识别系统还连接一机器翻译模块,用于自动生成中文字幕。 
本发明所提供的一种基于语音识别的多媒体资源处理方法及系统,由于采用了多媒体资源自动处理技术,利用计算机的高性能计算极大地提高了字幕等信息处理速度,减少了人工处理的参入程度,从而降低了制作成本,加快了视频制作的过程,提高了工作效率,可以为构建快速、高效、海量信息的在线学习(远程教育)网站提供最有力的技术支持。 
附图说明
图1为本发明基于语音识别的多媒体资源处理在线教学系统的框架示意图; 
图2为本发明系统处理时间对比图; 
图3为本发明方法中数据处理部分的系统流程图; 
图4为本发明方法及系统中语音识别模块的系统流程图; 
图5为本发明方法及系统中机器翻译的系统流程图; 
图6为本发明方法及系统中字幕自动生成与同步的处理流程图; 
图7为本发明中演示文稿自动同步的处理流程图; 
图8为本发明方法及系统中自动故事分段流程图; 
图9为本发明方法及系统中基于内容的信息检索的处理流程图。 
具体实施方式
下面结合附图,将对本发明优选实施例进行详细说明,但其说明仅是示范性的,并不能用于对本发明专利保护范围进行限定。 
本发明所述基于语音识别的多媒体资源处理方法及其在线教学系统采用了多媒体资源自动处理技术,可以为构建快速、高效、海量信息的在线学习(远程教育)网站提供最有力的技术支持。本发明方法基于高识别准确率的语音识别系统,通过对教学课程进行数字化摄录和处理,自动对教学课程视频中的音频信息进行语音识别,并对英文内容进行识别和自动翻译;自动对教学课程视频生成字幕并同步播放,包括中文字幕或英文翻译后的中文字幕;自动对演示文稿进行和视频的同步播放;基于视频内容的自动故事分段技术实现对教学课程视频的分段,并实现选择性视频播放;对教学课程的视频建立基于内容的索引,并提供基于内容的检索和内容精确定位。 
本发明方法及系统主要涉及了语音信息、信息检索、字幕制作、演示文稿、机器翻译、数据存储和管理等领域,包括中文/英文的大规模连续语音识别技术,基于内容的多媒体信息索引和检索技术,基于自然语言理解的自动故事分段技术,字幕、演示文稿与视频内容的自动同步技术,机器翻译技术,以及内容索引的存储和数据库技术等。 
如图1所示,本发明的整体系统结构主要包括以下几个模块:数据采集模块102,数据处理模块103,语音识别模块104和105,机器翻译模块106,包括自动故事分段109、字幕生成与同步108、演示文稿自动同步107、基于内容的多媒体信息检索112的应用程序113,内容索引存储110,经过标注的视频数据库111等。其中,本发明的核心部分是高识别准确率的中文/英文语音识别系统。 
本发明方法及系统首先对教学课程现场101的内容通过数据采集模块102进行视频信息采集处理,所述数据采集模块102是一个标准且带有规范的数据采集过程,将在下述内容中进行详细阐述。通过所述数据采集模块102采集的视频和音频文件,将通过所述数据处理模块103进行数据处理,该处理过程的目的主要是为了向语音识别模块104和105部分发送可识别音频文件,即向中文/英文语音识别系统提供标准的输入音频文件。其中,通过英文语音识别模块105的所得到的英文脚本(Transcript)文件将经过 机器翻译模块106处理,并可生成相对应的翻译为中文的脚本(Transcript)。经过语音识别模块104和105、机器翻译模块106所产生的脚本文件带有相应视频/音频文件的时间信息和内容,该语音识别系统分别建立中文和英文的声学模型(Acoustic Model)和语言学模型(Language Model)用于语音识别。 
本发明方法根据语音识别与机器翻译后得到的脚本文件(Transcript),一方面,本发明将该脚本文件通过中文字幕自动生成与同步模块108制作成为字幕文件,实现了对教学课程视频的字幕制作与同步。需要注意的是,其中的英文语音内容已事先通过机器翻译模块106的自动翻译,通过自动翻译并生成了中文字幕。 
同时,本发明将所生成脚本文件中的关键字与演示文稿中的关键字进行匹配,确定每张演示文稿的时间间隔,即演示文稿自动同步107的处理,从而实现了演示文稿与学术报告和教学课程视频的自动同步播放。而且,本发明方法对脚本文件抽取多层次的词汇信息进行自动故事分割,确定了各个视频分段的时间间隔,通过基于内容的自动故事分段109实现了基于内容的视频分段播放。 
另一方面,本发明方法及系统还对脚本文件(Transcript)以进行内容索引存储到一内容索引存储模块110中。本发明所采用的内容索引存储方式可采用XML存储形式,脚本文件中的信息,包括内容文本信息、时间信息等,以XML(XML Inodes)节点形式可存入XML数据库,对相应的学术报告和教学课程视频内容建立XML索引和标识集合。这样通过使用XQuery语法的查询,从特征信息数据库中就可以检索得到结果,并对相应的视频文件进行操作,从而实现基于内容的多媒体检索和定位112。 
其中,所述演示文稿同步模块107、中文字幕自动生成与同步模块108、基于内容的多媒体检索和定位模块112、自动故事分段模块109共同构成了面向用户的整个应用程序113。该应用程序113作为本发明方法及系统的主 要部分,向用户114可提供了在观看学术报告和教学课程视频同时,字幕和演示文稿与相应视频的同步显示过程。此外,用户114还可通过应用程序113对教学视频进行基于内容的分段学习和检索,以及对视频的自动分类与管理。 
以下分别对本发明的各个子系统做进一步的说明。 
1.数据采集 
本发明方法及系统的数据采集过程主要由两部分的数据采集所组成,一是教学课程视频,包括相对应的音频;二是在难以获得视频的情况下,采集教学课程的音频。针对视频与音频的同步采集,本发明方法及系统可采用如下的形式:一方面,利用数码摄像机或云台恒速摄像机等视频采集设备对教学课程进行视频信息的采集,并存储通用视频编码格式,如MPEG-4等;另一方面,采用外接录音麦克风的形式,与视频采集的摄像机同步采集高质量的相应的音频信息。这样做的目的是向语音识别(ASR)系统提供高质量的音频处理文件,也就是高信噪比的音频文件,用以在语音识别模块能够得到更高的识别准确率。在视频难以采集的情况下,本发明将采用录音麦克风单独采集教学课程的音频文件。 
2.数据处理 
本发明方法及系统针对不同的数据输入采取了相应的不同处理步骤,由于分别存在视频与音频两种数据形式,因此采取了两种处理方式。如图3所示,对输入文件,首先进行格式检查,然后根据不同结果来进行处理。如为视频文件,则先将视频文件中的音频文件提取出来,随后针对不同的音频来源采取不同的解码方式。通过音频解码与规整后,各种不同来源的音频都被统一成一种格式,该格式的音频均为单声道,具有相同的文件编码格式,相同的采样率和采样位数,且只包含有数字化音频本身的信息。利用统一规整后的音频作为语音识别(ASR)的输入音频,有利于语音识别模块的特征值提取(Feature Parameterization)操作,并且是达到语音识 别高准确率的重要保证。 
3.语音识别(ASR) 
高识别准确率的语音识别系统(Automatic Speech Recognition简称ASR)是本发明的核心部分,该语音识别(ASR)系统采用基于Linux的C语言进行开发,其声学模型(Acoustic Model)采用新闻类和访谈类语音数据进行训练,语言模型(Language Model)采用新闻类数据以及网络上收集的大量学术报告和教学课程类数据进行训练。测试表明,本发明中的语音识别系统针对朗读方式的大词汇量非特定人连续语音识别的字识别准确率达到90%以上。 
本发明方法中,如图4所示,中文语音识别的基本流程如下:输入音频首先进行语音信号特征提取,本发明采用带音调(Pitch)的PLP(PerceptualLinear Predictive,感知线性预测)特征参数,包括能量以及差分特征等。声学模型采用基于HMM(隐马尔可夫模型)的统计模型。每个HMM可以表征语音信号的基本音素单元,多个音素的HMM串行起来构成一个词的HMM。采用词典(Lexicon)来表征每个单词对应的发音和音素序列。利用大量文本信息建立语言模型,通过估计相关词汇的出现概率提供语言模型分数,并结合声学模型分数在识别网络中搜索最优音素序列,最终识别出语音所对应的文字信息。 
本发明中的语音识别过程如图4所示,将数据处理后的音频作为输入,进行语音信号特征提取,步骤401。本发明所采用的处理格式是带有音调(Pitch)的PLP特征。同时,本发明使用语音分段模块(Segmentation)402处理,根据语音信号的波形特征和能量特征,将待输入的音频信号进行分类与分割,包括对语音与非语音的分类,语音信号中句的分割等,经过分段的语音信号将送入解码器406进行语音识别。本发明在语音识别中使用的声学模型(Acoustic Model)404采用经过聚类的三音素(tri-phone)模型,语言模型(Language Model)403采用基于词的三元和四元语言模型 (trigram/4-gram)。所述解码器406还参照引用词典(Word Lexicon)405进行解码处理;所述语音信号通过解码器(decoder)406识别后,经过后处理407产生含有语音内容文本信息和时间信息的脚本(Transcript)文件100。本发明使用语音识别后产生的脚本文件,进一步优化文本输出。 
本发明所述英文语音识别105的系统基本架构和中文语音识别系统是一致的,在此不再赘述。 
4.机器翻译 
本发明涉及将学术报告和教学课程视频中的英文语音内容转换为中文文本信息,这一转换过程是通过机器翻译(Machine Translation)模块106来完成的。本发明中的机器翻译采用统计机器翻译的方法(statistical MT),包括:双语文本规整(alignment),翻译模型,语言模型和翻译器(translator)。 
如图5所示,本发明的翻译模型是基于短语(phrase-based)的翻译模型503,训练时首先将源文本(英语)和对应的目标文本(中文)进行短语层次的分割501,并进行双语文本的规整502,语言模型505则是对目标语言文本504进行建模,和语音识别中的过程一致,而翻译器(translator)则是结合源短语到目标短语的概率,双语规整概率,以及语言模型概率,利用有限状态机(Finite state device)实现对源文本的搜索,即明码算法506,从而得到最优的翻译文本507。 
5.字幕自动生成与同步 
教学课程视频通过语音识别系统能够得到高识别准确率的脚本文件(Transcript),其中包含视频中的语音文本信息以及相对应的时间信息,即教学课程中演讲者的说话内容,和说话内容出现的时间信息。本发明根据语音识别系统所得到的脚本文件,提取相应的时间和内容信息,随后对提取的信息根据需要匹配的视频格式进行标准格式化处理成不同的字幕文件格式,用以匹配相应的视频播放。 
在本发明方法及系统中,如果教学课程视频中含有英文语音内容,那 么语音内容会首先通过英文语音识别105,随后进行机器翻译106,得到翻译后的中文内容的脚本文件。基于此步骤得到的脚本文件,本发明再将其生成为字幕文件,并实现与视频播放的同步。 
由于语音识别(ASR)系统难以达到100%的识别准确率,那么据其生成的字幕也必然难以做到100%正确,因此,本发明方法及系统还向用户提供了一个字幕编辑辅助软件,用以帮助用户能够修改自动生成字幕中的错误。该软件的主要功能包括:修改、添加、删除字幕内容中的错误信息;修改、添加、删除字幕时间信息中的错误信息。此外,本发明中的该字幕修正软件向用户提供了友善的修改界面,其中的字幕时间修改功能是基于波形(Waveform)信息的,即用户能够根据音频的波形信息来更好地进行时间修正。 
如图6所示,本发明方法中文语音识别后的脚本601或机器翻译后的中文脚本602通过提取内容与时间信息603,并且将对应的内容与时间信息重新格式转换为字幕文件格式604,比如:smi格式、srt格式等。这样的字幕格式,可以通过播放器,自动实现与视频文件播放时的同步。以WindowsMedia Player对学术报告和教学课程视频的播放为例,smi格式的字幕在其文件名与相应视频文件名相同情况下,Windows Media Player即可实现字幕与视频播放的同步。通过字幕格式转换604生成原始字幕文件606,可以选择性使用字幕修正软件进行字幕修正605,人工对字幕中的内容或时间信息错误进行修改和确认,并最终生成比较完善的字幕文件607。 
通过以上的步骤,本发明实现了字幕的自动生成与翻译,和字幕的自动同步功能。 
6.演示文稿自动同步 
本发明方法及系统以语音识别系统所得到高识别准确率的脚本文件(Transcript)为基础,通过与演示文稿中提取的文本信息进行匹配,进而实现了视频与演示文稿的同步播放。由于脚本文件中包含视频中的内容信 息以及相对应的时间信息,即教学课程中演讲者的说话内容,和说话内容出现的时间信息,因此本发明就通过将脚本文件中的文本内容与从演示文稿中提取的文本内容进行匹配计算,确定每张演讲文稿的时间间隔,实现了演示文稿与脚本文件的同步,也即实现了演示文稿的播放和视频播放的同步。 
如图7所示,本发明方法演示文稿自动同步过程,根据前述以生成的脚本文件100(包括中文语音识别后的脚本601和机器翻译后的中文脚本602)一方面进行内容提取脚本文件中的内容(步骤702),主要指演讲或教学视频中语音内容所对应的文本信息,另一方面,采用“PowerPoint Ap-plication Object”技术705,从PPT演示文稿704中提取出PPT格式演示文稿中的内容,主要指:演示文稿的页数,演示文稿中每一页上的正文内容、标题、副标题等信息。通过步骤702与步骤705所提取的内容,通过一个内容匹配计算703来得出每一张PPT格式演示文稿与视频内容的匹配程度。该内容匹配计算703是一个权值计算的过程,比如:PPT演示文稿中的标题相比其副标题具有更高的权值,副标题比正文的权值高等。权值计算的好处就在于,能够使得在进行匹配比较时有更强的针对性,演示文稿中的标题往往具有更高的导向信息,在与脚本文件中提取的信息匹配是能够有更强的指导信息。 
经过内容匹配计算703后,本发明方法及系统将生成一个演示文稿同步索引文件706。该文件的作用在于将视频播放中的时间信息与每一页演示文稿的播放时间联系了起来,即根据该文件,在教学课程视频播放的同时,演示文稿可以得到提示,确定在某个时间点需要放映哪张PPT演示文稿。通过上述步骤,本发明实现了演示文稿的播放和视频播放的同步。 
7.视频内容的自动故事分段 
为了实现视频内容的自动故事分段,本发明对视频中的所有语音内容进行检测,以得到教学课程视频中各个具有连续性的独立故事的边界。通 过对教学课程视频的声学信号特征进行处理,根据信噪比、说话间隔时间以及一些明显的提示词等信息对视频进行基于内容的分割。同时,针对语音文本内容进行分析,提取多层次词汇信息,构建多层次词汇链,将数据流分割成合理的片段。通过对声学特征的检测并结合词汇链的计算,本发明可以实现基于内容的自动视频分段。 
如图8所示,本发明方法及系统根据前述形成的脚本100,首先将视频中的全部语音文本内容读入,提取出其中的关键词(步骤802)。这其中,对关键词的定义主要是指全部内容中重复出现频率高的词、某一时间段内出现频率高的词等。随后对关键词进行聚类计算,并构建词汇链(步骤803);计算段内关键词的出现权重。另一方面,本发明从内容索引数据库中提取视频内容的全部时间信息,计算并找出明显的停顿边界(步骤804)。综合上述两步,关键词和词汇链分析(步骤803)和时间边界分析的时间停顿(步骤804),并在某些情况下考虑外部输入的相关视频内容大纲806,本发明进行内容分类的权重分析(步骤805),并生成一个内容分段索引文件807。该文件的作用在于将视频播放中的时间信息与故事分段信息联系了起来,即根据该文件,用户能够根据分段内容来选择相关视频的播放。 
8.内容索引存储 
本发明中通过语音识别(ASR)、机器翻译(Machine Translation)、演示文稿自动同步、自动故事分段等过程得到的视频信息,包括视频内容、故事分段起始时间、故事分段结束时间、每张演示文稿的对应时间关系等信息,通过XML节点(XML Inodes)形式进行描述,形成对基于内容的视频元数据描述,并将其存入XML数据库,对相应的教学课程视频内容建立XML索引和标识集合。 
本发明中的内容索引存储,即XML节点主要是对以下信息的元数据描述:通过中文语音识别所得到的视频的内容信息,即教学课程中说话人的语音信息所对应的文本内容,以及该文本内容在视频文件中的时间信息(包 括每个句子起始时间和结束时间);通过英文语音识别和机器翻译后得到的英文语音内容的英文文本信息和对应的中文文本信息;演示文稿自动同步处理后,演示文稿的同步信息;自动故事分段处理后的分段信息,即故事分段起始时间,故事分段结束时间等。 
9.基于内容的多媒体信息检索 
如图9所示,本发明方法及系统中的基于内容检索模块主要包括:元数据搜索处理902;倒排索引(Inverted Index)的建立和查询903;以及查询结果可视化表示906组成。 
首先元数据搜索902接受来自用户的查询请求(步骤901),一方面,查询倒排索引(Inverted Index)中记录的索引信息(步骤903),另一方面,通过XQuery查询接口与内容索引数据库904中的XML元数据相连。随后通过Xquery查询接口从以XML节点形式存储的内容索引数据库中查询出相应的信息。然后,通过查询结果可视化处理906将上一步查询到的元数据信息与视频数据库905中的内容配对,并将结果以可视化的形式传递给用户。这一可视化的查询结果返回主要包括用户查询请求的文本信息以及相对应的视频时间信息与定位。 
其中,倒排索引(Inverted Index)的建立与检索和元数据搜索两部分是本发明中基于内容检索系统的核心部分。元数据搜索部分是一个将视频内容关键字,视频内容等多媒体特征和高层语义特征相结合来确定权值的一个反馈搜索引擎,并使用反馈算法来优化搜索结果。该部分对内容索引数据库采用类似于SQL的XQuery查询语言。 
为了能够高效地实现对教学课程以及新闻等多媒体资源的自动处理以及检索,本发明融合了大规模连续语音识别技术、基于内容的多媒体信息索引和检索技术、自然语言理解和基于词汇链的故事分段,机器翻译技术等,提供了一套高效且可行的视频等多媒体内容的自动处理和在线管理系统。 
本发明所提供的功能主要包括:对教学课程进行数字化摄录和处理,自动对教学课程视频中的音频信息进行语音识别,并对英文内容进行识别并自动翻译;自动对教学课程视频生成字幕并同步播放,包括中文字幕或英文翻译后的中文字幕;自动对演示文稿进行和视频的同步播放;自动故事分段技术实现对教学课程视频的分段,并实现选择性视频播放;对教学课程的视频建立基于内容的索引,并提供基于内容的检索和内容精确定位;提供对教学视频/音频资料进行分类与管理的解决方案。 
基于高识别准确率的语音识别系统,本发明方法及系统首先极大减少了在视频、演示文稿等多媒体文件处理中人工操作过程,降低了人工处理的负荷和成本,比如避免人工听写和制作字幕,以及反复播放视频来进行字幕等信息的手工同步。 
利用计算机的高性能计算极大地提高了字幕等信息处理速度,减少了人工处理的参入程度,从而降低了制作成本,加快了视频制作的过程,提高了工作效率。 
此外,本发明方法及系统提供的基于内容的视频自动故事分段,实现了选择性地播放所需视频片断,极大地丰富了教学课程视频所提供的信息内容。而本发明方法及系统所提供的检索和定位基于视频文件的内容,因此,能够向用户提供更加准确和精细的定位与检索,而非仅仅只是对实现人工标注标签的匹配。所以,本发明可以对教学课程的视频提供更为丰富的信息服务和更深层次的信息挖掘,为用户提供优质的个性化在线学习方式。 
本发明方法及系统推广应用到新闻类视频的信息处理和在线管理等方面。与现有技术相比,本发明方法及系统有效节约了系统资源和处理时间,如图2所示的效果对比,资源消耗和处理时间的效率提高是数十倍的提高。 
应当理解的是,上述针对本发明较佳实施例的描述较为详细,对本领域技术人员来说,不能因此而认为是对本发明专利保护范围的限制,本发明的专利保护范围应以所附权利要求为准。 

Claims (9)

1.一种基于语音识别的多媒体资源处理方法,其包括以下步骤:
A、对音视频进行同步采集,并进行数据处理,将其中的音频文件处理成为可语音识别的格式;
B、对音频文件进行语音识别,生成脚本文件,并与视频文件进行中文字幕的自动生成与同步;所述对音频文件进行语音识别,生成脚本文件的步骤具体包括:
B1、对输入的音频进行语音信号特征提取;
B2、使用语音分段模块根据语音信号的波形特征和能量特征,将输入的音频信号进行分类与分割,并送入解码器进行语音识别;
B3、将含有语音内容文本信息和时间信息的内容形成脚本文件;
C、对视频文件进行内容索引,并对所述音频文件的脚本文件进行基于内容的自动故事分段,将所述脚本文件和视频文件进行匹配标注后存储到视频数据库中;所述的步骤C进一步包括:
建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配,确定各页演示文稿的播放时间,用于实现演示文稿与学术报告和教学课程视频的自动同步播放。
2.根据权利要求1所述的方法,其特征在于,所述步骤C还包括:
C1、对所述脚本文件抽取多层次的词汇信息进行自动故事分段;
C2、将所述脚本文件以XML节点形式存入XML数据库,对相应的教学课程视频内容建立XML索引和标识集合,用于基于内容的多媒体检索和定位。
3.根据权利要求2所述的方法,其特征在于,所述步骤C2还包括:通过使用倒排索引以及XQuery语法的查询,从所述XML数据库中检索得到结果,并对相应的视频文件进行操作。
4.根据权利要求1所述的方法,其特征在于,所述步骤B2还包括:
所述解码器在语音识别中所使用的声学模型,为经过聚类的三音素模型,语言模型为基于词的三元和四元语言模型。
5.根据权利要求1所述的方法,其特征在于,所述步骤B1中还包括:所提取的语音信号特征为带有音调的感知线性预测特征。
6.根据权利要求1所述的方法,其特征在于,语音识别包括中文语音识别和英文语音识别,当输入的语音为英文时,所述英文语音识别还包括机器翻译过程,具体包括:
B21、训练时将英文源文本和对应的中文目标文本进行短语层次的分割,并进行双语文本的规整;
B22、对中文目标文本进行建模,形成语言模型;
B23、结合源短语到目标短语的概率,双语规整概率,以及语言模型概率,利用有限状态机实现对源文本的搜索,得到翻译文本。
7.根据权利要求1所述的方法,其特征在于,对所述脚本文件还提供一字幕编辑辅助软件,用于用户修改自动生成字幕中的错误,其包括:修改、添加、删除字幕内容中的错误信息;修改、添加、删除字幕时间信息中的错误信息;以及对时间进行修正。
8.一种基于语音识别的多媒体资源处理的系统,其包括一数据采集模块,一数据处理模块,至少一语音识别模块,所述语音识别模块包括语音分段模块和解码器;其特征在于,还包括中文字幕自动生成与同步模块、基于内容的自动故事分段处理模块、基于内容的多媒体信息检索模块和演示文稿自动同步模块;
所述数据采集模块用于同步采集音视频;
所述数据处理模块用于将所述数据采集模块采集的视频和音频文件进行数据处理,将其中的音频文件处理成为可语音识别的格式,向所述识别模块提供标准的输入音频文件;
所述语音识别模块用于对输入的音频进行语音信号特征提取,使用语音分段模块根据语音信号的波形特征和能量特征,将输入的音频信号进行分类与分割,送入解码器进行语音识别,并将含有语音内容文本信息和时间信息的内容形成脚本文件;
一中文字幕自动生成与同步模块,用于对所述音视频文件进行同步标注,并存储到所述视频数据库;
一基于内容的自动故事分段处理模块,用于对所述音频文件的脚本文件进行基于内容的自动故事分段,将所述脚本文件和视频文件进行匹配标注;
一基于内容的多媒体信息检索模块,用于对经过标注的视频数据库进行检索使用;
一演示文稿自动同步模块,用于建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配,确定各页演示文稿的播放时间,用于实现演示文稿与学术报告和教学课程视频的自动同步播放。
9.根据权利要求8所述的系统,其特征在于,所述语音识别模块包括一中文语音识别系统和一英文语音识别系统,所述英文语音识别系统还连接一机器翻译模块,用于自动生成中文字幕。
CN2008100682537A 2008-07-01 2008-07-01 基于语音识别的多媒体资源处理方法及其在线教学系统 Active CN101382937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100682537A CN101382937B (zh) 2008-07-01 2008-07-01 基于语音识别的多媒体资源处理方法及其在线教学系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100682537A CN101382937B (zh) 2008-07-01 2008-07-01 基于语音识别的多媒体资源处理方法及其在线教学系统

Publications (2)

Publication Number Publication Date
CN101382937A CN101382937A (zh) 2009-03-11
CN101382937B true CN101382937B (zh) 2011-03-30

Family

ID=40462780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100682537A Active CN101382937B (zh) 2008-07-01 2008-07-01 基于语音识别的多媒体资源处理方法及其在线教学系统

Country Status (1)

Country Link
CN (1) CN101382937B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013091434A1 (zh) * 2011-12-23 2013-06-27 Liu Zhuochen 一种用于视频教学的智能交互系统

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739450B (zh) * 2009-11-26 2012-08-22 北京网梯科技发展有限公司 对视频中出现的信息进行检索的方法及系统
CN102074235B (zh) * 2010-12-20 2013-04-03 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN102752551A (zh) * 2011-08-26 2012-10-24 新奥特(北京)视频技术有限公司 一种非编系统中编辑管理唱词字幕的方法和装置
CN102591858B (zh) * 2011-11-11 2016-06-22 张生麟 一种机器翻译的方法和装置
CN103139635B (zh) * 2011-12-05 2016-09-07 英顺源(上海)科技有限公司 提供影像播放时的字幕翻译系统及其方法
CN102724598A (zh) * 2011-12-05 2012-10-10 新奥特(北京)视频技术有限公司 一种拆分新闻条目的方法
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN102663143A (zh) * 2012-05-18 2012-09-12 徐信 一种音视频语音处理与检索的系统和方法
CN103458321B (zh) * 2012-06-04 2016-08-17 联想(北京)有限公司 一种字幕加载方法及装置
CN102750366B (zh) * 2012-06-18 2015-05-27 海信集团有限公司 基于自然交互输入的视频搜索系统及方法
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103778131B (zh) * 2012-10-18 2017-02-22 腾讯科技(深圳)有限公司 字幕查询方法、查询装置、视频播放器及字幕查询服务器
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103136332B (zh) * 2013-01-28 2016-06-15 福州新锐同创电子科技有限公司 一种知识点制作、管理、检索的实现方法
US9786269B2 (en) * 2013-03-14 2017-10-10 Google Inc. Language modeling of complete language sequences
CN104301771A (zh) * 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN103559214B (zh) * 2013-10-11 2017-02-08 中国农业大学 视频自动生成方法及装置
CN103716655A (zh) * 2013-12-16 2014-04-09 乐视致新电子科技(天津)有限公司 一种字幕转换的方法和设备
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及系统
CN103761284B (zh) * 2014-01-13 2018-08-14 中国农业大学 一种视频检索方法和系统
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
CN104836963B (zh) * 2015-05-08 2018-09-14 广东欧珀移动通信有限公司 一种视频处理方法和装置
CN105159870B (zh) * 2015-06-26 2018-06-29 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN106454547B (zh) * 2015-08-11 2020-01-31 中国科学院声学研究所 一种实时字幕播出方法及系统
CN105635782A (zh) * 2015-12-28 2016-06-01 魅族科技(中国)有限公司 一种字幕输出方法及装置
CN105448148A (zh) * 2015-12-31 2016-03-30 天津浩之杉教育科技有限公司 一种远程教育移动终端
CN105895085B (zh) * 2016-03-30 2019-10-18 讯飞智元信息科技有限公司 一种多媒体转写方法和系统
CN105608938A (zh) * 2016-03-31 2016-05-25 李建民 一种语文学习平台系统及装置
CN106303695A (zh) * 2016-08-09 2017-01-04 北京东方嘉禾文化发展股份有限公司 音频翻译多语言文字处理方法和系统
KR102529262B1 (ko) * 2017-03-20 2023-05-08 삼성전자주식회사 전자 장치 및 제어 방법
WO2018174397A1 (ko) 2017-03-20 2018-09-27 삼성전자 주식회사 전자 장치 및 제어 방법
CN107040728B (zh) * 2017-04-11 2019-09-13 广东小天才科技有限公司 一种视频时间轴生成方法及装置、用户设备
JP6953825B2 (ja) * 2017-06-21 2021-10-27 カシオ計算機株式会社 データ送信方法、データ送信装置、及びプログラム
CN107316642A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 视频文件录制方法、音频文件录制方法及移动终端
CN108073715A (zh) * 2017-12-26 2018-05-25 运城学院 方言调查方法、系统
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN108366182B (zh) * 2018-02-13 2020-07-07 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN108366216A (zh) * 2018-02-28 2018-08-03 深圳市爱影互联文化传播有限公司 会议视频录制、记录及传播方法、装置及服务器
CN110300274B (zh) * 2018-03-21 2022-05-10 腾讯科技(深圳)有限公司 视频文件的录制方法、装置及存储介质
CN108735010A (zh) * 2018-04-29 2018-11-02 湖南城市学院 一种用于英语教学的智能型英语教学系统
CN108874904B (zh) * 2018-05-24 2022-04-29 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
CN108962220B (zh) * 2018-07-26 2021-03-09 北京小米移动软件有限公司 多媒体文件播放场景下的文本显示方法及装置
CN109246472A (zh) * 2018-08-01 2019-01-18 平安科技(深圳)有限公司 视频播放方法、装置、终端设备及存储介质
CN108961889A (zh) * 2018-08-06 2018-12-07 苏州承儒信息科技有限公司 一种基于信息熵改变度的教育系统
CN109275046B (zh) * 2018-08-21 2021-06-18 华中师范大学 一种基于双视频采集的教学数据标注方法
CN110889034A (zh) * 2018-09-07 2020-03-17 台达电子工业股份有限公司 数据分析方法及数据分析系统
CN109275009B (zh) * 2018-09-29 2021-10-19 安徽听见科技有限公司 一种控制音频与文本同步的方法及装置
CN109189766B (zh) * 2018-10-25 2021-11-12 重庆鲁班机器人技术研究院有限公司 教学方案获取方法、装置以及电子设备
CN109274915A (zh) * 2018-11-28 2019-01-25 广州讯立享智能科技有限公司 一种信息采集方法及装置
CN109597898A (zh) * 2018-11-28 2019-04-09 广州讯立享智能科技有限公司 一种信息检索方法及装置
CN110119513A (zh) * 2018-12-19 2019-08-13 吉林化工学院 一种基于大数据分析的远程日语教学交互系统及交互方法
CN109300472A (zh) * 2018-12-21 2019-02-01 深圳创维-Rgb电子有限公司 一种语音识别方法、装置、设备及介质
TWI780333B (zh) * 2019-06-03 2022-10-11 緯創資通股份有限公司 動態處理並播放多媒體內容的方法及多媒體播放裝置
CN110379224A (zh) * 2019-06-23 2019-10-25 陕西理工大学 一种智能数学媒体教学系统
CN110689770A (zh) * 2019-08-12 2020-01-14 合肥马道信息科技有限公司 一种在线课堂语音转写和翻译系统及其工作方法
CN110610444A (zh) * 2019-08-27 2019-12-24 格局商学教育科技(深圳)有限公司 一种基于直播教学云的后台数据管理系统
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
WO2021184333A1 (zh) * 2020-03-20 2021-09-23 华为技术有限公司 多媒体数据存储方法、装置、设备、存储介质及程序产品
CN111522971A (zh) * 2020-04-08 2020-08-11 广东小天才科技有限公司 一种直播教学中辅助用户听课的方法及装置
CN111629267B (zh) * 2020-04-30 2023-06-09 腾讯科技(深圳)有限公司 音频标注方法、装置、设备及计算机可读存储介质
CN111639233B (zh) * 2020-05-06 2024-05-17 广东小天才科技有限公司 学习视频字幕添加方法、装置、终端设备和存储介质
CN111898441B (zh) * 2020-06-30 2021-03-30 华中师范大学 一种在线课程视频资源内容识别与评估方法及智能系统
CN113990356B (zh) * 2020-07-13 2023-05-16 Tcl科技集团股份有限公司 一种图书生成方法、图书生成设备及存储介质
CN111866608B (zh) * 2020-08-05 2022-08-16 北京华盛互联科技有限公司 一种用于教学的视频播放方法、装置和系统
TWI747417B (zh) * 2020-08-05 2021-11-21 國立陽明交通大學 經由影音平台的網址而產生音訊字幕檔的方法
CN112232066A (zh) * 2020-10-16 2021-01-15 腾讯科技(北京)有限公司 一种教学纲要生成方法、装置、存储介质及电子设备
CN112860939B (zh) * 2021-02-19 2023-09-26 北京百度网讯科技有限公司 音视频数据处理方法、装置、设备和存储介质
CN113099312A (zh) * 2021-03-30 2021-07-09 深圳市多科特文化传媒有限公司 教学视频播放系统
CN113177394B (zh) * 2021-03-30 2023-12-12 何泽仪 海外视频教学资源转化系统及方法、电子设备及存储介质
CN113095204B (zh) * 2021-04-07 2022-09-02 中国工商银行股份有限公司 双录数据质检方法、装置及系统
CN112818275B (zh) * 2021-04-16 2021-07-13 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理系统
CN113704513B (zh) * 2021-07-27 2023-03-24 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
CN113506550B (zh) * 2021-07-29 2022-07-05 北京花兰德科技咨询服务有限公司 一种人工智能阅读显示器及显示方法
CN114495963A (zh) * 2022-01-28 2022-05-13 深圳市优必选科技股份有限公司 样本数据生成方法、装置、终端设备及可读存储介质
US11928145B1 (en) 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video
CN116916082B (zh) * 2023-09-12 2023-12-08 华光影像科技有限公司 一种影视制作界面切换系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013091434A1 (zh) * 2011-12-23 2013-06-27 Liu Zhuochen 一种用于视频教学的智能交互系统

Also Published As

Publication number Publication date
CN101382937A (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
US9066049B2 (en) Method and apparatus for processing scripts
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US8386265B2 (en) Language translation with emotion metadata
CN111968649A (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
US20110093263A1 (en) Automated Video Captioning
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
CN117216008A (zh) 一种基于知识图谱的档案多模态智能编纂方法及系统
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
González et al. An illustrated methodology for evaluating ASR systems
Saz et al. Lightly supervised alignment of subtitles on multi-genre broadcasts
Nouza et al. Large-scale processing, indexing and search system for Czech audio-visual cultural heritage archives
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
Žgank et al. The SI TEDx-UM speech database: A new Slovenian spoken language resource
Gareshma et al. Interactive Audio Indexing and Speech Recognition based Navigation Assist Tool for Tutoring Videos
Heeren et al. Easy listening: Spoken document retrieval in choral
Altememi et al. A Comparative Study for Speech Summarization Based on Machine Learning: A Survey
CN118779486A (zh) 一种基于文本提示词的语音内容检索方法、设备及计算机可读存储介质
Lyu et al. Cross-lingual audio-to-text alignment for multimedia content management
CN118069805A (zh) 基于语音和文本协同的智能问答方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant