CN101382937B

CN101382937B - 基于语音识别的多媒体资源处理方法及其在线教学系统

Info

Publication number: CN101382937B
Application number: CN2008100682537A
Authority: CN
Inventors: 王岚; 邵阳
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2011-03-30
Anticipated expiration: 2028-07-01
Also published as: CN101382937A

Abstract

本发明公开了一种基于语音识别的多媒体资源处理方法及其在线教学系统，其方法包括：对音视频进行同步采集，并进行数据处理，将其中的音频文件处理成为可语音识别的格式；对音频文件进行语音识别，生成脚本文件，并与所述视频文件进行中文字幕的自动生成与同步；对视频文件进行内容索引，并对所述音频文件的脚本文件进行基于内容的自动故事分段，匹配标注后存储到视频数据库中。本发明方法及系统由于采用了多媒体资源自动处理技术，利用计算机的高性能计算极大地提高了字幕等信息处理速度，减少了人工处理的参入程度，从而加快了视频制作的过程，提高了工作效率。

Description

基于语音识别的多媒体资源处理方法及其在线教学系统

技术领域

本发明涉及一种多媒体自动处理方法及系统，尤其涉及的是一种针对教学课程相关的大量视频等多媒体文件进行自动处理和在线管理的方法及系统。

背景技术

现有技术中，随着多媒体技术的急速发展，大量的教学课程以多媒体的形式呈现，包括摄录下来的教学课程视频，相关演示文稿等等，平均每小时的教学视频饱含上万字的文本内容。

面对如此海量的多媒体信息，多数在线教学网站仍然采用人工手动方式，即利用大量的高级打字员对视频文件等多媒体资料进行字幕制作，同步演示文稿等工作。这种建立在人工聆听和收看基础上的操作，是一种原始的人工处理方式，需要耗费大量的资源和处理时间，提供的在线服务缓慢、低效。

此外，手工方式建立的索引和标注，只能对视频进行粗略的分类和匹配，难以实现有效的视频内容检索和精确定位。

另一方面，目前大规模连续语音识别技术(Large Vocabulary ContinuousSpeech Recognition，简称LVCSR)技术也趋近成熟，针对朗读方式的非特定人连续语音识别率可以达到90％以上；基于内容的多媒体信息索引和检索技术则可以根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索，在没有人工介入的情况下能自动识别或理解媒体内容，并对其进行索引和检索；机器翻译(Machine Translation)技术则提供了根据统计模型来实现较高质量自动翻译的功能。

现有技术中，有部分专利针对教学领域的应用和问题提出了一些解决方法，如：中国专利号“200610116585.9”，专利名称“电子课堂互动教学平台系统”，在该专利申请公开文献中，发明人提出了一种基于网络的电子课堂系统，实现对教学资源的管理等功能。但是，该系统对教学中多媒体资源的管理方式依然是人工处理的方法，处理效率非常低，在线服务非常缓慢。

又如：中国专利号“03142208.X”，专利名称“基于MPEG-7的远程教学领域的流媒体检索系统”，在该专利申请公开文献中，发明人提出了一种通过抽取特征值方法来对视频进行标注，并继而提供查询的方法。但是，该系统也存在诸多问题，包括：支持的视频格式单一；特征值抽取的准确率较低，对人工半自动标注的需求较多；未将远程教学中的其他多媒体内容，如演示文稿等进行整合处理；对远程教学中所需的功能支持比较单一。

但是，目前能够有效针对远程教学中的实际功能需求，同时交叉融合应用语音识别、多媒体检索等上述技术的教学课程多媒体管理系统仍然还是空白。

现有技术还有待于改进和发展。

发明内容

本发明的目的在于提供一种基于语音识别的多媒体资源处理方法及系统，主要针对教学课程的多媒体资源进行高效和自动处理，多媒体资源包括数字化视频，以及相关演示文稿，字幕等，本发明方法所涉及的多媒体资源自动处理技术可以为教学课程数字化、网络化提供最有力的技术支持，可以在此基础上构建快速、高效、海量信息的在线学习(远程教育)网站。

本发明的技术方案包括：

一种基于语音识别的多媒体资源处理方法，其包括以下步骤：

A、对音视频进行同步采集，并进行数据处理，将其中的音频文件处理成为可语音识别的格式；

B、对音频文件进行语音识别，生成脚本文件，并与视频文件进行中文字幕的自动生成与同步；所述对音频文件进行语音识别，生成脚本文件的步骤具体包括：B1、对输入的音频进行语音信号特征提取；B2、使用语音分段模块根据语音信号的波形特征和能量特征，将输入的音频信号进行分类与分割，并送入解码器进行语音识别；B3、将含有语音内容文本信息和时间信息的内容形成脚本文件；

C、对视频文件进行内容索引，并对所述音频文件的脚本文件进行基于内容的自动故事分段，将所述脚本文件和视频文件进行匹配标注后存储到视频数据库中；所述的步骤C进一步包括：建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配，确定各页演示文稿的播放时间，用于实现演示文稿与学术报告和教学课程视频的自动同步播放。

所述的方法，其中，所述步骤C还包括：

C1、对所述脚本文件抽取多层次的词汇信息进行自动故事分段；

C2、将所述脚本文件以XML节点形式存入XML数据库，对相应的教学课程视频内容建立XML索引和标识集合，用于基于内容的多媒体检索和定位。

所述的方法，其中，所述步骤C2还包括：通过使用倒排索引以及XQuery语法的查询，从所述XML数据库中检索得到结果，并对相应的视频文件进行操作。

所述的方法，其中，所述步骤B的语音识别包括：

中文语音识别系统和英文语音识别系统；其中文/英文的语音识别过程包括：

B1、对输入的音频进行语音信号特征提取；

B2、使用语音分段模块根据语音信号的波形特征和能量特征，将输入的音频信号进行分类与分割，并送入解码器进行语音识别；

B3、将含有语音内容文本信息和时间信息的内容形成脚本文件。

所述的方法，其中，所述步骤B2还包括：

所述解码器在语音识别中所使用的声学模型，为经过聚类的三音素模型，语言模型为基于词的三元和四元语言模型。

所述的方法，其中，所述步骤B1中还包括：所提取的语音信号特征为带有音调的感知线性预测特征。

所述的方法，其中，语音识别包括中文语音识别和英文语音识别，当输入的语音为英文时，所述英文语音识别还包括机器翻译过程，具体包括：

B21、训练时将英文源文本和对应的中文目标文本进行短语层次的分割，并进行双语文本的规整；

B22、对中文目标文本进行建模，形成语言模型；

B23、结合源短语到目标短语的概率，双语规整概率，以及语言模型概率，利用有限状态机实现对源文本的搜索，得到翻译文本。

所述的方法，其中，对所述脚本文件还提供一字幕编辑辅助软件，用于用户修改自动生成字幕中的错误，其包括：修改、添加、删除字幕内容中的错误信息；修改、添加、删除字幕时间信息中的错误信息；以及对时间进行修正。

一种基于语音识别的多媒体资源处理的系统，其包括一数据采集模块，一数据处理模块，至少一语音识别模块，所述语音识别模块包括语音分段模块和解码器；其中，还包括中文字幕自动生成与同步模块、基于内容的自动故事分段处理模块、基于内容的多媒体信息检索模块和演示文稿自动同步模块；

所述数据采集模块用于同步采集音视频；所述数据处理模块用于将所述数据采集模块采集的视频和音频文件进行数据处理，将其中的音频文件处理成为可语音识别的格式，向所述识别模块提供标准的输入音频文件；所述语音识别模块用于对输入的音频进行语音信号特征提取，使用语音分段模块根据语音信号的波形特征和能量特征，将输入的音频信号进行分类与分割，送入解码器进行语音识别，并将含有语音内容文本信息和时间信息的内容形成脚本文件；

一中文字幕自动生成与同步模块，用于对所述音视频文件进行同步标注，并存储到视频数据库；一基于内容的自动故事分段处理模块，用于对所述音频文件的脚本文件进行基于内容的自动故事分段，将所述脚本文件和视频文件进行匹配标注；一基于内容的多媒体信息检索模块，用于对经过标注的视频数据库进行检索使用；一演示文稿自动同步模块，用于建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配，确定各页演示文稿的播放时间，用于实现演示文稿与学术报告和教学课程视频的自动同步播放。

所述的系统，其中，所述语音识别模块包括一中文语音识别系统和一英文语音识别系统，所述英文语音识别系统还连接一机器翻译模块，用于自动生成中文字幕。

本发明所提供的一种基于语音识别的多媒体资源处理方法及系统，由于采用了多媒体资源自动处理技术，利用计算机的高性能计算极大地提高了字幕等信息处理速度，减少了人工处理的参入程度，从而降低了制作成本，加快了视频制作的过程，提高了工作效率，可以为构建快速、高效、海量信息的在线学习(远程教育)网站提供最有力的技术支持。

附图说明

图1为本发明基于语音识别的多媒体资源处理在线教学系统的框架示意图；

图2为本发明系统处理时间对比图；

图3为本发明方法中数据处理部分的系统流程图；

图4为本发明方法及系统中语音识别模块的系统流程图；

图5为本发明方法及系统中机器翻译的系统流程图；

图6为本发明方法及系统中字幕自动生成与同步的处理流程图；

图7为本发明中演示文稿自动同步的处理流程图；

图8为本发明方法及系统中自动故事分段流程图；

图9为本发明方法及系统中基于内容的信息检索的处理流程图。

具体实施方式

下面结合附图，将对本发明优选实施例进行详细说明，但其说明仅是示范性的，并不能用于对本发明专利保护范围进行限定。

本发明所述基于语音识别的多媒体资源处理方法及其在线教学系统采用了多媒体资源自动处理技术，可以为构建快速、高效、海量信息的在线学习(远程教育)网站提供最有力的技术支持。本发明方法基于高识别准确率的语音识别系统，通过对教学课程进行数字化摄录和处理，自动对教学课程视频中的音频信息进行语音识别，并对英文内容进行识别和自动翻译；自动对教学课程视频生成字幕并同步播放，包括中文字幕或英文翻译后的中文字幕；自动对演示文稿进行和视频的同步播放；基于视频内容的自动故事分段技术实现对教学课程视频的分段，并实现选择性视频播放；对教学课程的视频建立基于内容的索引，并提供基于内容的检索和内容精确定位。

本发明方法及系统主要涉及了语音信息、信息检索、字幕制作、演示文稿、机器翻译、数据存储和管理等领域，包括中文/英文的大规模连续语音识别技术，基于内容的多媒体信息索引和检索技术，基于自然语言理解的自动故事分段技术，字幕、演示文稿与视频内容的自动同步技术，机器翻译技术，以及内容索引的存储和数据库技术等。

如图1所示，本发明的整体系统结构主要包括以下几个模块：数据采集模块102，数据处理模块103，语音识别模块104和105，机器翻译模块106，包括自动故事分段109、字幕生成与同步108、演示文稿自动同步107、基于内容的多媒体信息检索112的应用程序113，内容索引存储110，经过标注的视频数据库111等。其中，本发明的核心部分是高识别准确率的中文/英文语音识别系统。

本发明方法及系统首先对教学课程现场101的内容通过数据采集模块102进行视频信息采集处理，所述数据采集模块102是一个标准且带有规范的数据采集过程，将在下述内容中进行详细阐述。通过所述数据采集模块102采集的视频和音频文件，将通过所述数据处理模块103进行数据处理，该处理过程的目的主要是为了向语音识别模块104和105部分发送可识别音频文件，即向中文/英文语音识别系统提供标准的输入音频文件。其中，通过英文语音识别模块105的所得到的英文脚本(Transcript)文件将经过机器翻译模块106处理，并可生成相对应的翻译为中文的脚本(Transcript)。经过语音识别模块104和105、机器翻译模块106所产生的脚本文件带有相应视频/音频文件的时间信息和内容，该语音识别系统分别建立中文和英文的声学模型(Acoustic Model)和语言学模型(Language Model)用于语音识别。

本发明方法根据语音识别与机器翻译后得到的脚本文件(Transcript)，一方面，本发明将该脚本文件通过中文字幕自动生成与同步模块108制作成为字幕文件，实现了对教学课程视频的字幕制作与同步。需要注意的是，其中的英文语音内容已事先通过机器翻译模块106的自动翻译，通过自动翻译并生成了中文字幕。

同时，本发明将所生成脚本文件中的关键字与演示文稿中的关键字进行匹配，确定每张演示文稿的时间间隔，即演示文稿自动同步107的处理，从而实现了演示文稿与学术报告和教学课程视频的自动同步播放。而且，本发明方法对脚本文件抽取多层次的词汇信息进行自动故事分割，确定了各个视频分段的时间间隔，通过基于内容的自动故事分段109实现了基于内容的视频分段播放。

另一方面，本发明方法及系统还对脚本文件(Transcript)以进行内容索引存储到一内容索引存储模块110中。本发明所采用的内容索引存储方式可采用XML存储形式，脚本文件中的信息，包括内容文本信息、时间信息等，以XML(XML Inodes)节点形式可存入XML数据库，对相应的学术报告和教学课程视频内容建立XML索引和标识集合。这样通过使用XQuery语法的查询，从特征信息数据库中就可以检索得到结果，并对相应的视频文件进行操作，从而实现基于内容的多媒体检索和定位112。

其中，所述演示文稿同步模块107、中文字幕自动生成与同步模块108、基于内容的多媒体检索和定位模块112、自动故事分段模块109共同构成了面向用户的整个应用程序113。该应用程序113作为本发明方法及系统的主要部分，向用户114可提供了在观看学术报告和教学课程视频同时，字幕和演示文稿与相应视频的同步显示过程。此外，用户114还可通过应用程序113对教学视频进行基于内容的分段学习和检索，以及对视频的自动分类与管理。

以下分别对本发明的各个子系统做进一步的说明。

1.数据采集

本发明方法及系统的数据采集过程主要由两部分的数据采集所组成，一是教学课程视频，包括相对应的音频；二是在难以获得视频的情况下，采集教学课程的音频。针对视频与音频的同步采集，本发明方法及系统可采用如下的形式：一方面，利用数码摄像机或云台恒速摄像机等视频采集设备对教学课程进行视频信息的采集，并存储通用视频编码格式，如MPEG-4等；另一方面，采用外接录音麦克风的形式，与视频采集的摄像机同步采集高质量的相应的音频信息。这样做的目的是向语音识别(ASR)系统提供高质量的音频处理文件，也就是高信噪比的音频文件，用以在语音识别模块能够得到更高的识别准确率。在视频难以采集的情况下，本发明将采用录音麦克风单独采集教学课程的音频文件。

2.数据处理

本发明方法及系统针对不同的数据输入采取了相应的不同处理步骤，由于分别存在视频与音频两种数据形式，因此采取了两种处理方式。如图3所示，对输入文件，首先进行格式检查，然后根据不同结果来进行处理。如为视频文件，则先将视频文件中的音频文件提取出来，随后针对不同的音频来源采取不同的解码方式。通过音频解码与规整后，各种不同来源的音频都被统一成一种格式，该格式的音频均为单声道，具有相同的文件编码格式，相同的采样率和采样位数，且只包含有数字化音频本身的信息。利用统一规整后的音频作为语音识别(ASR)的输入音频，有利于语音识别模块的特征值提取(Feature Parameterization)操作，并且是达到语音识别高准确率的重要保证。

3.语音识别(ASR)

高识别准确率的语音识别系统(Automatic Speech Recognition简称ASR)是本发明的核心部分，该语音识别(ASR)系统采用基于Linux的C语言进行开发，其声学模型(Acoustic Model)采用新闻类和访谈类语音数据进行训练，语言模型(Language Model)采用新闻类数据以及网络上收集的大量学术报告和教学课程类数据进行训练。测试表明，本发明中的语音识别系统针对朗读方式的大词汇量非特定人连续语音识别的字识别准确率达到90％以上。

本发明方法中，如图4所示，中文语音识别的基本流程如下：输入音频首先进行语音信号特征提取，本发明采用带音调(Pitch)的PLP(PerceptualLinear Predictive，感知线性预测)特征参数，包括能量以及差分特征等。声学模型采用基于HMM(隐马尔可夫模型)的统计模型。每个HMM可以表征语音信号的基本音素单元，多个音素的HMM串行起来构成一个词的HMM。采用词典(Lexicon)来表征每个单词对应的发音和音素序列。利用大量文本信息建立语言模型，通过估计相关词汇的出现概率提供语言模型分数，并结合声学模型分数在识别网络中搜索最优音素序列，最终识别出语音所对应的文字信息。

本发明中的语音识别过程如图4所示，将数据处理后的音频作为输入，进行语音信号特征提取，步骤401。本发明所采用的处理格式是带有音调(Pitch)的PLP特征。同时，本发明使用语音分段模块(Segmentation)402处理，根据语音信号的波形特征和能量特征，将待输入的音频信号进行分类与分割，包括对语音与非语音的分类，语音信号中句的分割等，经过分段的语音信号将送入解码器406进行语音识别。本发明在语音识别中使用的声学模型(Acoustic Model)404采用经过聚类的三音素(tri-phone)模型，语言模型(Language Model)403采用基于词的三元和四元语言模型 (trigram/4-gram)。所述解码器406还参照引用词典(Word Lexicon)405进行解码处理；所述语音信号通过解码器(decoder)406识别后，经过后处理407产生含有语音内容文本信息和时间信息的脚本(Transcript)文件100。本发明使用语音识别后产生的脚本文件，进一步优化文本输出。

本发明所述英文语音识别105的系统基本架构和中文语音识别系统是一致的，在此不再赘述。

4.机器翻译

本发明涉及将学术报告和教学课程视频中的英文语音内容转换为中文文本信息，这一转换过程是通过机器翻译(Machine Translation)模块106来完成的。本发明中的机器翻译采用统计机器翻译的方法(statistical MT)，包括：双语文本规整(alignment)，翻译模型，语言模型和翻译器(translator)。

如图5所示，本发明的翻译模型是基于短语(phrase-based)的翻译模型503，训练时首先将源文本(英语)和对应的目标文本(中文)进行短语层次的分割501，并进行双语文本的规整502，语言模型505则是对目标语言文本504进行建模，和语音识别中的过程一致，而翻译器(translator)则是结合源短语到目标短语的概率，双语规整概率，以及语言模型概率，利用有限状态机(Finite state device)实现对源文本的搜索，即明码算法506，从而得到最优的翻译文本507。

5.字幕自动生成与同步

教学课程视频通过语音识别系统能够得到高识别准确率的脚本文件(Transcript)，其中包含视频中的语音文本信息以及相对应的时间信息，即教学课程中演讲者的说话内容，和说话内容出现的时间信息。本发明根据语音识别系统所得到的脚本文件，提取相应的时间和内容信息，随后对提取的信息根据需要匹配的视频格式进行标准格式化处理成不同的字幕文件格式，用以匹配相应的视频播放。

在本发明方法及系统中，如果教学课程视频中含有英文语音内容，那么语音内容会首先通过英文语音识别105，随后进行机器翻译106，得到翻译后的中文内容的脚本文件。基于此步骤得到的脚本文件，本发明再将其生成为字幕文件，并实现与视频播放的同步。

由于语音识别(ASR)系统难以达到100％的识别准确率，那么据其生成的字幕也必然难以做到100％正确，因此，本发明方法及系统还向用户提供了一个字幕编辑辅助软件，用以帮助用户能够修改自动生成字幕中的错误。该软件的主要功能包括：修改、添加、删除字幕内容中的错误信息；修改、添加、删除字幕时间信息中的错误信息。此外，本发明中的该字幕修正软件向用户提供了友善的修改界面，其中的字幕时间修改功能是基于波形(Waveform)信息的，即用户能够根据音频的波形信息来更好地进行时间修正。

如图6所示，本发明方法中文语音识别后的脚本601或机器翻译后的中文脚本602通过提取内容与时间信息603，并且将对应的内容与时间信息重新格式转换为字幕文件格式604，比如：smi格式、srt格式等。这样的字幕格式，可以通过播放器，自动实现与视频文件播放时的同步。以WindowsMedia Player对学术报告和教学课程视频的播放为例，smi格式的字幕在其文件名与相应视频文件名相同情况下，Windows Media Player即可实现字幕与视频播放的同步。通过字幕格式转换604生成原始字幕文件606，可以选择性使用字幕修正软件进行字幕修正605，人工对字幕中的内容或时间信息错误进行修改和确认，并最终生成比较完善的字幕文件607。

通过以上的步骤，本发明实现了字幕的自动生成与翻译，和字幕的自动同步功能。

6.演示文稿自动同步

本发明方法及系统以语音识别系统所得到高识别准确率的脚本文件(Transcript)为基础，通过与演示文稿中提取的文本信息进行匹配，进而实现了视频与演示文稿的同步播放。由于脚本文件中包含视频中的内容信息以及相对应的时间信息，即教学课程中演讲者的说话内容，和说话内容出现的时间信息，因此本发明就通过将脚本文件中的文本内容与从演示文稿中提取的文本内容进行匹配计算，确定每张演讲文稿的时间间隔，实现了演示文稿与脚本文件的同步，也即实现了演示文稿的播放和视频播放的同步。

如图7所示，本发明方法演示文稿自动同步过程，根据前述以生成的脚本文件100(包括中文语音识别后的脚本601和机器翻译后的中文脚本602)一方面进行内容提取脚本文件中的内容(步骤702)，主要指演讲或教学视频中语音内容所对应的文本信息，另一方面，采用“PowerPoint Ap-plication Object”技术705，从PPT演示文稿704中提取出PPT格式演示文稿中的内容，主要指：演示文稿的页数，演示文稿中每一页上的正文内容、标题、副标题等信息。通过步骤702与步骤705所提取的内容，通过一个内容匹配计算703来得出每一张PPT格式演示文稿与视频内容的匹配程度。该内容匹配计算703是一个权值计算的过程，比如：PPT演示文稿中的标题相比其副标题具有更高的权值，副标题比正文的权值高等。权值计算的好处就在于，能够使得在进行匹配比较时有更强的针对性，演示文稿中的标题往往具有更高的导向信息，在与脚本文件中提取的信息匹配是能够有更强的指导信息。

经过内容匹配计算703后，本发明方法及系统将生成一个演示文稿同步索引文件706。该文件的作用在于将视频播放中的时间信息与每一页演示文稿的播放时间联系了起来，即根据该文件，在教学课程视频播放的同时，演示文稿可以得到提示，确定在某个时间点需要放映哪张PPT演示文稿。通过上述步骤，本发明实现了演示文稿的播放和视频播放的同步。

7.视频内容的自动故事分段

为了实现视频内容的自动故事分段，本发明对视频中的所有语音内容进行检测，以得到教学课程视频中各个具有连续性的独立故事的边界。通过对教学课程视频的声学信号特征进行处理，根据信噪比、说话间隔时间以及一些明显的提示词等信息对视频进行基于内容的分割。同时，针对语音文本内容进行分析，提取多层次词汇信息，构建多层次词汇链，将数据流分割成合理的片段。通过对声学特征的检测并结合词汇链的计算，本发明可以实现基于内容的自动视频分段。

如图8所示，本发明方法及系统根据前述形成的脚本100，首先将视频中的全部语音文本内容读入，提取出其中的关键词(步骤802)。这其中，对关键词的定义主要是指全部内容中重复出现频率高的词、某一时间段内出现频率高的词等。随后对关键词进行聚类计算，并构建词汇链(步骤803)；计算段内关键词的出现权重。另一方面，本发明从内容索引数据库中提取视频内容的全部时间信息，计算并找出明显的停顿边界(步骤804)。综合上述两步，关键词和词汇链分析(步骤803)和时间边界分析的时间停顿(步骤804)，并在某些情况下考虑外部输入的相关视频内容大纲806，本发明进行内容分类的权重分析(步骤805)，并生成一个内容分段索引文件807。该文件的作用在于将视频播放中的时间信息与故事分段信息联系了起来，即根据该文件，用户能够根据分段内容来选择相关视频的播放。

8.内容索引存储

本发明中通过语音识别(ASR)、机器翻译(Machine Translation)、演示文稿自动同步、自动故事分段等过程得到的视频信息，包括视频内容、故事分段起始时间、故事分段结束时间、每张演示文稿的对应时间关系等信息，通过XML节点(XML Inodes)形式进行描述，形成对基于内容的视频元数据描述，并将其存入XML数据库，对相应的教学课程视频内容建立XML索引和标识集合。

本发明中的内容索引存储，即XML节点主要是对以下信息的元数据描述：通过中文语音识别所得到的视频的内容信息，即教学课程中说话人的语音信息所对应的文本内容，以及该文本内容在视频文件中的时间信息(包括每个句子起始时间和结束时间)；通过英文语音识别和机器翻译后得到的英文语音内容的英文文本信息和对应的中文文本信息；演示文稿自动同步处理后，演示文稿的同步信息；自动故事分段处理后的分段信息，即故事分段起始时间，故事分段结束时间等。

9.基于内容的多媒体信息检索

如图9所示，本发明方法及系统中的基于内容检索模块主要包括：元数据搜索处理902；倒排索引(Inverted Index)的建立和查询903；以及查询结果可视化表示906组成。

首先元数据搜索902接受来自用户的查询请求(步骤901)，一方面，查询倒排索引(Inverted Index)中记录的索引信息(步骤903)，另一方面，通过XQuery查询接口与内容索引数据库904中的XML元数据相连。随后通过Xquery查询接口从以XML节点形式存储的内容索引数据库中查询出相应的信息。然后，通过查询结果可视化处理906将上一步查询到的元数据信息与视频数据库905中的内容配对，并将结果以可视化的形式传递给用户。这一可视化的查询结果返回主要包括用户查询请求的文本信息以及相对应的视频时间信息与定位。

其中，倒排索引(Inverted Index)的建立与检索和元数据搜索两部分是本发明中基于内容检索系统的核心部分。元数据搜索部分是一个将视频内容关键字，视频内容等多媒体特征和高层语义特征相结合来确定权值的一个反馈搜索引擎，并使用反馈算法来优化搜索结果。该部分对内容索引数据库采用类似于SQL的XQuery查询语言。

为了能够高效地实现对教学课程以及新闻等多媒体资源的自动处理以及检索，本发明融合了大规模连续语音识别技术、基于内容的多媒体信息索引和检索技术、自然语言理解和基于词汇链的故事分段，机器翻译技术等，提供了一套高效且可行的视频等多媒体内容的自动处理和在线管理系统。

本发明所提供的功能主要包括：对教学课程进行数字化摄录和处理，自动对教学课程视频中的音频信息进行语音识别，并对英文内容进行识别并自动翻译；自动对教学课程视频生成字幕并同步播放，包括中文字幕或英文翻译后的中文字幕；自动对演示文稿进行和视频的同步播放；自动故事分段技术实现对教学课程视频的分段，并实现选择性视频播放；对教学课程的视频建立基于内容的索引，并提供基于内容的检索和内容精确定位；提供对教学视频/音频资料进行分类与管理的解决方案。

基于高识别准确率的语音识别系统，本发明方法及系统首先极大减少了在视频、演示文稿等多媒体文件处理中人工操作过程，降低了人工处理的负荷和成本，比如避免人工听写和制作字幕，以及反复播放视频来进行字幕等信息的手工同步。

利用计算机的高性能计算极大地提高了字幕等信息处理速度，减少了人工处理的参入程度，从而降低了制作成本，加快了视频制作的过程，提高了工作效率。

此外，本发明方法及系统提供的基于内容的视频自动故事分段，实现了选择性地播放所需视频片断，极大地丰富了教学课程视频所提供的信息内容。而本发明方法及系统所提供的检索和定位基于视频文件的内容，因此，能够向用户提供更加准确和精细的定位与检索，而非仅仅只是对实现人工标注标签的匹配。所以，本发明可以对教学课程的视频提供更为丰富的信息服务和更深层次的信息挖掘，为用户提供优质的个性化在线学习方式。

本发明方法及系统推广应用到新闻类视频的信息处理和在线管理等方面。与现有技术相比，本发明方法及系统有效节约了系统资源和处理时间，如图2所示的效果对比，资源消耗和处理时间的效率提高是数十倍的提高。

应当理解的是，上述针对本发明较佳实施例的描述较为详细，对本领域技术人员来说，不能因此而认为是对本发明专利保护范围的限制，本发明的专利保护范围应以所附权利要求为准。

Claims

1.一种基于语音识别的多媒体资源处理方法，其包括以下步骤：

B、对音频文件进行语音识别，生成脚本文件，并与视频文件进行中文字幕的自动生成与同步；所述对音频文件进行语音识别，生成脚本文件的步骤具体包括：

B1、对输入的音频进行语音信号特征提取；

B3、将含有语音内容文本信息和时间信息的内容形成脚本文件；

C、对视频文件进行内容索引，并对所述音频文件的脚本文件进行基于内容的自动故事分段，将所述脚本文件和视频文件进行匹配标注后存储到视频数据库中；所述的步骤C进一步包括：

建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配，确定各页演示文稿的播放时间，用于实现演示文稿与学术报告和教学课程视频的自动同步播放。

2.根据权利要求1所述的方法，其特征在于，所述步骤C还包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤C2还包括：通过使用倒排索引以及XQuery语法的查询，从所述XML数据库中检索得到结果，并对相应的视频文件进行操作。

4.根据权利要求1所述的方法，其特征在于，所述步骤B2还包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤B1中还包括：所提取的语音信号特征为带有音调的感知线性预测特征。

6.根据权利要求1所述的方法，其特征在于，语音识别包括中文语音识别和英文语音识别，当输入的语音为英文时，所述英文语音识别还包括机器翻译过程，具体包括：

B22、对中文目标文本进行建模，形成语言模型；

7.根据权利要求1所述的方法，其特征在于，对所述脚本文件还提供一字幕编辑辅助软件，用于用户修改自动生成字幕中的错误，其包括：修改、添加、删除字幕内容中的错误信息；修改、添加、删除字幕时间信息中的错误信息；以及对时间进行修正。

8.一种基于语音识别的多媒体资源处理的系统，其包括一数据采集模块，一数据处理模块，至少一语音识别模块，所述语音识别模块包括语音分段模块和解码器；其特征在于，还包括中文字幕自动生成与同步模块、基于内容的自动故事分段处理模块、基于内容的多媒体信息检索模块和演示文稿自动同步模块；

所述数据采集模块用于同步采集音视频；

所述数据处理模块用于将所述数据采集模块采集的视频和音频文件进行数据处理，将其中的音频文件处理成为可语音识别的格式，向所述识别模块提供标准的输入音频文件；

所述语音识别模块用于对输入的音频进行语音信号特征提取，使用语音分段模块根据语音信号的波形特征和能量特征，将输入的音频信号进行分类与分割，送入解码器进行语音识别，并将含有语音内容文本信息和时间信息的内容形成脚本文件；

一中文字幕自动生成与同步模块，用于对所述音视频文件进行同步标注，并存储到所述视频数据库；

一基于内容的自动故事分段处理模块，用于对所述音频文件的脚本文件进行基于内容的自动故事分段，将所述脚本文件和视频文件进行匹配标注；

一基于内容的多媒体信息检索模块，用于对经过标注的视频数据库进行检索使用；

一演示文稿自动同步模块，用于建立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配，确定各页演示文稿的播放时间，用于实现演示文稿与学术报告和教学课程视频的自动同步播放。

9.根据权利要求8所述的系统，其特征在于，所述语音识别模块包括一中文语音识别系统和一英文语音识别系统，所述英文语音识别系统还连接一机器翻译模块，用于自动生成中文字幕。