CN103956166A

CN103956166A - 一种基于语音关键词识别的多媒体课件检索系统

Info

Publication number: CN103956166A
Application number: CN201410226775.0A
Authority: CN
Inventors: 李冬冬; 江海慧; 李飞标; 陈志华; 何嘉翔
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-07-30

Abstract

本发明提供了一种基于语音关键词识别的多媒体课件检索系统，首先后台根据预先提供的文本知识点，将其转化成语音模型，使用基于隐式马尔科夫模型的语音识别技术对课件进行标注，定位到知识点在多媒体课件中的确切位置；在索引模块构建和维护基于关键词的倒排索引；用户在提示框中输入文本关键词查询时，若关键词已预标注则提取索引中的结果显示给用户，若关键词未预标注，系统对课件进行实时检索，并等待用户对结果反馈并统计反馈信息；进行关键词自适应训练，对课件重标注并更新索引。相较于传统的网络课程学习方式系统，本发明的课件检索系统能达到快速查找并定位知识点关键词，通过用户互动提升检索准确率，最终有效提高学生学习效率的目的。

Description

一种基于语音关键词识别的多媒体课件检索系统

技术领域

本发明涉及多媒体技术领域，尤其涉及一种基于关键词的多媒体课件音频检索的方法与系统。

背景技术

近年来随着技术的进步，大量的语音被采集并用音频的方式记录保存下来，其中由于终身学习和网络教学的需要，网上出现了越来越多的多媒体音频课件。可是，伴随着多媒体课件的剧增，学习者面对大量的教学音频资料，如果想要从中找到自己所要学习的知识点内容，往往需要学习者把所要资料观看一遍才能找到自己所需要的内容。这给学习者造成了很大的麻烦。因此，如何帮助学习者快速准确地检索多媒体课件，并找到自己所需要的知识点已成为一个亟需解决的问题，这其中涉及到音频检索的知识。

但是，目前大多数的音频检索都是基于语音识别技术的，都存在着各自的不足，使得检索的效果并不理想。比如，Cambridge Video Mail Retrieval(VMR 1996)一个关于视频邮件检索的应用系统，是基于关键词检出的，而系统VMR存在较大的局限性就是它们都是在预定的几个有限的关键词上进行开发的，只能识别几个有限的关键词并且是基于特定人的，检索效果不理想。另外，检索的关键词固定且个数少、识别率较低、定位不准确等问题，也或多或少地出现在其它的检索系统当中，这使得目前多媒体课件的检索也没有较好的效果。不仅如此，目前大多数的多媒体课件检索都没有考虑到学习者的参与和反馈，使得学习者们只能在资源庞大的多媒体教学课件中一遍又一遍地找寻自己所需要的内容。另外，目前DTW算法和HMM虽然在语音识别中得到了广泛的使用，但是并没有人能够将DTW快速检索的优势和HMM模型搜索精准的优势很好地结合起来在一个系统当中。此外，如果再能考虑到用户反馈，那么系统的性能可能会大大提高。

发明内容

针对现有技术无法在多媒体课件中快速、准确地查找到用户查询的内容，无法满足用户远程课程高效学习的目的，本发明所要解决的技术问题是提供了一种基于关键词的多媒体课件音频检索方法，采用基于隐式马尔科夫模型的语音识别技术实现准确集内词标准，采用动态模板规整算法实现集外词的快速检索，并且结合用户反馈，从而提高多媒体课件检索的准确率。

本发明解决其技术问题所采用的技术方案：首先后台根据教师预先提供的文本知识点，将文本知识点转化成知识点语音模型，使用基于隐式马尔科夫模型的语音识别技术对课件库中的相应课件进行知识点标注，定位到知识点在多媒体课件中的确切位置；将标注结果传给索引模块，构建和维护基于关键词的倒排索引；用户在进行关键词查询时，在提示框中输入文本关键词，若关键词已在预标注的知识点中则提取索引中的结果显示给用户，若关键词还未预先标注，系统将对课件进行实时检索，再把结果反馈给用户，并等待用户对结果反馈并统计反馈信息；对用户反馈信息进行关键词自适应训练，对课件重标注并更新索引。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的基于隐式马尔科夫模型的语音识别技术为通过建立垃圾模型检测语音文档是否含有查询的关键词，系统由声学特征提取、声学模型、语言模型和解码器组成，从语音数据提取声学特征并输入到解码器，利用声学模型和语言模型，在最大后验概率准则条件下解码输出识别结果。所述的用户反馈为用户点击系统检索结果列表中的条目，并观看相应的视频段时，如果检索结果正确，可以将结果标注为正确，若检索结果错误，则将结果标注为错误。所述的关键词自适应训练为系统重新使用用户标注为正确的那些关键词语音段训练出新的关键词模型。

本发明有益的效果是：利用语音识别技术自动检索多媒体课件内容和创建索引结构，实现了用户对多媒体课件中知识点的快速定位；通过对关键词进行集内词和集外词区分，集内词在后台采用基于隐式马尔科夫模型的语音识别技术来获得查询的准确性，集外词在用户查询时采用动态模板规整算法来达到快速查询的目的；通过记录集外词的查询结果扩充了关键词词表，更新了索引列表；通过允许用户对检索结果进行选择和评价，在管理员监管下由管理模块用于数据库更新和关键词表更新，进一步提升了查询速率和准确率，识别率较高且定位准确，对于多媒体课件的检索有着较好的效果。

附图说明

图1 是本发明的基于关键词的多媒体课件音频检索系统的系统框架。

图2 是知识点自动预标注模块的流程图。

图3 是课件检索模块的流程图。

图4 是知识点及课件管理模块的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分四个模块。

第一部分：知识点自动预标注

知识点自动预标注模块的功能是将课件对应章节中教师指定的重点、难点知识点词汇与多媒体课件进行关联，通过基于隐马尔可夫模型的关键词识别技术标注出知识点在课件多媒体音频文件中出现的确切时刻。该模块可以在用户进行检索之前，预先进行课程中的知识点检索并定位其在多媒体课件中出现的具体时刻，待用户检索时可以快速地提供预标注的结果。知识点自动预标注包括以下几个步骤。

1) 接收课件：接收课件的过程即建立一个多媒体课件库的过程，管理员在这个过程中收集、整理各个课程录制的多媒体课件。

2) 课件转音频：接收到的课件可能既有声音文件，又有视频文件。需要将其统一成波形文件格式，建议采样频率和位数统一。采样频率和位数在不失真的前提下没有特殊要求，建议使用8KHz，16位。

3) 知识点语音化：课程章节的重点、难点等知识点一般以文本形式给出，所以在课件音频文件中进行检索之前需要将知识点先转成语音形式，才能进行基于内容的知识点检索。由于知识点自动预标注在用户进行检索之前，且在后台进行，所以该步骤可以通过在标准广播语音库中截取对应的语音，或是由教师预先诵读知识点文本3-5次等。

4) 语音预处理：语音预处理阶段需要完成分帧、加窗。知识点语音和课件音频文件都需要进行语音预处理。分帧就是将连续的语音信号分割成等间距的单元的过程。加窗就是在分帧的基础上，对每一帧作用一个函数。主要有两种加窗方式，一种是加平行窗，另一种是加汉明窗。平行窗就是在原分帧的基础上不做其他改动。汉明窗就是在每一帧上作用一个函数：

其中N是帧长。本系统对加窗部分没有特殊要求。n表示窗内的第n个采样点。

5) 特征提取：对语音预处理后的知识点语音和课件音频文件提取语音特征。本系统使用MFCC作为特征提取中的特征。提取MFCC的主要过程如下：

A）对每一帧做快速傅里叶变换(FFT)，对FFT的结果取模，设这个结果为P(f)；

B）求Mel频率。将得到的结果P(f)带入到下面的公式中求出Mel频率

f表示语音的频率，Mel(f)表示Mel坐标下的Mel频率；

C）再将Mel频率带入到一系列三角滤波器中，得出的结果设为，k意为第k个滤波器。其中三角滤波器的定义如下：

f(m)的定义如下：

其中是采样频率，N为快速傅里叶的窗宽，是最低频率，是最高频率，M 是滤波器总数；

D）将得到的结果做离散反余弦变换得到最终的MFCC结果：

i表示MFCC系数中的第i个分量，N表示滤波器个数，k表示第k个滤波器，表示第k个滤波器得出的结果。

6) 训练HMM模型：使用从知识点语音中提取的特征训练HMM模型。每一个HMM模型都有一个标签，标签就是关键词的拼音。训练HMM模型使用Baum-Welch算法。

7) 将训练出来的HMM模型添加到模型库中。

8) 建立识别网络。识别网络中的节点包括模型库中的模型、废料模型和静音模型。废料模型和静音模型是建立系统前就训练好的。废料模型的标签是rub，静音模型的标签是sil，模型库中关键词的模型的标签是关键词的拼音。识别网络将如下所示：

{{rub|sil}{"关键词1"|"关键词2"|...|"关键词n"}{rub|sil}}

大括号表示重复一次或多次。“|”表示分支结构或者。

9) HMM关键词识别。使用Viterbi算法对所有课件音频的语音特征进行识别与标注。对待识别语音进行预处理，提取每一帧的MFCC。根据识别网络中可能出现的HMM模型，假设每一帧MFCC可能对应的状态，去除每一帧出现概率最小的状态，然后使用Viterbi算法计算出最佳的状态序列。这个最佳的状态序列将对应一个得分最高的HMM模型，一个HMM模型对应一个关键字或者rub和sil。

第二部分：建立索引

输出的标注结果将产生一个如下形式的文件：

{"开始时间" "结束时间" "标签" <"得分">\n}\n

大括号表示重复多次，尖括号表示一次或零次，\n表示回车。其中开始时间和结束时间的单位都是100ns（纳秒）。得分表示语音之于标签对应模型的置信度，为调试方便可以保留。下面是一个标注结果的例子：

0000000 3600000 sil -1230.13

3600000 8200000 shang -900.9

sil和shang都代表标签。

根据标注结果生成倒排索引，系统将遍历标注结果，建立倒排索引文件，索引文件的形式如下：

{"关键词"\n{\t''文件名"\n{\t\t"开始时间" "结束时间"\n}\n}}\n

下面是一个标注结果的例子：

shang

Aldd1.wav

3600000 8200000

12000000 13000000

Aldd2.wav

3700000 38900000

以上是“shang”在Aldd1.wav和Aldd2.wav中的索引结果。

第三部分：课件检索

课件检索模块的目的给用户提供一个快速检出课件音频中关键词出现次数及位置信息的功能。若用户输入的关键词已经预标注，则向用户提供索引列表，若关键词为未标注过，使用带帧移的动态时间归整算法进行检索，以达到快速检索的目的。课件检索包括以下几个步骤。

1) 判关键词：判断用户输入关键词是否是在知识点自动预标注模块中预先标注过的知识点，如果关键词已经存在，那么就将索引中关键词对应的结果反馈给用户，关键词若未标注，则将输入的关键词将解析成拼音。

2) 关键词语音化：由于关键词事先未出现在重点、难点知识点中，所以无法从广播库或是得到教师预先诵读的语音，所以基于关键词的拼音，使用波形库的模板将关键词的模板拼接出来，为下面的搜索做准备。

3) 使用帧移DTW搜索语音库：

A) 对关键词模板做提取MFCC特征，设为R(m)；

B) 在待搜索录音中建立滑动窗，滑动窗的开始节点不动，结束节点在0.5倍到2倍模板长的内部滑动。对滑动窗内的语音帧提取MFCC特征。设为T(n)；

C) 计算DTW，方程如下：

W表示一个需要计算的函数，D就是计算出来的DTW值；

D) 找到局部最小距离；

E) 距离不小于阈值，则不是关键词，否则为关键词；

F) 如果语音结束，则本过程结束，如果没有结束，则滑动窗开始节点向后移一帧。

第四部分：知识点及课件管理模块

如果用户没有输入反馈信息，则本系统一次查询已经结束。如果用户有反馈信息，则统计用户的反馈信息。所谓用户的反馈信息，就是用户告知系统识别结果中的错误结果和正确结果，所谓的识别结果包括关键词、所在文件、起止时间。

通过用户的反馈使用Baum-Walch算法重新迭代HMM模型。将其结果加入到HMM模型库中。转到标注模块重标注。

上文中，参照附图描述了本发明的具体实施方式。但是本领域的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种基于语音关键词识别的多媒体课件检索系统，其特征在于：具体步骤是：

1）、知识点自动预标注：根据章节中对应的知识点，使用基于隐式马尔科夫模型的语音识别技术对课件库中的课件进行知识点标注，并将标注结果传给索引模块；

2）建立索引：用标注模块的结果构建和维护索引；

3）课件检索：根据用户输入进行关键词查询，若关键词已在预标注的知识点范围内则提取索引中的结果显示给用户，若关键词还未预先标注，系统将对课件进行实时检索，再把结果反馈给用户，并等待用户对结果反馈并统计反馈信息；

4）知识点及课件管理：对用户反馈信息进行关键词自适应训练，对新增课件库进行管理。

2.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的关键词包括多媒体课件对应章节中教师预先提供的重点、难点词语（集内词）以及学生向系统请求查询的词语（集外词）；本系统针对集内词，预先在后台中先采用基于隐式马尔科夫模型的语音识别技术进行自动标注，并构建基于关键词的倒排索引，实现快速查询；对于集外词，采用不需要训练的模版匹配算法快速的实时地获取检索结果。

3.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的多媒体课件检索指对网络教育、远程教育中的视音频文件进行处理，标注出某个词汇在文件中出现的具体时刻；根据用户提供的文本词汇，将词汇转换成语音模型，在多媒体文件中进行检索匹配，定位到该词汇在视音频中的确切位置；此外本系统能针对用户的反馈信息自动维护或新建关键词的训练语料库，并完成隐式马尔科夫模型训练、课件识别标注、索引维护的过程，实现查询结果自动优化；该检索技术也可推广到一般多媒体文件检索中。

4.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的知识点自动预标注可以自动标注出知识点在课件多媒体音频文件中出现的时刻，该模块首先将预读得到的知识点对应的音频进行预处理并提取梅尔特征（MFCC），之后对得到的特征文件用Baum-Welch算法进行训练，生成隐式马尔科夫模型，然后对课件库中的音频同样进行预处理并提取MFCC特征，之后采用Viterbi算法进行搜索，输出关键词和其起止时间并传给索引模块。

5.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的索引根据知识点预标注模块得到的搜索结果以关键词为索引节点建立倒排索引。

6.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的课件检索是由用户输入需要查询知识点，先判断是否在关键词表中，然后分别执行集外词处理流程或集内词处理流程。

7.根据权利要求6所述的集外词处理流程具体为：将用户输入的查询转化为带声调的拼音，用拼音在发音库中找到对应发音并拼接成语音模板，然后用带帧移的动态时间归整算法搜索课件库；最后更新关键词表和索引表，并将记录用户反馈。

8.根据权利要求6所述的集内词处理流程具体为：根据用户输入在索引表中找出对应结果并反馈给用户，并统计用户反馈。

9.根据权利要求1所述的基于语音关键词识别的多媒体课件检索系统，其特征在于：所述的管理流程分为关键词重识别管理流程和课件管理流程；其中关键词重识别管理流程具体为：如果用户对查询结果进行了反馈，获取用户反馈的关键词语音段，并用Baum-Welch算法进行知识点语音重训练，用得到的模型更新模型库，针对更新的模型执行标注流程；课件管理流程具体为：获取管理员对课件库的修改，针对更新的课件执行标注流程。