CN101281534A

CN101281534A - 一种基于音频内容检索的多媒体资源检索方法

Info

Publication number: CN101281534A
Application number: CNA2008100620738A
Authority: CN
Inventors: 叶睿智
Original assignee: 叶睿智
Current assignee: Hangzhou micro network Co., Ltd.
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2008-10-08
Anticipated expiration: 2028-05-28
Also published as: CN100565532C

Abstract

本发明公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤：1)预处理服务器将视频和音频转化为标准的待识别语音；2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。本发明利用音频中关键词检出技术，获得了音视频资源内在的语意信息，对文本化的语意信息进行索引，提供了更全面可靠的音视频资源信息索引，可以让检索系统更准确的匹配到多媒体资源，并且定位到检索词在音视频中出现的精确位置。

Description

一种基于音频内容检索的多媒体资源检索方法

技术领域

本发明涉及一种基于音频内容检索的多媒体资源检索方法，特别是涉及用于检索包括视频、音频形式的资源，找到包含所检索信息的资源并给出所检索信息在资源中的定位。

背景技术

在当今数字化与网络化时代，多媒体数据已成为互联网信息高速公路上所传送数据的主要部分。音频、图像和视频等多媒体内容目前在互联网中占据15％，且该数字还在飞速增长。大容量高速存储系统为音视频的海量存储提供了基本保障，各行业对音视频的使用越来越广泛。如何从海量的音视频信息中获取有用的信息，即音视频信息资源的管理和检索显得日益重要，音视频已成为网络用户最频繁检索的资源之一。目前的主流搜索引擎如Google、Yahoo、Baidu等，已经较好地解决了对互联网络上文本内容的检索，但在音视频检索方面，这些搜索引擎目前仍依靠检索匹配多媒体资源相关的周边文本信息(例如资源文件名、资源标记、资源介绍文本等)来实现对文本的搜索。这使得音视频资源自身的内容没有被很好地识别，一些缺乏明确文本描述的有用资源被搜索引擎忽略。目前，常用的信息检索系统，例如数字图书馆系统、知识管理系统，也都面临着多媒体资源日益成为重要信息载体但缺乏有效检索手段的问题。解决这个问题的途径之一，就是利用语音识别技术从音视频资源的语音部分检索出可用文本表达的对应信息，再通过文本检索的方式去索引这些资源。

关键词识别就是在连续的无限制的自然语音流中识别出给定的关键词。它包括两个方面的基本内容，一个是关键词检出，一个是关键词确认。关键词检出是鉴别语音包含哪几个预先输入的关键词，是一个多元判决问题。而关键词确认则回答“是”还是“不是”包含这个关键词，是一个两元判决问题，本发明所述关键词识别技术特制指关键词检出。

美尔倒谱系数(Mel-FrequencyCepstrumCoefficients，MFCC)建立在傅立叶和倒谱分析基础上，反应了音频信号的频域特征。对短时音频帧中的采样点进行傅立叶变换，得到这个短时音频帧在每个频率上的能量大小，将整个频率带划分为n个子带，分别计算这n各子带上的总能量，就构成了这个短时音频帧的n个Mel系数。对提取出来的Mel系数再计算其对应的倒谱系数，就是Mel倒谱系数。倒谱分析是一种非线性信号处理技术，它是同态系统理论的基础，是专门处理通过卷积组合在一起的信号，后来被应用到语音信号的处理中。

隐马尔可夫(Hidden Markov Model，HMM)模型是一种基于转移概率和输出概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时，为每一个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。对于文本无关的说话人识别一般采用各态历经型HMM，对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间归整，节约了判决时的计算时间和存储量。

基于隐马尔科夫模型的关键词识别进行技术是语音检索的一个非常重要的方面，它在语音的特定内容检索中占有重要位置，由于目前语音识别技术其鲁棒性和实用性方面的限制，利用连续语音识别建立大词汇量，任意关键词的识别器并不能达到理想的结果，无法很好的满足语音检索方面的应用要求。而关键词识别是相对可靠的技术，在语音检索的应用中有更好的应用前景。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于音频内容检索的多媒体资源检索方法

包括如下步骤：

1)预处理服务器将视频和音频转化为标准的待识别语音；

2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；

3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。

所述的预处理服务器将视频和音频转化为标准的待识别语音：视频和音频中带有一段或多段讲话语音，从输入的视频资源中采用音频分离技术提起出音频部分的数据，并保持了分离出来的音频和原有视频在时间轴方向的一致，音频数据经过数字降噪技术处理，能量过低的部分和包含杂音信号的语音段被处理成静音，转化后，音频输出为标准的待识别语音。

所述的语音识别服务器将训练语料训练成声学模型：训练语料采用标准汉语普通话朗读的广播语音，训练语料经过特征提取模块得到语音特征，特征类型采用美尔倒谱系数，语音特征经过声学模型训练得到隐马尔可夫声学模型。

所述的将待识别语音和声学模型匹配得到语意文本索引：待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征，路径搜索器读取待识别语音美尔倒谱系数特征，在隐马尔可夫声学模型的路径中进行最短路径识别，得到语音片段对应的语意文本；结合语音时间轴信息，输出包含语意文本和时间起止点数据的语意文本索引。

所述的索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果：对语音识别服务器输出的语意文本索引，进行倒排索引转化，得到以语意关键词为主键，关键词出现位置信息序列为键值的倒排索引条目，存储到索引库中，执行检索时，向检索服务器输入文本形式的关键词或关键词组合，根据检索关键词读取倒排索引条目，输出关键词出现位置信息序列。

所述的语意文本索引是一个二元对，包含了文本关键词、关键词在语音中一次出现的时间段起点和时间段终点数据。关键词索引是一个三元对，包含了关键词、关键词对应的视频和音频资源文件号、关键词在语音中一次出现的时间段起点和时间段终点数据。检索结果是描述了一系列包含所检索关键词的资源文件，以及在某个资源文件中，出现该关键词语音片段的一系列时间段信息。

本发明利用音频中关键词检出技术，获得了音视频资源内在的语意信息，对文本化的语意信息进行索引，提供了更全面可靠的音视频资源信息索引，可以让检索系统更准确的匹配到多媒体资源，并且定位到检索词在音视频中出现的精确位置。

附图说明

图1是根据本发明的音视频内容检索系统总体流程图；

图2是根据本发明的音视频预处理流程图；

图3是根据本发明的关键词识别流程图；

图4是根据本发明的索引归并流程图。

具体实施方式

基于音频内容检索的多媒体资源检索方法包括如下步骤：

1)预处理服务器将视频和音频转化为标准的待识别语音；如图1所示，视频资料1-1和语音资料1-2被输入到预处理服务器S1，经过预处理得到标准的待识别语料1-3。

2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；如图1所示，训练语料1-4被输入到语音识别服务器S2，训练得到声学模型，存储在S2中，待识别语料1-3和声学模型一起输入到语音识别服务器S2，匹配得到待识别语料1-3中的语意文本索引信息1-5。

3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。如图1所示，索引信息被输入到索引服务器S3，归并入倒排索引库；进行检索时，检索条件1-6输入到索引服务器S3，S3在索引库中匹配待检索条件中的关键词，得到匹配记录，归并匹配记录，最终返回检索结果1-7。

所述的预处理服务器将视频和音频转化为标准的待识别语音：视频和音频中带有一段或多段讲话语音，从输入的视频资源中采用音频分离技术提起出音频部分的数据，并保持了分离出来的音频和原有视频在时间轴方向的一致，音频数据经过数字降噪技术处理，能量过低的部分和包含杂音信号的语音段被处理成静音，转化后，音频输出为标准的待识别语音。如图2所示，输入的视频资料2-1，进过语音数据提取模块2-2，得到对应的音频资料数据；直接输入的音频资料2-3和视频提取的音频资料都进过降噪处理模块2-4，最终输出可用于识别的待识别语音2-5。

所述的语音识别服务器将训练语料训练成声学模型：训练语料采用标准汉语普通话朗读的广播语音，训练语料经过特征提取模块得到语音特征，特征类型采用美尔倒谱系数，语音特征经过声学模型训练得到隐马尔可夫声学模型。如图3所示，训练语料3-1经过语音预处理模块3-2、特征提取模块3-3，得到样本语音美尔倒谱系数特征数据；样本语音美尔倒谱系数特征数据输入到引擎训练和识别模块3-4训练出隐马尔可夫声学模型3-5；

所述的将待识别语音和声学模型匹配得到语意文本索引：待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征，路径搜索器读取待识别语音美尔倒谱系数特征，在隐马尔可夫声学模型的路径中进行最短路径识别，得到语音片段对应的语意文本；结合语音时间轴信息，输出包含语意文本和时间起止点数据的语意文本索引。如图3所示，待识别语音3-6经过语音预处理模块3-2、特征提取模块3-3，得到待识别语音美尔倒谱系数特征数据；待识别语音特征数据和隐马尔可夫声学模型3-5一起经过路径搜索匹配模块3-7得到识别语意文本索引3-8，其格式为二元对<KW，Ref>，其中包含了文本关键词KW、关键词在语音中一次出现的时间段起点和时间段终点数据Ref。

所述的索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果：对语音识别服务器输出的语意文本索引，进行倒排索引转化，得到以语意关键词为主键，关键词出现位置信息序列为键值的倒排索引条目，存储到索引库中。如图4所示，首先从语音识别模块输出的单个新增索引(格式为<KW，Ref>)提取出索引关键词KW，根据KW在现有索引库中查到倒排索引条目<KW，<Ref1，Ref2...Refn>>，再将新增索引和倒排索引条目合并，得到新条目<KW，<Ref1，Ref2...Refn，Refn+1>>，合并过程考虑索引的去重复。最后新条目被写回索引库。执行检索时，向检索服务器输入文本形式的关键词或关键词组合，根据检索关键词读取倒排索引条目，输出关键词出现位置信息序列。如图4所示，根据检索关键词KW，在现有索引库中查到倒排索引条目<KW，<Ref1，Ref2…Refn>>，作为检索结果返回。

Claims

1、一种基于音频内容检索的多媒体资源检索方法，其特征在于包括如下步骤：

1)预处理服务器将视频和音频转化为标准的待识别语音；

2、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的预处理服务器将视频和音频转化为标准的待识别语音：视频和音频中带有一段或多段讲话语音，从输入的视频资源中采用音频分离技术提起出音频部分的数据，并保持了分离出来的音频和原有视频在时间轴方向的一致，音频数据经过数字降噪技术处理，能量过低的部分和包含杂音信号的语音段被处理成静音，转化后，音频输出为标准的待识别语音。

3、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的语音识别服务器将训练语料训练成声学模型：训练语料采用标准汉语普通话朗读的广播语音，训练语料经过特征提取模块得到语音特征，特征类型采用美尔倒谱系数，语音特征经过声学模型训练得到隐马尔可夫声学模型。

4、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的将待识别语音和声学模型匹配得到语意文本索引：待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征，路径搜索器读取待识别语音美尔倒谱系数特征，在隐马尔可夫声学模型的路径中进行最短路径识别，得到语音片段对应的语意文本；结合语音时间轴信息，输出包含语意文本和时间起止点数据的语意文本索引。

5、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果：对语音识别服务器输出的语意文本索引，进行倒排索引转化，得到以语意关键词为主键，关键词出现位置信息序列为键值的倒排索引条目，存储到索引库中，执行检索时，向检索服务器输入文本形式的关键词或关键词组合，根据检索关键词读取倒排索引条目，输出关键词出现位置信息序列。

6、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的语意文本索引是一个二元对，包含了文本关键词、关键词在语音中一次出现的时间段起点和时间段终点数据。

7、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的关键词索引是一个三元对，包含了关键词、关键词对应的视频和音频资源文件号、关键词在语音中一次出现的时间段起点和时间段终点数据。

8、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的检索结果是描述了一系列包含所检索关键词的资源文件，以及在某个资源文件中，出现该关键词语音片段的一系列时间段信息。