CN101477798B

CN101477798B - 一种分析和提取设定场景的音频数据的方法

Info

Publication number: CN101477798B
Application number: CN2009100773121A
Authority: CN
Inventors: 李祺; 马华东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-02-17
Filing date: 2009-02-17
Publication date: 2011-01-05
Anticipated expiration: 2029-02-17
Also published as: CN101477798A

Abstract

一种分析和提取设定场景的音频数据的方法，操作步骤如下：(1)利用隐马尔科夫模型对音频文件中的音频数据进行基本音频事件的检测，得到基本音频事件序列，获取该音频文件的低层语义分析结果；(2)分割该音频文件的基本音频事件序列，获得多个音频场景片断；(3)采用基于机器学习和逻辑推理的两者优点相互结合的高层语义提取方法：先用训练方式提取基本音频事件在某特定语义场景中的权重值，再根据逻辑推理规则修正该权重值后，分析多个音频场景片断，获取该音频文件的高层语义分析结果。该方法能定位和标注音频数据中的特定音频场景，便于用户理解音频文件内容，有利于对音频文件进行语义提取、语义标注，基于内容的分类与检索等按音频内容的多种操作功能。

Description

一种分析和提取设定场景的音频数据的方法

技术领域

本发明涉及一种多媒体信息的分析方法，确切地说，涉及一种分析和提取设定场景的音频数据的方法，属于多媒体信息处理中的音频信号分析和音频语义理解的人工智能技术领域。

背景技术

随着多媒体技术的不断发展，音视频信息在人们的工作、文体和娱乐生活中起着日益重要的作用。例如，互联网上，每天都有许多用户上传大量的音视频信息。但是，对于每个用户，这些浩如烟海音视频信息中，只有少数是他(她)感兴趣的。因此，如何从大量的音(视)频信息中快速、准确地检索出人们感兴趣的场景或片段，已经成为当前多媒体技术中音视频分析的挑战性研究热点。

在实际应用中，用户通常有以下两个要求：(1)从大量音视频文件中(例如土豆、酷睿等音视频网站上)查找出其感兴趣的某个或某些音频文件，例如从众多的动作片中查找出其中有枪战场景的视频文件；(2)从一大段音视频文件中选取其中真正感兴趣的片段，例如在幸运52类的电视节目中，用户希望选取其中观众情绪出现高潮的部分片段。这就需要人们从音视频文件的内容出发，对这些音视频文件中的特定场景进行分析和标注。且在标注多媒体信息的过程中，音视频分析是相互结合的。例如，需要检测与大海有关的片段时，从视频出发对背景颜色进行分析通常能取得较好效果；而在另外一些场合中，要从动作片中找出枪战发生的视频片段，就需要从音频角度入手，对枪声和爆炸声进行检索和定位。

目前，对于音频数据的分析方法主要分为两个阶段：第一阶段为低层语义分析，又称基本音频事件分析，它是针对一段时间很短(10ms-100ms)的音频数据进行分析，判断该短时间内的音频数据所描述的事件类型(如语音、汽车声、枪声等)。现阶段的低层语义分析工作主要是对音频数据的分割与分类。第二阶段为高层语义分析，也称为音频场景分析，这阶段的工作是针对较长时间(5s以上)的音频数据进行分析。

针对音频数据的分割与分类，目前国内外都做了大量工作。例如，有人利用隐马尔科夫模型为掌声、笑声、欢呼声等基本音频事件建立各种模型，在获得一个短时间内的音频数据后，科技人员通过调用程序提取这段音频数据的特征参数，再将特征参数输入到已经建立好的各个模型中进行对比，得到该短时音频数据与各个模型之间的相似程度，并根据这些相似程度对音频片断进行分类。还有人利用支持向量机等软件工具对音频数据进行分类。但是，只对这些低层语义信息进行分析还不能满足用户需求。例如，从动作片中提取出一个长达5分钟的汽车相互追逐的音频片段后，通过低层语义分析后，只能得到一串基本音频事件的序列，例如：第0-100ms是汽车引擎声，第100-200ms是汽车引擎声，第200-300ms是背景噪音，第300-400ms是背景噪音，第400-500ms是警笛声，第500ms-600ms是刹车声，......显然，这组基本事件序列对于用户既不直观，也很难发挥其作用，有时甚至会造成用户的困惑。但是，如果告诉用户这5分钟音频数据描述的是一个汽车相互追逐的场景，那么用户的感觉就会清晰很多，后者便是高层语义分析。

近年来，高层语义分析已经成为多媒体技术的研究热点，有些科技人员将动态贝叶斯网络用于多媒体技术，利用不同对象(如沙发、高山、小鸟)之间的关联性对“户内”和“户外”两种场景进行判断。这种方法为高层语义分析提供了思路，但是，在分析音频数据的过程中，很难直接通过分析音视频文件的低层特征来实现。例如，根本无法根据音频数据的内容判断什么是“沙发”。有的科技人员开始在提取低层语义信息的基础上，分析高层语义信息的涵义，并提取低层语义(基本音频事件)与高层语义(音频场景)两者特征之间的联系。例如，有些致力于体育内容分析的人员在体育比赛的音频数据中提取出欢呼声、掌声和哨声等基本音频事件，并用这些音频事件来标注比赛的高潮片断，即进行高潮场景分析。还有些人员从动作电影中检测出枪声、爆炸声、汽车引擎声和急刹车声等音频事件，并用来提取枪战场景和汽车追逐场景。

在利用基本音频事件对音频场景信息进行分析时，现有技术通常采用基于统计的方法或基于逻辑规则的方法。下面分别介绍之：

基于统计的方法是根据大量数据，采用机器学习的方法提取同类型数据之间的特性。该方法通常分为训练与判定两个步骤。在训练过程中，先针对每种特定音频场景的数据选取大量的样本数据，并使用机器学习的方法对每种音频场景建立模型。在判定过程中，通过比较待判定音频数据与每个音频场景的模型的相似程度，对当前数据进行分类。因此，利用基于统计的方法能够从大量的训练数据中提取出基本音频事件与高层语义之间的对应关系，其整个过程都由计算机完成，节省了人力资源。但是，这种方法的检测效果直接依赖于样本集是否齐全、完备；如果样本集不够全面、清楚时，很容易造成漏检。然而，在很多情况下，针对每种特定音频场景获取其中所有可能发生的样本是根本无法实现的。

基于逻辑规则的方法是由人来描述场景，这种方法简单直观，比较符合人的思维规律。例如，交通事故场景通常会出现汽车紧急刹车声、碰撞声、汽车喇叭声等，所以检测到刹车声、碰撞声和喇叭声时，可以判定当前场景为交通事故场景。但是，在某些情况下，规则的设定比较复杂，导致无法对高层语义信息进行分析。例如，枪战场景通常是由枪声来标注，快乐场景通常是由笑声来标注，而在某些综艺节目(如幸运52)中，背景声音中会同时出现枪炮声和现场观众发出的欢笑声，这将导致无法对音频高层语义信息做出正确分析。

为此，如何对特定场景的音频数据进行提取、分析和确定，就成为业内科技人员关注的新课题。

发明内容

有鉴于此，本发明的目的是提供一种分析和提取设定场景的音频数据的方法，使用该方法分析音频数据时，能够对音频数据中的特定音频场景进行定位和标注，使用户更加直观地理解音频文件的内容，也便利于对音频文件进行语义提取、语义标注，基于内容的分类与检索等按音频内容分类等多种功能。

为了达到上述目的，本发明提供了一种分析和提取设定场景的音频数据的方法，其特征在于，所述方法包括下述操作步骤：

(1)利用隐马尔科夫模型对音频文件中的音频数据进行基本音频事件的检测，得到基本音频事件序列，以获取该音频文件的低层语义分析结果；

(2)对该音频文件的基本音频事件序列进行分割，获得多个音频场景片断；

(3)采用基于机器学习和逻辑推理的两者优点相互结合的高层语义提取方法：先用训练方式提取出基本音频事件在某一特定语义场景中的重要程度的权重值，再根据逻辑推理规则对该权重值进行修正后，分析所述多个音频场景片断，获取该音频文件的高层语义分析结果；该步骤进一步包括下列操作内容：

(31)将基本音频事件序列划分为设定时长的语义帧，形成一个语义帧序列；

(32)根据测试样本，利用神经网络对该语义帧序列进行训练后，得到基本音频事件与各个音频场景之间相互关联的权重值；

(33)根据先验知识，对所述训练得到的权重值进行修改：如果基本音频事件在某个特定场景中起着关键作用时，则增加该训练得到的权重值，并相应减少该特定场景中的其它基本音频事件的权重值；如果确定某个基本音频事件与某个特定场景无关或作用小时，则减小该训练得到的权重值；且在调整权值后，要保证所有的权重值都是非负数；

(34)在所述音频文件中得到的由k个基本音频事件所组成的基本音频事件序列P_k中，根据该序列中的每种基本音频事件出现的频率得到一组向量：W₁，W₂，...，W_k，式中，自然数下标p是k个基本音频事件的序号，W_p的数值越大，表示该基本音频事件W_p在该基本音频事件序列P_k中出现的频率越高；

(35)利用神经网络和下述公式分别计算所述音频文件中每种音频场景的出现的次数Y，其中，第q个音频场景的出现次数为：

式中，w_pq表示基本音频事件p在某个场景q中的权重值，W_p是基本音频事件W_p在该基本音频事件序列P_k中出现的次数；

(36)选择出现次数最多的音频场景，用于对所述音频文件中得到的基本音频事件序列P_k进行分类；并将该基本音频事件序列P_k标记为该出现次数最多的音频场景，从而完成该音频文件的高层语义分析结果。

所述步骤(1)进一步包括下列操作内容：

(11)输入音频文件，将其中的音频采样数据序列按照设定的时长进行分帧处理，将该音频采样数据序列划分为一个音频数据帧序列；

(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数：短时能量和短时过零率；其中，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：

而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数：

上述两式中，自然数n是该第i帧中的音频采样值的序号，其最大值是N，S_n是第n个采样的取样值，sgn()为符号函数，音频采样值S_n为正数的符号函数是1，音频采样值S_n为负数和0的符号函数都是-1，即：

(13)根据人耳反应和人类心理反应的原理，采用无限逼近的方法，提取每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数；以便与上述短时能量和短时过零率，形成10维的特征向量；

(14)利用隐马尔科夫模型对基本音频事件进行建模、检测和分类：先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数，得到各个相应的模型后，再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度，即最大似然值；然后，依据音频片断与某个模型的相似程度来对音频事件进行分类：若当前的音频片断的最大似然值取得最大值且大于设定门限时，就将该音频片断判定为该基本音频事件，从而得到一组基本音频事件序列。

所述步骤(11)中的设定时长范围是10ms-50ms的短时间时长。

所述音频数据的短时能量是反映该音频数据在单位时间内的强度特征参数，所述短时过零率是在某种程度上反映该音频信号的频率特征。

所述步骤(13)进一步包括下列操作内容：

(131)设定已有一音频采样帧{x_i}，式中，自然数i是采样音频帧的序号，其最大值是M，对该音频采样帧{x_i}作M点的快速傅里叶FFT变换，以将该音频采样帧的时域信号{x_i}转化为频域分量{X_i}；

(132)将转换后的频域分量{X_i}从线性标识转化为Mel频率标识：转化方法是先用Mel尺度将频域信号{X_i}进行变换至Mel域，然后采用一系列三角滤波器，即Mel带通滤波器进行滤波处理；

(133)对每个Mel带通滤波器的输出功率谱取对数，得到相应的对数功率谱后，再进行反离散余弦DCT变换，最后得到每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数。

所述步骤(2)进一步包括下列操作内容：

将用户关注或感兴趣的、且分散地分布于整个音频文件中的多个相关的音频片段甄选出来，并将其标注为相应的一个或多个基本音频事件段，而对用户不关注的音频片段进行忽略而将其标注为背景段；

当两个基本音频事件之间的背景段时间较长时，则将其分割为两个基本音频段，以便分别进行处理；

如果基本音频段的时间太短时，则将其忽略掉，并作为背景段进行处理。

所述步骤(33)中，对所述训练得到的基本音频事件p在某个场景q中的权重值w_pq进行修改的公式如下：

如果已知基本音频事件p与场景q密切相关时，

如果已知基本音频事件p与场景q不相关时，

式中，

为0到之间的一个随机数，即修改所增加或减小的权重值都是位于0和

当前权值w_pq之间的一个随机数。

本发明是一种分析和提取设定场景的音频数据的方法，它在技术上的创新主要是从两方面解决了现有技术的不足，下面分别说明之。

首先，现有技术的研究大都只停留在音频低层语义(音频事件)的检测阶段，而本发明对音频文件中的音频数据的分析不仅仅局限于低层语义(基本音频事件)阶段，而是在提取低层语义信息后，继续分析并总结出用户更关注和感兴趣的高层语义(音频场景)信息，从而逾越了低层语义与高层语义两者间的语义鸿沟。为此，本发明首创提出的设定场景的音频数据的检测方法主要分为两个阶段：基本音频事件检测阶段和高层语义(音频场景)分析阶段。在根据音频特征参数获取到音频低层语义后，再在该低层语义(基本音频事件)的基础上继续进行归纳和总结，分析出音频高层语义(音频场景)。

另外，在第二步从音频事件的基础上分析音频场景时，现有技术通常采用基于机器学习方法或采用基于逻辑规则方法，本发明在提取高层语义的过程中，将基于统计与基于逻辑规则的两种方法相结合，综合二者优势，进行音频场景的分析，克服基于统计和基于规则的两种高层语义提取方法的各自不足之处。这样使得该方法更加迅捷、正确和实用，能满足多媒体技术的发展和应用需求。

附图说明

图1是本发明分析和提取设定场景的音频数据的方法操作步骤流程图。

图2是本发明方法中的步骤(1)基本音频事件分析过程流程图。

图3是本发明方法中的MFCC参数提取过程示意图。

图4是本发明方法中的步骤(2)分割逻辑单元示意图。

图5是本发明方法中的步骤(3)提取高层语义信息分析过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例的试验情况对本发明作进一步的详细描述。

本发明是一种分析和提取特定场景音频数据的方法，该方法是先处理原始音频文件中的音频数据而提取其中音频特征参数，再利用这些音频特征参数对音频信号进行检测和分类，获得低层语义：基本音频事件信息。然后，在低层语义信息的基础上，对高层语义(音频场景)信息进行分析，从而跨越了低层语义与高层语义之间的“语义鸿沟”。本发明在分析特定音频场景信息时的方法，能克服现有技术中基于统计或基于规则的两种高层语义提取方法的不足之处。

参见图1，说明本发明分析和提取设定场景的音频数据的方法的操作步骤以及本发明的实施例和仿真情况：

步骤1、利用隐马尔科夫模型对音频文件中的音频数据进行基本音频事件的检测，得到基本音频事件序列，以获取该音频文件的低层语义分析结果。

参见图2，具体介绍该步骤1包括的下列具体操作内容：

(11)输入音频文件，将其中的音频采样数据序列按照设定的短时间时长(10ms-50ms)进行分帧处理，其中每个短时间段称为一帧，分帧操作后，将该音频采样数据序列划分为一个音频数据帧序列。

本发明仿真实施例的实验中，将每10ms定义为一个音频帧，因此在后续操作中，对每一个10ms分别计算其音频特征参数。

(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数：反映该音频数据在单位时间内的强度特征参数的短时能量和在某种程度上反映该音频信号的频率特征参数的短时过零率；其中，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数：

众所周知，在模式识别过程中，特征参数的选择与提取至关重要。在音频数据中，人们提取了大量的特征参数对音频文件进行识别和分类，本发明基于以往研究工作及音频产品的相关技术，从大量的音频参数中选择出了用于基本音频事件检测的、并囊括了音频信号在时域和频域方面的特征参数。这些参数都被成功地用于多种语音识别和声纹识别产品中。本发明针对音频文件在时域方面提取短时能量和短时过零率，在频域方面则选择了采用8维MFCC(Mel频率倒谱系数)参数，形成了10维的特征向量。

为验证本发明方法的切实可行，仿真实施例中，针对当前用户普遍关注的动作片和综艺节目提取里面的精彩场景。在动作片中，选取了枪战场景和汽车追逐场景进行分析。在综艺节目中，选用中央电视台的幸运52节目进行分析。实施例仿真系统接受用户输入一个采用PCM音频压缩格式、采样频率48k、采样位数16位、声道数目2(立体声)、文件格式为wav的音频文件，输出为txt格式的摘要文件，每一行的输出都由一对时间及该时间段特定的音频场景描述组成。例如：“00:00:18 00:02:03-＞枪战场景”用于表示音频文件第18秒至第2分03秒所描述的是一个枪战场景。实施例中，N表示第i帧中所包含的音频采样数量，由于实验的采样率为48k(每秒钟有48000个采样值)，帧长为10ms，可以计算出N＝480。

人耳具有的特殊功能，使得人耳在嘈杂的环境中仍能正常分辨出各种声音，其中耳蜗起到了很关键的滤波作用。经过声学家、心理学家、生物学家的共同研究和试验发现，耳蜗实际上是一个滤波器组，其滤波作用在1000Hz以下为线性尺度，而在1000Hz以上为对数尺度。为了能够从声学、生物学和心理学的角度共同出发，从人耳结构和人类对声音的反应入手，提取出更贴合于人类理解能力的语音信号参数，现有技术从人耳反应及人类心理反应出发的无限逼近的方法，提出了Mel频率倒谱系数(MFCC参数)。

参见图3，介绍该步骤的具体操作内容为：

(132)将转换后的频域分量{X_i}从线性标识转化为Mel频率标识：先用Mel尺度将频域信号{X_i}进行变换至Mel域，然后采用一系列三角滤波器，即Mel带通滤波器进行滤波处理；

(133)对每个Mel带通滤波器的输出功率谱取对数，得到相应的对数功率谱后，再进行反离散余弦(DCT)变换，最后得到每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数。

(14)因为隐马尔可夫模型HMM(Hidden Markov Models)能够较好地描述声音的语义特性而被广泛用于音频分类系统。本发明方法也是利用隐马尔科夫模型对基本音频事件进行建模、检测和分类：先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数，得到各个相应的模型后，再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度(即最大似然值)，然后，依据音频片断与某个模型的相似程度来对音频事件进行分类：若当前的音频片断的最大似然值取得最大值且大于设定门限时，就将该音频片断判定为该基本音频事件，从而完成音频事件检测阶段，得到一组基本音频事件序列。

步骤2、对该音频文件的基本音频事件序列进行分割，获得多个音频场景片断。介绍该步骤的具体操作内容：(参见图4所示)

众所周知，在每段音频信号中，用户关注的片段是分散地分布于整个音频文件中的。这一步骤的具体工作是：

将用户关注或感兴趣的、且分散地分布于整个音频文件中的多个相关的音频场景片段甄选出来，并将其标注为相应的一个或多个基本音频事件段，而对用户不关注的音频片段进行忽略而将其标注为背景。例如，动作电影中，通常关注的是枪战场景、空战场景、汽车追逐场景等，此时，把枪声、爆炸声、汽车引擎声、警笛声等基本音频事件作为关注的多个不同的音频场景片段(图中分别采用阴影或斜纹来标注之)，而把语音、乐音等标注为不再进行处理的背景。因此，该步骤要把关键的、含有这些所关注的多个基本音频事件的音频场景片段提取出来。然而，如果所关注的基本音频事件的场景片段的时间太短时，本发明也将其忽略。例如，在一段音频中，只有很短的一段汽车引擎声，该步骤把它作为背景音(如影片主角在马路行走)，而不对这一个片段进行音频场景分析。例如，仿真实验中，当两段基本音频事件之间的背景音超过20秒时，就对中间部分进行剔除而不做分析。当所关注的音频事件发生时间不足3秒时，也不对这一段音频事件进行分析。

得到感兴趣的基本音频事件序列后，现有技术是采用基于机器学习的方法或基于逻辑规则的方法来进行高层语义分析。前者通过对大量的训练样本进行学习，从而提取出基本音频事件与高层语义之间的联系。但是，该方法对样本集的完备性要求很高。后者方法简单直观，例如，汽车追逐的场景通常包涵汽车引擎声、汽车碰撞声、喇叭声等，那么当基本音频序列中包涵引擎声、汽车碰撞声、喇叭声时，就可以认为当前场景为汽车追逐场景。然而，在某些复杂的音频场景中，完善的逻辑规则是很难定义的。为此，本发明对其进行改进，提出一种新的提取高层语义的方法，即本发明的下述关键操作步骤3。

步骤3、采用基于机器学习和逻辑推理的两者优点相互结合的高层语义提取方法：先用训练方式提取出基本音频事件在某个特定语义场景中的权重值，再根据逻辑推理规则对该权重值进行修正，即结合机器学习与逻辑推理的优点来分析多个音频场景片断，以便在此基础上获取该音频文件的高层语义分析结果。

参见图5，介绍该步骤3的具体操作内容：

(32)根据测试样本，利用神经网络对该语义帧序列进行训练后，得到基本音频事件与各个音频场景之间相互关联的权重值；例如，W_ij表示第i个基本音频事件BE_i与第j个音频场景AS_j之间相互关联的权值，W_ij越大，表明BE_i对AS_j的影响越大；反之，影响越小。

(33)根据先验知识，对所述训练得到的权重值进行修改：如果基本音频事件在某个特定场景中起着关键作用时，则增加该训练得到的权重值，并相应减少该特定场景中的其它基本音频事件的权重值；例如枪声通常出现在枪战场景中，则将训练所得到的权值增加。如果确定某个基本音频事件与某个特定场景无关或作用小时，则减小该训练得到的权重值，例如枪声通常与欢快的场景无关。需要指出的是，在人工调整权值后，要保证所有的权重值都是非负数；

在该步骤(33)中，对训练得到的基本音频事件p在某个场景q中的权重值w_pq进行修改的公式如下：

如果已知基本音频事件p与场景q密切相关时，

如果已知基本音频事件p与场景q不相关时，

式中，

为0到

之间的一个随机数，即修改所增加的权重值或减小的权重值都是位于0和

当前权值w_pq之间的一个随机数。

(34)开始利用隐马尔科夫模型进行基本音频事件检测，此时首先要提取音频特征参数，即在音频文件中得到的由k个基本音频事件所组成的基本音频事件序列P_k中，根据该序列中的每种基本音频事件出现的频率得到一组向量：W₁，W₂，...，W_k，式中，自然数下标p是k个基本音频事件的序号，W_p的数值越大，表示该基本音频事件W_p在该基本音频事件序列P_k中出现的频率越高；

总之，本发明的仿真实施例的试验是成功的，实现了发明目的。