CN107480152A

CN107480152A - 一种音频分析及检索方法和系统

Info

Publication number: CN107480152A
Application number: CN201610402787.3A
Authority: CN
Inventors: 鲍东山; 李晓洁
Original assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2017-12-15

Abstract

本发明公开了一种音频分析及检索方法及系统，通过对音频数据流进行分割、分析处理，提取各部分的声学特征，得到拼音图，从而可基于这些拼音图对音频数据流进行检索。根据本发明提供的技术方案可快速准确地从音频源中查找到所需音频数据。

Description

一种音频分析及检索方法和系统

技术领域

本发明提供音频处理及检索技术领域。更具体地，提供一种音频分析及检索方法和系统，从音频片段中确定特定内容的位置信息。

背景技术

不同类型的音频将具有不同的内在内容。从整体看，音频内容分为三个级别：最低层的物理样本级、中间层的声学特征级和最高层的语义级。从低级到高级，其内容逐级抽象，内容的表示逐级概括。

在物理样本级，音频内容呈现的是流媒体形式，用户可以通过时间刻度，检索或调用音频的样本数据。如现在常见的音频录放程序接口。

声学特征级，声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知，可以直接用于检索；一些特征用于语音的识别或检测，支持更高层的内容表示。另外还有音频的时空结构。

语义级，是音频内容、音频对象的概念级描述。具体来说，在这个级别上，音频的内容是语音识别、检测、辨别的结果，音乐旋律和叙事的说明，以及音频对象和概念的描述。

随着信息技术的发展，近年来越来越多的包括音频、视频和图片的多媒体信息以数字方式储存。为使这些信息能被有效地应用，使人们能够快速、准确地找到所需要的信息，有必要建立一套有效的检索系统。

基于人工输入的属性和描述来进行音频检索是业界首先想到的方法。该方法的主要缺点是：当数据量越来越多时，人工的注释强度加大；人对音频的感知，如音乐的旋律、音调、音质等，难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。

音频检索是指从音频资源中找出满足用户需求的特定音频的过程。目前，对于音频的检索大多是基于人工输入的属性和描述来进行的，但是随着音频资源的丰富以及人们对音频搜索需求的增长，这种方式搭建的检索系统已经不能很好地完成所需的任务。因此，需要研究基于内容的音频检索，其基本思想是通过分析音频中的音频特征和上下文联系来进行检索。

发明内容

有鉴于此，本发明的一个目的是提供一种音频分析及检索方法，该方法包括：

依据一定解码规则从外部音频源获取音频流；

对从音频流采集单元获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；

对从音频流分割单元输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；

对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图；

对语音流分析模块得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

本发明还提供一种音频分析及检索系统，用以通过对音频信号内容的分析，该系统包括：

音频流采集单元，用于依据一定解码规则从外部音频源获取音频流；

音频流分割单元，用于对从音频流采集单元获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；

音频流识别单元，用于对从音频流分割单元输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；

语音流分析单元，用于对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图；

检索单元，用于对语音流分析模块得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

综上所述，本发明通过对音频数据流进行分割、分析处理，提取各部分的声学特征，得到拼音图，从而可基于这些拼音图对音频数据流进行检索。可快速准确地从音频源中查找到所需音频数据。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的音频分析及检索方法流程图；

图2为本发明实施例提供的音频分析及检索系统构成示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

为了便于对本发明的原理、特性和优点的理解，下面对本发明的技术方案进行详细描述。

参照图1，本发明提供一种音频分析及检索方法，该方法包括：

S01，依据一定解码规则从外部音频源获取音频流；

S02，对从音频流采集单元获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；

S03，对从音频流分割单元输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；

S04，对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图；

S05，对语音流分析单元得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

如图2所示，本发明实施例中提供的一种音频分析及检索系统，用以通过对音频信号内容的分析，该系统包括：

音频流采集单元10，用以依据一定解码规则从外部音频源获取音频流；

音频流分割单元20，用以对从音频流采集单元获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；

音频流识别单元30，用以对从音频流分割单元输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；

语音流分析单元40，用以对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图；

检索单元50，用以对语音流分析单元得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

音频流采集单元10中的外部音频源是音频文件、视频文件、音频输入设备其中之一。

音频流采集单元10中的外部音频源的采样率范围从8000Hz到44100Hz。

所述音频流采集单元中的外部音频源的采样位数的范围从8位到24位。

所述音频流采集单元10中的一定解码规则包括对如下格式的文件asf/wma/wmv/avi/wav/mpeg/mp3/aiff/pcm/raw/vox的解码规则。

所述音频流采集单元10中的音频流是raw格式数据。

所述音频流分割单元20包括三个模块：

静音点检测模块20a，从音频流中检测静音点，以对音频流进行分段；

音频特征变换点检测模块20b，从音频流中检测音频特征变化点以对音频流进行分段；

分段点置信度判断模块20c，通过贝叶斯信息准则(BIC，Bayesian InformationCriterions)准则判断分段点合理性、去除不合理分段点以对音频流进行分段。

贝叶斯信息准则就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。统计模型决策中的一个基本方法，其基本思想是：已知类条件概率密度参数表达式和先验概率；利用贝叶斯公式转换成后验概率；根据后验概率大小进行决策分类。

静音点检测模块20a中音频信号的静音点，是通过计算音频信号的能量值得到的；当音频信号的能量值小于特定阈值时，确定找到音频流中的静音点。

静音点检测模块20a中音频信号能量值的特定阈值，是通过对一完整音频信号片段的能量值估计得到的。

静音点检测模块20a中音频信号的静音点，还可以通过计算音频信号能量值的方差值得到，具体方式为：

当音频信号能量值的方差值小于特定阈值时，确定音频流中存在静音点；在确定音频流中存在静音点后，计算音频信号能量值的方差，当音频信号能量值的方差大于特定阈值时，确定音频流中静音段结束，确定找到音频流中的静音点。

静音点检测模块20a中音频信号能量值的方差值的特定阈值，是通过对一完整音频信号片段的能量值的方差值估计得到的。

音频特征变换点检测模块中的音频特征变化点，是通过在音频流中取得相邻音频片段、计算两音频片段的音频特征矢量序列差异度的值得到的；当差异度的值达到特定阈值后确定音频特征变化点。

音频特征变换点检测模块中的输入音频段的特征矢量序列，是通过对输入音频段提取音频特征参数得到的。

音频流识别单元，包含两个模块：

时域分析模块，通过分析音频的时域特征对音频流进行分类；

频域分析模块，通过分析音频的频域特征对音频流进行分类。

时域分析模块中的音频的时域特征，包括过零率、短时能量、短时能量均方差、静音帧比、子频带能量分布中的一种时域特征或几种时域特征。

时域分析模块中的音频的频域特征，包括线性预测倒谱系数、梅尔倒谱系数中的一种时域特征或两种频域特征。

语音流分析单元包括三个模块：特征矢量提取模块、模型匹配模块、模型更新模块。

特征矢量提取模块对语音流进行分帧处理，提取语音特征参数得到语音流的特征矢量序列。

模型匹配模块将特征矢量序列和拼音的声学模型进行匹配，以得到多候选拼音构成的拼音图。

模型匹配模块还利用拼音间统计依存关系计算拼音序列的匹配距离，并对拼音的匹配距离进行排序，得到粗化拼音图。

模型更新模块对粗化拼音图进行自适应修正和平滑修正，得到细化拼音图。

检索单元，对检索词对应的拼音序列进行置信度计算。

检索单元利用前后向算法计算拼音串的后验概率，以此来确定检索词的置信度。

检索单元还包括根据不同应用需要，确定不同置信度门限。

本发明实施例提供的一种音频分析及检索系统，其中音频流采集单元10，依据一定解码规则从外部音频源获取音频流。外部音频源可以是音频文件，可以是视频文件，也可以是音频输入设备。对于音频文件和视频文件，需要按照一定的解码规则对文件进行解码，得到只包含数据部分的音频流；对于音频输入设备，如麦克风，需要提供该设备到音频分析系统的接口，从而得到只包含数据部分的音频流。得到的音频流送入音频流分割单元进行下一阶段的处理。

音频流分割单元20，对从音频流采集单元获取的音频流进行分段。分段后，每个分段都具有单一的声学特征。对音频流分段需要首先通过能量方差、能量两个模块寻找音频流中的静音点，静音点是通过计算音频信号的能量和能量方差得到的。当音频信号的能量值小于特定阈值时，系统判定找到音频流中的静音点；当音频信号能量值的方差值小于特定阈值时，系统判定音频流中存在静音点，在确定音频流中存在静音点后，计算音频信号能量值的方差，当音频信号能量值的方差大于特定阈值时，确定音频流中静音段结束，至此确定找到音频流中的静音点。这两个模块的输出的信息经过综合，得出统一的分割点信息。将已知静音点的音频流送入音频特征检测模块，以得到更细致的音频变化点。通过计算在音频流中取得的相邻音频片段的特征差异度值，可以判定音频特征的变化点。当特征差异度值超过特定阈值后确定音频特征变化点存在。音频特征检测模块输出的每个分段都已具有单一的声学特征，但是由于音频特征检测模块对音频处理原理的限制，此时得到的分割信息会过于精细，因此需要进行分段点合并，检测到相邻分段中声学特性的变化情况，如果发现相邻分段的声学特性十分相似，则判定这两个分段应该合并。分段后的音频流被送入音频流类型判断模块以判断该分段的具体类型。

音频流识别单元30，对从音频流分割单元20输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征。分析的方法有两种，根据时域特征分类模块和根据频域特征分类模块分别根据时域和频域特征对音频流的特征进行分析。时域特征分类模块通过过零率、短时能量、短时能量均方差、静音帧比、子频带能量分布中的一种时域特征或几种时域特征来判断单一音频流的类型；频域特征分类模块通过线性预测倒谱系数、梅尔倒谱系数中的一种频域特征或两种频域特征来判断单一音频流的类型。这两个单元是并行处理音频流的，两个单元输出的结果经过置信度的判别之后合并，由此确定声学特征的类型。具有单一声学特性的音频流经过时域特征分类模块和频域特征分类模块的判别，其声学特性会被确定。

语音流分析单元40，对音频流识别单元30判别出的声学特征为语音的音频流进行识别得到拼音图。在本发明的系统中的语音流分析单元，主要对语音流部分进行分析，非语音流部分在经过音频流识别单元后被抛弃，只有语音流被送入语音流分析单元进行内容的分析与识别。语音分析主要是基于分帧后的特征矢量分析进行的，因此，从音频流识别单元输入的语音流首先进入特征矢量序列提取模块，得到可以代表该语音流的特征矢量序列。在模型匹配模块，该特征矢量序列与拼音的声学模型进行匹配，对各个候选拼音序列分别计算拼音的匹配距离。加入拼音间统计依存关系后，拼音序列的匹配距离被重新计算，得到多候选拼音构成的拼音图。此时的拼音图还停留在粗化拼音图的阶段。对粗化拼音图进行自适应修正和平滑修正后，便可以得到细化拼音图并存储，至此对语音流的分析过程结束。

检索单元500，基于拼音序列的关键词检索，对语音流分析单元得到的拼音图进行检索。拼音序列单元存储待检索的拼音序列，拼音序列和单元输出的拼音图同时被送入置信度计算单元，进行置信度的计算。置信度的计算是利用前后向算法，计算拼音串的后验概率，根据事先设定的置信度门限判断该被检索的拼音序列是否在该音频片段中出现。如果经判断，该拼音序列在音频片段中出现，置信度计算单元可以同时得到该拼音序列在音频流中的位置。

对于音频分析系统来说，音频流采集单元是整个音频分析的基础，是对数据进行预处理的过程。解码器会针对不同的音频流来源采取不同的解码方式。音频流的来源有多种，asf/wma/wmv/avi/wav/mpeg/mp3；以及aiff/pcm/raw/vox都是可能的音频流来源，而每种来源中的音频的采样频率和采样位数都不尽相同：例如电话音频的采样频率一般为8000Hz，而CD的采样频率一般为44100Hz；采样位数也会由于来源的不同从8位变化到24位。通过音频流采集单元后，各种不同来源的音频流都被统一成一种格式，该统一格式的音频流具有相同的采样频率和采样位数，并且只包含有数字化的音频本身的信息。

对于一段未知属性的音频流，需要分析其音频特性，这时便需要利用音频分段和音频类型判别的方法。音频分段和音频类型判别是音频检索的基础，在语音识别的前端信号处理中有着十分重要的意义。在基于内容的语音分析系统中，输入语音分析模块的应该是声学特征单一的音频片断。但是，真实环境下采集的语音流往往不满足这样的条件，而是多种特征混杂在一起的。以广播新闻为例，其声学环境复杂多变，句子边界未知，如果不做前端处理便直接送入语音分析模块，会大大降低语音分析模块的性能。这就需要对语音流加以预处理，对语音流进行分割。

停顿作为一个重要的韵律特征，反映了语料的结构信息。句子与句子中间以及语音与非语音中间通常会存在停顿，而停顿是由静音来表征的，此时的音频信号仅为背景噪声。通过检测静音可以对连续音频流进行分割，达到初步分段的目的。

通过能量的高低来判断静音点是否存在是最容易实现的一种方式，在音频分段模块中，使用能量作为判断静音点的依据之一。但是，由于现实情况中声学环境不是一成不变的，也就是说静音的能量有高有低，那么，仅仅依靠能量的高低来分段是不够的，因此考虑使用能量的方差来作为分段的另一依据。

定义能量方差如下：

其中e_i为各帧的能量；N为能量的帧数，与停顿的长短有关，即如果设定最小停顿为300ms，而能量的帧频率为100时，N为30。

能量e用下式计算：

其中x(t)为第t个采样点，T为每帧包含的总的采样点数目。

设定门限T_var，以N为窗长计算窗内能量方差。门限T_var的计算方法如下：

T_var＝α·log₁₀σ_global，σ_global为整个音频流范围内的方差，α为比例因子，取值0.7-1.0之间。

若得到的方差值大于设定的门限，则说明该段音频中没有静音。以一定的步长滑动窗口，重新计算能量方差。若得到的能量方差值小于门限值，则说明窗内信号含有静音点。为了找到静音的结束点，不断增大窗的长度，直到计算出的能量方差大于门限为止，至此找到一个静音点。之后把窗长重新设为N，开始下一次查找。如此可以找到音频流中所有静音点。各个静音点则把连续音频流分割成各音频段，之后可以以音频段为单位进行进一步的处理。

检测音频特性的变化点的本质是计算两个模型之间的距离。首先将音频信号用声学特征矢量进行建模，然后计算两个相邻窗之间声学特征矢量的距离。直接计算声学特征矢量的距离是难以进行的，因此需要采取间接的方式。通常认为，这样得到的声学特征矢量满足高斯分布，所以考虑首先对窗内的声学特征矢量用高斯分布来拟合，然后计算两个高斯分布的距离。那么计算声学特征矢量的距离便转化为计算统计模型的距离。现在是计算两个统计模型的距离，所以有很多度量距离的方法。

假设现有两个高斯分布，分别是N(μ₁,∑₁)和N(μ₂,∑₂)，几种常见的计算高斯分布距离的方法如下：

Kullback-Leibler-2distance:

Mahalanobis distance:

Bhattacharyya distance:

计算模型距离可以使用但是并不局限使用上面三种方法，在这里使用KL(Kullback-Leibler)-2距离计算两个模型之间的距离。

KL距离，是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称，也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布Q(x)编码时，平均每个基本事件(符号)编码长度增加了多少比特。

显然如果两个分布的距离值很大，则说明很可能是一个声学特征跳变点，而分布的距离很小则说明这两个部分处于相似的声学环境当中，声学特性应该相同。

在一个连续的音频信号流上，用两个相邻的窗各取一段信号，将每窗内信号特征矢量拟合为一个高斯分布，计算这两个高斯分布间的距离。然后按一定的步长移动这两个窗口，再次计算两窗的距离，从而得到一条距离测度曲线。最后按照一定的门限设置规则找出曲线上可能的声学变化点。

该模块对环境的改变比较敏感，召回率很高，但是同时也会检测出很多冗余点，造成虚警率过高。正是由于检测音频特性变化点单元的这个特性，分段点合并单元的设置才是有必要的。

分段点合并单元是在已经确定分割点的情况下，判断两个连续音频段是否可以合并。

假设x₁,x₂,Λx_N～N(μ,∑)，假设在音频片断中只包含一个分割点，i时刻发生跳变，把整个音频段分为前后两个部分，对分割后的两个部分，有

x₁,x₂,Λx_i～N(μ₁,Σ₁)和x_i+1,x_i+2,Λx_N～N(μ₂,Σ₂)

∑、∑₁、∑₂分别是所有音频数据、前i个音频数据、后N-i个音频数据的协方差矩阵。

那么可以把判断是否应当合并看作是一个模型选择问题。模型之一是把所有音频数据用一个高斯分布来描述；模型之二是以分割点为界，将音频数据分成两个部分，分别用一个高斯分布来描述。两个模型的BIC值可以用下面的式子来表示：

其中，N、N₁、N₂分别是描述该高斯分布的特征矢量数，d是矢量空间的维数，λ是一个惩罚因子，一般取值为1。

如果BIC值小于0，则认为两个音频段是属于同一分布，应该合并，反之则不合并。

对于上式中的惩罚因子λ也可以有不同的取值，这样可以根据不同的情况设定不同的λ值，以期得到更优的结果。

经过合并后的分段点显示了音频流的特征信息。其中音频特征为语音的部分供语音流分析单元分析之用。

在语音流送入语音分析模块之后，首先要对语音流提取特征矢量序列。语音特征有多种，如LPC系数、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、感知线性预测参数(Perceptual Linear Predictive，PLP)等等。在这里并不关心采用何种参数，本发明可以适用任何一种特征参数。在这里采用MFCC系数为例。

这里采用的MFCC系数为14维，14维MFCC系数加上相应的一阶二阶差分，以及其对数能量和对数能量的一阶二阶差分构成了45维的特征矢量。分帧提取的特征矢量组合在一起构成了特征矢量序列。

模型匹配单元可以采用的声学模型同样有多种：单音子模型(Monophone)、双音子模型(Biphone)、三音子模型(Triphone)或者更多音子模型。这里为了叙述的方便采用单音子模型。同时在模型匹配单元中加入音素语言模型，即利用拼音间的统计依存关系辅助模型匹配，以期得到更好的拼音图的结果。

模型匹配单元可以得到粗化的拼音图。在得到粗化拼音图之后，可以采用自适应方法和平滑方法对拼音图进行修正，以使得拼音图可以更好地反映音频流携带的信息。常见的自适应方法有最大后验概率自适应(Maximum A Posteriori,MAP)和最大似然线性回归自适应(Maximum Likelihood Linear Regression,MLLR)，这里采用MLLR自适应方法。这样便可以得到细化的拼音图。该拼音图可以用作关键词检索。

关键词检索系统一般分为如下两类：

一是单阶段系统，搜索在关键词模型和非关键词模型(或者称为废料模型)并联的网络上进行。当关键词改变时，系统必须对语音流再次进行分析，在对同以音频流进行多次检索时，检索速度相对较慢，因此不适合用户需要反复修改查询条件的场合下使用。

二是两阶段系统。第一阶段为预处理阶段，通过语音分析模块将语音流数据转化为拼音图或者词图或者文本，对每段音频流都只需要运行一次，以后为响应用户的检索只需在拼音图或者词图或者文本中查找匹配。

本系统中的音频检索任务，是在数据库一定的情况下，根据不同的查询请求返回相应的结果，因此考虑采取两阶段系统作为系统方案。

前面已经得到了细化的拼音图，此时只是需要输入待检索的拼音序列，和细化的拼音图一起处理，便可以得到检索的结果。

检索时，利用前后向算法计算待检索的拼音序列的后验概率，从而进行置信度的计算，之后根据事先设定的置信度门限判断该音频片段中是否出现被检索的拼音序列。如果存在该拼音序列，可以同时得到待检索拼音序列在音频流中的位置。

综上所述，本发明提供的技术方案中，通过对音频数据流进行分割、分析处理，提取各部分的声学特征，得到拼音图，从而可基于这些拼音图对音频数据流进行检索。可快速准确地从音频源中查找到所需音频数据。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种音频分析及检索方法，其特征在于，该方法包括：

依据一定解码规则从外部音频源获取音频流；

2.一种音频分析及检索系统，用于通过对音频信号内容的分析，其特征在于，该系统包括：

3.如权利要求1所述的音频分析及检索系统，其特征在于，所述音频流分割单元包括三个模块：

静音点检测模块，从音频流中检测静音点，以对音频流进行分段；

音频特征变换点检测模块，从音频流中检测音频特征变化点以对音频流进行分段；

分段点置信度判断模块，通过BIC准则判断分段点合理性、去除不合理分段点以对音频流进行分段。

4.如权利要求3所述的音频分析及检索系统，其特征在于，静音点检测模块中音频信号的静音点，是通过计算音频信号的能量值得到的；当音频信号的能量值小于特定阈值时，确定找到音频流中的静音点。

5.如权利要求4所述的音频分析及检索系统，其特征在于，静音点检测模块中音频信号能量值的特定阈值，是通过对一完整音频信号片段的能量值估计得到的。

6.如权利要求3所述的音频分析及检索系统，其特征在于，静音点检测子模块中音频信号的静音点，通过计算音频信号能量值的方差值得到，具体方式为：

7.权利要求6中所述的音频分析及检索系统，其特征在于，静音点检测子模块中音频信号能量值的方差值的特定阈值，是通过对一完整音频信号片段的能量值的方差值估计得到的。

8.如权利要求3所述的音频分析及检索系统，其特征在于：音频特征变换点检测子模块中的音频特征变化点，是通过在音频流中取得相邻音频片段、计算两音频片段的音频特征矢量序列差异度的值得到的；当差异度的值达到特定阈值后确定音频特征变化点。

9.如权利要求8所述的音频分析及检索系统，其特征在于：音频特征变换点检测子模块中的输入音频段的特征矢量序列，是通过对输入音频段提取音频特征参数得到的。

10.如权利要求1所述的音频分析及检索系统，其特征在于，检索单元利用前后向算法计算拼音串的后验概率，以此来确定检索词的置信度。