CN101447185B

CN101447185B - 一种基于内容的音频快速分类方法

Info

Publication number: CN101447185B
Application number: CN2008102182704A
Authority: CN
Inventors: 黄石磊; 杨永胜; 刘轶
Original assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Current assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Priority date: 2008-12-08
Filing date: 2008-12-08
Publication date: 2012-08-08
Anticipated expiration: 2028-12-08
Also published as: CN101447185A

Abstract

本发明公开了一种基于内容的音频快速分类方法，包括以下步骤：对音频数据进行预处理和特征提取，获得一系列语音特征矢量；对这些语音特征矢量的序列进行分段，每段包含若干语音矢量；根据声学模型和字典将所述语音特征矢量转换为用基本声学模型单元AU表示的语音内容序列，并对照建立好的词表识别出包含分类关键词的语音内容序列，所述声学模型中包含若干具有完备性和区分性的基本声学模型单元；计算各个语音内容序列包含分类关键词的置信度得分，判断所述置信度得分是否在设定的阈值分布范围内，如果是则保留该语音内容序列包含分类关键词的识别结果；对所述识别结果进行统计，根据分类任务对分类关键词的设定将符合设定条件的音频数据进行分类。本方法充分利用内容信息，可以非常方便的实现复杂的分类，并且可以并行处理多个音频数据文件，文件分类处理的效率高。

Description

一种基于内容的音频快速分类方法

【技术领域】

本发明涉及信息处理技术领域，尤其涉及一种基于内容的音频快速分类方法。

【背景技术】

随着现代社会的快速发展，各种文字、图像、视频、音频信息越来越多。在通信和互联网领域中，音频信息占有非常重要的地位。而在对音频信息进行的各种处理中，音频分类是十分重要的处理过程之一。

目前一种音频分类方法的技术方案是，首先对输入的音频信号进行预处理，再计算该音频信号的线性预测编码系数，然后根据线性预测编码系数得到信号的频谱包络，再由计算得到的导谱对参数确定幅度差异值，最后根据幅度差异值的统计结果对音频信号进行分类。

上述音频分类方法的不足之处在于：

1、不能充分利用音频的内容信息。上述音频分类方法采用一些较为简单的特征，这些特征基本上是一些局部的短时的特性，不能较好地反应语音的长时间的整体性，特别是语音内容的特性。而在信息安全、监控、内容检索等领域，十分关心音频特别是语音数据的内容信息，这些内容信息，不能通过上述音频分类方法来提取。

2、不能根据要求灵活的改变分类的类别。上述音频分类方法主要依据实现约定的类别进行分类，这些类别一方面一般不基于内容，另一方面整个分类的操作过程也和这些类别本身相关。因此，当需求改变时，整个系统需要做很大的调整，并且分类的性能无法保证。

3、不能实现复杂的分类。上述音频分类方法的分类数目较少，同时无法实现复杂分类，比如要求某个词在语音中出现，某个词在语音中不出现，或者两个词同时出现等逻辑组合的分类。

【发明内容】

有鉴于此，有必要提供一种基于内容的音频快速分类方法，对音频信息进行基于内容的分类，实现对大量的音频数据进行快速的处理。

为达到上述目的，提出以下的技术方案：

一种基于内容的音频快速分类方法，包括以下步骤：

A、对音频数据进行预处理和特征提取，获得一系列语音特征矢量，将所述语音特征矢量进行分组得到语音矢量段，每一语音矢量段包含连续若干语音特征矢量；B、根据声学模型和字典将所述语音特征矢量转换为用基本声学模型单元AU表示的语音内容序列，所述基本声学模型单元包含若干基本声学模型单元，所述基本声学是每个基本的语言的发音单元对应的语音特征矢量表征，具有完备性和区分性，所述字典中包含基本声学模型单元和词之间的关系，一个词至少由一个基本声学模型单元组成，同时一个词对应若干种基本声学模型的序列，所述完备性是语音中所有发音单元都有其对应的语音特征矢量的表征，所述区分性是各个不同的发音单元之间不应该完全相同；C、利用声学模型及字典对照建立好的词表识别出包含分类关键词的语音内容序列，所述声学模型中包含若干基本声学模型单元，字典中的词经过组合必须能表示词表中的全部词，所述字典中的一部分词用来表示词表当中没有的词；D、对所述识别结果进行统计，根据分类任务对分类关键词的设定将符合设定条件的音频数据进行分类。

其中，所述步骤A具体包括：A1、对输入的音频数据进行预处理；A2、对预处理后的音频数据进行分帧；A3、将每帧音频数据变换为一个语音特征矢量。

其中，所述步骤B具体包括：B1、建立包含分类关键词的词表；B2、将所述一系列语音特征矢量进行分组，得到多个语音矢量段；其中，每个语音矢量段包含时间上连续的至少两个语音矢量，并且连续两个所述语音矢量段之间有一定的交叠；B3、根据声学模型和字典将语音矢量段的语音特征矢量转换为用AU来表示的语音内容序列；B4、将所述语音内容序列与词表进行比较，识别出包含分类关键词的语音内容序列。

其中，所述步骤B3具体包括：根据声学模型、语言模型和字典将语音矢量段的语音特征矢量转换为用AU来表示的语音内容序列。

优选地，所述步骤C之后、步骤D之前还包括步骤：Q、计算各个语音内容序列包含分类关键词的置信度得分，判断所述置信度得分是否在设定的阈值分布范围内，如果是则保留该语音内容序列包含分类关键词的识别结果，否则

放弃该语音内容序列包含分类关键词的识别结果。

其中，所述步骤Q具体包括：Q1、获得各语音内容序列中被识别为关键分类词的词，称为候选假设；Q2、计算所述候选假设的可靠性得分；Q3、根据所述可靠性得分计算候选假设的置信度得分；Q4、设定阈值，判断所述置信度得分是否在阈值的分布范围内，如果是则保留该语音内容序列的统计结果，否则放弃该语音内容序列的统计结果。

其中，所述步骤Q2具体包括：计算所述候选假设中AU对应的垃圾模型得分，或计算所有AU共有垃圾模型得分；将所述垃圾模型得分作为可靠性得分。

其中，所述步骤Q2具体包括：

计算候选假设中每个AU和整个候选假设的长度，根据已有的AU长度的概率分布函数，得到每个AU的长度得分；

将所述候选假设中每个AU的长度得分作为可靠性得分。

其中，所述步骤Q2具体包括：

将所述语音矢量段的AU序列形成网络网格，根据每个AU的起始时间得到同时间段中网络网格具有的其他AU的数量，根据所述其他AU的数量得到候选假设的网格得分；

将所述候选假设的网格得分作为可靠性得分。

其中，所述步骤Q2具体包括：

根据以分类关键词为中心的AU序列以及对应的词序列，计算所述候选假设在语言模型的得分；

将所述候选假设在语言模型的得分作为可靠性得分。

从以上技术方案可以看出，一种基于内容的音频快速分类方法有以下有益效果：

1、充分利用内容信息。在对语音进行处理的整个过程中，将语音的内容进行提取，语音中全部的信息被提取出来或语音中关于事先约定的关键词的信息全部被提取出来，实现了基于内容的分类。

2、方便灵活，可以迅速改变分类的类别。当任务要求改变时，特别是关键词改变时，由于声学模型和语言模型一般是不需要修改的，仅需要对词表和字典作少量的改动就可以执行新的任务。

3、可以非常方便的实现复杂的分类。由于音频数据中很多有关内容的有用信息从语音中被提取出来，因此可以事先设定基于内容的复杂分类，例如规定某个词出现，某个词不出现，某个词出现两次等非常复杂的逻辑及其组合。

4、可以并行处理多个音频数据文件，分类处理的效率高。本方法在处理各个文件以及各个文件的分段时，没有相互依赖关系，可以同时进行，为进行大规模的并行处理创造了条件，可以利用现有并行处理技术实现快速处理，使处理海量音频数据成为可能。

【附图说明】

图1为一种基于内容的音频快速分类方法的基本流程图。

【具体实施方式】

下面结合具体的实施例及说明书附图进行详细的描述。

一种基于内容的音频快速分类方法，如图1所述，主要包括以下步骤：

步骤S101、对音频数据进行预处理和特征提取，获得一系列语音特征矢量。

本步骤中，首先进行分帧，然后将每帧音频数据转换成多个特征数值，形成一系列语音特征矢量。

步骤S102、将语音特征矢量转换为用基本声学模型单元(AU)表示的语音内容序列，并对照建立好的词表识别出包含分类关键词的语音内容序列。

本步骤中，首先将一系列语音特征矢量进行分组得到语音矢量段，然后对每个语音矢量段进行语音识别，找出含有分类关键词的语音内容序列。

步骤S103、计算各个语音内容序列包含分类关键词的置信度得分，判断该置信度得分是否在设定的阈值分布范围内，如果是则保留该语音内容序列包含分类关键词的识别结果，否则放弃该语音内容序列包含分类关键词的识别结果。

步骤S103是对步骤S102的语音识别结果的可靠性进行检测，以提高音频分类的准确度和精度，属于优选的实施方式，并不是本方法必需的步骤。

步骤S104、对所述识别结果进行统计，根据分类任务对分类关键词的设定将符合设定条件的音频数据进行分类。

对识别结果进行统计，获得音频数据文件中包含分类关键词的情况，按照分类的范围(通常为文件)，确定每个音频数据文件中包含分类关键词(KW)的情况；再根据任务对KW事先设定的每一种音频分类对应的关键词出现或者不出现以及出现次数的组合情况，即每个KW在每个文件中是否出现以及出现的次数，确定该音频数据文件是否满足任务的设定条件，如果满足，则归为相应的类别。

本方法在对语音进行处理的整个过程中，将语音的内容进行提取，除系统可能产生的错误之外，语音中全部的信息或语音中关于事先约定的关键词的信息全部被提取出来，实现了基于内容的分类。

人对于音频的理解和处理主要依据音频的内容。语音识别使得机器具有类似人一样的听觉功能，能直接接受人的语音，理解意图并作出相应的反应。利用语音识别，对音频数据进行基于内容的分类，并能对大量的数据进行快速的处理，具有十分重要的意义。

对于步骤S101，其具体包括以下步骤：

步骤11、对输入的音频数据进行预处理。预处理主要包括进行采样率和采样精度调整、去除直流成分过程，使得不同来源的各音频数据具有相同的格式。

步骤12、对预处理后的音频数据进行分帧。分帧是将音频数据分成很小的段，作为后续处理的基本单元，一般的每帧长度为5至100毫秒(如25毫秒)，并且在连续两帧之间一般有一定的交叠。

步骤13、将每帧音频数据变换为一个语音特征矢量，每个矢量由一系列特征数值组成，表示一帧音频数据。本步骤具有多种实施方式，一般可以将分帧的音频数据进行某种变换操作，对于每一帧音频数据以较少的特征数值进行表示，一般为10至50个。

步骤13之后，在优选的实施方式中，还进一步包括步骤14：

步骤14、对变换后的语音特征矢量进行进一步的处理，处理过程包括(1)和/或(2)：

(1)、对每一帧音频数据前后一段时间对应的语音特征矢量求均值，并将当前帧的语音特征矢量减去该均值，以去除一致性的干扰。

例如，可以将每一帧前后各1.5秒(共3秒)音频数据对应的语音特征矢量求均值，并从当前帧中的语音特征矢量减去这个均值，对于音频数据中最前面和最后面的不足1.5秒语音部分，在求均值时缩减相应的范围。

(2)、计算前后两帧音频数据的语音特征矢量的差分，将该差分附加到当前帧中的语音特征矢量上，以体现语音变化快慢的程度。

例如，可以将当前帧后一帧的语音特征矢量(假定有13维矢量)减去前一帧，得到13维矢量的差分，附加到当前帧作为另外13维矢量，这样原始的音频数据就用一系列的语音特征矢量进行表示，每个矢量由一个26维的矢量来表示。

对于步骤S102，根据声学模型和字典对语音矢量段的语音特征矢量转换为用AU表示的语音内容序列，并对照建立好的词表识别出包含分类关键词的语音内容序列，主要包括以下步骤：

步骤21、建立包含分类关键词的词表。确定事先约定的词的内容，形成一个词表(VOCAB)，词表由若干个词组成，这个词表中的词必须没有重复、并且是现实语言可能出现的词，这些词成为关键词(Key Word，KW)。

步骤22、将步骤1得到的一系列语音特征矢量进行分组，得到多个语音矢量段。每一语音矢量段包含连续数百个语音特征矢量，对应于原始音频数据的长度为若干秒。连续的两个语音矢量段之间可以有一定的交叠，这样任意一个语音特征矢量至少被包含在一个语音矢量段当中。

这样得到一系列矢量的分组，对于每个语音矢量段执行步骤23。

步骤23、本步骤有两种实施方式：

实施方式一：根据声学模型、语言模型和字典将语音矢量段的语音特征矢量转换为用基本声学模型单元(AU)来表示的语音内容序列。

对语音矢量段进行语音识别，需要利用声学模型、语言模型以及字典。

(1)声学模型(AM)：声学模型包含若干基本声学模型单元(AU)，AU是每个基本的语音的发音单元(音标)对应的语音特征矢量的表征，具有完备性和区分性。

完备性：语音中所有可能的发音单元(音标)都有其对应的语音特征矢量的表征。

区分性：各个不同的发音单元(音标)之间不应该完全相同。

其中，每个发音单元(音标)AU在识别正确的情况下，对应着语音矢量段中数百个语音特征矢量序列的一段，也就是连续若干个语音特征矢量。

(2)、语言模型(LM)：语言模型是在语音识别中约束发音单元之间相互关系的条件，也就是一个发音单元对邻近若干个发音单元的影响，以及在语音流中一定范围内同时出现或互斥的关系表述。

(3)、字典(DICT)。字典中包含AU和词(WORD)之间的关系：一个WORD至少由一个AU组成；同时一个WORD可以对应若干种AU的序列；这里WORD不必包含VOCAB中的全部词，但是字典中WORD经过组合必须能表示VOCAB中的全部词。

对于一定的声学模型和字典，利用和模型相对应的模式匹配方式进行匹配计算，将步骤22所产生的语音矢量段转换为用AU表示的一个序列，这个序列进一步的可以表示为字典中语音内容的序列。

注意到对于一个语音矢量段，本步骤所产生用AU表示的序列可能超过一个，对应的字典中语音内容的序列也可能不止一个。

实施方式二：根据声学模型和字典将语音矢量段的语音特征矢量转换为用基本声学模型单元(AU)来表示的语音内容序列。

对语音矢量段进行语音识别，需要利用声学模型以及字典。

(1)、声学模型(AM)：声学模型包含若干基本声学模型单元(AU)，AU是每个基本的语音的发音单元(音标)对应的语音特征矢量的表征，具有完备性和区分性。

区分性：各个不同的发音单元(音标)之间不应该完全相同。

声学模型中还有若干AU并不是真实语音中的发音单元，它们用来表示声音中非语音的部分。

(2)、字典(DICT)：字典表示了AU和词(WORD)之间的关系，这里WORD有两部分：

一部分包含VOCAB中所有词；

另一部分用来表示VOCAB当中没有的词，这里“词”也代表了语音中的各种发音情况(例如，各种音节，如每个词表示一个音节)，为了表征尽可能多的词或者说发音情况，这些词(WORD)中，单个的词所包含的AU单元较少，但是它们经过组合可以表示语音中各种可能发音情况。

对于一定的声学模型和字典，利用和模型相对应的模式匹配方式进行匹配计算，这里字典中的各个WORD的出现相互没有影响，将步骤22所产生的矢量分组转换为用AU表示的一个序列，这个序列进一步的可以表示为字典中语音内容的序列。

注意到对于一个矢量段，本步骤所产生的AU序列可能超过一个，对应的字典中语音内容的序列也可能不止一个。

步骤24、将所述语音内容序列与词表进行比较，识别包含分类关键词的语音内容序列。

在优选的实施方式中，还进一步包括步骤S103检测识别结果可靠性的过程，步骤S103主要包括以下步骤：

步骤31、获得各语音内容序列中被识别为关键分类词的词，称为候选假设。

对步骤2所产生的语音内容序列进行整理，获得其中每个可能包含VOCAB中分类关键词的词，称为候选假设H，而一个语音矢量段中除分类关键词以外的部分称为非关键词部分。

步骤32、计算所述候选假设的可靠性得分。

候选假设H的可靠性得分可以从不同的方面进行计算，在本方法中，可以根据下述几种方式的某一个方式或其任意组合来进行计算：

方式一、计算候选假设H的识别结果(最佳的AU序列)和垃圾模型的差或者比值作为可靠性得分。其中，H的识别结果和垃圾模型的区别越显著，则得分越高，反之则得分低。这里垃圾模型为一个或者若干个，它有两种形式：

1)、对每个AU对应的垃圾模型，它表示了语音中所有可能的非AU部分的特性。

2)、所有AU共有的垃圾模型，它表示了语音中非任何可能AU的部分地特性，或者AU部分的平均特性(而不是某一AU的特性)。

这样，在这个AU对应的语音矢量段中对于每个候选假设H对应的每个AU，可以计算AU对应的垃圾模型得分，或计算所有AU共有垃圾模型的得分。

方式二、计算候选假设H中每个AU的长度得分作为可靠性得分。

从每个H的每个AU的起始时间，可以计算出每个AU以及整个H的长度，根据已有的AU长度的概率分布函数，从而计算H中每个AU的长度得分。其中，H的时间长度越接近概率分布函数中的正常时间长度，则得分越高，反之则得分低。例如，H中“今天”的时间长度为0.1秒，而根据概率分布函数“今天”的正常时间长度为0.5秒，相差较大，则H得到的长度得分比较低。

方式三、计算候选假设H的网格得分作为可靠性得分。

前述步骤23中，对一个语音矢量段能得到若干个可能的AU序列，这些AU序列整体形成一个网格网络(LATTICE)。根据每个AU的起始时间，可以得到同时间段中网络LATTICE中可能具有的其他AU的数量，AU的数量越少，则表明其是分类关键词的可能性越大，从而得到候选假设H的网格得分越高，反之则得分低。

方式四、计算候选假设H在语言模型的得分作为可靠性得分。

每个候选假设H为一个分类关键词，其他的部分为非关键词，根据以KW为中心的AU序列以及对应的WORD序列，可以计算语言模型的匹配的得分，H在语言模型中匹配度越高，则候选假设H在语言模型的得分越高，反之则得分低。例如“今天很热”在语言模型中匹配度比较高，则其在语言模型的得分也较高高；反之“今天很胖”在语言模型中匹配度比较低，则其在语言模型的得分也较低。

步骤33、根据所述可靠性得分计算候选假设的置信度得分。

对每个候选假设H，经过步骤32中的一个或者多个的任意组合，可以得到一系列的得分，这些得分经过一个函数关系式可以得到一个唯一的置信度得分，函数值越高，表明H是分类关键词的可能性越高。

其中，该函数关系式可以是利用已有的数据库经过训练得到，对不同方式获得的可靠性得分权重不同；该函数关系式也可以是平均得到，将各种方式得到的H的可靠性得分的平均值作为置信度得分。

这样得到每个语音段中的H，以及相对应的H的起始时间和置信度的得分。

步骤34、设定阈值，判断所述置信度得分是否在阈值的分布范围内，如果是则保留该语音内容序列的统计结果，否则放弃该语音内容序列的统计结果。

根据任务的要求和特点设置一个阈值T，这个阈值应该所得到的每个H的阈值的分布范围内。

对于H以及相关的H的起始时间和置信度的得分，如果置信度得分等于或者高于阈值T，则认为H是可靠的，予以保留；如果H的得分小于T，则认为H是不可靠的，将不会出现在最终的结果里。

当需要提高精度的时候，可以提高阈值，这样所剩余的结果可靠性较高，但是较多的潜在正确的结果被忽略；当希望尽量保留潜在可能的结果时，可以通过调低阈值来实现。

通过阈值的改变，可以迅速的得到新的结果。因此，可以很方便地根据任务的要求对错误进行控制。

下面提供一个较完整的实施例，便于理解本方法的技术方案。

假设有如下的任务：

1000个音频数据文件，每个文件的长度是10分钟；

关键词表为：航班，北京，深圳，白天，晚上；

分类任务对关键词的设定要求为：共分两类，同时出现“航班”、“北京”，“深圳”、“白天”且不出现“晚上”的文件为一类，其余的为一类。

执行如下步骤可以构造基于内容的音频分类方法：

首先对音频数据进行预处理和特征提取，其中包括：

步骤S11、对输入的音频数据进行预处理。采用采样率为16kHz，对于语音文件中低于此采样率的文件进行上采样，对于超过此采样率的文件进行下采样，采样精度调整为16bit每样点，去除直流成分。

步骤S12、对音频数据进行分帧。分帧的帧长为25毫秒，连续两帧之间的交叠为15毫秒。

步骤S13、提取特征。采用美尔频标倒谱系数MFCC以及能量，一共13维特征每帧。

步骤S14、对提取的特征进一步的处理：

首先，可以进行倒谱均值减，以去除一致性的干扰。对于每一帧，将前后各1.5秒，共3秒语音对应的语音特征矢量求均值，并从当前帧中减去这个均值，对于语音文件中最前面和最后面的不足1.5秒语音部分，在求均值时缩减相应的范围。

然后，对于基本的13维语音特征矢量，还可以求其前后各两帧差分，并附加到当前帧作为另外13语音特征维矢量，以体现语音变化的快慢程度。

这样原始的音频数据就用一系列的语音特征矢量进行表示，每个矢量由一个26维的矢量表示。

然后，对经过特征提取的语音的每个小的分段进行语音识别，识别结果为关键词和非关键词的序列，其中包括：

步骤S21、确定事先约定的词的内容，形成一个词表(VOCAB)，它由“航班”、“北京”、“深圳”、“白天”和“晚上”组成称为关键词(KW)。

步骤S22、对于步骤S14所得语音特征矢量序列进行分组得到语音矢量段，每一组长度为连续300个26维语音特征矢量，对应原始音频数据的长度为3秒(实际为3015毫秒，对于文件末尾不足3015毫秒的部分，相应的减少长度)，并且连续的两个语音矢量段有一定的交叠，交叠数量为50个矢量。

这样得到一系列语音矢量段，对于每个语音矢量段并执行步骤S23。

步骤S23、对步骤S22所产生的语音矢量段，进行语音识别。其中需要利用到：

声学模型(AM)：它包含51基本声学模型单元(AU)，AU是汉语的音素，采用隐马尔科夫模型进行表示。

语言模型(LM)：采用统计语言模型，它直接约束了汉语中出现的词之间的关系，又根据字典，它实际上约束51个汉语音素之间的关系。

字典(DICT)：AU和词(WORD)之间的关系，这里采用65535个词的字典，其中包含了VOCAB中所有的词，它们的发音被51个AU表示。

对于上述的声学模型、语言模型和字典，利用和HMM模型相对应的模式匹配方式Viterbi算法进行匹配计算，将步骤S22所产生的语音特征矢量转换为用AU表示的一个序列，这个序列进一步的可以表示为字典中语音内容的序列。

步骤S24、将所述语音内容序列与词表进行比较，识别包含分类关键词的语音内容序列。

接着，对识别出来得到关键词进行确认，并检测识别结果的可靠性，执行以下的步骤：

步骤S31、对步骤S24所产生的识别结果进行整理，获得其中每个可能的VOCAB中KW的词，称为候选假设H，而一个语音段中除KW以外的部分称为非关键词(NKW)。

步骤S32、根据H，确定每个H在语音流、矢量特征序列中起始时刻、对应的KW以及AU序列、以及步骤23中得到的匹配的得分，进行步骤S33和步骤34的组合。

步骤33、计算垃圾模型的得分，这里垃圾模型为一个或者若干个，它有两种形式：

A、对每个AU对应的垃圾模型，它表示了语音中所有可能的非AU部分的特性；

B、所有AU共有的垃圾模型，它表示了语音中非任何可能AU的部分地特性，或者AU部分的平均特性(而不是某一AU的特性)；

对于每个H对应的每个AU，在这个AU对应的矢量序列中，计算AU对应的垃圾模型得分，或者共有垃圾模型的得分。

步骤34、从每个H的每个AU的起始时间，可以计算出每个AU以及整个H的长度，根据已有的AU长度的概率分布函数，计算H中每个AU的长度得分。

步骤35、计算置信度的分。对每个H，经过步骤32和步骤33可以得到一系列的得分，这些得分经过一个函数关系式可以得到一个唯一的置信度得分，这些得分满足：

A、这个函数关系式是利用已有的数据库经过训练得到的；

B、这些得分是在0至100之间的整数。

这样得到每个语音段中的H，以及相对应的H的起始时间和置信度的分。

步骤S36、设定阈值，根据任务的要求设置一个阈值T为50，这个阈值在所得到的每个H的阈值的分布范围(0至100)内。

步骤S37、对步骤4所得到的H以及相关的H的起始时间和置信度的分，如果得分等于或者高于阈值T，则认为H是可靠的，予以保留；如果H的得分小于T，则认为H是不可靠的，将不会传递给步骤43。

最后，根据语音矢量段中分类关键词是否出现以及出现的情况，对音频数据进行分类。

步骤S4、对所述识别结果进行统计，根据分类任务对分类关键词的设定将符合设定条件的音频数据进行分类。对经过步骤3得到的所有的H列表，按照分类的范围，为文件确定每个文件中包含“航班”、“北京”、“深圳”、“白天”和“晚上”的情况；如果一个文件包含“航班”、“北京”、“深圳”和“白天”，且不包含“晚上”，则归为类别1，否则归为类别2。

注意到在以上的各个步骤中，如果采用计算机进行处理，从步骤11开始的所有步骤便可以采用一台计算机处理一个文件，也就是10个文件由10台计算机同时处理，所得的结果和单独采用一台计算机处理完全一样，但是处理时间在理想情况下可以为单独计算机处理时间的十分之一。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于内容的音频快速分类方法，其特征在于，包括以下步骤：

A、对音频数据进行预处理和特征提取，获得一系列语音特征矢量，将所述语音特征矢量进行分组得到语音矢量段，每一语音矢量段包含连续若干语音特征矢量；

B、根据声学模型和字典将所述语音特征矢量转换为用基本声学模型单元AU表示的语音内容序列，所述声学模型包含若干基本声学模型单元，所述基本声学模型单元是每个基本的语言的发音单元对应的语音特征矢量表征，具有完备性和区分性，所述字典中包含基本声学模型单元和词之间的关系，一个词至少由一个基本声学模型单元组成，同时一个词对应若干种基本声学模型的序列，所述完备性是语音中所有发音单元都有其对应的语音特征矢量的表征，所述区分性是各个不同的发音单元之间不应该完全相同；

C、利用声学模型及字典对照建立好的词表识别出包含分类关键词的语音内容序列，所述声学模型中包含若干基本声学模型单元，字典中的词经过组合必须能表示词表中的全部词，所述字典中的一部分词用来表示词表当中没有的词；

D、对所述识别结果进行统计，根据分类任务对分类关键词的设定将符合设定条件的音频数据进行分类。

2.根据权利要求1所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤A具体包括：

A1、对输入的音频数据进行预处理；

A2、对预处理后的音频数据进行分帧；

A3、将每帧音频数据变换为一个语音特征矢量。

3.根据权利要求1所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤B具体包括：

B1、建立包含分类关键词的词表；

B2、将所述一系列语音特征矢量进行分组，得到多个语音矢量段；其中，每个语音矢量段包含时间上连续的至少两个语音矢量，并且连续两个所述语音矢量段之间有一定的交叠；

B3、根据声学模型和字典将语音矢量段的语音特征矢量转换为用AU来表示的语音内容序列；

B4、将所述语音内容序列与词表进行比较，识别出包含分类关键词的语音内容序列。

4.根据权利要求3所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤B3具体包括：

根据声学模型、语言模型和字典将语音矢量段的语音特征矢量转换为用AU来表示的语音内容序列。

5.根据权利要求1所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤C之后、步骤D之前还包括步骤：

Q、计算各个语音内容序列包含分类关键词的置信度得分，判断所述置信度得分是否在设定的阈值分布范围内，如果是则保留该语音内容序列包含分类关键词的识别结果，否则放弃该语音内容序列包含分类关键词的识别结果。

6.根据权利要求5所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤Q具体包括：

Q1、获得各语音内容序列中被识别为关键分类词的词，称为候选假设；

Q2、计算所述候选假设的可靠性得分；

Q3、根据所述可靠性得分计算候选假设的置信度得分；

Q4、设定阈值，判断所述置信度得分是否在阈值的分布范围内，如果是则保留该语音内容序列的统计结果，否则放弃该语音内容序列的统计结果。

7.根据权利要求6所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤Q2具体包括：

计算所述候选假设中AU对应的垃圾模型得分，或计算所有AU共有垃圾模型得分；

将所述垃圾模型得分作为可靠性得分。

8.根据权利要求6所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤Q2具体包括：

将所述候选假设中每个AU的长度得分作为可靠性得分。

9.根据权利要求6所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤Q2具体包括：

将所述候选假设的网格得分作为可靠性得分。

10.根据权利要求6所述的一种基于内容的音频快速分类方法，其特征在于，所述步骤Q2具体包括：

将所述候选假设在语言模型的得分作为可靠性得分。