CN106910494B

CN106910494B - 一种音频识别方法和装置

Info

Publication number: CN106910494B
Application number: CN201610487584.9A
Authority: CN
Inventors: 杜志军; 王楠
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2020-11-13
Anticipated expiration: 2036-06-28
Also published as: KR102220964B1; EP3477632A4; TW201801066A; WO2018001125A1; CN106910494A; EP3477632A1; US10910000B2; TWI659410B; US20210125628A1; US20190115044A1; KR20190021421A; US11133022B2; JP6750048B2; JP2019526070A

Abstract

本申请提供了一种音频识别方法和装置，其中，该方法包括：对待识别音频数据进行分帧处理，得到多帧音频数据；根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。利用本申请实施例提供的技术方案，可以大大提高抗干扰的能力、识别成功率和识别结果的准确度。

Description

一种音频识别方法和装置

技术领域

本申请属于数据处理技术领域，尤其涉及一种音频识别方法和装置。

背景技术

随着智能化水平的不断提高，人们越来越多的生活都通过智能终端等实现。例如，近些年刚出现的电视互动、音频识别等等。举例而言，在播放车载电台，听到电台中放一首歌，想知道这首歌的名字，如果按照以前的处理方式，最多是录下来，然后问问朋友，或者是听一下歌词，然后网上搜索一下。

然而，随着智能化水平和识别技术的不断发展，人们现在已经可以通过智能终端中直接实现对音频的识别，只要开启终端中的音乐识别功能，然后就可以自动识别出当前歌曲的歌名或者歌手等，更有甚至可以直接连接到音乐软件播放该歌曲。

上述就是基于音频指纹的电视互动或音乐识别的简单实现场景，但是这一切都需要依赖于较为精准的音频识别技术，目前，主流的音频识别技术是：提取特征点对，利用特征点对音频进行识别判断，具体地，如图1所示，首先将音乐转换成语谱图，在语谱图上提取若干个如图1所示的极值点。为了减少识别的难度，提升识别的效率，可以采取点对的方式进行识别，即，两个极值点构成一个点对，如图1所示示出了7个点对，识别时，如果存在一样的点对则认为存在一个正确的匹配。

然而，由于受噪声的影响，极值点不一定都在一致的位置出现，因此点对可以匹配上的概率比较低，另外，这些极值点容易受到噪声的干扰，不是特别稳定，在噪声较大的时候不能获取较为稳定的识别结果。

针对现有的音频识别技术中所存在的匹配成功率低、以及由于抗噪能力较弱而导致的识别准确率低的问题，目前未提出有效的解决方案。

发明内容

本申请目的在于提供一种音频识别方法和装置，可以有效提高匹配成功率和识别结果的准确度。

本申请提供一种音频识别方法和装置是这样实现的：

一种音频识别方法，所述方法包括：

对待识别音频数据进行分帧处理，得到多帧音频数据；

根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；

将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

一种音频识别装置装置，所述装置包括：

分帧模块，用于对待识别音频数据进行分帧处理，得到多帧音频数据；

计算模块，用于根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；

匹配识别模块，用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

本申请提供的一种音频识别方法和装置，通过根据帧与帧之间和帧内的音频变化趋势，计算得到待识别音频数据每一帧的特征值，然后将每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，从而得到识别结果，即，在频域不是提取极值点，而是利用帧与帧之间、帧内之间的比较关系，获得一个相对稳定的编码结果，从而可以有效地对抗噪声的干扰，使得识别结果更为准确。利用本申请实施方案，不仅可以大大提高抗干扰的能力，还可以有效提高识别成功率和识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有的基于提取特征点对的音频识别方法示意图；

图2是本申请提供的音频识别方法一种实施例的方法流程图；

图3是本申请提供的特征向量示意图；

图4是本申请提供的音频特征值对照表示意图；

图5是本申请提供的待识别音频数据识别匹配示意图；

图6是本申请提供的二进制比特位求和示意图；

图7是本申请提供的音频识别装置的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图2是本申请所述一种音频识别方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的如图2所述，本申请一种实施例提供的一种音频识别方法可以包括：

S1：对待识别音频数据进行分帧处理，得到多帧音频数据；

待识别的音频数据可以是音频识别软件所录取的一小段语音，或者是在电视互动上的一段语音，一般主要是为了识别出这段语音的出处。在录取后，可以将其进行分帧处理，例如，可以每30ms作为一帧数据，当然，具体选择多少ms作为一帧音频数据的长度，本申请不作限定，可以按照实际需要选择，20ms，25ms，40ms等都可以。但是需要保证的是，待识别音频数据分帧处理的规则需要与预先建立的音频特征值对照表时的分帧原则相同。

进一步的，因为在进行匹配识别的时候，由于分帧的影响，难免会出现偏差，为了减少偏差的影响，在分帧处理的时候，需要设定帧与帧之间是重叠的，以30ms作为一帧为例进行说明，第一帧是0到30ms，那么第二帧就是16ms到45ms，第三帧就是30ms到60ms，即，按照相邻帧以预定毫秒数重叠的划分规则，对所述待识别音频数据进行分帧处理，也就是说，相邻帧之间是重叠的，从而避免了帧划分造成的偏差对匹配结果的影响。

在进行后续的数据处理前，可以对每一帧音频数据进行快速傅立叶变换(FastFourier Transform，简称为FFT)变换，从而将音频数据转换至频域，在频域对信号进行分析。

S2：根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；

在确定特征的过程中，可以针对上述FFT变换后得到的频域结果，利用MFCC特征参数提取算法，获得预定维数的特征向量(例如12维)，之所以采用MFCC特征参数提取算法，是因为MFCC特征在语音识别中能够提取出信号中的明显变化区域，具有较好的区分性。MFCC是Mel频率倒谱系数的缩写，其中，Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。

在经过MFCC特征计算之后，每一帧的信号就会变成一个预定维数的向量，假设是12维的向量，那么可以如图3所示，第i帧信号就可以表示为(d_i0,d_i1…d_i10,d_i11)，d为float型数据。进一步的，为了后续比较和匹配更为简单，可以对得到的向量进行编码，转换为二进制序列或者是与二进制序列对应的正数，具体地，按照图3所示的帧的特征向量表示，可以按照以下方式进行编码转换：

diff＝-n*t1-mt2+mt3+n2*t4

其中，d_i-2,j表示第i-2帧音频数据第j个维度的向量值，d_i-2,j+1表示第i-2帧音频数据第j+1个维度的向量值，d_i-1,j表示第i-1帧音频数据第j个维度的向量值、d_i-1,j+1表示第i-1帧音频数据第j+1个维度的向量值、d_i+1,j表示第i+1帧音频数据第j个维度的向量值、d_i+1,j+1表示第i+1帧音频数据第j+1个维度的向量值、d_i+2,j表示第i+2帧音频数据第j个维度的向量值、d_i+2,j+1表示第i+2帧音频数据第j+1个维度的向量值，t1、t2、t3、t4、diff表示中间参量、Bit_i,j表示第i帧音频数据二进制序列第j个比特位的取值，n、m为定量系数。

由上述公式可以看出，二进制序列计算的过程中，是依据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值计算得到的，即，先将待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据；然后，根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列。

具体地，公式中是根据前后两帧数据的向量值，以及同一帧内相邻向量值计算得到的，这样就有效地将帧与帧之间、帧内之间的关系加入了特征值的计算中。

然而，值得注意是，上述n、m就可以按照需要选取，例如，可以分别取值为2和3，那么对应的：

diff＝-2*t1-t2+t3+2*t4。

进一步的，上述所列举的例子和公式中，是以相邻两帧之间作为计算依据的，在实际执行的时候，也可以是相邻的三帧或者四帧等等，可以根据实际的计算精度和处理器的处理能力选取合适的帧数，当然，当帧数选取不同的时候，上述公式也需要进行适应性的调整，但是调整的思路是近似的，本申请对此不作限定。

按照上述方式计算得到二进制序列的过程中，如果原本向量维度是N，那么计算得到的二进制序列的位数就是N-1，例如，如果得到的是12维的特征向量，那么得到的二进制序列就是11位。

在本例中，可以以得到的二进制序列作为特征值，也可以二进制序列所对应的十进制作为特征值，举例而言，如果某一帧音频数据的二进制序列为00000000101，那么可以以00000000101作为最终的特征值，也可以5作为最终的特征值。

总的来说，可以利用一帧内相邻关系的系数做比较，成为帧内系数的比较，然后利用前后两帧的比较信息，综合这些前后帧和帧内的信息形成最后的值diff，这个值与0的比较结果构成最终对应位的编码值。具体地，一帧信号经MFCC变成12维的特征系数向量后，再经过编码变成11位的二值序列(Bit_i,0,Bit_i,1…Bit_i,10)，如果将该二进制序列转换为十进制，那么对应的取值范围就是0到2的11次方。

S3：将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

为了实现对音频数据的有效匹配，需要预先建立一个音频特征值对照表，这个对照表中所记录就是每一帧数据和这帧数据所对应的特征值，当然，如果音频特征值对照表中是以二进制方式表示特征值的，那么相应的在音频识别的时候，待识别音频数据也就转换为二进制序列作为特征值，如果音频特征值对照表中是以十进制方式表示特征值的，那么相应的在音频识别的时候，待识别音频数据也就转换为十进制作为特征值。

具体地，可以按照以下方式建立音频特征值对照表包括：

步骤1：获取样本数据，其中，所述样本数据包括多段样本音频；

步骤2：对所述多段样本音频中的各段样本音频进行分帧处理，得到每段样本音频的多帧音频数据；

步骤3：根据帧与帧之间和帧内的音频变化趋势，计算得到每段样本音频每一帧的特征值；

步骤4：以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系；

步骤5：将所述对应关系作为所述音频特征值对照表。

上述建立音频特征值对照表的过程中，计算特征值的过程和所涉及到的原理和方式与求取待识别音频数据的特征值是相同的，在此不再赘述。差别就在于，在建立音频特征值对照表的时候，需要以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系。具体地，假设原始获取的是12维的向量，那么最终得到的建立音频特征值对照表可以如图4所示.

为了使得后续可以快速识别，不仅可以包括如图4所示的音频特征值对照表，还可以特征数组，记录的是每段样本音频的特征值。

因为向量是12维的，那么特征值就有2048(2的11次方11)种可能性，因此音频特征值对照表就对应有2048个根节点。每个根节点的后续存储就是所有特征值与之对应的音频数据帧(即，哪个声音信号的哪一帧)。举例：第0个跟节点，对应存储所有特征值为0的指纹信息，如第i个声音的第j帧对应特征值为0，第k个声音的第l帧特征值为0，则第0个跟节点下将存储这些声音片段信息(i,j)(k,l)。

为了实现最终的检索识别，可以通过建立投票矩阵的方式确定较为准确的匹配结果，具体地，可以包括：建立投票矩阵，其中，投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的，即，该投票矩阵可以是一个二维矩阵，该二维矩阵的维数代表了数据库中有多少样本音频，即数据库中有多少声音信号，以及每个声音信号最长有多少数据帧。在建立完投票矩阵之后，可以对待识别音频数据的每一帧执行以下操作：从音频特征值对照表中，查找出与当前帧的特征值相同的一帧或多帧音频数据，在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记；然后，将投票标记数最高且超出预设阈值的样本音频作为识别结果。

具体地，可以如图5所示，对于待识别音频数据，计算出该段音频数据每个帧的特征值后，可以依次根据音频特征值对照表进行投票操作。具体地，对于待识别音频数据的每一帧信号，先找到其特征值v，并在特征索引表中找到对应的根节点，该节点下存储了所有特征值为v的声音信息，例如，待识别音频数据第一帧的特征值为2046，那么找到音频特征值对照表的第2046个跟节点，该节点下存储了第k-1个声音信号的第l帧的特征为2046，因此，可以在投票矩阵中的(k-1,l)处做+1操作，这一+1操作就表示投票，而该投票操作的意思就是这段待识别音频数据可能来自第k-1个声音源的第l帧附近。

对该待识别音频数据的所有帧的特征值进行投票后，可以统计最终的投票结果，以确定哪些声音的哪些帧获得的投票较多，说明待识别信号与数据库中的这些声音段最为相似。

然而，值得注意的是，在投票的时候是存在一个换算过程的，即，如果匹配出待识别音频数据的第1帧与第5个样本音频的第3帧的特征值相同，那么后续如果匹配出待识别音频数据的第4帧与第5个样本音频的第6帧的特征值相同，那么这个时候标记的位置也是第5个样本音频的第1帧。即，所有的匹配的结果都投票在某个样本音频第一次被匹配出的位置。或者说，如果匹配出待识别音频数据的第3帧与第8个样本音频的第6帧的特征值相同(这是第一次与该样本音频匹配上)，那么后续如果匹配出待识别音频数据的第4帧与第8个样本音频的第7帧的特征值相同，那么这个时候标记的位置也是第8个样本音频的第6帧。即，所有的匹配的结果都投票在某个样本音频第一次被匹配出的位置。

当然，也可以有其它的匹配方式，例如，待识别音频数据每一帧特征值的匹配都是直接对应到某一个样本音频，然后最终统计与每个样本音频的匹配度，这样操作也是可行的。但是相对于匹配出某一样本音频的某一帧作为起始帧的方式，确定某一帧的方式显然是更为精确的。

在实际实现的时候，有时可以匹配出多个满足条件的结果，为了使得最终的结果更为准确，可以设定一个匹配阈值(T)，只有超出该阈值T，才进行后续的精确匹配。例如：如果找到第i个声音的第3帧处获取的投票大于阈值，那么从第3帧开始进行片段的特征值比较。如图6所示，假设voice_i的第3帧的特征值为f3，待识别信号的第一帧的特征值为f0，那么比较方式就是将f3和f0转成二进制序列后，统计对应位不同的个数，当然这种比较可以通过查表的方式进行。具体比较的时候，是用11位的二进制序列进行比较，这个11位的二进制序列其实对应一个十进制的特征值，因此，两个特征值的相似性比较，先将其还原到二进制的序列，统计这两个序列对应位不同的个数。因为待识别的音频数据中一般有多帧的数据，可以将多帧的比较结果相加，将最终统计结果最小值对应的投票位置确定为识别结果。

即，可以将待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频，然后，从该一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果，具体地，可以对该一段或多段样本音频中的每段音频执行以下操作：确定待识别音频数据的帧数，并获取所述待识别音频数据每一帧的二进制序列，确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数；将一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。

例如：二进制序列一为0010001，二进制序列二为1010000，那么比较结果就是1。

上例所提供的音频数据识别方法具有较好的鲁棒性，同时提出的识别方法识别速度较快，且可以应用在后续的电视互动、音乐识别等场景中，在本例中，在频域不是提取极值点，而是利用帧与帧之间、帧内之间的比较关系，获得一个相对稳定的编码结果，这种编码方式可以有效对抗一些噪声的干扰，因为具有较好的音频识别效果。

基于同一发明构思，本发明实施例中还提供了一种音频识别装置，如下面的实施例所述。由于音频识别装置解决问题的原理与音频识别方法相似，因此音频识别装置的实施可以参见音频识别方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图7是本发明实施例的音频识别装置的一种结构框图，如图7所示，可以包括：分帧模块701、计算模块702和匹配识别模块703，下面对该结构进行说明。

分帧模块701，可以用于对待识别音频数据进行分帧处理，得到多帧音频数据；

计算模块702，可以用于根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；

匹配识别模块703，可以用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

在一个实施方式中，上述音频识别装置还可以包括：对照表建立模块，用于预先建立音频特征值对照表，所述对照表建立模块包括：获取单元，用于获取样本数据，其中，所述样本数据包括多段样本音频；分帧单元，用于对所述多段样本音频中的各段样本音频进行分帧处理，得到每段样本音频的多帧音频数据；计算单元，用于根据帧与帧之间和帧内的音频变化趋势，计算得到每段样本音频每一帧的特征值；关系确定单元，用于以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系；生成单元，用于将所述对应关系作为所述音频特征值对照表。

在一个实施方式中，匹配识别模块703可以包括：建立单元，用于建立投票矩阵，其中，所述投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的；执行单元，用于对所述待识别音频数据每一帧执行以下操作：从所述音频特征值对照表中，查找出与当前帧的特征值相同的一帧或多帧音频数据，在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记；结果生成单元，用于将投票标记数最高且超出预设阈值的样本音频作为识别结果。

在一个实施方式中，计算模块702可以包括：第一转换单元，用于将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据；第二转换单元，用于根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列；特征值生成单元，用于将转换得到的二进制序列作为对应的一帧音频数据的特征值，或者将二进制序列对应的十进制数值作为对应的一帧数据的特征值。

在一个实施方式中，第二转换单元具体可以用于按照以下公式，将每一帧音频数据的向量数据转换为一个二进制序列：

diff＝-n*t1-mt2+mt3+n2*t4

在一个实施方式中，第一转换单元具体可以用于通过MCFF特征参数提取算法，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据。

在一个实施方式中，预定维数可以是12。

在一个实施方式中，匹配识别模块703可以包括：识别单元，用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频；匹配单元，用于从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果。

在一个实施方式中，匹配单元可以包括：执行子单元，用于对所述一段或多段样本音频中的每段音频执行以下操作：确定所述待识别音频数据的帧数，并获取所述待识别音频数据每一帧的二进制序列，获取当前段样本音频与所述待识别音频数据对应的每一帧数据的二进制序列，确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数；匹配子单元，用于将所述一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。

在一个实施方式中，分帧模块701具体可以用于按照相邻帧以预定毫秒数重叠的划分规则，对所述待识别音频数据进行分帧处理。

本申请提供的一种音频识别方法和装置，通过根据帧与帧之间和帧内的音频变化趋势，计算得到待识别音频数据每一帧的特征值，然后将每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，从而得到识别结果，即，在频域不是提取极值点，而是利用帧与帧之间、帧内之间的比较关系，获得一个相对稳定的编码结果，从而可以有效地对抗噪声的干扰，使得识别结果更为准确。利用本申请实施方案，不仅可以大大提高抗干扰的能力，有效提高识别成功率和识别结果的准确度。

本申请中各个实施例所涉及的上述描述仅是本申请中的一些实施例中的应用，在某些标准、模型、方法的基础上略加修改后的实施方式也可以实行上述本申请各实施例的方案。当然，在符合本申请上述各实施例的中所述的处理方法步骤的其他无创造性的变形，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然，也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

对待识别音频数据进行分帧处理，得到多帧音频数据；

将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的；

其中，预先建立音频特征值对照表包括：

获取样本数据，其中，所述样本数据包括多段样本音频；

对所述多段样本音频中的各段样本音频进行分帧处理，得到每段样本音频的多帧音频数据；

根据帧与帧之间和帧内的音频变化趋势，计算得到每段样本音频每一帧的特征值；

以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系；

将所述对应关系作为所述音频特征值对照表；

其中，将所述每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，包括：

建立投票矩阵，其中，所述投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的；

对所述待识别音频数据每一帧执行以下操作：从所述音频特征值对照表中，查找出与当前帧的特征值相同的一帧或多帧音频数据，在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记；

将投票标记数最高且超出预设阈值的样本音频作为识别结果。

2.根据权利要求1所述的方法，其特征在于，根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值，包括：

将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据；

根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列；

将转换得到的二进制序列作为对应的一帧音频数据的特征值，或者将二进制序列对应的十进制数值作为对应的一帧数据的特征值。

3.根据权利要求2所述的方法，其特征在于，根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列，包括：

按照以下公式，将每一帧音频数据的向量数据转换为一个二进制序列：

diff＝-n*t1-m*t2+m*t3+n*t4

4.根据权利要求2所述的方法，其特征在于，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据，包括：

通过MFCC特征参数提取算法，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据。

5.根据权利要求2所述的方法，其特征在于，所述预定维数为12。

6.根据权利要求2所述的方法，其特征在于，将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，包括：

将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频；

从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果。

7.根据权利要求6所述的方法，其特征在于，从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果，包括：

对所述一段或多段样本音频中的每段音频执行以下操作：确定所述待识别音频数据的帧数，并获取所述待识别音频数据每一帧的二进制序列，获取当前段样本音频与待识别音频数据对应的每一帧数据的二进制序列，确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数；

将所述一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。

8.根据权利要求1至7中任一项所述的方法，其特征在于，对待识别音频数据进行分帧处理，包括：

按照相邻帧以预定毫秒数重叠的划分规则，对所述待识别音频数据进行分帧处理。

9.一种音频识别装置，其特征在于，包括：

匹配识别模块，用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的；

其中，上述装置还包括：对照表建立模块，用于预先建立音频特征值对照表，所述对照表建立模块包括：

获取单元，用于获取样本数据，其中，所述样本数据包括多段样本音频；

分帧单元，用于对所述多段样本音频中的各段样本音频进行分帧处理，得到每段样本音频的多帧音频数据；

计算单元，用于根据帧与帧之间和帧内的音频变化趋势，计算得到每段样本音频每一帧的特征值；

关系确定单元，用于以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系；

生成单元，用于将所述对应关系作为所述音频特征值对照表；

其中，所述匹配识别模块包括：

建立单元，用于建立投票矩阵，其中，所述投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的；

执行单元，用于对所述待识别音频数据每一帧执行以下操作：从所述音频特征值对照表中，查找出与当前帧的特征值相同的一帧或多帧音频数据，在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记；

结果生成单元，用于将投票标记数最高且超出预设阈值的样本音频作为识别结果。

10.根据权利要求9所述的装置，其特征在于，所述计算模块包括：

第一转换单元，用于将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据；

第二转换单元，用于根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列；

特征值生成单元，用于将转换得到的二进制序列作为对应的一帧音频数据的特征值，或者将二进制序列对应的十进制数值作为对应的一帧数据的特征值。

11.根据权利要求10所述的装置，其特征在于，所述第二转换单元具体用于按照以下公式，将每一帧音频数据的向量数据转换为一个二进制序列：

diff＝-n*t1-m*t2+m*t3+n*t4

12.根据权利要求10所述的装置，其特征在于，所述第一转换单元具体用于通过MFCC特征参数提取算法，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据。

13.根据权利要求10所述的装置，其特征在于，所述预定维数为12。

14.根据权利要求10所述的装置，其特征在于，所述匹配识别模块包括：

识别单元，用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频；

匹配单元，用于从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果。

15.根据权利要求14所述的装置，其特征在于，所述匹配单元包括：

执行子单元，用于对所述一段或多段样本音频中的每段音频执行以下操作：确定所述待识别音频数据的帧数，并获取所述待识别音频数据每一帧的二进制序列，获取当前段样本音频与待识别音频数据对应的每一帧数据的二进制序列，确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数；

匹配子单元，用于将所述一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。

16.根据权利要求9至15中任一项所述的装置，其特征在于，所述分帧模块具体用于按照相邻帧以预定毫秒数重叠的划分规则，对所述待识别音频数据进行分帧处理。