CN107229629B

CN107229629B - 音频识别方法及装置

Info

Publication number: CN107229629B
Application number: CN201610171165.4A
Authority: CN
Inventors: 金星明; 于佳骏; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2021-03-19
Anticipated expiration: 2036-03-24
Also published as: US10949462B2; CN107229629A; WO2017162187A1; US20180276297A1

Abstract

本发明是关于一种音频识别方法及装置，属于音频处理技术领域。该方法包括：获取待识别音频的原始音高序列，所述原始音高序列用于指示所述待识别音频在各个时间点上的频率；将所述原始音高序列切分成多个音高子序列；对所述原始音高序列和所述多个音高子序列分别进行识别；将对所述原始音高序列和所述多个音高子序列分别进行识别所获得的识别结果进行合并，获得对所述待识别音频的识别结果；通过将一个长音高序列切分成多个短音高序列，并对长音高序列和多个短音高序列分别进行识别，并将识别结果进行整合，从而达到提高哼唱识别的准确性的效果。

Description

音频识别方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频识别方法及装置。

背景技术

随着网络应用技术的不断发展，音乐播放类应用的功能也越来越丰富，哼唱识别就是其中一种新兴的功能。

在现有的哼唱识别系统中，用户在终端中启动音乐播放类应用的哼唱识别功能，并对着终端的麦克风哼唱一段音乐，之后，终端提取出这段哼唱语音的音高序列，再将这些音高序列发送到服务器，由服务器将该音高序列与歌曲库中存储的歌曲的音高序列作对比，找出歌曲库中与这一段音高序列最匹配的歌曲，最后将查找结果返回给终端。

在实现本发明的过程中，申请人发现现有技术存在如下问题：

用户通过哼唱识别歌曲时，可能只记得一小段旋律，而这一小段旋律并不能满足现有的哼唱识别功能的最低长度要求，因此需要用户再多哼唱几段，而多哼唱的几段准确性通常不高，导致哼唱识别的准确性较低。

发明内容

为了解决现有技术中哼唱识别的准确性较低的问题，本发明实施例提供了一种音频识别方法及装置，技术方案如下：

第一方面，提供了一种音频识别方法，所述方法包括：

获取待识别音频的原始音高序列，所述原始音高序列用于指示所述待识别音频在各个时间点上的频率；

将所述原始音高序列切分成多个音高子序列；

对所述原始音高序列和所述多个音高子序列分别进行识别；

将对所述原始音高序列和所述多个音高子序列分别进行识别所获得的识别结果进行合并，获得对所述待识别音频的识别结果。

第二方面，提供了一种音频识别装置，所述装置包括：

序列获取模块，用于获取待识别音频的原始音高序列，所述原始音高序列用于指示所述待识别音频在各个时间点上的频率；

切分模块，用于将所述原始音高序列切分成多个音高子序列；

识别模块，用于对所述原始音高序列和所述多个音高子序列分别进行识别；

合并模块，用于将对所述原始音高序列和所述多个音高子序列分别进行识别所获得的识别结果进行合并，获得对所述待识别音频的识别结果。

本发明实施例提供的技术方案可以包括以下有益效果：

通过将待识别音频的原始音高序列切分成多个音高子序列，对该原始音高序列和该多个音高子序列分别进行识别，并将对该原始音高序列和该多个音高子序列分别进行识别所获得的识别结果进行合并，获得对该待识别音频的识别结果，将一个长音高序列切分成多个短音高序列，并对长音高序列和多个短音高序列分别进行识别，并将识别结果进行整合，从而达到提高哼唱识别的准确性的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明各个实施例涉及的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种音频识别方法的流程图；

图3是根据另一示例性实施例示出的一种音频识别方法的流程图；

图4是根据一示例性实施例示出的一种音高序列切分方法的流程图；

图5是根据一示例性实施例示出的一种音频识别装置的框图；

图6是根据另一示例性实施例示出的一种音频识别装置的框图；

图7是根据一示例性实施例示出的一种服务器的结构示意图；

图8是根据一示例性实施例示出的一种终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本发明各个实施例涉及的一种实施环境的示意图。如图1所示，该实施环境包括：终端110以及服务器120。

终端110可以是智能手机、平板电脑、膝上型便携计算机以及个人计算机等等。

服务器120可以是独立的一个服务器，或者，服务器120也可以是由分别实现不同功能的多个服务器所组成的服务器集群，或者，服务器120也可以是一个云计算中心。

终端110和服务器120之间通过有线或者无线网络连接并进行数据交互。

图2是根据一示例性实施例示出的一种音频识别方法的流程图，该方法可以实现在上述图1所示的实施环境中。如图2所示，该音频识别方法可以包括如下几个步骤：

步骤201，获取待识别音频的原始音高序列，该原始音高序列用于指示该待识别音频在各个时间点上的频率。

步骤202，将该原始音高序列切分成多个音高子序列。

步骤203，对该原始音高序列和该多个音高子序列分别进行识别。

步骤204，将对该原始音高序列和该多个音高子序列分别进行识别所获得的识别结果进行合并，获得对该待识别音频的识别结果。

综上所述，本发明实施例提供的一种音频识别方法，将待识别音频的原始音高序列切分成多个音高子序列，对该原始音高序列和该多个音高子序列分别进行识别，并将对该原始音高序列和该多个音高子序列分别进行识别所获得的识别结果进行合并，获得对该待识别音频的识别结果，通过将一个长音高序列切分成多个短音高序列，并对长音高序列和多个短音高序列分别进行识别，并将识别结果进行整合，从而达到提高哼唱识别的准确性的效果。

图3是根据另一示例性实施例示出的一种音频识别方法的流程图，该方法可以实现在上述图1所示的实施环境中。如图3所示，该音频识别方法可以包括如下几个步骤：

步骤301，获取待识别音频的原始音高序列，该原始音高序列用于指示该待识别音频在各个时间点上的频率。

其中，该待识别音频可以是上述图1所示实施环境中的终端通过其内置或外接的音频采集单元(比如麦克风)采集到的音频。比如，以终端为智能手机为例，用户打开智能手机中的音乐播放类应用APP，启动哼唱识别功能后，对着智能手机的麦克风哼唱一段音频，智能手机的麦克风将采集到的音频获取为该待识别音频。

对该待识别音频中各个播放时间点上的音高依次进行提取，即可以获得原始音高序列，其中，音高即音的高度，是声音的基本特征之一，音高是由振动频率决定的，且两者成正比关系。

步骤302，将该原始音高序列切分成多个音高子序列。

原始音高序列中音高数值为0表示用户录制该待识别音频时，在该0值音高对应的时间点上有一个停顿，且连续的0值音高越多，说明用户停顿的时间越长。因此，本发明实施例所示的方案可以根据原始音高序列中数值为0的音高所在的位置对原始音高序列进行切分。

步骤303，对该原始音高序列和该多个音高子序列分别进行识别。

在本发明实施例所示的方法中，为了降低匹配计算的复杂度，可以先通过第一匹配算法，将该原始音高序列与预先设置的各个序列样本进行匹配，确定与该原始音频序列之间的匹配值最高的n个序列样本，再通过第二匹配算法，将该原始音高序列和该多个音高子序列分别与该n个序列样本进行匹配。

或者，也可以将原始音高序列和音高子序列分别通过第一匹配算法和第二匹配算法与预先设置的各个序列样本进行匹配，即通过第一匹配算法，对原始音高序列和多个音高子序列中的任一序列，将该序列与预先设置的各个序列样本进行匹配，确定与该序列之间的匹配值最高的n个序列样本，再通过第二匹配算法，对原始音高序列和多个音高子序列中的任一序列，将该序列与n个序列样本进行匹配。

其中，第一匹配算法的精度比第二匹配算法的精度低，比如，第一匹配算法可以是EMD(Empirical Mode Decomposition，经验模态分解)算法、Linear Scale(线性标度)算法等，第二匹配算法可以是DTW(Dynamic Time Warping，动态时间归整)算法。在进行匹配时，可以通过第一匹配算法，将原始音高序列与预先存储的各个序列样本进行匹配度计算，快速确定出与原始音高序列之间的匹配度最高的n个序列样本，再通过第二匹配算法，计算原始音高序列和多个音高子序列分别与该n个序列样本之间的匹配度。或者，也可以通过第一匹配算法和第二匹配算法，将原始音高序列和多个音高子序列分别单独与预先存储的各个序列样本进行匹配。在本发明实施例中，可以预先存储若干音频(比如歌曲)，上述每个序列样本是其中一个音频的音高序列。

需要说明的是，在上述步骤302和步骤303中，将该原始音高序列切分成多个音高子序列的执行时刻可以在步骤303之前，也可以在步骤303的执行过程中。比如，可以先将原始音高序列切分为多个音高子序列，然后再通过第一匹配算法，将该原始音高序列与预先设置的各个序列样本进行匹配，最后再通过第二匹配算法，将该原始音高序列和该多个音高子序列分别与该n个序列样本进行匹配。或者，也可以先通过第一匹配算法，将该原始音高序列与预先设置的各个序列样本进行匹配，然后再将原始音高序列切分为多个音高子序列，最后通过第二匹配算法，将该原始音高序列和该多个音高子序列分别与该n个序列样本进行匹配。

步骤304，对该原始音高序列和该多个音高子序列中每一个序列，根据该序列对应的识别结果中包含的N个序列样本各自与该序列之间的匹配度对该N个序列样本进行评分，该序列样本与该序列之间的匹配度与该序列样本的评分成正比例关系。

其中，对于该原始音高序列和该多个音高子序列中每一个序列，该序列对应的识别结果中包含N个序列样本以及该N个序列样本各自与该序列之间的匹配度，N为大于或者等于1的整数。

对于原始音高序列和多个音高子序列中每一个序列，该序列对应的N个序列样本中，与该序列匹配度越高的序列样本，其评分也越高。

步骤305，将该原始音高序列和该多个音高子序列各自对应的识别结果中的序列样本按照对应的评分进行排列。

步骤306，根据排列结果获得对该待识别音频的识别结果。

将该原始音高序列和该多个音高子序列各自对应的识别结果中，总评分最高的N个序列样本对应的音频为该待识别音频的识别结果，并将识别结果中的音频的名称等基本信息推送给用户。

在本发明实施例中，原始音高序列和多个音高子序列中的每一个序列各自可以匹配出N个匹配度较高的序列样本，对于这N个序列样本，可以按照匹配度从高到低的顺序进行排列，并采用倒排索引累加的方法进行排名赋值，排名越高，赋值越高，再将原始音高序列和多个音高子序列各自的识别结果中涉及的所有样本序列按照总评分从大到小的顺序进行排列，取排列结果的前N个样本序列对应的音频为识别结果。比如，请参考表1：

表1

在表1中，原始音高序列和多个音高子序列各自的识别结果中分别包含5个序列样本，涉及的序列样本有样本1～样本8，其中，样本1的总评分为1+1+1/2+1＝3.5，样本2为1/2+1/4+1+1/2＝2.25、样本3为1/3+1/2+1/5≈1.03、样本4为0.25、样本5为1/5+1/3+1/4≈0.78、样本6为1/5+1/3≈0.53、样本7为1/5+1/3≈0.53、样本8为0.25，因此，各个序列样本按照总评分从大到小的顺序为：样本1、样本2、样本3、样本5、样本6、样本7、样本4以及样本8，取总评分最高的前5个样本序列，即样本1、样本2、样本3、样本5和样本6对应的音频为最终的识别结果并推送给用户。

或者，本发明实施例所示的方案中，也可以在表1的基础上结合原始音高序列和多个音高子序列与各自识别结果中的样本序列的匹配度来进行积分计算，比如，采用倒排索引累加的方法进行排名赋值后，将各个样本序列的排名赋值与其对应的匹配值的乘积作为该样本序列的积分，比如，请参考表2：

表2

在表2中，原始音高序列和多个音高子序列各自的识别结果中分别包含5个序列样本，涉及的序列样本有样本1～样本8，其中，样本1的总评分为2.32，样本2为1.0925、样本3为0.81、样本4为0.2075、样本5为0.5967、样本6为0.426、样本7为0.4167、样本8为0.1775，因此，各个序列样本按照总评分从大到小的顺序为：样本1、样本2、样本3、样本5、样本6、样本7、样本4以及样本8，取总评分最高的前5个样本序列，即样本1、样本2、样本3、样本5和样本6对应的音频为最终的识别结果并推送给用户。

或者，本发明实施例所示的方案中，也可以在表2的基础上结合原始音高序列和多个音高子序列各自的序列长度进行积分计算，比如，采用倒排索引累加的方法进行排名赋值后，将各个样本序列的排名赋值、其对应的匹配值以及其对应的原始音高序列或音高子序列的长度乘积作为该样本序列的积分。

需要说明的是，上述各个步骤可以全部由图1所示实施环境中的终端110来执行，比如，以该终端110为智能手机中为例，该智能手机中安装有音乐播放类APP，该音乐播放类APP具有哼唱识别功能，用户启动该哼唱识别功能后，对着智能手机的麦克风哼唱一段音频，智能手机按照上述步骤301至步骤306所示的方法对该段音频进行音高序列提取、切分以及匹配的处理，最终向用户展示与用户哼唱的音频最匹配的几首歌曲。

或者，上述各个步骤可以全部由图1所示实施环境中的服务器120来执行，比如，以终端110为安装有音乐播放类APP的智能手机，服务器120为该音乐播放类APP对应的服务器为例，用户启动该音乐播放类APP的哼唱识别功能后，对着智能手机的麦克风哼唱一段音频，智能手机将采集到的音频发送给服务器，服务器按照上述步骤301至步骤306所示的方法对该段音频进行音高序列提取、切分以及匹配的处理，最终向智能手机返回与用户哼唱的音频最匹配的几首歌曲，由智能手机向用户展示。

或者，上述各个步骤也可以部分由图1所示实施环境中的终端110来执行，其余部分由服务器120来执行，比如，以终端110为安装有音乐播放类APP的智能手机，服务器120为该音乐播放类APP对应的服务器为例，用户启动该音乐播放类APP的哼唱识别功能后，对着智能手机的麦克风哼唱一段音频，智能手机按照步骤301和步骤302所示的方法对该段音频进行音高序列提取和切分，并将获得的原始音高序列和各个音高子序列发送给服务器，服务器按照步骤303至步骤306所示的方法进行匹配识别，最终向智能手机返回与用户哼唱的音频最匹配的几首歌曲，由智能手机向用户展示。

在上述图3对应的实施例步骤302中，在将该原始音高序列切分成多个音高子序列时，可以按照连续的0值音高的长度从高到低的顺序选择切分点，请参考图4，其是根据一示例性实施例示出的一种音高序列切分方法的流程图，如图4所示，该音频识别方法可以包括如下几个步骤：

步骤302a，确定该原始音高序列中包含的各个静音序列，该静音序列是音高数值为0的序列。

比如，假设获取到的某一待识别音频的原始音高序列为：

{7.58，7.58，7.58，7.58，7.50，7.50，7.50，7.50，0，0，0，0，0，7.33，7.33，0，0，7.33，7.33，0，0，0，0，7.17，0，7.17，7.17，7.17，7.17，7.17}(这是一个简化的例子，在实际应用中，非静音段的长度一般较长，通常长度为20个音高值以上)，上述原始音高序列中共有四个静音序列，可分别标记为z₁，z₂，z₃，z₄，其长度分别为5，2，4，1。

步骤302b，根据该各个静音序列的长度，将该各个静音序列中的至少一个静音序列在该原始音高序列中的位置确定为切分位置。

由于静音序列的长度越长，表示用户在录制待识别音频时，在该静音序列处的停顿时间越长，该静音序列两侧的两段音高序列所对应的音频是独立的两段音频的概率也越大，反之，则两段音高序列所对应的音频是独立的两段音频的概率越小。因此，为了提高序列切分的准确性，提高后续的识别效果，在本发明实施例中，可以按照静音序列的长度从大到小的顺序进行切分，即优先在静音序列长的位置进行切分。

具体的，在确定切分位置时，可以判断该各个静音序列的数量是否大于m，m为大于或者等于1的整数；若判断结果为各个静音序列的数量不大于m，则将该各个静音序列在该原始音高序列中的位置确定为该切分位置；若判断结果为该各个静音序列的数量大于m，则将该各个静音序列中长度最长的k个静音序列在该原始音高序列中的位置确定为该切分位置。其中，k小于或者等于m，且k为正整数，m和k的数值可以预先设置为一个固定值，或者，也可以自动根据原始音频序列的长度进行设置；或者，该m和k的数值也可以由用户自行设置。

比如，上述静音序列的数量为4，若m的数值为4或5，此时静音序列的数量不大于m，则可以将上述全部的4个静音序列z₁、z₂、z₃和z₄在原始音高序列中的位置确定为切分位置；若m的数值为3，k为2，此时静音序列的数量大于m，则可以将上述4个静音序列中最长的两个静音序列z₁和z₃在原始音高序列中的位置确定为切分位置。

或者，在确定切分位置时，也可以将该各个静音序列中长度大于预设长度阈值的静音序列在该原始音高序列中的位置确定为该切分位置。比如，预设长度阈值为3，则将上述静音序列z₁、z₂、z₃和z₄中，长度大于3的静音序列，即静音序列z₁和z₃在原始音高序列中的位置确定为切分位置。

步骤302c，根据确定的该切分位置对该原始音高序列进行切分，获得该多个音高子序列。

需要说明的是，在本发明实施例中，在根据确定的该切分位置对该原始音高序列进行切分时，可以将切分位置处的静音序列从切分出的音频子序列中剔除。

以上述步骤302a下的原始音频序列为例，假如确定出静音序列z₁在原始音高序列中的位置确定为切分位置，则上例可按z₁为界拆分成两段{7.58，7.58，7.58，7.58，7.50，7.50，7.50，7.50}和{7.33，7.33，0，0，7.33，7.33，0，0，0，0，7.17，0，7.17，7.17，7.17，7.17，7.17}；如若确定出静音序列z₁和z₃在原始音高序列中的位置确定为切分位置，则上例可以拆分成三段，分别为{7.58，7.58，7.58，7.58，7.50，7.50，7.50，7.50}、{7.33，7.33，0，0，7.33，7.33}、{7.17，0，7.17，7.17，7.17，7.17，7.17}。拆分的同时，也丢掉作为分界的静音序列段。

综上所述，本发明实施例提供的一种音高序列切分方法，确定该原始音高序列中包含的各个静音序列，根据该各个静音序列的长度，将该各个静音序列中的至少一个静音序列在该原始音高序列中的位置确定为切分位置，并根据确定的该切分位置对该原始音高序列进行切分，即优先在静音序列长的位置进行切分，达到提高序列切分的准确性，提高后续的识别效果的目的。

请参考图5，其示出了本发明一个实施例提供的音频识别装置的结构方框图。该音频识别装置可以通过硬件或者软硬结合的方式实现，比如，该音频识别装置可以是上述图1所示实施环境中的服务器120，或者是该服务器120的一部分。该音频识别装置可以包括：

序列获取模块501，用于获取待识别音频的原始音高序列，所述原始音高序列用于指示所述待识别音频在各个时间点上的频率；

切分模块502，用于将所述原始音高序列切分成多个音高子序列；

识别模块503，用于对所述原始音高序列和所述多个音高子序列分别进行识别；

合并模块504，用于将对所述原始音高序列和所述多个音高子序列分别进行识别所获得的识别结果进行合并，获得对所述待识别音频的识别结果。

综上所述，本发明实施例提供的一种音频识别装置，将待识别音频的原始音高序列切分成多个音高子序列，对该原始音高序列和该多个音高子序列分别进行识别，并将对该原始音高序列和该多个音高子序列分别进行识别所获得的识别结果进行合并，获得对该待识别音频的识别结果，通过将一个长音高序列切分成多个短音高序列，并对长音高序列和多个短音高序列分别进行识别，并将识别结果进行整合，从而达到提高哼唱识别的准确性的效果。

请参考图6，其示出了本发明另一实施例提供的音频识别装置的结构方框图。该音频识别装置可以通过硬件或者软硬结合的方式实现，比如，该音频识别装置可以是上述图1所示实施环境中的服务器120，或者是该服务器120的一部分。该音频识别装置可以包括：

可选的，所述切分模块502，包括：

序列确定单元502a，用于确定所述原始音高序列中包含的各个静音序列，所述静音序列是音高数值为0的序列；

位置确定单元502b，用于根据所述各个静音序列的长度，将所述各个静音序列中的至少一个静音序列在所述原始音高序列中的位置确定为切分位置；

切分单元502c，用于根据确定的所述切分位置对所述原始音高序列进行切分，获得所述多个音高子序列。

可选的，所述位置确定单元502b，包括：

判断子单元502b1，用于判断所述各个静音序列的数量是否大于m，m为大于或者等于1的整数；

第一确定子单元502b2，用于若判断结果为所述各个静音序列的数量不大于m，则将所述各个静音序列在所述原始音高序列中的位置确定为所述切分位置；

第二确定子单元502b3，用于若判断结果为所述各个静音序列的数量大于m，则将所述各个静音序列中长度最长的k个静音序列在所述原始音高序列中的位置确定为所述切分位置，k小于等于m，k为正整数。

可选的，所述位置确定单元502b，包括：

第三确定子单元502b4，用于将所述各个静音序列中长度大于预设长度阈值的静音序列在所述原始音高序列中的位置确定为所述切分位置。

可选的，对于所述原始音高序列和所述多个音高子序列中每一个序列，所述序列对应的识别结果中包含N个序列样本以及所述N个序列样本各自与所述序列之间的匹配度，N为大于或者等于1的整数；所述合并模块504，包括：

评分单元504a，用于对所述原始音高序列和所述多个音高子序列中每一个序列，根据所述序列对应的识别结果中包含的所述N个序列样本各自与所述序列之间的匹配度对所述N个序列样本进行评分，所述序列样本与所述序列之间的匹配度与所述序列样本的评分成正比例关系；

排序单元504b，用于将所述原始音高序列和所述多个音高子序列各自对应的识别结果中的序列样本按照对应的评分进行排列；

获得单元504c，用于根据排列结果获得对所述待识别音频的识别结果。

可选的，所述获得单元504c，用于将所述原始音高序列和所述多个音高子序列各自对应的识别结果中，总评分最高的N个序列样本对应的音频获得为所述待识别音频的识别结果。

可选的，所述识别模块503，包括：

第一匹配单元503a，用于通过第一匹配算法，将所述原始音高序列与预先设置的各个序列样本进行匹配，确定与所述原始音频序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

第二匹配单元503b，用于通过第二匹配算法，将所述原始音高序列和所述多个音高子序列分别与所述n个序列样本进行匹配。

可选的，所述识别模块503，包括：

第三匹配单元503c，用于通过第一匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与预先设置的各个序列样本进行匹配，确定与所述序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

第四匹配单元503d，用于通过第二匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与所述n个序列样本进行匹配。

此外，本发明实施例提供的一种音频识别装置，在对原始音高序列进行切分时，确定该原始音高序列中包含的各个静音序列，根据该各个静音序列的长度，将该各个静音序列中的至少一个静音序列在该原始音高序列中的位置确定为切分位置，并根据确定的该切分位置对该原始音高序列进行切分，即优先在静音序列长的位置进行切分，达到提高序列切分的准确性，提高后续的识别效果的目的。

图7是根据一示例性实施例示出的一种服务器700的结构示意图。例如，服务器700可以是图1所示实施环境中的服务器120。参照图7，服务器700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理部件722执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述图2至图4任一方法的全部或者部分步骤。

服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理，一个有线或无线网络接口750被配置为将服务器700连接到网络，和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

图8是根据一示例性实施例示出的一种终端800的结构示意图，该终端800可以是图1所示实施环境中的终端110。本发明实施例中的终端800可以包括一个或多个如下组成部分：用于执行计算机程序指令以完成各种流程和方法的处理器，用于信息和存储程序指令随机接入存储器(RAM)和只读存储器(ROM)，用于存储数据和信息的存储器，I/O设备，界面，天线等。具体来讲：

终端800可以包括RF(Radio Frequency，射频)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、WiFi(wireless fidelity，无线保真)模块870、处理器880、电源882、摄像头890等部件。本领域技术人员可以理解，图8中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对终端800的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobilecommunication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行终端800的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与终端800的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种菜单。显示单元840可包括显示面板841，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现终端800的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现终端800的输入和输出功能。

终端800还可包括至少一种传感器850，比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在终端800移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端800还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器881，传声器862可提供用户与终端800之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一终端，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，终端800通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于终端800的必须构成，完全可以根据需要在不改变公开的本质的范围内而省略。

处理器880是终端800的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行终端800的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

终端800还包括给各个部件供电的电源882(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

摄像头890一般由镜头、图像传感器、接口、数字信号处理器、CPU、显示屏幕等组成。其中，镜头固定在图像传感器的上方，可以通过手动调节镜头来改变聚焦；图像传感器相当于传统相机的“胶卷”，是摄像头采集图像的心脏；接口用于把摄像头利用排线、板对板连接器、弹簧式连接方式与终端主板连接，将采集的图像发送给所述存储器820；数字信号处理器通过数学运算对采集的图像进行处理，将采集的模拟图像转换为数字图像并通过接口发送给存储器820。

尽管未示出，终端800还可以包括蓝牙模块等，在此不再赘述。

终端800除了包括一个或者多个处理器880，还包括有存储器，以及一个或者多个模块，其中一个或者多个模块存储于存储器中，并被配置成由一个或者多个处理器执行，以实现上述图2至图4任一所示方法的全部或者部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

确定所述原始音高序列中包含的各个静音序列，所述静音序列是音高数值为0的序列；

根据所述各个静音序列的长度，将所述各个静音序列中的至少一个静音序列在所述原始音高序列中的位置确定为切分位置；

根据确定的所述切分位置对所述原始音高序列进行切分，获得多个音高子序列；

对所述原始音高序列和所述多个音高子序列分别进行识别，对于所述原始音高序列和所述多个音高子序列中每一个序列，所述序列对应的识别结果中包含N个序列样本以及所述N个序列样本各自与所述序列之间的匹配度，N为大于或者等于1的整数；

对所述原始音高序列和所述多个音高子序列中每一个序列，按照所述序列对应的识别结果中包含的所述N个序列样本各自与所述序列之间的匹配度从高到低的顺序，对所述N个序列样本进行排列，根据排名和对应的匹配度对所述N个序列样本进行评分，所述序列样本与所述序列之间的匹配度与所述序列样本的评分成正比例关系；

将所述原始音高序列和所述多个音高子序列各自对应的识别结果中的序列样本按照对应的评分进行排列；

根据排列结果获得对所述待识别音频的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述各个静音序列的长度，将所述各个静音序列中的至少一个静音序列所在的位置确定为切分位置，包括：

判断所述各个静音序列的数量是否大于m，m为大于或者等于1的整数；

若判断结果为所述各个静音序列的数量不大于m，则将所述各个静音序列在所述原始音高序列中的位置确定为所述切分位置；

若判断结果为所述各个静音序列的数量大于m，则将所述各个静音序列中长度最长的k个静音序列在所述原始音高序列中的位置确定为所述切分位置，k小于等于m，k为正整数。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各个静音序列的长度，将所述各个静音序列中的至少一个静音序列所在的位置确定为切分位置，包括：

将所述各个静音序列中长度大于预设长度阈值的静音序列在所述原始音高序列中的位置确定为所述切分位置。

4.根据权利要求1所述的方法，其特征在于，所述根据排列结果获得对所述待识别音频的识别结果，包括：

将所述原始音高序列和所述多个音高子序列各自对应的识别结果中，总评分最高的N个序列样本对应的音频获得为所述待识别音频的识别结果。

5.根据权利要求1所述的方法，其特征在于，所述对所述原始音高序列和所述多个音高子序列分别进行识别，包括：

通过第一匹配算法，将所述原始音高序列与预先设置的各个序列样本进行匹配，确定与所述原始音频序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

通过第二匹配算法，将所述原始音高序列和所述多个音高子序列分别与所述n个序列样本进行匹配。

6.根据权利要求1所述的方法，其特征在于，所述对所述原始音高序列和所述多个音高子序列分别进行识别，包括：

通过第一匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与预先设置的各个序列样本进行匹配，确定与所述序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

通过第二匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与所述n个序列样本进行匹配。

7.一种音频识别装置，其特征在于，所述装置包括：

识别模块，用于对所述原始音高序列和所述多个音高子序列分别进行识别，对于所述原始音高序列和所述多个音高子序列中每一个序列，所述序列对应的识别结果中包含N个序列样本以及所述N个序列样本各自与所述序列之间的匹配度，N为大于或者等于1的整数；

合并模块，用于将对所述原始音高序列和所述多个音高子序列分别进行识别所获得的识别结果进行合并，获得对所述待识别音频的识别结果；

其中，所述切分模块，包括：

序列确定单元，用于确定所述原始音高序列中包含的各个静音序列，所述静音序列是音高数值为0的序列；

位置确定单元，用于根据所述各个静音序列的长度，将所述各个静音序列中的至少一个静音序列在所述原始音高序列中的位置确定为切分位置；

切分单元，用于根据确定的所述切分位置对所述原始音高序列进行切分，获得所述多个音高子序列；

其中，所述合并模块，包括：

评分单元，用于对所述原始音高序列和所述多个音高子序列中每一个序列，按照所述序列对应的识别结果中包含的所述N个序列样本各自与所述序列之间的匹配度从高到低的顺序，对所述N个序列样本进行排列，根据排名和对应的匹配度对所述N个序列样本进行评分，所述序列样本与所述序列之间的匹配度与所述序列样本的评分成正比例关系；

排序单元，用于将所述原始音高序列和所述多个音高子序列各自对应的识别结果中的序列样本按照对应的评分进行排列；

获得单元，用于根据排列结果获得对所述待识别音频的识别结果。

8.根据权利要求7所述的装置，其特征在于，所述位置确定单元，包括：

判断子单元，用于判断所述各个静音序列的数量是否大于m，m为大于或者等于1的整数；

第一确定子单元，用于若判断结果为所述各个静音序列的数量不大于m，则将所述各个静音序列在所述原始音高序列中的位置确定为所述切分位置；

第二确定子单元，用于若判断结果为所述各个静音序列的数量大于m，则将所述各个静音序列中长度最长的k个静音序列在所述原始音高序列中的位置确定为所述切分位置，k小于等于m，k为正整数。

9.根据权利要求7所述的装置，其特征在于，所述位置确定单元，包括：

第三确定子单元，用于将所述各个静音序列中长度大于预设长度阈值的静音序列在所述原始音高序列中的位置确定为所述切分位置。

10.根据权利要求7所述的装置，其特征在于，所述获得单元，用于将所述原始音高序列和所述多个音高子序列各自对应的识别结果中，总评分最高的N个序列样本对应的音频获得为所述待识别音频的识别结果。

11.根据权利要求7所述的装置，其特征在于，所述识别模块，包括：

第一匹配单元，用于通过第一匹配算法，将所述原始音高序列与预先设置的各个序列样本进行匹配，确定与所述原始音频序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

第二匹配单元，用于通过第二匹配算法，将所述原始音高序列和所述多个音高子序列分别与所述n个序列样本进行匹配。

12.根据权利要求7所述的装置，其特征在于，所述识别模块，包括：

第三匹配单元，用于通过第一匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与预先设置的各个序列样本进行匹配，确定与所述序列之间的匹配值最高的n个序列样本，n为大于或者等于1的整数；

第四匹配单元，用于通过第二匹配算法，对所述原始音高序列和所述多个音高子序列中的任一序列，将所述序列与所述n个序列样本进行匹配。