CN107886956A

CN107886956A - 音频识别方法、装置及计算机存储介质

Info

Publication number: CN107886956A
Application number: CN201711116680.3A
Authority: CN
Inventors: 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-04-06
Anticipated expiration: 2037-11-13
Also published as: CN107886956B

Abstract

本发明公开了一种音频识别方法、装置及计算机存储介质，属于电子技术领域。所述方法包括：从待识别的目标音频中获取多个音频片段；从所述多个音频片段中确定目标片段，所述目标片段为对人声录制得到的音频片段；当所述多个音频片段中的目标片段满足指定条件时，确定所述目标音频为对人声录制得到的音频。本发明通过对目标音频中音频片段的分析，可以准确识别目标音频是否为对人声录制得到的音频，从而可以确定目标音频的真实性。

Description

音频识别方法、装置及计算机存储介质

技术领域

本发明涉及电子技术领域，特别涉及一种音频识别方法、装置及计算机存储介质。

背景技术

随着电子技术的发展，音频录制逐渐成为人们日常娱乐中非常喜欢的活动。用户经常会对自己演唱的歌曲进行录制，并使用录制的演唱作品来参加歌唱比赛，歌唱比赛中的评委可以对参赛的所有演唱作品进行评比。然而，有时用户录制的演唱作品可能并不是使用自己的声音演唱的，而是直接对歌曲的原唱音频录制得到的，这种情况会造成对其他比赛参与者的不公平。因此，亟需一种音频识别方法，来对用户录制的演唱作品进行识别，以保证用户录制的演唱作品的真实性。

发明内容

为了解决相关技术中无法确定录制的演唱作品的真实性的问题，本发明实施例提供了一种音频识别方法。所述技术方案如下：

根据本发明实施例的第一方面，提供一种音频识别方法，所述方法包括：

从待识别的目标音频中获取多个音频片段；

从所述多个音频片段中确定目标片段，所述目标片段为对人声录制得到的音频片段；

当所述多个音频片段中的目标片段满足指定条件时，确定所述目标音频为对人声录制得到的音频。

可选地，所述从所述多个音频片段中确定目标片段，包括：

从所述多个音频片段中选择出一个音频片段，对选择出的音频片段执行以下处理，直至处理完所述多个音频片段中的每个音频片段为止：

从选择出的音频片段中获取多个有效音频帧；

从所述多个有效音频帧中确定目标帧，所述目标帧为对人声录制得到的音频帧；

将所述多个有效音频帧中的目标帧的总个数除以所述多个有效音频帧的总个数，得到第一比值；

当所述第一比值大于或等于第一指定比值时，确定选择出的音频片段为目标片段。

可选地，所述当所述多个音频片段中的目标片段满足指定条件时，确定所述目标音频为对人声录制得到的音频，包括：

当所述多个音频片段中的目标片段的总个数大于或等于指定个数时，确定所述目标音频为对人声录制得到的音频；或者，

当所述多个音频片段中的目标片段中存在至少两组目标片段时，确定所述目标音频为对人声录制得到的音频，所述至少两组目标片段中的每组目标片段包括至少两个连续的音频片段。

可选地，所述确定所述目标音频为对人声录制得到的音频，包括：

从所述目标音频中获取多个有效音频帧；

从所述多个有效音频帧中确定目标帧；

将所述多个有效音频帧中的目标帧的总个数除以所述多个有效音频帧的总个数，得到第二比值；

当所述第二比值大于或等于第二指定比值时，确定所述目标音频为对人声录制得到的音频。

可选地，所述从所述目标音频中获取多个有效音频帧，包括：

从所述目标音频包括的音频帧中选择出一个音频帧，对选择出的音频帧执行以下处理，直至处理完所述目标音频包括的每个音频帧为止：

确定选择出的音频帧在人声频段区域的第一能量极大值中最大的第一能量极大值和在非人声频段区域的第二能量极大值中最大的第二能量极大值；

当所述最大的第一能量极大值和所述最大的第二能量极大值均大于或等于指定数值时，确定选择出的音频帧为有效音频帧。

可选地，所述从所述多个有效音频帧中确定目标帧，包括：

从所述多个有效音频帧中选择出一个有效音频帧，对选择出的有效音频帧执行以下处理，直至处理完所述多个有效音频帧中的每个有效音频帧为止：

根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值；

其中，所述人声显著值用于指示在人声频段区域的第一能量极大值与在非人声频段区域的第二能量极大值之间的差距；

当选择出的有效音频帧的人声显著值大于指定显著值时，确定选择出的有效音频帧为目标帧。

可选地，所述根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值，包括：

根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，按照如下公式确定选择出的有效音频帧的人声显著值；

其中，在上述公式中，所述C为选择出的有效音频帧的人声显著值，所述m为选择出的有效音频帧在人声频段区域的第一能量极大值的总个数，所述Ea_k为选择出的有效音频帧在人声频段区域的第一能量极大值，所述n为选择出的有效音频帧在非人声频段区域的第二能量极大值的总个数，所述Eb_k为选择出的有效音频帧在非人声频段区域的第二能量极大值。

根据本发明实施例的第二方面，提供一种音频识别装置，所述装置包括：

获取模块，用于从待识别的目标音频中获取多个音频片段；

第一确定模块，用于从所述多个音频片段中确定目标片段，所述目标片段为对人声录制得到的音频片段；

第二确定模块，用于当所述多个音频片段中的目标片段满足指定条件时，确定所述目标音频为对人声录制得到的音频。

可选地，所述第一确定模块具体用于：

从选择出的音频片段中获取多个有效音频帧；

可选地，所述第二确定模块包括：

第一确定子模块，用于当所述多个音频片段中的目标片段的总个数大于或等于指定个数时，确定所述目标音频为对人声录制得到的音频；

第二确定子模块，用于当所述多个音频片段中的目标片段中存在至少两组目标片段时，确定所述目标音频为对人声录制得到的音频，所述至少两组目标片段中的每组目标片段包括至少两个连续的音频片段。

可选地，所述第二确定模块包括：

获取子模块，用于从所述目标音频中获取多个有效音频帧；

第三确定子模块，用于从所述多个有效音频帧中确定目标帧；

计算子模块，用于将所述多个有效音频帧中的目标帧的总个数除以所述多个有效音频帧的总个数，得到第二比值；

第四确定子模块，用于当所述第二比值大于或等于第二指定比值时，确定所述目标音频为对人声录制得到的音频。

可选地，所述获取子模块具体用于：

可选地，所述第三确定子模块具体用于：

根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，按照如下公式确定选择出的有效音频帧的人声显著值：

根据本发明实施例的第三方面，提供了一种装置，所述装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序代码，所述处理器执行所述程序代码时实现上述第一方面所述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述的方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

在本发明实施例中，可以从待识别的目标音频中获取多个音频片段，然后从该多个音频片段中确定目标片段，当该多个音频片段中的目标片段满足指定条件时，说明该多个音频片段中的目标片段具备对人声录制得到的音频应该具备的一些性质，因而可以确定目标音频为对人声录制得到的音频。如此，通过对目标音频中的音频片段的分析，可以准确识别目标音频是否为对人声录制得到的音频，从而可以确定目标音频的真实性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频识别方法的流程图；

图2A是本发明实施例提供的另一种音频识别方法的流程图；

图2B是本发明实施例提供的一种音频帧的音频信号的示意图；

图3A是本发明实施例提供的一种音频识别装置的结构示意图；

图3B是本发明实施例提供的一种第二确定模块的结构示意图；

图3C是本发明实施例提供的另一种第二确定模块的结构示意图；

图4是本发明实施例提供的另一种音频识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细的解释说明之前，先对本发明实施例涉及的应用场景进行介绍。

在日常娱乐中，人们常常会对自己演唱的歌曲进行录制，然后使用录制的演唱作品来参加歌唱比赛，然而，有时用户录制的演唱作品可能并不是使用自己的声音演唱的，而是直接对歌曲的原唱音频录制得到的，这种情况会造成对其他比赛参与者的不公平。为此，本发明实施例提供了一种音频识别方法，来识别对人声录制得到的音频。

接下来将结合附图对本发明实施例提供的音频识别方法进行详细介绍。

图1是本发明实施例提供的一种音频识别方法的流程图。参见图1，该方法包括以下步骤：

步骤101：从待识别的目标音频中获取多个音频片段。

步骤102：从该多个音频片段中确定目标片段，目标片段为对人声录制得到的音频片段。

步骤103：当该多个音频片段中的目标片段满足指定条件时，确定目标音频为对人声录制得到的音频。

可选地，从该多个音频片段中确定目标片段，包括：

从该多个音频片段中选择出一个音频片段，对选择出的音频片段执行以下处理，直至处理完该多个音频片段中的每个音频片段为止：

从选择出的音频片段中获取多个有效音频帧；

从该多个有效音频帧中确定目标帧，目标帧为对人声录制得到的音频帧；

将该多个有效音频帧中的目标帧的总个数除以多个有效音频帧的总个数，得到第一比值；

当第一比值大于或等于第一指定比值时，确定选择出的音频片段为目标片段。

可选地，当该多个音频片段中的目标片段满足指定条件时，确定目标音频为对人声录制得到的音频，包括：

当该多个音频片段中的目标片段的总个数大于或等于指定个数时，确定目标音频为对人声录制得到的音频；或者，

当该多个音频片段中的目标片段中存在至少两组目标片段时，确定目标音频为对人声录制得到的音频，至少两组目标片段中的每组目标片段包括至少两个连续的音频片段。

可选地，确定目标音频为对人声录制得到的音频，包括：

从目标音频中获取多个有效音频帧；

从该多个有效音频帧中确定目标帧；

将该多个有效音频帧中的目标帧的总个数除以所述多个有效音频帧的总个数，得到第二比值；

当第二比值大于或等于第二指定比值时，确定目标音频为对人声录制得到的音频。

可选地，从目标音频中获取多个有效音频帧，包括：

从目标音频包括的音频帧中选择出一个音频帧，对选择出的音频帧执行以下处理，直至处理完目标音频包括的每个音频帧为止：

当最大的第一能量极大值和最大的第二能量极大值均大于或等于指定数值时，确定选择出的音频帧为有效音频帧。

可选地，从该多个有效音频帧中确定目标帧，包括：

从该多个有效音频帧中选择出一个有效音频帧，对选择出的有效音频帧执行以下处理，直至处理完该多个有效音频帧中的每个有效音频帧为止：

其中，人声显著值用于指示在人声频段区域的第一能量极大值与在非人声频段区域的第二能量极大值之间的差距；

可选地，根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值，包括：

其中，在上述公式中，C为选择出的有效音频帧的人声显著值，m为选择出的有效音频帧在人声频段区域的第一能量极大值的总个数，Ea_k为选择出的有效音频帧在人声频段区域的第一能量极大值，n为选择出的有效音频帧在非人声频段区域的第二能量极大值的总个数，Eb_k为选择出的有效音频帧在非人声频段区域的第二能量极大值。

上述所有可选技术方案，均可按照任意结合形成本发明的可选实施例，本发明实施例对此不再一一赘述。

图2A是本发明实施例提供的一种音频识别方法的流程图。本发明实施例将结合图2A对图1提供的实施例进行展开论述。参见图2A，该方法包括以下步骤：

步骤201：从待识别的目标音频中获取多个音频片段。

具体地，从待识别的目标音频中获取多个音频片段的操作可以包括以下两种实现方式。

第一种实现方式：从待识别的目标音频中获取多个有效音频帧，将该多个有效音频帧划分为多个有效音频帧组，每个有效音频帧组中包括多个连续的有效音频帧；将该多个有效音频帧组中的每个有效音频帧组包括的多个连续的有效音频帧组成一个音频片段，以得到多个音频片段。

在此情况下，该多个音频片段中的每个音频片段中包括的音频帧都为有效音频帧。

需要说明的是，目标音频是按照一定的采样频率采样得到的，目标音频中每一个采样点即是一个音频帧，例如，目标音频的采样频率为44100赫兹，也即是，每秒钟采样44100次，此时采集到的目标音频中包括44100个采样点，每个采样点即为一个音频帧。有效音频帧是指音频信息有效的音频帧，音频信息有效是指音频帧的音频信号的能量大于一定阈值。

另外，音频信号的能量与音频信号的振幅相关，音频信号的振幅越强，音频信号的能量越大，音频信号的振幅越弱，音频信号的能量越小。例如，音频信号的能量可以为音频信号的振幅的平方。

其中，从待识别的目标音频中获取多个有效音频帧的操作可以为：从目标音频包括的音频帧中选择出一个音频帧，对选择出的音频帧执行以下处理，直至处理完目标音频包括的每个音频帧为止：确定选择出的音频帧在人声频段区域的第一能量极大值中最大的第一能量极大值和在非人声频段区域的第二能量极大值中最大的第二能量极大值；当该最大的第一能量极大值和该最大的第二能量极大值均大于或等于指定数值时，确定选择出的音频帧为有效音频帧。

需要说明的是，指定数值可以根据不同的需求预先进行设置，且指定数值可以设置的较大，例如，指定数值可以为0.01、0.05等。

另外，人声频段区域是指人声频率所在的区域，非人声频段区域是指非人声频率所在的区域，例如，人声频段区域可以为80-1200赫兹所在的区域，非人声频段区域可以为0-80赫兹或者1200-22050赫兹所在的区域。

再者，当该最大的第一能量极大值和该最大的第二能量极大值均大于或等于指定数值时，说明选择出的音频帧的音频信号的能量较大，即选择出的音频帧中的音频信息有效，因此可以确定选择出的音频帧为有效音频帧。

其中，确定选择出的音频帧在人声频段区域的第一能量极大值中最大的第一能量极大值和在非人声频段区域的第二能量极大值中最大的第二能量极大值时，首先可以确定选择出的音频帧的音频信号的人声频段区域和非人声频段区域，然后确定音频信号在人声频段区域的第一振幅极大值和在非人声频段区域的第二振幅极大值，根据第一振幅极大值确定第一能量极大值，且根据第二振幅极大值确定第二能量极大值，最后确定第一能量极大值中最大的第一能量极大值和第二能量极大值中最大的第二能量极大值。

其中，确定选择出的音频帧的音频信号的人声频段区域和非人声频段区域的操作可以为：确定选择出的音频帧的音频信号的频率中属于人声频率的多个第一频率点，以及确定选择出的音频信号的频率中属于非人声频率的多个第二频率点，将该音频信号中多个第一频率点所在的区域确定为该音频信号的人声频段区域，将该音频信号中多个第二频率点所在的区域确定为该音频信号的非人声频段区域。

其中，确定音频信号在人声频段区域的第一振幅极大值和在非人声频段区域的第二振幅极大值的操作可以为：确定该音频信号在人声频段区域中的多个第一频率点中每个第一频率点对应的振幅，以及确定该音频信号在非人声频段区域中的多个第二频率点中每个第二频率点对应的振幅，将该多个第一频率点对应的多个振幅中的极大值确定为第一振幅极大值，将该多个第二频率点对应的多个振幅中的极大值确定为第二振幅极大值。

其中，根据第一振幅极大值确定第一能量极大值时，可以将第一振幅极大值的平方确定为第一能量极大值，当然，也可以根据第一振幅极大值，通过其它方式确定第一能量极大值，本发明实施例对此不作限定。

其中，根据第二振幅极大值确定第二能量极大值的操作与上述根据第一振幅极大值确定第一能量极大值的操作类似，本发明实施例对此不再阐述。

例如，选择出的音频帧包括的信息可以为该音频帧的音频信号的频率、该音频信号的频率中每个频率点对应的振幅等，图2B为选择出的音频帧的音频信号的示意图，其中，横坐标为频率，纵坐标为振幅，首先确定选择出的音频帧的音频信号的人声频段区域和非人声频段区域，然后确定该音频信号在人声频段区域的第一振幅极大值和在非人声频段区域的第二振幅极大值，假设在人声频段区域中有3个第一振幅极大值，分别为X1、X2、X3，在非人声频段区域中有4个第二振幅极大值，分别为Y1、Y2、Y3、Y4，则可以对该3个第一振幅极大值分别做平方运算，得到3个第一能量极大值分别为Ea₁、Ea₂、Ea₃，且对该4个第二振幅极大值分别做平方运算，得到4个第二能量极大值分别为Eb₁、Eb₂、Eb₃、Eb₄，最后，可以确定该3个第一能量极大值中最大的第一能量极大值为Ea₂，确定该4个第二振幅极大值中最大的第二能量极大值为Eb₃。

需要说明的是，如果选择出的音频帧中的音频信号是以时域的形式表示的，则需要先将选择出的音频帧的音频信号从时域变换到频域，以得到选择出的音频帧的音频信号的频率、该音频信号的频率中每个频率点对应的振幅等信息。如果选择出的音频帧的音频信号直接是以频域的形式表示的，则可以直接得到选择出的音频帧的音频信号的频率、该音频信号的频率中每个频率点对应的振幅等信息。其中，时域是指以时间为坐标轴表示动态信号的关系，频域是指以频率为坐标轴表示动态信号的关系。

另外，当选择出的音频帧的音频信号是以时域的形式表示时，可以通过指定算法将选择出的音频帧的音频信号从时域变换到频域。其中，指定算法可以根据不同需求预先进行设置，例如，指定算法可以为傅里叶变换算法。

第二种实现方式：将待识别的目标音频中包括的音频帧划分为多个音频帧组，每个音频帧组中包括多个连续的音频帧；将该多个音频帧组中的每个音频帧组包括的多个连续的音频帧组成一个音频片段，以得到多个音频片段。

需要说明的是，待识别的目标音频可以为音频采集设备采集到的音频，实际应用中，由于音频采集设备采集目标音频时，使用的采样频率可能会不相同，因此为了便于后续对目标音频进行识别，进一步地，在步骤201之前，可以对目标音频以一个指定的采样频率进行重采样。例如，如果目标音频是使用拾音器采集得到的，则可以对目标音频以44100赫兹的频率进行重采样。

当按照上述步骤201获取到该多个音频片段之后，可以按照如下步骤202-204从该多个音频片段中确定目标片段，其中，目标片段为对人声录制得到的音频片段。

需要说明的是，从该多个音频片段中确定目标片段时，可以从该多个音频片段中选择出一个音频片段，对选择出的音频片段执行以下步骤202-204的处理，直至处理完该多个音频片段中的每个音频片段为止。

步骤202：从选择出的音频片段中获取多个有效音频帧。

在上述步骤201中获取该多个音频片段的方式不同时，步骤202中从选择出的音频片段中获取多个有效音频帧的方式也不同。具体地，当该多个音频片段是通过上述步骤201中的第一种实现方式获取到时，可以确定选择出的音频片段中的每个音频帧为有效音频帧；当该多个音频片段是通过上述步骤201中的第二种实现方式获取到时，可以先确定选择出的音频片段中的多个有效音频帧，再获取在选择出的音频片段中确定的多个有效音频帧。

需要说明的是，确定选择出的音频片段中的多个有效音频帧的操作与上述步骤201中第一种实现方式中的从待识别的目标音频中获取多个有效音频帧的操作类似，在此不再详细说明。

步骤203：从该多个有效音频帧中确定目标帧，目标帧为对人声录制得到的音频帧。

具体地，从该多个有效音频帧中选择出一个有效音频帧，对选择出的有效音频帧执行以下处理，直至处理完该多个有效音频帧中的每个有效音频帧为止：可以根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值；当选择出的有效音频帧的人声显著值大于指定显著值时，确定选择出的有效音频帧为目标帧。

需要说明的是，人声显著值用于指示在人声频段区域的第一能量极大值与在非人声频段区域的第二能量极大值之间的差距。

另外，指定显著值可以根据不同需求预先进行设置，且指定显著值可以设置的较大，如指定显著值可以为10、11、12等。

由于当选择出的有效音频帧的人声显著值大于指定显著值时，说明选择出的有效音频帧在人声频段区域的平均能量极大值远远大于选择出的有效音频帧在非人声频段区域的平均能量极大值，即说明选择出的有效音频帧的音频信号的能量绝大部分都来自于对人声录制得到的信号的能量，因而可以确定选择出的有效音频帧为目标帧。

其中，根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值的操作可以为：根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，按照如下公式确定选择出的有效音频帧的人声显著值；

步骤204：将该多个有效音频帧中的目标帧的总个数除以该多个有效音频帧的总个数，得到第一比值；当第一比值大于或等于第一指定比值时，确定选择出的音频片段为目标片段。

其中，第一指定比值可以根据不同需求预先进行设置，且第一指定比值可以设置的较大，如第一指定比值可以为8％、9％等。

需要说明的是，当第一比值大于或等于第一指定比值时，说明该多个有效音频帧中目标帧所占的比例较大，也即是，说明该多个有效音频帧中目标帧比较多，因此可以确定选择出的音频片段为目标片段。

例如，选择出的音频片段中有100个有效音频帧，且该100个有效音频帧中有18个目标帧，此时第一比值为18除以100，即为18％，假设第一指定比值为8％，则由于18％大于8％，因此选择出的音频片段为目标片段。

步骤205：当该多个音频片段中的目标片段满足指定条件时，确定目标音频为对人声录制得到的音频。

其中，指定条件可以预先进行设置，且指定条件可以为用于指示对人声录制得到的音频的性质的一些条件，如指定条件可以为该多个音频片段中的目标片段的总个数大于或等于指定个数，还可以为该多个音频片段中的目标片段中存在至少两组目标片段，该至少两组目标片段中的每组目标片段包括至少两个连续的音频片段。

需要说明的是，当该多个音频片段中的目标片段满足指定条件时，说明该多个音频片段中的目标片段具备对人声录制得到的音频应该具备的一些性质，因此可以确定目标音频为对人声录制得到的音频。

具体地，步骤205的操作可以为：确定该多个音频片段中的目标片段的总个数，当该总个数大于或等于指定个数时，确定目标音频为对人声录制得到的音频；或者，当该多个音频片段中的目标片段中存在该至少两组目标片段时，确定目标音频为对人声录制得到的音频。

其中，确定目标音频为对人声录制得到的音频时，可以直接确定目标音频为对人声录制得到的音频；或者，可以从目标音频中获取多个有效音频帧，从该多个有效音频帧中确定目标帧，将该多个有效音频帧中的目标帧的总个数除以该多个有效音频帧的总个数，得到第二比值，当第二比值大于或等于第二指定比值时，确定目标音频为对人声录制得到的音频。

其中，第二指定比值可以根据不同需求预先设置，且第二指定比值可以设置的较大，如第二指定比值可以为5％、6％等。

其中，从目标音频中获取多个有效音频帧的操作与上述步骤201中的从待识别的目标音频中获取多个有效音频帧的操作类似，从该多个有效音频帧中确定目标帧的操作与上述步骤203中从该多个有效音频帧中确定目标帧的操作类似，在此均不再详细说明。

需要说明的是，当该多个音频片段中的目标片段满足指定条件时，还可以进一步判断第二比值是否大于或等于第二指定比值，当第二比值大于或等于第二指定比值时，说明该多个音频片段中的目标片段不仅具备对人声录制得到的音频应该具备的一些性质，而且目标音频中的目标帧占有效音频帧的比例也较大，因此可以确定目标音频为对人声录制得到的音频，音频识别准确度较高。

接下来对本发明实施例提供的音频识别装置进行介绍。

图3A是本发明实施例提供的一种音频识别装置的结构示意图。参见图3A，该装置包括获取模块301、第一确定模块302和第二确定模块303。

获取模块301，用于从待识别的目标音频中获取多个音频片段。

第一确定模块302，用于从该多个音频片段中确定目标片段，目标片段为对人声录制得到的音频片段。

第二确定模块303，用于当该多个音频片段中的目标片段满足指定条件时，确定目标音频为对人声录制得到的音频。

可选地，第一确定模块具体用于：

从选择出的音频片段中获取多个有效音频帧；

从多个有效音频帧中确定目标帧，目标帧为对人声录制得到的音频帧；

将该多个有效音频帧中的目标帧的总个数除以该多个有效音频帧的总个数，得到第一比值；

可选地，参见图3B，第二确定模块303包括：

第一确定子模块3031，用于当该多个音频片段中的目标片段的总个数大于或等于指定个数时，确定目标音频为对人声录制得到的音频。

第二确定子模块3032，用于当该多个音频片段中的目标片段中存在至少两组目标片段时，确定目标音频为对人声录制得到的音频，至少两组目标片段中的每组目标片段包括至少两个连续的音频片段。

可选地，参见图3C，第二确定模块303包括：

获取子模块3033，用于从目标音频中获取多个有效音频帧。

第三确定子模块3034，用于从该多个有效音频帧中确定目标帧。

计算子模块3035，用于将该多个有效音频帧中的目标帧的总个数除以该多个有效音频帧的总个数，得到第二比值。

第四确定子模块3036，用于当第二比值大于或等于第二指定比值时，确定目标音频为对人声录制得到的音频。

可选地，获取子模块3033具体用于：

可选地，第三确定子模块3034具体用于：

需要说明的是：上述实施例提供的音频识别装置在识别音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种音频识别装置400的结构示意图。例如，装置400可以是移动电话，计算机，数字广播终端，平板设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1和图2A实施例提供的音频识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

也即是，该计算机可读存储介质中的指令由装置的处理器执行时，可以实现上述图1或图2A实施例提供的音频识别方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

从待识别的目标音频中获取多个音频片段；

2.如权利要求1所述的方法，其特征在于，所述从所述多个音频片段中确定目标片段，包括：

从选择出的音频片段中获取多个有效音频帧；

3.如权利要求1所述的方法，其特征在于，所述当所述多个音频片段中的目标片段满足指定条件时，确定所述目标音频为对人声录制得到的音频，包括：

4.如权利要求1或3所述的方法，其特征在于，所述确定所述目标音频为对人声录制得到的音频，包括：

从所述目标音频中获取多个有效音频帧；

从所述多个有效音频帧中确定目标帧；

5.如权利要求4所述的方法，其特征在于，所述从所述目标音频中获取多个有效音频帧，包括：

6.如权利要求2或4所述的方法，其特征在于，所述从所述多个有效音频帧中确定目标帧，包括：

7.如权利要求6所述的方法，其特征在于，所述根据选择出的有效音频帧在人声频段区域的第一能量极大值和在非人声频段区域的第二能量极大值，确定选择出的有效音频帧的人声显著值，包括：

<mrow> <mi>C</mi> <mo>=</mo> <mfrac> <mn>20</mn> <mi>m</mi> </mfrac> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <msub> <mi>log</mi> <mn>10</mn> </msub> <msub> <mi>Ea</mi> <mi>k</mi> </msub> </mrow> <mo>-</mo> <mfrac> <mn>20</mn> <mi>n</mi> </mfrac> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>log</mi> <mn>10</mn> </msub> <msub> <mi>Eb</mi> <mi>k</mi> </msub> </mrow>

8.一种音频识别装置，其特征在于，所述装置包括：

获取模块，用于从待识别的目标音频中获取多个音频片段；

9.如权利要求8所述的装置，其特征在于，所述第二确定模块包括：

第一确定子模块，用于当所述多个音频片段中的目标片段的总个数大于或等于指定个数时，确定所述目标音频为对人声录制得到的音频；或者，

10.一种计算机可读存储介质，所述存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-7所述的任一项方法的步骤。