CN108962286B

CN108962286B - 音频识别方法、装置及存储介质

Info

Publication number: CN108962286B
Application number: CN201811198963.1A
Authority: CN
Inventors: 黄安麒; 李深远; 董治
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-12-01
Anticipated expiration: 2038-10-15
Also published as: CN108962286A; WO2020078120A1

Abstract

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间后，再对音频文件进行识别，提高了音频识别的准确性。

Description

音频识别方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种音频识别方法、装置及存储介质。

背景技术

随着互联网技术的发展和终端的不断普及，越来越多的用户根据终端中唱歌应用播放的伴奏，演唱歌曲。同时，终端还可以对用户的演唱音频进行评分，供用户参考。

在一段演唱音频中，既包含人声，也包括乐器演奏的声音，甚至噪声。为了对演唱音频准确打分，需要从演唱音频中准确识别出人声音高。在现有的人声音高识别技术中，一般把歌词的开始时间和结束时间，作为人开始和结束演唱的时间。然而在实际演唱过程中，有些人可能早于歌词的开始时间演唱，有些人可能晚于歌词的开始时间演唱，因此直接通过歌词的开始时间和结束时间来确定人声的开始与结束，准确性较低。

故，有必要提供一种音频识别方法来提高人声音高识别的准确性。

发明内容

本发明实施例提供一种音频识别方法、装置及存储介质，可以提高音频识别的准确率。

本发明实施例提供一种音频识别方法，包括：

获取音频文件，以及所述音频文件对应的文本信息，所述文本信息包括多个字；

依次将所述文本信息中的每个字，设置为目标字，并获取所述目标字对应的时间信息，所述时间信息包括所述目标字的开始时间和所述目标字的结束时间；

根据所述目标字的开始时间，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间，确定所述目标字对应的多个结束调整时间；

根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间，对所述音频文件进行识别，得到所述目标字的音高信息。

本发明实施例还提供一种音频识别装置，包括：

获取模块，用于获取音频文件，以及所述音频文件对应的文本信息，所述文本信息包括多个字；

设置模块，用于依次将所述文本信息中的每个字，设置为目标字，并获取所述目标字对应的时间信息，所述时间信息包括所述目标字的开始时间和所述目标字的结束时间；

第一确定模块，用于根据所述目标字的开始时间，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间，确定所述目标字对应的多个结束调整时间；

识别模块，用于根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间，对所述音频文件进行识别，得到所述目标字的音高信息。

本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，该处理器通过执行所述指令提供如上述的音频识别方法。

本发明实施例的音频识别方法、装置及存储介质，先根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间，再根据该多个开始调整时间和多个结束调整时间，对音频文件进行识别，提高了音频识别的准确性。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1为本发明实施例提供的音频识别方法的第一场景示意图。

图2为本发明实施例提供的音频识别方法的流程示意图。

图3为本发明实施例提供的音频识别方法的另一场景示意图。

图4为本发明实施例提供的音频识别方法的另一流程示意图。

图5为本发明实施例提供的音频识别方法的又一场景示意图。

图6为本发明实施例提供的音频识别方法的再一场景示意图。

图7为本发明实施例提供的音频识别装置的结构示意图。

图8为本发明实施例提供的第一确定模块的结构示意图。

图9为本发明实施例提供的识别模块的结构示意图。

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的音频识别方法的场景示意图，该场景中，音频识别装置可以作为实体来实现，也可以集成在终端或服务器等电子设备来实现，该电子设备可以包括智能手机、平板电脑和个人计算机等。

如图1所示，该场景中可以包括终端a和服务器b。用户A可以通过集成在终端a中的歌唱应用H，录制歌曲，生成音频文件。终端a获取到该音频文件后，可以从服务器b中获取该音频文件对应的文本信息，具体包括歌词文本信息，该文本信息包括多个字。需要说明的是，文本信息中的每个字都具有时间信息，具体包括每个字的开始时间和结束时间。一般而言，一个字的开始与结束，对应着一个人声音高的开始与结束。接下来，终端a将文本信息中的每个字，设置为目标字，并进一步从服务器b中获取目标字对应的时间信息，该时间信息包括目标字的开始时间和目标字的结束时间。由于在用户录制的音频文件中，人声音高的开始与结束，并不一定与对应字的开始与结束完全同步。因此，可以根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间。最后，终端a再根据该多个开始调整时间和多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。

本发明实施例提供一种音频识别方法、装置及存储介质，以下将分别进行详细说明。

在本发明实施例中，将从音频识别装置的角度进行描述，该音频识别装置具体可以集成在电子设备中。

一种音频识别方法，包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。

请参照图2，图2为本发明实施例提供的音频识别方法的流程图，该方法可以包括：

步骤S101，获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字。

用户使用唱歌应用录制歌曲时，伴奏声、人声等声音共同形成了音频文件。这些声音在音频文件中，都以数字信号形式存在。若要从音频文件中准确识别出人声，需要知道人声在音频文件中的开始时间和结束时间。

如图3所示，用户使用唱歌应用录制歌曲时，唱歌应用会显示歌词文本信息，提示用户演唱。可以大致认为歌词开始的时间即用户开始演唱的时间，歌词结束的时间即用户结束演唱的时间。因此，在获取到音频文件后，可以进一步获取该音频文件对应的文本信息，以辅助对音频文件中的人声进行识别。其中，文本信息中包括多个字，该字与人声对应。

步骤S102，依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间。

由于在实际演唱过程中，用户演唱开始与结束的时间，不一定与唱歌应用提供的文本信息对应的时间完全同步。如图3所示，假设唱歌应用提供的歌词中，“当”字的开始时间为第43000毫秒，结束时间为第43300毫秒，而用户演唱“当”字的开始时间为第42000毫秒，结束时间为第42300毫秒，此时如果还按照歌唱应用提供的歌词“当”对应的开始时间和结束时间，来检测人声，则会降低音频识别的准确性。

综上，可以依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，通过对该时间信息进行调整，来提高音频文件中人声识别的准确性。其中，时间信息包括目标字的开始时间和目标字的结束时间。

步骤S103，根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间。

具体的，可以在目标字的开始时间前后的一段时间内，选取多个时间点作为开始调整时间。类似的，也可以在目标字的结束时间前后的一段时间内，选取多个时间点作为结束调整时间。假设，目标字的开始时间为第10000毫秒，结束时间为第10500毫秒，则可以在第10000毫秒前后的第9900毫秒-第10100毫秒之间，选取第9900毫秒、第9950毫秒、第10000毫秒、第10050毫秒以及第10100毫秒作为开始调整时间。在第10500毫秒前后的第10400毫秒、第10450毫秒、第10500毫秒、第10550毫秒以及第10600毫秒作为结束调整时间。

步骤S104，根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。

具体的，可以从目标字的多个开始调整时间和目标字的多个结束调整时间中挑选满足预设条件的目标开始调整时间和目标结束调整时间，组成多个目标调整时间组。

然后根据每个目标调整时间组对音频文件进行人声音高识别，并对识别到的人声音高进行打分，如果在该目标调整时间组中对人声音高识别的质量越高，其分值越高。即可以根据该目标调整时间组，得到目标字的音高信息。其中，人声音高是指人发出的声音的高度。

由上述可知，本发明实施例提供的音频识别方法，通过先根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间，再根据该多个开始调整时间和多个结束调整时间，对音频文件进行识别，提高了音频识别的准确性。

根据上述实施例描述的音频识别方法，以下将举例作进一步说明。在本发明实施例中，将从音频识别装置的角度进行描述，该音频识别装置具体可以集成在电子设备中。

请参照图4，图4为本发明实施例提供的音频识别方法的另一流程图，该方法可以包括：

步骤S201，获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字。

如图3所示，用户使用唱歌应用录制歌曲时，唱歌应用会显示歌词文本信息，提示用户演唱。因此可以大致认为歌词开始的时间即用户开始演唱的时间，歌词结束的时间即用户结束演唱的时间。因此，在获取到音频文件后，可以进一步获取该音频文件对应的文本信息，以辅助对音频文件中的人声进行识别。其中，文本信息中包括多个字，该字与人声对应。

步骤S202，依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间。

综上，可以依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，通过对该时间信息进行调整，来提高音频文件中人声识别的准确性。其中，时间信息包括目标字的开始时间、结束时间以及持续时长等时间信息。

如图3所示，歌词包括15个字，可以依次将这15个字设置为目标字。具体的，先将“当”字设置为目标字，可以获取到“当”字的开始时间为第43000毫秒，结束时间为第43300毫秒，持续时长为300毫秒。

在一些实施例中，假设，一个字对应的持续时长大概在100毫秒左右，如果检测到目标字对应的持续时长大于100毫秒，则可以认为该目标字存在一字多音的情况，即一个目标字可能对应多个音高，其中，音高是指音的高度。针对上述一字多音的情况，可以使用如下步骤进行处理：

1-1，确定目标字的持续时长是否大于预设持续时长。

1-2，如果大于预设持续时长，则对目标字进行拆分，并确定拆分后的目标字的持续时长。

1-3，重新确定拆分后的目标字的持续时长是否大于预设持续时长。

1-4，如果大于预设持续时长，则继续对拆分后的目标字进行拆分，直至文本信息中的每个字的持续时长都不大于预设持续时长为止。

其中，该目标字的持续时长可以根据目标字的结束时间和开始时间来计算。具体的，假设目标字的开始时间为E，结束时间为F。则目标字的持续时长为(F-V)。

通过大量数据统计分析，可以得到单个音高对应的时长，因此预设持续时长可以根据该单个音高对应的时长进行设置，比如将预设持续时间设置为该单个音高对应的时长，在此不对预设持续时长的值进行具体限定。

如果目标字的持续时长大于预设持续时长，说明该目标字可能存在一字对应多个音高的情况。因此需要将该目标字进行拆分，直至文本信息中的每个字只对应一个音高为止。

具体的，可以将目标字拆分成第一目标字和第二目标字，将第一目标字的开始时间设置为E，第一目标字的结束时间设置为

第二目标字的开始时间设置为

第二目标字的结束时间设置为F。经上述这种拆分方法拆分后，第一目标字的持续时长为

第二目标字的持续时长为

综上，第一目标字的持续时长

一定小于预设持续时长V，因此接下来只需要重新对第二目标字的持续时长

是否大于预设持续时长V进行甄别。

如果第二目标字的持续时长

不大于预设持续时长V，则停止拆分该第二目标字；如果第二目标字的持续时长

大于预设持续时长V，则根据上述对目标字进行拆分的方法，对第二目标字进行拆分，在此不再赘述。直至文本信息中的每个字的持续时长都不大于预设持续时长V为止。

步骤S203，获取预设时间步长和预设最大误差值；

其中，预设时间步长是指预先设置的两个时间点之间的差值。预设时间步长的值设置的越小，越能对目标字的实际开始时间和实际结束时间进行准确确定，但是也会带来计算量过大的问题，因此可以根据实际情况对预设时间步长的值进行设置。

预设最大误差值是指预先设置的两个时间点之间的误差值。该预设最大误差值的取值越大，越能对目标字的实际开始时间和实际结束时间进行准确确定，但是也会带来计算量过大的问题，因此可以根据实际情况对预设最大误差值进行设置。

步骤S204，根据目标字的开始时间、预设时间步长和预设最大误差值，确定目标字对应的多个开始调整时间，并根据目标字的结束时间、预设时间步长和预设最大误差值，确定目标字对应的多个结束调整时间。

具体的，假设目标字的开始时间为E，结束时间为F，预设时间步长为I，预设最大误差值为J，则目标字的多个开始调整时间可以设置为：K1＝E-J，K2＝E-J+I，K3＝E-J+2*I，……，Kn＝E+J。目标字的多个结束调整时间可以设置为：L1＝F-J，L2＝F-J+I，L3＝F-J+2*I，……，Ln＝F+J。

如图5所示，假设目标字的开始时间E为第400毫秒，结束时间F为第800毫秒，预设时间步长I为100毫秒，预设最大误差值J为300毫秒，则目标字的多个开始调整时间包括第100毫秒、第200毫秒、第300毫秒、第400毫秒、第500毫秒、第600毫秒以及第700毫秒，多个结束调整时间包括第500毫秒、第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒。

步骤S205，从目标字的多个开始调整时间中，选取目标开始调整时间，并从目标字的多个结束调整时间中，选取目标开始调整时间对应的目标结束调整时间，得到多个目标调整时间组。

在一些实施例中，可以从上述多个开始调整时间中任意选取一个开始调整时间作为目标开始调整时间，从上述多个结束调整时间中任意选取一个结束调整时间作为目标结束调整时间。

如图5所示，可以从第100毫秒、第200毫秒以及第300毫秒等多个开始调整时间中选取第200毫秒作为目标开始调整时间，从第700毫秒、第800毫秒以及第900毫秒等多个结束调整时间中选取第800毫秒作为目标结束调整时间，则目标开始调整时间第200毫秒和目标结束调整时间第800毫秒可以作为一个目标调整时间组。然而如果选取的目标开始调整时间为700毫秒，目标结束调整时间为500毫秒，则会出现目标字的目标开始调整时间大于目标结束调整时间的不合理情况。

为了避免上述不合理情况的出现，在步骤S204中确定了多个目标开始调整时间和多个目标结束调整时间后，可以对该多个目标开始调整时间的区域和该多个目标结束调整时间的取值区域进行对比，如果二者存在重叠区域，则可以对该重叠区域进行折中划分。如图5所示，重叠区域为第500毫秒-第700毫秒，则可以取重叠区域的中间值第600毫秒作为目标开始调整时间和目标结束调整时间的分界线，即进行折中划分后，多个目标开始调整时间包括第100毫秒、第200毫秒、第300毫秒、第400毫秒、第500毫秒以及第600毫秒，多个结束调整时间包括第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒。

在一些实施例中，还可以先从目标字的多个开始调整时间中依次选取开始调整时间作为目标开始调整时间，然后从多个结束调整时间中选取所有不小于该目标开始调整时间的结束调整时间，作为该目标开始调整时间对应的目标结束调整时间。

如图5所示，当选取第100毫秒作为目标开始调整时间时，可以从结束调整时间中选取第500毫秒、第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒作为目标结束调整时间。当选取第600毫秒作为目标开始调整时间时，可以从结束调整时间中选取第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒作为目标结束调整时间。这样也可以有效避免出现目标字的目标开始调整时间大于目标结束调整时间的不合理情况。最后将该目标开始调整时间和目标结束调整时间作为目标调整时间组。

步骤S206，确定每一组目标调整时间组对应的音高概率集合，得到多个音高概率集合，音高概率集合包括音高、概率以及二者之间的关联关系。

承接步骤S205，可以根据目标调整时间组中的目标开始调整时间和目标结束调整时间，对音频文件进行识别，得到音高概率集合。其中，建立音高概率集合的步骤具体如下：

2-1，根据目标调整时间组，对音频文件划分多个采样区间。

2-2，获取每一个采样区间对应的音高，以及音高对应的概率。

2-3，将音高、概率以及二者之间的关联关系存储，生成目标调整时间组对应的音高概率集合。

具体的，以目标开始调整时间第100毫秒，目标结束调整时间第300毫秒作为一个目标调整时间组，以每50毫秒为一个采样区间，则如图6所示，可以将第100毫秒-第300毫秒之间的音频文件划分成4个采样区间，其中第100毫秒-150毫秒采样区间测得的音高为m2，第150毫米-第200毫秒采样区间测得的音高为m4，第200毫秒-第250毫秒采样区间测得的音高为m3，第250毫秒-第300毫秒采样区间测得的音高为m1。其中，每个采样区间音高的测量，可以采用神经网络算法对音频文件进行处理，得到该采样区间对应的音高。

综上，可以得到该目标调整时间组对应的音高概率集合为

该音高概率集合也可以以如下表1的形式存储。

表1

根据上述方法，可以得到每一组目标时间调整组对应的音高概率集合，即得到多个音高概率集合，例如，如下表2所示：

表2

步骤S207，对多个音高概率集合进行评分，并选取评分最高的音高概率集合。

下面详细介绍对多个音高概率集合进行评分的具体步骤：

3-1，根据目标字的开始时间、目标字的结束时间、目标字的多个目标调整时间组，得到多个误差减益值。

3-2，依次将多个误差减益值，设置为目标误差减益值，并从目标误差减益值对应的音高概率集合中，获取第一概率和第二概率，其中第一概率为最大概率，第二概率为第二大概率。

3-3，根据第一概率、第二概率以及目标误差减益值，对目标误差减益值对应的音高概率集合进行评分。

其中，误差增益值R_i的计算公式如下：

R_i＝(abs(U_i-Y)+abs(V_i-Z))*Q

其中，U_i表示第i个目标调整时间组中的目标开始调整时间，V_i表示第i个目标调整时间组中的目标结束调整时间，i为正整数，Y表示目标字的开始时间，Z表示目标字的结束时间，Q表示误差减益系数。

对应的，对音高概率集合进行评分的公式如下：

S_i＝T_i-O_i-R_i

其中，T_i表示第i个误差增益值R_i对应的第一概率，O_i表示第i个误差增益值R_i对应的第二概率。需要说明的是，如果第一概率远远超过第二概率，说明根据目标时间调整组，对音频进行人声音高识别的准确率越大，即评分S_i越大。

如上表2所示的目标调整时间组和音高概率集合的对应关系，假设误差减益系数Q为0.0001，目标字的结束时间Z为第300毫秒，目标字的开始时间Y为第100毫秒。则目标调整时间组1对应的误差增益值R₁为0，目标调整时间组2对应的误差增益值R₂为0.01，目标调整时间组3对应的误差增益值R₃为0.01。

接下来，先将误差增益值R₁作为目标误差减益值，从误差增益值R₁对应的音高概率集合1中第一概率T₁为

第二概率O₁为

最后根据第一概率T₁、第二概率O₁以及目标误差减益值，对目标误差减益值R₁对应的音高概率集合1进行评分，得到的分值为

同理的，再将误差增益值R₂作为目标误差减益值，从误差增益值R₂对应的音高概率集合2中第一概率T₂为

第二概率O₂为

最后根据第一概率T₂、第二概率O₂以及目标误差减益值R₂，对目标误差减益值R₂对应的音高概率集合2进行评分，得到的分值为

再根据类似方法，可以对目标误差减益值R₃对应的音高概率集合3进行评分，得到的分值为

详细计算过程不再赘述。

步骤S208，根据评分最高的音高概率集合，生成目标字的音高信息。

最后，对比分值

和

可知，分值

最高。因此根据音高概率集合3来生成目标字的音高信息。具体的，可以从音高概率集合3：

中选取概率最大音高作为目标字的音高，即将m2作为目标字的音高。

根据上述实施例所描述的方法，本实施例将从音频识别装置的角度进一步进行描述，该音频识别装置可以集成在电子设备中。

请参照图7，图7为本发明实施例提供的音频识别装置的结构图，该装置30包括获取模块301、设置模块302、第一确定模块303以及识别模块304。

(1)获取模块301

获取模块301用于获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字。

如图3所示，用户使用唱歌应用录制歌曲时，唱歌应用会显示歌词文本信息，提示用户演唱。因此可以大致认为歌词开始的时间即用户开始演唱的时间，歌词结束的时间即用户结束演唱的时间。因此，在获取模块301获取到音频文件后，可以进一步通过获取模块301获取该音频文件对应的文本信息，以辅助对音频文件中的人声进行识别。其中，文本信息中包括多个字，该字与人声对应。

(2)设置模块302

设置模块302于依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间。

综上，可以通过设置模块302，依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，通过对该时间信息进行调整，来提高音频文件中人声识别的准确性。其中，时间信息包括目标字的开始时间、结束时间以及持续时长等时间信息。

如图3所示，歌词包括15个字，设置模块302可以依次将这15个字设置为目标字。具体的，设置模块302先将“当”字设置为目标字，可以获取到“当”字的开始时间为第43000毫秒，结束时间为第43300毫秒，持续时长为300毫秒。

在一些实施例中，假设，一个字对应的持续时长大概在100毫秒左右，如果设置模块302检测到目标字对应的持续时长大于100毫秒，则可以认为该目标字存在一字多音的情况，即一个目标字可能对应多个音高，其中，音高是指音的高度。

为了解决上述一字多音的情况，音频识别装置30还设置了第二确定模块305、拆分模块306、确定模块307以及继续拆分模块308。

第二确定模块305，用于确定目标字的持续时长是否大于预设持续时长；拆分模块306，用于在大于预设持续时长时，对目标字进行拆分，并确定拆分后的目标字的持续时长；确定模块307，用于重新确定拆分后的目标字的持续时长是否大于预设持续时长；继续拆分模块308，用于在大于预设持续时长时，继续对拆分后的目标字进行拆分，直至文本信息中的每个字的持续时长都不大于预设持续时长为止。

如果第二确定模块305确定目标字的持续时长大于预设持续时长，说明该目标字可能存在一字对应多个音高的情况。因此需要将该目标字进行拆分，直至文本信息中的每个字只对应一个音高为止。

具体的，可以通过拆分模块306，将目标字拆分成第一目标字和第二目标字，将第一目标字的开始时间设置为E，第一目标字的结束时间设置为

第二目标字的开始时间设置为

第二目标字的持续时长为

综上，第一目标字的持续时长

一定小于预设持续时长V，因此接下来只需要通过确定模块307，重新对第二目标字的持续时长

是否大于预设持续时长V进行甄别。

如果第二目标字的持续时长

大于预设持续时长V，则通过继续拆分模块308，根据上述对目标字进行拆分的方法，对第二目标字进行拆分，在此不再赘述。直至文本信息中的每个字的持续时长都不大于预设持续时长V为止。

(3)第一确定模块303

第一确定模块303用于根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间。

在一些实施例中，如图8所示，第一确定模块303包括：获取子模块3031和确定子模块3032。

获取子模块3031，用于获取预设时间步长和预设最大误差值。其中，预设时间步长是指预先设置的两个时间点之间的差值。预设时间步长的值设置的越小，越能对目标字的实际开始时间和实际结束时间进行准确确定，但是也会带来计算量过大的问题，因此可以根据实际情况对预设时间步长的值进行设置。

确定子模块3032，用于根据目标字的开始时间、预设时间步长和预设最大误差值，确定目标字对应的多个开始调整时间，并根据目标字的结束时间、预设时间步长和预设最大误差值，确定目标字对应的多个结束调整时间。

具体的，假设目标字的开始时间为E，结束时间为F，预设时间步长为I，预设最大误差值为J，则确定子模块3032可以将目标字的多个开始调整时间设置为：K1＝E-J，K2＝E-J+I，K3＝E-J+2*I，……，Kn＝E+J。同理的，可以将目标字的多个结束调整时间设置为：L1＝F-J，L2＝F-J+I，L3＝F-J+2*I，……，Ln＝F+J。

(4)识别模块304

识别模块304用于根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。

在一些实施例中，如图9所示，识别模块304包括：选取子模块3041、得到子模块3042、评分子模块3043以及生成子模块3044。

选取子模块3041，用于从目标字的多个开始调整时间中，选取目标开始调整时间，并从目标字的多个结束调整时间中，选取目标开始调整时间对应的目标结束调整时间，得到多个目标调整时间组。

在一些实施例中，选取子模块3041可以从上述多个开始调整时间中任意选取一个开始调整时间作为目标开始调整时间，从上述多个结束调整时间中任意选取一个结束调整时间作为目标结束调整时间。

如图5所示，选取子模块3041可以从第100毫秒、第200毫秒以及第300毫秒等多个开始调整时间中选取第200毫秒作为目标开始调整时间，从第700毫秒、第800毫秒以及第900毫秒等多个结束调整时间中选取第800毫秒作为目标结束调整时间，则目标开始调整时间第200毫秒和目标结束调整时间第800毫秒可以作为一个目标调整时间组。然而如果选取子模块3041选取的目标开始调整时间为700毫秒，目标结束调整时间为500毫秒，则会出现目标字的目标开始调整时间大于目标结束调整时间的不合理情况。

为了避免上述不合理情况的出现，在确定子模块3032确定了多个目标开始调整时间和多个目标结束调整时间后，选取子模块3041可以对该多个目标开始调整时间的区域和该多个目标结束调整时间的取值区域进行对比，如果二者存在重叠区域，则可以对该重叠区域进行折中划分。如图5所示，重叠区域为第500毫秒-第700毫秒，则选取子模块3041可以取重叠区域的中间值第600毫秒作为目标开始调整时间和目标结束调整时间的分界线，即进行折中划分后，多个目标开始调整时间包括第100毫秒、第200毫秒、第300毫秒、第400毫秒、第500毫秒以及第600毫秒，多个结束调整时间包括第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒。

在一些实施例中，选取子模块3041还可以先从目标字的多个开始调整时间中依次选取开始调整时间作为目标开始调整时间，然后从多个结束调整时间中选取所有不小于该目标开始调整时间的结束调整时间，作为该目标开始调整时间对应的目标结束调整时间。

如图5所示，当选取第100毫秒作为目标开始调整时间时，选取子模块3041可以从结束调整时间中选取第500毫秒、第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒作为目标结束调整时间。当选取第600毫秒作为目标开始调整时间时，选取子模块3041可以从结束调整时间中选取第600毫秒、第700毫秒、第800毫秒、第900毫秒、第1000毫秒以及第1100毫秒作为目标结束调整时间。这样也可以有效避免出现目标字的目标开始调整时间大于目标结束调整时间的不合理情况。最后将该目标开始调整时间和目标结束调整时间作为目标调整时间组。

得到子模块3042，用于确定每一组目标调整时间组对应的音高概率集合，得到多个音高概率集合，音高概率集合包括音高、概率以及二者之间的关联关系。

在一些实施例中，得到子模块3042可以根据目标调整时间组中的目标开始调整时间和目标结束调整时间，对音频文件进行识别，得到音高概率集合。其中，得到子模块3042建立音高概率集合的步骤具体如下：

根据目标调整时间组，对音频文件划分多个采样区间；

获取每一个采样区间对应的音高，以及音高对应的概率；

将音高、概率以及二者之间的关联关系存储，生成目标调整时间组对应的音高概率集合。

具体的，以目标开始调整时间第100毫秒，目标结束调整时间第300毫秒作为一个目标调整时间组，以每50毫秒为一个采样区间，则如图6所示，得到子模块3042可以将第100毫秒-第300毫秒之间的音频文件划分成4个采样区间，其中第100毫秒-150毫秒采样区间测得的音高为m2，第150毫米-第200毫秒采样区间测得的音高为m4，第200毫秒-第250毫秒采样区间测得的音高为m3，第250毫秒-第300毫秒采样区间测得的音高为m1。其中，每个采样区间音高的测量，可以采用神经网络算法对音频文件进行处理，得到该采样区间对应的音高。

综上，得到子模块3042可以得到该目标调整时间组对应的音高概率集合为

该音高概率集合也可以以如表1的形式存储。

根据上述方法，得到子模块3042可以得到每一组目标时间调整组对应的音高概率集合，即得到多个音高概率集合，具体如表2所示。

评分子模块3043，用于对多个音高概率集合进行评分，并选取评分最高的音高概率集。

在一些实施例中，评分子模块3043具体用于：

根据目标字的开始时间、目标字的结束时间、目标字的多个目标调整时间组，得到多个误差减益值；

依次将多个误差减益值，设置为目标误差减益值，并从目标误差减益值对应的音高概率集合中，获取第一概率和第二概率；

根据第一概率、第二概率以及目标误差减益值，对目标误差减益值对应的音高概率集合进行评分。

其中，误差增益值R_i的计算公式如下：

R_i＝(abs(U_i-Y)+abs(V_i-Z))*Q

对应的，对音高概率集合进行评分的公式如下：

S_i＝T_i-O_i-R_i

如上表2所示的目标调整时间组和音高概率集合的对应关系，假设误差减益系数Q为0.0001，目标字的结束时间Z为第300毫秒，目标字的开始时间Y为第100毫秒。则评分子模块3043可以得到目标调整时间组1对应的误差增益值R₁为0，目标调整时间组2对应的误差增益值R₂为0.01，目标调整时间组3对应的误差增益值R₃为0.01。

接下来，评分子模块3043先将误差增益值R₁作为目标误差减益值，从误差增益值R₁对应的音高概率集合1中第一概率T₁为

第二概率O₁为

同理的，评分子模块3043再将误差增益值R₂作为目标误差减益值，从误差增益值R₂对应的音高概率集合2中第一概率T₂为

第二概率O₂为

再根据类似方法，评分子模块3043可以对目标误差减益值R₃对应的音高概率集合3进行评分，得到的分值为

详细计算过程不再赘述。

生成子模块3044，用于根据评分最高的音高概率集合，生成目标字的音高信息。

最后，生成子模块3044对比分值

和

可知，分值

最高。因此生成子模块3044根据音高概率集合3来生成目标字的音高信息。具体的，生成子模块3044可以从音高概率集合3：

本发明实施例的音频识别装置，通过先根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间，再根据该多个开始调整时间和多个结束调整时间，对音频文件进行识别，提高了音频识别的准确性。

相应的，本发明实施例还提供一种电子设备，如图10所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图10中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；

依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；

根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；

根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。

该电子设备可以实现本发明实施例所提供的任一种音频识别装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本发明实施例的电子设备，通过先根据目标字对应的开始时间和结束时间，确定多个开始调整时间和多个结束调整时间，再根据该多个开始调整时间和多个结束调整时间，对音频文件进行识别，提高了音频识别的准确性。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种音频识别方法，其特征在于，包括：

从所述目标字的多个开始调整时间中，选取目标开始调整时间，并从所述目标字的多个结束调整时间中，选取所述目标开始调整时间对应的目标结束调整时间，得到多个目标调整时间组；

确定每一组所述目标调整时间组对应的音高概率集合，得到多个音高概率集合，所述音高概率集合包括音高、概率以及二者之间的关联关系；

对所述多个音高概率集合进行评分，并选取评分最高的音高概率集合；

根据所述评分最高的音高概率集合，生成所述目标字的音高信息。

2.根据权利要求1所述的音频识别方法，其特征在于，所述根据所述目标字的开始时间，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间，确定所述目标字对应的多个结束调整时间步骤，包括：

获取预设时间步长和预设最大误差值；

根据所述目标字的开始时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个结束调整时间。

3.根据权利要求1所述的音频识别方法，其特征在于，所述对所述多个音高概率集合进行评分，并选取评分最高的音高概率集合步骤包括：

根据所述目标字的开始时间、所述目标字的结束时间、所述目标字的多个目标调整时间组，得到多个误差增益值；

所述误差增益值的计算公式为：R_i＝(abs(U_i-Y)+abs(V_i-Z))*Q；

其中，R_i表示误差增益值，U_i表示第i个目标调整时间组中的目标开始调整时间，V_i表示第i个目标调整时间组中的目标结束调整时间，i为正整数，Y表示目标字的开始时间，Z表示目标字的结束时间，Q表示误差减益系数；

依次将所述多个误差增益值，设置为目标误差减益值，并从所述目标误差减益值对应的音高概率集合中，获取第一概率和第二概率，其中所述第一概率为最大概率，所述第二概率为第二大概率；

根据所述第一概率、所述第二概率以及所述目标误差减益值，对所述目标误差减益值对应的音高概率集合进行评分。

4.根据权利要求1所述的音频识别方法，其特征在于，所述确定每一组所述目标调整时间组对应的音高概率集合，得到多个音高概率集合，所述音高概率集合包括音高、概率以及二者之间的关联关系步骤，包括：

根据所述目标调整时间组，对所述音频文件划分多个采样区间；

获取每一个采样区间对应的音高，以及所述音高对应的概率；

将所述音高、所述概率以及二者之间的关联关系存储，生成所述目标调整时间组对应的音高概率集合。

5.根据权利要求1所述的音频识别方法，其特征在于，所述目标字对应的时间信息还包括所述目标字的持续时长；所述依次将所述文本信息中的每个字，设置为目标字，并获取所述目标字对应的时间信息，所述时间信息包括所述目标字的开始时间和所述目标字的结束时间步骤之后，还包括：

确定所述目标字的持续时长是否大于预设持续时长；

如果大于预设持续时长，则对所述目标字进行拆分，并确定拆分后的目标字的持续时长；

重新确定所述拆分后的目标字的持续时长是否大于预设持续时长；

如果大于预设持续时长，则继续对所述拆分后的目标字进行拆分，直至所述文本信息中的每个字的持续时长都不大于预设持续时长为止。

6.一种音频识别装置，其特征在于，包括：

识别模块，用于根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间，对所述音频文件进行识别，得到所述目标字的音高信息；

所述识别模块包括：

选取子模块，用于从所述目标字的多个开始调整时间中，选取目标开始调整时间，并从所述目标字的多个结束调整时间中，选取所述目标开始调整时间对应的目标结束调整时间，得到多个目标调整时间组；

得到子模块，用于确定每一组所述目标调整时间组对应的音高概率集合，得到多个音高概率集合，所述音高概率集合包括音高、概率以及二者之间的关联关系；

评分子模块，用于对所述多个音高概率集合进行评分，并选取评分最高的音高概率集合；

生成子模块，用于根据所述评分最高的音高概率集合，生成所述目标字的音高信息。

7.根据权利要求6所述的音频识别装置，其特征在于，所述第一确定模块包括：

获取子模块，用于获取预设时间步长和预设最大误差值；

确定子模块，用于根据所述目标字的开始时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个开始调整时间，并根据所述目标字的结束时间、所述预设时间步长和所述预设最大误差值，确定所述目标字对应的多个结束调整时间。

8.根据权利要求6所述的音频识别装置，其特征在于，所述评分子模块具体用于：

所述误差增益值的计算公式为：R_i＝(abs(U_i-Y)+abs(V_i-Z))*Q；

9.根据权利要求6所述的音频识别装置，其特征在于，所述得到子模块具体用于：

10.根据权利要求6所述的音频识别装置，其特征在于，所述音频识别装置还包括：

第二确定模块，用于确定所述目标字的持续时长是否大于预设持续时长；

拆分模块，用于在大于预设持续时长时，对所述目标字进行拆分，并确定拆分后的目标字的持续时长；

确定模块，用于重新确定所述拆分后的目标字的持续时长是否大于预设持续时长；

继续拆分模块，用于在大于预设持续时长时，继续对所述拆分后的目标字进行拆分，直至所述文本信息中的每个字的持续时长都不大于预设持续时长为止。

11.一种存储介质，其内存储有处理器可执行指令，该处理器通过执行所述指令提供如权利要求1-5中任一的音频识别方法。