CN110335629B

CN110335629B - 音频文件的音高识别方法、装置以及存储介质

Info

Publication number: CN110335629B
Application number: CN201910578513.3A
Authority: CN
Inventors: 黄安麒; 李深远; 董治
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-08-03
Anticipated expiration: 2039-06-28
Also published as: CN110335629A

Abstract

本发明实施例公开了一种音频文件的音高识别方法、装置以及存储介质；本发明实施例通过获取音频文件，音频文件包括音频数据，然后，从音频文本中提取预设时间点对应的文字，得到多个音频单字，紧接着，获取音频单字的在音频文本中的音高独立概率，再然后，根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率，最后，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。相对于现有的方案而言，可以避免识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

Description

音频文件的音高识别方法、装置以及存储介质

技术领域

本发明实施例涉及音频处理领域，具体涉及一种音频文件的音高识别方法、装置以及存储介质。

背景技术

歌曲的智能人声音高识别，其目的在于，识别一首歌曲中人声部分的音高变化情况，即人声旋律。可用于辅助唱歌或者唱歌音准评分等场景。然而，一个单字通常不止有一个发音，意味着一个单字往往有多个音高。因此，如何提高音频文件的音高识别结果的准确率成为一个亟待解决的技术问题。

发明内容

本发明实施例提供一种音频文件的音高识别方法、装置以及存储介质，能够有效提高音频文件的音高识别结果的准确率。

本发明实施例提供一种音频文件的音高识别方法，所述方法包括：

获取音频文件，所述音频文件包括音频数据，音频数据对应的音频文本以及所述音频数据的多个音频标签；

从所述音频文本中提取预设时间点对应的文字，得到多个音频单字，所述时间点为在所述音频文件中根据预设时间间隔对应的时间点；

获取所述音频单字的在所述音频文本中的音高独立概率；

根据多个所述音频标签，获取所述音频单字在所述音频文本中的音高变化概率；

对所述音高独立概率以及音高变化概率进行处理，得到所述音频文件的音高结果。

本发明实施例还提供一种音频文件的音高识别装置，所述装置包括：

第一获取模块，用于获取包含多个音频文件的音频数据，所述音频文件包括音频数据，音频数据对应的音频文本以及所述音频数据的多个音频标签；

提取模块，用于从所述音频文本中提取预设时间点对应的文字，得到多个音频单字，所述时间点为在所述音频文件中根据预设时间间隔对应的时间点；

第二获取模块，用于获取所述音频单字的在所述音频文本中的音高独立概率；

第三获取模块，用于根据多个所述音频标签，获取所述音频单字在所述音频文本中的音高变化概率；

处理模块，用于对所述音高独立概率以及音高变化概率进行处理，得到所述音频文件的音高结果。

可选的，在一些实施例中，所述第三获取模块包括：

获取子模块，用于获取每个所述音频单字在预设时间点的变化参数，得到多个变化参数；

提取子模块，用于提取每个所述音频单字的音高值，得到多个音高值；

计算子模块，用于基于多个变化参数、多个音频标签以及多个音高值，计算每个所述音高值在相邻预设时间间隔发生变化的概率，得到每个所述音高值对应的音高变化概率。

可选的，在一些实施例中，所述计算子模块包括：

计算单元，用于计算每个音高值在相邻预设时间间隔的差值，得到多个音高变化值；

确定单元，用于基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率。

可选的，在一些实施例中，所述确定单元包括：

第一确定子单元，用于将相同预设时间点的变化参数、音高变化值以及语种标签作为一组同源组，得到多组第一同源组；

第二确定子单元，用于将相同预设时间点的变化参数以及语种标签作为一组同源组，得到多组第二同源组；

第三确定子单元，用于将相同预设时间点的变化参数、音高变化值以及曲风标签作为一组同源组，得到多组第三同源组；

第四确定子单元，用于将相同预设时间点的变化参数以及曲风标签作为一组同源组，得到多组第四同源组；

第五确定子单元，用于根据所述第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率。

可选的，在一些实施例中，所述第五确定子单元具体用于：

根据多组第一同源组以及多组第二同源组，计算每个音高变化值在每个第二同源组出现的概率，得到多个第一概率；

根据多组第三同源组以及多组第四同源组，计算每个音高变化值在每个第四同源组出现的概率，得到多个第二概率；

计算所述第一概率与相应的第二概率之间的平均值，得到每个所述音高值的变化概率。

可选的，在一些实施例中，所述第二获取模块具体用于：

统计所述音频单字在所述音频文本出现的单字次数以及所述音频单字对应的音高值在所述音频文本出现的音高次数；

计算所述单字次数与音高次数之间的比值，确定每个音频单字的在所述音频文本中的音高独立概率。

可选的，在一些实施例中，所述处理模块具体用于：

确定当前需要处理的音高变化概率；

计算当前需要处理的音高变化概率与每个音高独立概率的和，得到多个音高可信度；

将音高可信度最大的音高数据作为所述音频文件的音高结果；

返回确定当前需要计算的音高变化概率的步骤，直到所有音高变化概率均处理完毕。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本发明实施例所提供的任一种所述的音频文件的音高识别方法中的步骤。

本发明实施例通过获取音频文件，所述音频文件包括音频数据，音频数据对应的音频文本以及所述音频数据的多个音频标签，然后，从所述音频文本中提取预设时间点对应的文字，得到多个音频单字，所述时间点为在所述音频文件中根据预设时间间隔对应的时间点，紧接着，获取所述音频单字的在所述音频文本中的音高独立概率，再然后，根据多个所述音频标签，获取所述音频单字在所述音频文本中的音高变化概率，最后，对所述音高独立概率以及音高变化概率进行处理，得到所述音频文件的音高结果。相对于现有的方案而言，可以避免识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的音频文件的音高识别方法的场景示意图。

图1b为本发明实施例提供的音频文件的音高识别方法的流程示意图。

图2a为本发明实施例提供的音频文件的音高识别方法的另一场景示意图。

图2b为本发明实施例提供的音频文件的音高识别方法的另一流程示意图。

图3为本发明实施例提供的音频文件的音高识别装置的结构示意图。

图4是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频文件的音高识别方法、装置以及存储介质。

其中，该音频文件的音高识别装置具体可以集成在网络设备，比如终端或服务器等设备中。

例如，请参阅图1a，图1a为本发明实施例提供的音频文件的音高识别方法的场景示意图。该场景可以包括音频文件的音高识别装置，以下简称识别装置。主要用于获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，然后，从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，接着，获取音频单字的在音频文本中的音高独立概率，再然后，根据多个音频标签，获取音频单字在音频文本中的音高变化概率，最后，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

一种音频文件的音高识别方法，包括：获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，获取音频单字的在音频文本中的音高独立概率，根据多个音频标签，获取音频单字在音频文本中的音高变化概率，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

请参阅图1b，图1b为本发明实施例提供的音频文件的音高识别方法的流程示意图。该音频文件的音高识别方法的具体流程可以如下：

101、获取音频文件。

其中，该音频文件包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签。具体的，可以从歌曲库中获取音频文件，比如，可以从歌曲库中获取一首歌曲，这首歌曲包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签，该音频数据指的是这首歌曲的数字化的声音数据，，音频文本指的是这首歌曲的歌词。音频标签可以包括这首歌曲的语种标签和曲风标签。

需要说明的是，音频单字可以是中文汉字、英文单词或者是其他语言对应的字或词。比如，获取到的音频文本为“满天都是小星星”，那么其对应的音频单字为“满”、“天”、“都”、“是”、“小”、“星”以及“星”；若获取到的音频文本为“God is a girl”，那么其对应的音频单字为“God”、“is”、“a”以及“girl”，其他语言也类似，在此不再赘述。

102、从音频文本中提取预设时间点对应的文字。

预设时间地点指的是在音频文件中，根据预设时间间隔对应的时间点，具体的，例如，根据音频文本的总时长以及预设时间间隔，可以得到多个预设时间间隔对应的时间点。然后，根据这多个预设时间间隔对应的时间点从音频文件的音频文本中提取对应的文字，从而得到音频文件中的多个音频单字。比如，预设时间间隔为50毫秒，音频文本的总时长为100秒，则可以得到2000个时间点。然后，根据这2000个时间点，从音频文本中提取50毫秒内对应的文字，得到多个音频单字。当然，预设时间也可以为40毫秒、70毫秒以及75毫秒等等。具体根据实际情况进行设置，在此不再赘述。

103、获取音频单字的在音频文本中的音高独立概率。

具体的，首先可以提取每个音频单字对应的音高值。然后，计算每个音高值在音频文本中的独立概率，从而得到每个音频单字在音频文本中的音高独立概率。

进一步的，还可以统计音频单字在音频文本中出现的次数以及音频单字对应的音高值在音频文本中出现的次数，然后，根据音频单字在音频文本中出现的次数以及音频单字对应的音高值在音频文本中出现的次数，确定每个音频单字的在音频文本中的音高独立概率，即，步骤“获取音频单字的在音频文本中的音高独立概率”，具体可以包括：

(11)统计音频单字在音频文本出现的单字次数以及音频单字对应的音高值在音频文本出现的音高次数。

(12)计算单字次数与音高次数之间的比值，确定每个音频单字的在音频文本中的音高独立概率。

104、根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率。

需要说明的是，本实施例中的音高变化概率指的是，相邻时间点的音频单字的音高发生变化的概率。

具体的，比如，可以提取每个音频单字的音高值，然后计算每个音频单字的音高值在相邻时间点发生变化的概率。

还需要说明的是，在可以提取每个音频单字的音高值之前，还可以判断预设时间点的音频单字是否发生变化，当音频单字在预设时间点发生变化时，获取这个音频单字的变化参数，然后，基于变化参数、音频标签以及音高值，确定这个音频单字的音高变化概率。

即，在一些实施例中，步骤“根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率”具体可以包括：

(21)获取每个音频单字在预设时间点的变化参数，得到多个变化参数。

(22)提取每个音频单字的音高值，得到多个音高值。

(23)基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率。

具体的，首先获取每个预设时间点对应的音频单字，然后，判断相邻预设时间间隔的音频单字是否发生变化，从而得到变化参数。比如，假设有n个预设时间间隔，在n个预设时间间隔获取到n个音频单字B，相邻预设时间间隔的变化参数D(B)，其中，n为正整数。若第n帧获取到的音频单词B与第n-1帧获取到的音频单字B相同，则有

D(B)＝0

若第n帧获取到的音频单词B与第n-1帧获取到的音频单字B不相同，则有

D(B)＝1

比如，在第一个预设时间间隔获取到的音频单字为“圈”，第二个预设时间间隔获取到的音频单字也为“圈”，因此在第二个预设时间间隔的变化参数D(B)＝0。

又比如，在第一个预设时间间隔获取到的音频单字为“圈”，第二个预设时间间隔获取到的音频单字为“圆”，因此在第二个预设时间间隔的变化参数D(B)＝1。

另外，在获取到每个预设时间间隔对应的音频单字后，再提取每个音频单字的音高值。最后，基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值的音高变化概率。

比如，在第三个预设时间间隔内获取到的音频单字为“飞”，在第三个预设时间间隔内“飞”的变化参数D(B)＝1，“飞”的音高值为30。然后，基于多个音频文件的音频标签、在第三个预设时间间隔内“飞”的变化参数以及“飞”的音高值，计算“飞”的音高值的变化概率。

需要说明的是，音高值是在预设时间间隔内提取出来的。因此，可能会存在在某个时间间隔内，没有声音，即，提取不到音高值。因此，在提取音高值时，可以判断在该预设时间间隔内是否存在声音。

比如，提取第三个时间间隔内的音高值。首先判断第三个时间间隔内是否存在音高。若第三个时间间隔内存在音高，则提取第三个时间间隔内的音高。若第三个时间间隔内不存在音高，则可以为第三个时间间隔内的音高赋值。比如，赋值为-1。当然，也可以为别的值，具体根据实际情况而定。

紧接着，在获取到多个变化参数以及多个音高值后，可以基于多个音频标签以及多个变化参数，计算每个音高值在相邻预设时间间隔内发生变化的概率，得到每个音高值的变化概率。

具体的，可以计算每个音高值在相邻时间间隔内的差值，得到多个音高变化值，然后，基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率。即，在一些实施例中，“基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率”的步骤，可以包括：

(31)计算每个音高值在相邻预设时间间隔的差值，得到多个音高变化值。

(32)基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率。

具体的，可以将相同预设时间点的变化参数、音高变化值以及音频标签均一致的数据作为第一种组合，统计第一种组合的数据个数K。将相同预设时间点的变化参数和音频标签均一致的数据作为第二种组合的数据个数L。计算每一音高变化值在第二种组合的前提下出现的概率P，有P1＝M/L。。

另外，需要说明的是，在前面实施例有提到在某个时间间隔内，可能会出现没有声音的情况，即，提取不到音高值。当提取不到音高值时，本文做法是为该时间间隔内赋上音高值。

以下介绍几种特殊的情况。当某一预设时间间隔内不存在音高时，为该时间间隔赋值，有E(B)＝-1。

此时，该时间间隔对应的音高变化值F(B)＝101。若E(B)＝-1，且前一个时间间隔的音高值E(B)＝-1时，有F(B)＝102。若E(B)＝-1，且E(B)前一个时间间隔的音高值E(B)的差值大于99，则F(B)＝99。

由于音频标签可以包括曲风标签和语种标签，这会导致每个音高值的变化概率的数量很多，从而导致总数据量很大。

因此，在一些实施例中，“基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率”的步骤，可以包括：

(41)将相同预设时间点的变化参数、音高变化值以及语种标签作为一组同源组，得到多组第一同源组；

(42)将相同预设时间点的变化参数以及语种标签作为一组同源组，得到多组第二同源组；

(43)将相同预设时间点的变化参数、音高变化值以及曲风标签作为一组同源组，得到多组第三同源组；

(44)将相同预设时间点的变化参数以及曲风标签作为一组同源组，得到多组第四同源组；

(45)根据第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率。

具体的，将曲风标签、变化参数以及音高变化值均一致的数据作为一个第一同源组，并统计第一同源组的个数N。将曲风标签以及变化参数均一致的数据做为第二同源组，并统计第二同源组的个数P。然后，计算每一个音高变化值在每一个第二同源组的前提下，出现的概率：Q(D,H)(F)＝N(D,F,H)/P(D,H)

同样的，将语种标签、变化参数以及音高变化值均一致的数据作为一个第三同源组，并统计第三同源组的个数R。将语种标签以及变化参数均一致的数据做为第四同源组，并统计第四同源组的个数S。然后，计算每一个音高变化值在每一个第四同源组的前提下，出现的概率：T(D,G)(F)＝R(D,F,G)/S(D,G)

最后，基于这两种概率，可以计算每个音高值的变化概率M(D,G,H)(F)＝(Q(D,H)(F)+T(D,G)(F))/2

即，在一些实施例中，步骤“根据第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率”，具体可以包括：

(51)根据多组第一同源组以及多组第二同源组，计算每个音高变化值在每个第二同源组出现的概率，得到多个第一概率。

(52)根据多组第三同源组以及多组第四同源组，计算每个音高变化值在每个第四同源组出现的概率，得到多个第二概率。

(53)计算第一概率与相应的第二概率之间的平均值，得到每个所述音高值的变化概率。

105、对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

具体的，可以计算每个时间间隔内音高变化概率和每个音高独立概率的和，得到多个音高可信度，然后将音高可信度最大的音高数据作为该时间点内的音高结果，即，步骤“对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果”，具体可以包括：

(61)确定当前需要处理的音高变化概率。

(62)计算当前需要处理的音高变化概率与每个音高独立概率的和，得到多个音高可信度。

(63)将音高可信度最大的音高数据作为音频文件的音高结果。

(64)返回确定当前需要计算的音高变化概率的步骤，直到所有音高变化概率均处理完毕。

本发明实施例通过获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，然后，从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，紧接着，获取音频单字的在音频文本中的音高独立概率，再然后，根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率，最后，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。相对于现有的方案而言，可以避免识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该音频文件的音高识别装置具体集成在终端中为例进行说明。

例如，请参阅图2a，当终端获取某一音频文件时，音频文件包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签，然后终端从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，紧接着终端获取音频单字的在音频文本中的音高独立概率，随后，终端根据多个音频标签，获取音频单字在音频文本中的音高变化概率，最后，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

请参阅图2b，一种音频文件的音高识别方法，具体流程可以如下：

201、终端获取音频文件。

其中，该音频文件包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签。比如，终端可以从歌曲库中获取一首歌曲，这首歌曲包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签。

202、终端从音频文本中提取预设时间点对应的文字。

比如，预设时间间隔为50毫秒，音频文本的总时长为100秒，则可以得到2000个时间点。然后，终端根据这2000个时间点，从音频文本中提取50毫秒内对应的文字，得到多个音频单字。当然，预设时间也可以为40毫秒、70毫秒以及75毫秒等等。具体根据实际情况进行设置，在此不再赘述。

203、终端获取音频单字的在音频文本中的音高独立概率。

具体的，比如，终端可以提取每个音频单字对应的音高值。然后，计算每个音高值在音频文本中的独立概率，从而得到每个音频单字在音频文本中的音高独立概率。

进一步的，终端还可以统计音频单字在音频文本中出现的次数以及音频单字对应的音高值在音频文本中出现的次数，然后，根据音频单字在音频文本中出现的次数以及音频单字对应的音高值在音频文本中出现的次数，确定每个音频单字的在音频文本中的音高独立概率，即，在一些实施例中，终端获取音频单字的在音频文本中的音高独立概率，具体可以包括：终端统计音频单字在音频文本出现的单字次数以及音频单字对应的音高值在音频文本出现的音高次数计算单字次数与音高次数之间的比值，确定每个音频单字的在音频文本中的音高独立概率。

204、终端根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率。

具体的，比如，终端可以提取每个音频单字的音高值。然后计算每个音频单字的音高值在相邻时间点发生变化的概率。

即，在一些实施例中，“终端根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率”，具体可以包括：终端获取每个音频单字在预设时间点的变化参数，得到多个变化参数，终端提取每个音频单字的音高值，得到多个音高值，终端基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率。

终端在获取到多个变化参数以及多个音高值后，可以基于多个音频标签以及多个变化参数，计算每个音高值在相邻预设时间间隔内发生变化的概率，得到每个音高值的变化概率。即，在一些实施例中，“终端基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率”，具体可以包括：终端计算每个音高值在相邻预设时间间隔的差值，得到多个音高变化值，终端基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率。

因此，在一些实施例中，“终端基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率”，具体可以包括：终端将相同预设时间点的变化参数、音高变化值以及语种标签作为一组同源组，得到多组第一同源组，终端将相同预设时间点的变化参数以及语种标签作为一组同源组，得到多组第二同源组，终端将相同预设时间点的变化参数、音高变化值以及曲风标签作为一组同源组，得到多组第三同源组，终端将相同预设时间点的变化参数以及曲风标签作为一组同源组，得到多组第四同源组，终端根据第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率。

进一步的，在一些实施例中，“终端根据第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率”，具体可以包括：终端根据多组第一同源组以及多组第二同源组，计算每个音高变化值在每个第二同源组出现的概率，得到多个第一概率，终端根据多组第三同源组以及多组第四同源组，计算每个音高变化值在每个第四同源组出现的概率，得到多个第二概率，终端计算第一概率与相应的第二概率之间的平均值，得到每个所述音高值的变化概率。

205、终端对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

具体的，终端可以计算每个时间间隔内音高变化概率和每个音高独立概率的和，得到多个音高可信度，然后终端将音高可信度最大的音高数据作为该时间点内的音高结果，即，在一些实施例中，“终端对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果”，具体可以包括：终端确定当前需要处理的音高变化概率，终端计算当前需要处理的音高变化概率与每个音高独立概率的和，得到多个音高可信度，终端将音高可信度最大的音高数据作为音频文件的音高结果，终端返回确定当前需要计算的音高变化概率的步骤，直到所有音高变化概率均处理完毕。

本发明实施例终端通过获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，然后，终端从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，紧接着，终端获取音频单字的在音频文本中的音高独立概率，再然后，终端根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率，最后，终端对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。相对于现有的方案而言，可以避免终端识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

为便于更好的实施本发明实施例提供的音频文件的音高识别方法，本发明实施例还提供一种基于上述音频文件的音高识别装置(简称识别装置)。其中名词的含义与上述音频文件的音高识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本发明实施例提供的音频文件的音高识别装置的结构示意图，其中该识别装置30可以包括第一获取模块301、提取模块302、第二获取模块303、第三获取模块304以及处理模块305，具体可以如下：

第一获取模块301，用于获取音频文件。

其中，该音频文件包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签。具体的，第一获取模块301可以从歌曲库中获取音频文件，比如，可以从歌曲库中获取一首歌曲，这首歌曲包括音频数据、音频数据对应的音频文本以及音频数据的多个音频标签。

提取模块302，用于从音频文本中提取预设时间点对应的文字。

例如，提取模块302可以根据音频文本的总时长以及预设时间间隔，可以得到多个预设时间间隔对应的时间点。然后，根据这多个预设时间间隔对应的时间点从音频文件的音频文本中提取对应的文字，从而得到音频文件中的多个音频单字。比如，预设时间间隔为50毫秒，音频文本的总时长为100秒，则可以得到2000个时间点。然后，根据这2000个时间点，从音频文本中提取50毫秒内对应的文字，得到多个音频单字。

第二获取模块303，用于获取音频单字的在音频文本中的音高独立概率。

第二获取模块303可以提取每个音频单字对应的音高值。然后，计算每个音高值在音频文本中的独立概率，从而得到每个音频单字在音频文本中的音高独立概率。

可选的，在一些实施例中，第二获取模块303具体可以用于：统计音频单字在音频文本出现的单字次数以及音频单字对应的音高值在音频文本出现的音高次数，计算单字次数与音高次数之间的比值，确定每个音频单字的在音频文本中的音高独立概率。

第三获取模块304，用于根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率。

比如，第三获取模块304可以提取每个音频单字的音高值，然后计算每个音频单字的音高值在相邻时间点发生变化的概率

可选的，在一些实施例中，第三获取模块具体可以包括：

获取子模块，用于获取每个音频单字在预设时间点的变化参数，得到多个变化参数；

提取子模块，用于提取每个音频单字的音高值，得到多个音高值；

计算子模块，用于基于多个变化参数、多个音频标签以及多个音高值，计算每个音高值在相邻预设时间间隔发生变化的概率，得到每个音高值对应的音高变化概率。

可选的，在一些实施例中，计算子模块具体可以包括：

确定单元，用于基于多个变化参数、多个音频标签以及多个音高变化值，确定每个音高值对应的音高变化概率。

可选的，在一些实施例中，音频标签包括曲风标签和语种标签，确定单元包括：

第五确定子单元，用于根据第一同源组、第二同源组、第三同源组以及第四同源组，确定每个音高值的变化概率。

可选的，在一些实施例中，第五确定子单元具体用于：根据多组第一同源组以及多组第二同源组，计算每个音高变化值在每个第二同源组出现的概率，得到多个第一概率，根据多组第三同源组以及多组第四同源组，计算每个音高变化值在每个第四同源组出现的概率，得到多个第二概率，计算第一概率与相应的第二概率之间的平均值，得到每个所述音高值的变化概率

处理模块305，用于对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

处理模块305具体可以用于：确定当前需要处理的音高变化概率，计算当前需要处理的音高变化概率与每个音高独立概率的和，得到多个音高可信度，将音高可信度最大的音高数据作为音频文件的音高结果，返回确定当前需要计算的音高变化概率的步骤，直到所有音高变化概率均处理完毕。

本发明实施例在第一获取模块301获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，提取模块302从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，紧接着第二获取模块303获取音频单字的在音频文本中的音高独立概率，第三获取模块304根据多个音频标签，获取音频单字在所述音频文本中的音高变化概率，最后处理模块305对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。相对于现有的方案而言，可以避免识别的音高存在与音频文本不对应或音高漏识别的情况发生，因此，可以提高音高识别结果的准确率。

相应的，本发明实施例还提供一种终端，如图4所示，该终端可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，Wireless Fidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。通常，RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一终端，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

终端还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

获取音频文件，音频文件包括音频数据，音频数据对应的音频文本以及音频数据的多个音频标签，从音频文本中提取预设时间点对应的文字，得到多个音频单字，该时间点为在音频文件中根据预设时间间隔对应的时间点，获取音频单字的在音频文本中的音高独立概率，根据多个音频标签，获取音频单字在音频文本中的音高变化概率，对音高独立概率以及音高变化概率进行处理，得到音频文件的音高结果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频文件的音高识别方法中的步骤。例如，该指令可以执行如下步骤：

音频文件的音高识别方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频文件的音高识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频文件的音高识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频文件的音高识别方法、装置以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频文件的音高识别方法，其特征在于，包括：

获取所述音频单字的在所述音频文本中的音高独立概率；

获取每个所述音频单字在预设时间点的变化参数，得到多个变化参数；

提取每个所述音频单字的音高值，得到多个音高值；

基于多个变化参数、多个音频标签以及多个音高值，计算每个所述音高值在相邻预设时间间隔发生变化的概率，得到每个所述音高值对应的音高变化概率；

2.根据权利要求1所述的音高识别方法，其特征在于，所述基于多个变化参数、多个音频标签以及多个音高值，计算每个所述音高值在相邻预设时间间隔发生变化的概率，得到每个所述音高值对应的音高变化概率，包括：

计算每个音高值在相邻预设时间间隔的差值，得到多个音高变化值；

基于多个变化参数、多个音频标签以及多个音高变化值，确定每个所述音高值对应的音高变化概率。

3.根据权利要求2所述的音高识别方法，其特征在于，所述音频标签包括语种标签和曲风标签，所述基于多个音频标签、多个变化参数以及多个音高变化值，确定每个所述音高值对应的音高变化概率，包括：

将相同预设时间点的变化参数、音高变化值以及语种标签作为一组同源组，得到多组第一同源组；

将相同预设时间点的变化参数以及语种标签作为一组同源组，得到多组第二同源组；

将相同预设时间点的变化参数、音高变化值以及曲风标签作为一组同源组，得到多组第三同源组；

将相同预设时间点的变化参数以及曲风标签作为一组同源组，得到多组第四同源组；

根据所述第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率。

4.根据权利要求3所述的音高识别方法，其特征在于，所述根据所述第一同源组、第二同源组、第三同源组以及第四同源组，确定每个所述音高值的变化概率，包括：

5.根据权利要求1至4任一项所述的音高识别方法，其特征在于，所述获取所述音频单字的在所述音频文本中的音高独立概率，包括：

6.根据权利要求1至4任一项所述的音高识别方法，其特征在于，所述对所述音高独立概率以及音高变化概率进行处理，得到所述音频文件的音高结果，包括：

确定当前需要处理的音高变化概率；

7.一种音频文件的音高识别装置，其特征在于，包括：

计算子模块，用于基于多个变化参数、多个音频标签以及多个音高值，计算每个所述音高值在相邻预设时间间隔发生变化的概率，得到每个所述音高值对应的音高变化概率；

8.根据权利要求7所述的音高识别装置，其特征在于，所述计算子模块包括：

9.根据权利要求8所述的音高识别装置，其特征在于，所述音频标签包括曲风标签和语种标签，所述确定单元包括：

10.根据权利要求9所述的音高识别装置，其特征在于，所述第五确定子单元具体用于：

11.根据权利要求7至10任一项所述的音高识别装置，其特征在于，所述第二获取模块具体用于：

12.根据权利要求7至10任一项所述的音高识别装置，其特征在于，所述处理模块具体用于：

确定当前需要处理的音高变化概率；

13.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的音频文件的音高识别方法中的步骤。