CN107978323A

CN107978323A - 音频识别方法、装置及存储介质

Info

Publication number: CN107978323A
Application number: CN201711249117.3A
Authority: CN
Inventors: 邓博元; 朱碧磊; 金星明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-05-01
Anticipated expiration: 2037-12-01
Also published as: CN107978323B

Abstract

本发明公开了一种音频识别方法、装置及存储介质，属于互联网技术领域。所述方法包括：获取目标人声音高值序列；将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配；如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至终端，由终端进行显示。本发明采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确。

Description

音频识别方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种音频识别方法、装置及存储介质。

背景技术

在现代生活中，当用户在咖啡馆、餐厅、演唱会等公共场所听到喜欢的音乐，并想进一步了解这些音乐的相关信息时，用户可借助具有听歌识曲功能的音频播放应用对这些音频进行识别。

现有技术在进行音频识别时，主要采用如下方法：终端获取待识别的音频片段，根据待识别的音频片段的音域特征，选取能量极大值点作为峰值特征点，并将至少两个峰值特征点组合成目标音频指纹，进而将目标音频指纹发送至服务器；当接收到目标音频指纹时，服务器将目标音频指纹与音频数据库中每个音频文件所包括的各个音频片段的音频指纹进行匹配，当该目标音频指纹与任一音频片段的音频指纹相匹配，将包括该音频片段的音频文件的音频文件信息发送至终端，由终端进行显示，其中，音频数据库中存储有每个音频文件的音频文件信息及其所包括的音频片段的音频指纹。

然而，音频片段的演绎方式及获取方式不同，音频文件的音域特征也将不同的，而音域特征直接影响到峰值特征点的提取，当待识别的音频片段与音频文件的音域特征不同时，从待识别的音频片段中所提取的峰值特征点将发生变化，进一步地根据所提取的峰值特征点生成的目标音频指纹将发生偏差，从而导致音频识别的准确性较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频识别方法、装置及存储介质。所述技术方案如下：

一方面，提供了一种音频识别方法，所述方法包括：

获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；

将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；

如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。

另一方面，提供了一种音频识别方法，所述方法包括：

获取待识别的音频片段；

从所述待识别的音频片段中，提取目标人声音高值序列；

根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息，所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配；

显示所述至少一个音频文件的音频文件信息。

另一方面，提供了一种音频识别装置，所述装置包括：

获取模块，用于获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；

匹配模块，用于将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；

发送模块，用于如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。

另一方面，提供了一种音频识别装置，所述装置包括：

获取模块，用于获取待识别的音频片段；

提取模块，用于从所述待识别的音频片段中，提取目标人声音高值序列；

音频识别模块，用于根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息，所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配；

显示模块，用于显示所述至少一个音频文件的音频文件信息。

另一方面，提供了一种音频识别设备，所述音频识别设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现一方面所述的音频识别方法。

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现另一方面所述的音频识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现一方面所述的音频识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现另一方面所述的音频识别方法。

本发明实施例提供的技术方案带来的有益效果是：

采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(A)是本发明实施例提供的音频识别方法所涉及的一种实施环境；

图1(B)是本发明实施例提供的音频识别方法所涉及的另一种实施环境；

图2是本发明实施例提供的一种音频识别方法的流程图；

图3是本发明实施例提供的音频播放应用的播放界面的示意图；

图4是本发明实施例提供的音频播放应用的音频采集界面的示意图；

图5是本发明实施例提供的一种深度神经网络的结构示意图；

图6是本发明实施例提供的一种音频识别装置的结构示意图；

图7是本发明实施例提供的一种音频识别装置的结构示意图；

图8示出了本发明一个示例性实施例提供的用于音频识别的终端的结构框图；

图9是根据一示例性实施例示出的一种用于音频识别的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1(A)，其示出了本发明实施例提供的音频识别方法所涉及的一种实施环境，该实施环境包括：终端101。其中，终端101可以为智能手机、平板电脑、笔记本电脑等，本发明实施例不对终端101的产品类型做具体的限定。为了满足用户的听觉需求，终端101安装有音频播放应用和音频识别应用等各种音频类应用，该音频播放应用可调用终端101内置的麦克风采集音频片段，并基于所加载的人声音高值序列提取模型，从采集到的音频片段中，提取目标人声音高值序列；该音频识别应用可对音频播放应用所提取的目标人声音高值序列进行匹配计算，从而识别出与采集到的音频片段相匹配的音频文件。

参见图1(B)，其示出了本发明实施例提供的音频识别方法所涉及的另一种实施环境，该实施环境包括：终端102和音频识别设备103。其中，终端102可以为智能手机、平板电脑、笔记本电脑等，本发明实施例不对终端102的产品类型作具体的限定，该终端102内安装有音频播放应用，可采集音频片段，并从采集到的音频判断中提取目标人声音高值序列，进而将所提取的目标人声音高值序列发送至音频播放设备。该音频识别设备103可以为安装有音频识别应用的终端，也可以为音频播放应用的后台服务器(图1(B)中仅以音频播放设备为服务器进行示例性示出)，该音频识别设备103通过对终端102所发送的目标人声音高值序列进行匹配计算，为终端102提供音频识别服务。

本发明实施例提供了一种音频识别方法，参见图2，以终端和服务器执行本发明实施例为例，本发明实施例提供的方法流程包括：

201、终端获取待识别的音频片段。

在本发明实施例中，音频播放应用的播放界面上显示有音频识别入口，在音频播放应用的运行过程中，当检测到用户对音频识别入口的触发操作(例如，点击操作、滑动操作等)时，由播放界面跳转至音频采集界面，在音频采集界面的显示过程中，音频播放应用可调用终端内置的麦克风采集音频片段。

其中，待识别的音频片段可以为用户哼唱的音频片段，可以为其他终端(例如，用户家庭中的电视、咖啡馆内的音箱、收音机等)播放的原版或者翻唱的音频片段，还可以为歌手现场演唱的音频片段等。为了提高识别结果的准确性，针对音频片段的来源，当检测到音频识别入口被触发，终端可在播放界面上显示“原曲”、“哼唱”、“翻唱”及“现场版”等不同的采集选项，用户根据实际采集场景，选择不同的采集选项，终端在检测到相应的采集选项被选中，记录被选中的采集方式，并将所记录的采集方式与处理后的待处理的音频片段一同上传至服务器。当然，每种采集选项还可对应一个采集方式标识，例如，“原曲”采集选项对应采集方式标识“A”、“哼唱”采集选项对采集方式标识“B”、“翻唱”采集选项对应采集方式标识“C”、“现场版”采集选项对应采集方式标识“D”，这样，终端无需上传采集方式，上传每种采集方式对应的采集方式标识即可。

对于待识别的音频片段，如果待识别的音频片段的长度过短，可能无法准确识别出与其相匹配的音频文件，如果待识别的音频片段的长度过长，虽然可准确识别出与其相匹配的音频文件，但识别过程所消耗的资源却较大，兼顾识别准确性和资源消耗量，本发明实施例可预设一个采集时长，进而基于该预设的采集时长采集待识别的音频片段。当检测到对待识别的音频片段的采集时长达到该预设的采集时长时，停止采集；当检测到对待识别的音频片段的采集时长未达到预设的采集时长时，继续采集。其中，该预设的采集时长可根据每个音频片段的长度范围及终端的处理能力确定，该预设的采集时长可以为15秒、16秒等等。为了直观地向用户展示对待识别的音频片段的采集过程，终端可在音频采集界面上显示音频采集的倒计时过程，例如，显示剩余采集时长及采集进度条的采集进度等等。

图3为音频播放应用的播放界面，该播放界面上显示有音频识别入口“听歌识曲”选项，还显示有其他音频选项或内容，包括全部歌曲选项、下载歌曲选项、最近播放歌曲选项、用户喜欢的歌曲选项、下载MV选项、当前播放的歌曲名称及播放进度等。当检测到“听歌识曲”选项被选中，由播放界面跳转到图4所示的音频采集界面，即“听歌识曲”界面，在“听歌识曲”界面中，终端调用内置的麦克风采集音频片段，并在采集的过程中进行倒计时，当倒计时结束后，停止采集音频片段。

202、终端从待识别的音频片段中，提取目标人声音高值序列。

终端从待识别的音频片段中，提取目标人声音高值序列时，可采用如下步骤2021～2023：

2021、终端对待识别的音频片段进行预处理。

其中，预处理包括去噪声、去混响、增强等处理。通过对待识别的音频片段进行预处理，可去除待识别的音频片段中的干扰信号，增强用于识别的音频信号的强度，从而提高识别结果的准确性。

2022、终端对预处理后的音频片段进行常数Q变换。

其中，常数Q变换为一种重要的时频分析工具，主要用于音频信号的分析。待识别音频片段经过常数Q变换可从空域转为时域，从而便于后续对该待识别的音频片段进行处理。

2023、终端将常数Q变换后的音频片段输入到已训练的人声音高值序列提取模型中，得到目标人声音高值序列。

其中，已训练的人声音高值序列提取模型可根据建模音频文件及人工制作的MIDI(Musical Instrument Digital Interface，乐器数字接口)文件训练得到，MIDI文件包括音频文件的人声音高值序列及音频文件所包括的音频片段(对于歌曲而言，音频片段为每句歌曲)的起始播放时间。已训练的人声音高值序列提取模型的训练过程如下：将多个建模音频文件输入到DNN(Deep Neural Network，深度神经网络)中，根据多个建模音频文件对应的MIDI文件，对DNN的初始模型参数进行迭代优化，得到已训练的模型参数，进而将已训练的模型参数对应的DNN模型作为已训练的人声音高值序列提取模型。

其中，DNN为一种神经网络。参见图5，DNN模型包括一个输入层、三个隐层及一个输出层，共计五层。输入层输入的是经过常数Q变换后的音频片段或音频文件；隐层采用修正线性单元(ReLU)作为激活函数；输出层采用softmax函数获取各音高值的概率分布。

基于所训练的人声音高值序列提取模型，终端将常数Q变换后的音频片段输入到已训练的人声音高值序列提取模型中，可提取出目标人声音高值序列。

203、终端将目标人声音高值序列发送至服务器。

当从待识别的人声音高值序列中提取出目标人声音高值序列后，终端基于音频播放应用，采用网络将目标人声音高值序列发送至服务器。如果终端获取到对待识别的音频片段的采集方式，则将该采集方式对应的采集方式标识一同发送至服务器。

204、当接收到目标人声音高值序列，服务器将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配。

当接收到目标人声音高值序列时，服务器根据音频数据库，对该目标人声音高值序列进行识别。其中，音频数据库中存储有多个音频文件的音频文件信息，例如歌曲名、歌手、专辑名、专辑封面等，以及每个音频文件所包括的音频片段的起始播放时间及结束播放时间，还存储有每个音频文件的实际人声音高值序列等。为便于对音频数据库中的海量音频文件进行查询及管理，服务器还将为每个音频文件设置一个音频ID(Identity，身份标识)，该音频ID用于唯一标识音频文件，可根据音频文件的文件名及存储时间进行确定。

该音频数据库的构建过程参见步骤2041～2044：

2041、服务器获取多个音频文件。

服务器通过网络从其他服务器上拉取音频文件，并将所拉取的音频文件作为多个音频文件。

2042、服务器将每个音频文件输入到已训练的人声音高值序列提取模型中，得到每个音频文件的人声音高值序列。

由于已训练的人声音高值序列提取模型的输入为经过常数Q变换的音频片段，因而服务器在将每个音频文件输入到已训练的人声音高值提取模型中之前，还将对每个音频文件进行处理。该处理的过程为：

第一步，服务器将对每个音频文件进行包括去噪、去混响及增强等预处理。

第二步，服务器将预处理后的每个音频文件进行常数Q变换。

第三步，服务器将常数Q变换后的每个音频文件输入到已训练的人声音高值序列提取模型中，得到每个音频文件的人声音高值序列。

2043、服务器对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列。

服务器对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列，可采用如下步骤20431～20435：

20431、对于任一音频文件，服务器获取音频文件对应的歌词文件。

在本发明实施例中，服务器可预先存储每个音频文件和歌词文件之间的对应关系，基于所存储的对应关系，服务器能够获取到音频文件对应的歌词文件。服务器还可根据音频文件的歌曲名及歌手名等音频文件信息，通过网络从其他服务器上拉取音频文件对应的歌词文件。其中，歌词文件包括歌词中的每个字及每个字的播放时间区间等，每个字的播放时间区间为起始播放时间和结束播放时间之间的时间区域。

20432、服务器根据歌词文件中每个字的播放时间区间和音频文件的人声音高值序列中人声音高值变化时间，从人声音高值序列中，确定多个音符。

其中，音符是指用于记录长短音的符号，每个音符具有一定的时长，该时长称为音符区间。一般来说，音频文件的人声音高值序列中人声音高值变化时间，可用来划分音符的起止时间。服务器根据音频文件的人声音高值序列中人声音高值变化时间，能够从人声音高值序列中，找出多个待确定音符，进而判断每个待确定音符的音符区间是否在歌词文件中任一个字的播放时间区间内，如果任一待确定音符的音符区间在歌词文件中任一个字的播放时间区间内，则确定该待确定音符为人声音高值序列中的一个音符，如果任一待确定音符的音符区间不在歌词文件中每个字的播放时间区间内，则将该待确定音符对应的片段从人声音高值序列中删除。

20433、服务器计算每个音符对应的人声音高值。

服务器计算每个音符的音符区间内所有人声音高值的平均值，并将该平均值作为每个音符对应的人声音高值。

20434、服务器对多个音符进行过滤。

对于任一音符，如果该音符为指定音符，则服务器将音符对应的片段从人声音高值序列中删除，如果该音符不是指定音符，则服务器保留该音符在人声音高值序列中对应的片段。其中，指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。预设时长可根据音符本身的属性确定。

20435、服务器将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值，作为实际人声音高值序列。

2044、服务器根据多个音频文件的实际人声音高值序列，构建音频数据库。

为了便于对每个音频文件的实际人声音高值序列进行管理，服务器可按照MIDI文件格式，将每个音频文件的实际人声音高值序列转化为MIDI文件，并记录每个音频片段的起始播放时间，进而根据多个音频文件的MIDI文件，构建音频数据库。

需要说明的是，本步骤所建立的音频数据库并不是固定不变的，当音频文件更新时，该音频数据库也将随着音频文件的更新而更新。

考虑到不同用户哼唱同一首歌曲时语速、语调是不同的，且不同歌手演绎同一首歌曲的方式也是不同的，因此，为了提高识别结果的准确性，服务器在将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配时，可采用如下方式：

第一步，服务器先对每个音频文件的实际人声音高值序列进行整体缩放，得到每个音频文件对应的多个参考人声音高值序列。

由于人声音高值序列具有时间和音高值两个特性，因而在对人声音高值序列进行整体缩放时，包括但不限于如下几种方式：

第一种方式、服务器可在时间轴上按照不同的缩放系数对播放时间进行缩放。例如，服务器可以音频文件的起始播放时间为起点，每次增加预设倍数(例如，0.1)，进而按照增加后的倍数对音频文件的人声音高值序列的播放时间进行放大，从而在采集到的音频片段的播放速度慢于音频数据库中音频文件的播放速度时，也能得到更准确的匹配结果；服务器还可以音频文件的起始播放时间为起点，每次缩小预设倍数(例如，0.1)，进而按照缩小后的倍数对音频文件的人声音高值序列的播放时间进行缩小，从而在采集到的音频片段的播放速度快于音频数据库中音频文件的播放速度时，也能得到更准确的匹配结果。

第二种方式、服务器在音高轴上按照不同的缩放系数对人声音高值进行整体缩放。例如，服务器可以音频文件的人声音高值序列中原始人声音高值为基准，每次增加预设倍数(例如，0.1)，进而按照增加后的倍数对音频文件的人声音高值序列中原始人声音高值进行放大，从而在采集到的音频片段的人声音高值高于音频数据中音频文件的人声音高值时，也能得到更准确的匹配结果；服务器可以音频文件的人声音高值序列中原始人声音高值为基准，每次缩小预设倍数(例如，0.1)，进而按照缩小后的倍数对音频文件的人声音高值序列中原始人声音高值进行缩小，从而在采集到的音频片段的人声音高值低于音频数据中音频文件的人声音高值时，也能得到更准确的匹配结果。

第三种方式、服务器还可在时间轴上按照不同的缩放系数对播放时间进行缩放同时在音高轴上按照不同的缩放系数进行整体缩放。

第二步，服务器根据每个音频文件所包括的多个音频片段的起始播放时间，按照与每个音频文件相同的缩放比例，将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列。

由于每个音频文件对应的每个参考人声音高值序列的播放时间可能进行了整体缩放，如果服务器按照每个音频文件所包括的多个音频片段的起始播放时间，对每个音频文件对应的每个参考人声音高值序列进行切分，可能使得切分后的参考人声音高值子序列与音频片段并不对应，也即是每个参考人声音高值子序列并不是一句完整的歌曲。因此，为了避免该种情况发生，服务器可根据每个音频文件所包括的多个音频片段的起始播放时间，按照与每个音频文件在时间轴上相同的缩放比例，将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列。

第三步，服务器将目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配。

为了缩短匹配时长，减小资源浪费，服务器在将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配时，可先去除目标人声音高值和每个参考人声音高值子序列中人声音高值为零的片段，进而根据处理后的目标人声音高值和每个参考人声音高值子序列进行匹配。

服务器在将目标人声音高值和每个音频文件对应的参考人声音高值子序列进行匹配时，可采用预设算法计算目标人声音高值与每个参考人声音高值子序列之间的距离，进而根据距离值判定与目标人声音高值序列是否匹配。其中，预设算法包括DTW(DynamicTime Warping，动态时间规整算法)算法等。具体地，如果目标人声音高值与任一参考人声音高值子序列之间的距离小于预设距离，则可确定目标人声音高值序列与该参考人声音高值子序列所属的音频文件的实际人声音高值序列相匹配。其中，预设距离可根据识别精确确定。当然，除了根据预设距离判定与目标人声音高值序列是否匹配外，服务器还可将目标人声音高值与每个参考人声音高值子序列之间的距离进行排序，选取与目标人声音高值序列距离较小的前预设数量个参考人声音高值子序列，进而确定目标人声音高值序列与前预设数量个参考人声音高值子序列所属的音频文件的实际人声音高值序列相匹配。其中，预设数量根据终端屏幕大小确定，该预设数量可以为5个、6个等等。

205、如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，服务器将音频文件的音频文件信息发送至终端。

当目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配时，则服务器可将该音频文件作为与该目标人声音高值序列相匹配的音频文件，进而将音频文件的音频文件信息发送至终端。

206、终端显示至少一个音频文件的音频文件信息。

当接收到服务器发送的至少一个音频文件的文件信息时，终端可按照匹配度由高到低的顺序，在音频采集界面上显示至少一个音频文件信息。

需要说明的是，上述以通过终端与服务器之间的交互进行音频识别为例，实际上，也可通过终端与终端之间的交互进行音频识别，还可无需与其他设备进行交互，而仅由终端进行音频识别。当通过终端与终端之间的交互进行音频识别时，用于人声音高值序列提取的第一终端从采集到的音频片段中提取出目标人声音高值序列后，将提取到的目标人声音高值序列发送至用于人声音高值序列匹配的第二终端，由第二终端根据所存储的音频数据库对目标人声音高值序列进行匹配，并返回匹配到的至少一个音频文件的音频文件信息。当仅由终端进行音频识别时，终端从采集到的音频片段中提取出目标人声音高值序列后，可根据本地所存储的音频数据库对目标人声音高值序列进行匹配，以获取匹配到的至少一个音频文件的音频文件信息，还可将提取的目标人声音高值序列发送至服务器，由服务器返回匹配到的至少一个音频文件的音频文件信息。

本发明实施例提供的方法，采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确

参见图6，本发明实施例提供了一种音频识别装置的结构示意图，该装置包括：

获取模块601，用于获取目标人声音高值序列，该目标人声音高值序列从待识别的音频片段中提取；

匹配模块602，用于将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；

发送模块603，用于如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。

在一种实施例方式中，匹配模块，用于对每个音频文件的实际人声音高值序列进行整体缩放，得到每个音频文件对应的多个参考人声音高值序列；根据每个音频文件所包括的多个音频片段的起始播放时间，按照与每个音频文件相同的缩放比例，将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列；将目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配；

发送模块603，用于如果目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配，将音频文件的音频文件信息发送至目标终端。

在一种实施例方式中，该服务器还包括：

获取模块，用于获取多个音频文件；

文件输入模块，用于将每个音频文件输入到已训练的人声音高值序列提取模型中，得到每个音频文件的人声音高值序列；

处理模块，用于对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列；

数据库构建模块，用于根据多个音频文件的实际人声音高值序列，构建音频数据库。

在一种实施例方式中，该服务器还包括：

预处理模块，用于对每个音频文件进行预处理；

变换模块，用于将预处理后的每个音频文件进行常数Q变换；

文件输入模块，用于将常数Q变换后的每个音频文件输入到已训练的人声音高值序列提取模型中。

在一种实施方式中，处理模块，用于对于任一音频文件，获取音频文件对应的歌词文件；根据歌词文件中每个字的播放时间区间和音频文件的人声音高值序列中人声音高值变化时间，从人声音高值序列中，确定多个音符；计算每个音符对应的人声音高值；对多个音符进行过滤；将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值，作为实际人声音高值序列。

在一种实施方式中，处理模块，还用于如果任一音符为指定音符，则将音符从人声音高值序列中删除，指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。

综上所述，本发明实施例提供的服务器，采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确

参见图7，本发明实施例提供了一种音频识别装置，该装置包括：

获取模块701，用于获取待识别的音频片段；

提取模块702，用于从待识别的音频片段中，提取目标人声音高值序列；

音频识别模块703，用于根据目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息，该至少一个音频文件的实际人声音高值序列与目标人声音高值序列相匹配；

显示模块704，用于显示至少一个音频文件的音频文件信息。

在一种实施方式中，提取模块702，用于对待识别的音频片段进行预处理；对预处理后的音频片段进行常数Q变换；将常数Q变换后的音频片段输入到已训练的人声音高值序列提取模型中，得到目标人声音高值序列。

在一种实施方式中，音频识别模块，用于将目标人声音高值序列发送至服务器，由服务器将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，并返回匹配到的至少一个音频文件的音频文件信息，该音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；将接收到的至少一个音频文件的音频文件信息作为识别出的至少一个音频文件的音频文件信息。

在一种实施方式中，显示模块704，用于按照匹配度由高到低的顺序，显示至少一个音频文件的音频文件信息。

本发明实施例提供的终端，通过提取待识别的音频片段的目标人声音高值序列，进而根据目标人声音高值序列识别出相匹配的至少一个音频文件的音频信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确。

图8示出了本发明一个示例性实施例提供的用于音频识别的终端800的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的音频识别方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是根据一示例性实施例示出的一种用于音频识别的服务器。参照图9，服务器900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述音频识别方法中服务器所执行的功能。

服务器900还可以包括一个电源组件926被配置为执行服务器900的电源管理，一个有线或无线网络接口950被配置为将服务器900连接到网络，和一个输入输出(I/O)接口958。服务器1000可以操作基于存储在存储器932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

需要说明的是：上述实施例提供的用于音频识别服务器、终端在进行音频识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将用于音频识别的服务器、终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别的装置与音频识别的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，包括：

对每个音频文件的实际人声音高值序列进行整体缩放，得到每个音频文件对应的多个参考人声音高值序列；

根据每个音频文件所包括的多个音频片段的起始播放时间，按照与每个音频文件相同的缩放比例，将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列；

将所述目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配；

所述如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将所述音频文件的音频文件信息发送至所述目标终端，包括：

如果所述目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配，将所述音频文件的音频文件信息发送至所述目标终端。

3.根据权利要求1或2所述的方法，其特征在于，所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配之前，还包括：

获取多个音频文件；

将每个音频文件输入到已训练的人声音高值序列提取模型中，得到每个音频文件的人声音高值序列；

对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列；

根据多个音频文件的实际人声音高值序列，构建所述音频数据库。

4.根据权利要求3所述的方法，其特征在于，所述将每个音频文件输入到已训练的人声音高值序列提取模型中之前，还包括：

对每个音频文件进行预处理；

将预处理后的每个音频文件进行常数Q变换；

所述将每个音频文件输入到已训练的人声音高值序列提取模型中，包括：

将常数Q变换后的每个音频文件输入到所述已训练的人声音高值序列提取模型中。

5.根据权利要求3所述的方法，其特征在于，所述对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列，包括：

对于任一音频文件，获取所述音频文件对应的歌词文件；

根据所述歌词文件中每个字的播放时间区间和所述音频文件的人声音高值序列中人声音高值变化时间，从所述人声音高值序列中，确定多个音符；

计算每个音符对应的人声音高值；

对所述多个音符进行过滤；

将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值，作为实际人声音高值序列。

6.根据权利要求5所述的方法，其特征在于，所述对所述多个音符进行过滤，包括：

如果任一音符为指定音符，则将所述音符从所述人声音高值序列中删除，所述指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。

7.一种音频识别方法，其特征在于，所述方法包括：

获取待识别的音频片段；

从所述待识别的音频片段中，提取目标人声音高值序列；

显示所述至少一个音频文件的音频文件信息。

8.根据权利要求7所述的方法，其特征在于，所述从所述待识别的音频片段中，提取目标人声音高值序列，包括：

对所述待识别的音频片段进行预处理；

对预处理后的音频片段进行常数Q变换；

将常数Q变换后的音频片段输入到已训练的人声音高值序列提取模型中，得到所述目标人声音高值序列。

9.根据权利要求7所述的方法，其特征在于，所述根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息，包括：

将所述目标人声音高值序列发送至服务器，由所述服务器将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，并返回匹配到的至少一个音频文件的音频文件信息，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；

将接收到的至少一个音频文件的音频文件信息作为识别出的至少一个音频文件的音频文件信息。

10.根据权利要求7所述的方法，其特征在于，所述显示所述至少一个音频文件的音频文件信息，包括：

按照匹配度由高到低的顺序，显示所述至少一个音频文件的音频文件信息。

11.一种音频识别装置，其特征在于，所述装置包括：

12.一种音频识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的音频片段；

13.一种音频识别设备，其特征在于，所述音频识别设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6中任一项所述的音频识别方法。

14.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求7至10中任一项所述的音频识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6中任一项所述的音频识别方法，或者实现权利要求7至10中任一项所述的音频识别方法。