CN117672166A

CN117672166A - 一种音频识别方法、电子设备及存储介质

Info

Publication number: CN117672166A
Application number: CN202311657565.2A
Authority: CN
Inventors: 王武城; 龚韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-08

Abstract

本申请公开一种音频识别方法、电子设备及存储介质，包括：对待识别音频进行文本识别，得到待识别文本；计算预设数据库中的文本与待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将目标文本集中多个文本对应的多个音频确定为目标音频集；将待识别音频和目标音频集进行旋律检测，得到待识别音频与目标音频集中各音频之间的旋律相似度；分别将对应同一目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频。本申请结合文本相似度识别和旋律相似度识别，有效避免因噪声引起的误召回，提高音频识别召回的精确性。

Description

一种音频识别方法、电子设备及存储介质

技术领域

本申请涉及音频数据处理领域，具体涉及一种音频识别方法、电子设备及存储介质。

背景技术

歌声识别有很广泛的应用场景，例如歌曲信息检索，无需完全准确地识别歌词，只需根据匹配度就可以确定某段音频中识别出来的歌词属于哪一首歌曲。特别是在听歌识曲中，尽管歌声识别无法完全准确地识别用户录音的歌词内容，但将大致的识别结果和检索库内的歌词进行匹配，也可以识别到歌曲。

歌声识别技术和语音识别技术相似，不同之处在于歌词没有固定的声调、歌词文本会比日常说话文本更加复杂、歌声会因演唱风格的多样性而出现不同程度的拖音、字内变调等且歌声往往混合在伴奏中。

现有的歌声识别技术是直接识别待匹配音频的歌词以进行匹配，在待匹配音频对应的歌词文本过短时，容易导致误召回。如果长片段的音频可以识别出更多歌词信息，错误匹配的概率则更低，而音频清晰可以保证识别出来的结果更加稳定可靠。但在实际应用中，例如听歌识曲场景，用户等待的时间往往在15秒以内，且录音环境可能包含复杂的噪声。此种场景下，仅依靠歌词识别进行检索并不可靠，容易因为噪声、无关人声等导致检索系统误召回。

因此，现有单一的歌声识别技术存在识别结果易受噪音影响，识别准确率低的技术问题。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

为了解决上述技术问题，本申请提供了一种音频识别方法、电子设备及存储介质，具体方案如下：

第一方面，本申请实施例提供了一种音频识别方法，其特征在于，所述音频识别方法包括：

对待识别音频进行文本识别，得到待识别文本；

计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与所述待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将所述目标文本集中多个文本对应的多个音频确定为目标音频集；

将所述待识别音频和所述目标音频集进行旋律检测，得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度；

分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频，其中，所述融合相似度处理包括加权和取最大值。

根据本申请公开的一种具体实施方式，基于待识别音频的频谱特征进行文本识别，得到待识别文本的步骤，包括：

将所述待识别音频的频谱特征作为预设文本识别模型的输入，得到状态序列；

将所述状态序列转换成音素序列，并将所述音素序列转换成待识别文本。

根据本申请公开的一种具体实施方式，构建所述预设数据库的步骤，包括：

获取预设数量的歌曲音频以及各所述歌曲音频对应的歌曲文本；

若所述当前歌词语句对应的音频时长大于预设时间，则为单句结构；

若所述当前歌词语句对应的音频时长小于预设时间，则为多句结构，并将下一歌词语句合并到所述多句结构中直至所述多句结构对应的音频时间大于预设时间。

根据本申请公开的一种具体实施方式，所述音频识别方法包括：

将所述单句结构确定为所述预设数据库中的文本；

将所述多句结构转换为复合文本，将所述复合文本确定为所述预设数据库中的文本。

对各所述歌词文本进行语句切分，划分成多个歌词语句；

提取对应的音频时长大于等于预设时间的歌词语句作为所述预设数据库中的文本。

根据本申请公开的一种具体实施方式，构建所述预设数据库的步骤，还包括：

组合未提取的相邻歌词语句；

将对应的音频时长大于等于预设时间的组合歌词语句作为所述预设数据库中的文本。

根据所述歌词文本所包含的时间标签，确定各歌词语句对应的音频时长。

根据本申请公开的一种具体实施方式，计算预设数据库中的各文本与所述待识别文本之间的文本相似度的步骤，包括：

计算预设数据库中各文本与所述待识别文本之间的编辑距离；

将所述编辑距离转换为所述文本相似度。

根据本申请公开的一种具体实施方式，将满足文本相似度阈值条件的数据库中的文本确定为目标文本集的步骤，包括：

若任一所述文本相似度大于参考阈值，将所述文本相似度对应的数据库中的文本确定为目标文本集中的文本；

和/或，将全部所述文本相似度由大到小以依次排列为参考序列，选取排列在前的参考数量个文本相似度对应的数据库中的文本为目标文本集。

根据本申请公开的一种具体实施方式，将所述待识别音频和所述目标音频集进行旋律检测，得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度的步骤，包括：

分别基于所述待识别音频的频谱特征和所述目标音频的频谱特征进行旋律检测，得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值；

计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度。

根据本申请公开的一种具体实施方式，分别基于所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征进行旋律检测，得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值的步骤，包括：

将所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征作为预设旋律检测模型的输入，得到各帧频谱特征属于拍点的参考概率，其中，所述预设旋律检测模型包括循环神经网络模型；

基于所述参考概率及动态贝叶斯网络得到所述待识别音频对应的第一拍点数以及各所述目标音频对应的第二拍点数；

将所述第一拍点数确定为第一旋律属性值以及将所述第二拍点数确定为第二旋律属性值。

根据本申请公开的一种具体实施方式，所述第一旋律属性值和所述第二旋律属性值均包括拍点数，计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度的步骤，包括：

判断预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值是否小于或等于目标阈值，其中，所述预设倍数为正数；

若预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值小于或等于目标阈值，计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度；

若预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值大于目标阈值，将所述旋律相似度置零。

根据本申请公开的一种具体实施方式，所述预设数据库包括多首歌曲、各歌曲对应多个音频以及各所述音频对应的文本，召回大于融合相似度阈值的目标相似度对应的目标音频的步骤，包括：

将大于融合相似度阈值的目标相似度对应的目标音频所属歌曲确定为目标歌曲；

召回所述目标歌曲。

第二方面，本申请实施例提供了一种音频识别装置，包括：

初始识别单元，用于对待识别音频的进行文本识别，得到待识别文本；

文本检测单元，用于计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与所述待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将所述目标文本集中多个文本对应的多个音频确定为目标音频集；

旋律检测单元，用于将所述待识别音频和所述目标音频集进行旋律检测，得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度；

音频召回单元，用于分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频，其中，所述融合相似度处理包括加权和取最大值。

第三方面，本申请实施例提供了一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时实现第一方面中任一项实施例所述的音频识别方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，其中，所述程序被处理器运行时实现第一方面中任一项实施例所述的音频识别方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请提供的音频识别方法，通过对识别音频进行文本识别，得到待识别文本；计算包括多个音频以及各所述音频对应的文本的预设数据库中各文本与待识别文本之间的文本相似度，将所述数据库中的满足文本相似度阈值条件的多个文本确定为目标文本集，以及将目标文本集对应的多个音频确定为目标音频；将待识别音频和目标音频集进行旋律检测，得到待识别音频与目标音频集之间的旋律相似度；分别将对应同一目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于于融合相似度阈值的目标相似度对应的目标音频。本申请结合文本相似度识别和旋律相似度识别，有效避免因噪声引起的误召回，提高音频识别召回的精确性。

本申请实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种音频识别方法的流程示意图之一；

图2为本申请实施例提供的一种音频识别方法的流程示意图之二；

图3为本申请实施例提供的一种音频识别装置的模块示意图；

图4为能实施根据本申请实施例的方法的电子设备的示例性结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。

参见图1和图2，图1为本申请实施例提供的一种音频识别方法的流程示意图之一，图2为本申请实施例提供的一种音频识别方法的流程示意图之二。如图1所示，所述音频识别方法主要包括：

步骤S110，对待识别音频进行文本识别，得到待识别文本；

步骤S120，计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将目标文本集中多个文本对应的多个音频确定为目标音频集；

步骤S130，将待识别音频和目标音频集进行旋律检测，得到待识别音频与目标音频集中各音频之间的旋律相似度；

步骤S140，分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频，其中，预融合相似度处理包括加权和取最大值。

本申请通过结合两个相似度值--文本相似度及旋律相似度，将旋律相关信息引入检索识别逻辑之中。在对包含嘈杂人声、电视声等与歌曲无关的噪音的音频进行识别的时，可以减少误召回的概率。下面分别对各个步骤做详细解释说明。

对于步骤S110，在实施该步骤之前，即对待识别音频进行文本识别，得到待识别文本的步骤之前，所述音频识别方法包括：

通过第一预设类型的窗口函数分割所述待识别音频对应的时域信号，其中，所述第一预设类型的窗口函数包括汉宁窗；

将分割后的时域信号进行傅里叶变换，得到幅度值特征；

基于分割后的时域信号进行一阶差分，得到差分特征；

将所述幅度值特征以及所述差分特征拼接为所述频谱特征。

具体实施时，可以从待识别音频中提取频谱特征用于后续的文本识别以及旋律检测，处理流程如下：

将待识别音频对应的时域信号用第一预设类型的窗口函数进行有帧叠的分割，根据实际使用需求、具体应用场景或者历史经验值等，合理地设置分割的片数，例如每秒分割成100片，这里不做具体限制。第一预设类型的窗口函数可以是汉宁窗。

将分割后的时域信号进行短时傅立叶变换，并取幅度值特征。优选地，做傅立叶变换时，窗口长度可以为1024个采样点，限制频段区间可以设置为30-17000Hz，并将每个八度划分成3个频段。需要说明的是，每个八度对应频率的差异，并非一个固定的赫兹数，而是一个固定的频率比率，该比率为2：1。举例而言，钢琴中央A音高对应之频率为440赫兹，其高八度A音对应的频率为880赫兹；其低八度之A音对应之频率则为220赫兹。此外，基于分割后的时域信号进行一阶差分，得到差分特征，和频谱幅度值特征共同拼接作为频谱特征。

具体实施时，还可以用其他频谱特征提取方法，如直接提取梅尔频率倒谱系数特征替换上述频谱特征提取方法，这里不做一一赘述。

在本发明实施例中，所述对待识别音频进行文本识别，得到待识别文本步骤可包括：

将所述待识别音频的频谱特征作为预设文本识别模型的输入，得到状态序列，将所述状态序列转换成音素序列，并将所述音素序列转换成待识别文本。

在本发明一个具体实施例中，可将所述待识别音频的频谱特征作为预设文本识别模型的输入，得到各帧所述频谱特征在预设文本识别模型对应的状态空间中的目标概率，其中，所述预设文本识别模型包括隐马尔可夫神经网络模型；随后基于所述目标概率构建预设文本识别模型对应的转移概率图以将所述转移概率图进行第二预设类型的解码，以得到状态序列，其中所述第二预设类型的解码包括维特比解码。

具体实施时，可以将待识别音频的频谱特征输入预设文本识别模型中，该预设文本识别模型包括但不限于隐马尔可夫神经网络模型(Deep Neural Network HiddenMarkov Model，简称DNN-HMM)。预设文本识别模型可以输出每一帧频谱特征在HMM状态空间中的目标概率，结合语言模型构造HMM转移概率图并进行第二预设类型的解码，例如维特比解码，可以得到识别出的状态序列。将状态序列转换成音素序列，再将音素序列转换成文字，可以得到待识别音频对应的待识别文本，待识别文本理解为待识别音频对应的文字或者歌词等。

在本发明实施例中，例如步骤S120中，所述预设数据库是预先设置的曲库，包括多个基础音频以及各所述基础音频对应的基础文本，可通过多种方案构建所述预设数据库的步骤，例如，作为可选方案一，可包括如下步骤：

获取预设数量的歌曲音频以及各所述歌曲音频对应的基础文本；

对各所述歌词文本进行语句切分，划分成多个歌词语句；

在本发明实施例中，在划分出多个歌词语句后，还可对歌词语句进行进一步的结构判别并处理，以便于得到更加符合实际场景的歌词语句，例如包括下述步骤：

在本发明一些实施例中，对歌词文本进行语句切分以划分成多个歌词语句时，可选地，所述歌词文本虽然被切分，但切分出的歌词语句仍然具有对应于原歌词文本的顺序，相应的，例如在上述结构判别时，在将下一歌词语句合并到多句结构的步骤中，就是由对应于原歌词文本的顺序来确认所述多句结构的下一歌词语句。

在本发明一些实施例中，在所述按照歌词语句顺序判别当前歌词语句的结构的步骤中，将不再对被合并入所述多句结构中的歌词语句进行判别，被合并的歌词语句将被视为所述多句结构的一部分。在本发明一些实施例中，例如步骤S120中，所述构建所述预设数据库的步骤，还包括：

将所述单句结构确定为所述预设数据库中的文本；

将所述多句结构转换为复合文本，并将所述复合文本确定为所述预设数据库中的文本。

在本发明一些实施例中，在实际应用中进行音频识别时，若待识别音频片段足够长，且音频清晰的时，往往可以取得理想的效果。因为长片段的音频可以识别出更多歌词信息，即文本信息，其错误匹配的概率更低。根据数据统计以及历史经验值，在实际应用中，用户输入的听歌识曲的待识别片段，即所述待识别音频时长在15秒左右时，识别效果较佳。

因此，在设置预设数据库时可以将歌词文本，即所述基础文本进行切分，以使最终存储的参考文本对应的参考音频的时长也保持在15秒左右。当然，上述时长可以根据具体应用场景和实际使用需求灵活调整，这里不做进一步限定。切分的方法包括但不限于切片、按句切分等，在此不做限制。

在本发明一个具体实施例中，例如上述步骤S120中，作为可选方案一，在对划分后的多个歌词语句顺序判别当前歌词语句的结构时：可设置预设时间为15秒，划分后的语句按顺序为：“语句A、语句B、语句C、语句D……”，而所述语句对应的音频时长分别为“16秒、12秒、M秒、N秒……”；

首先，按顺序对语句A进行判断，语句A对应的音频时长(16秒)大于预设时间(15秒)，则所述语句A为单句结构；

随后，按顺序对语句B进行判断，语句B对应的音频时长(12秒)小于预设时间(15秒)，则语句B为多句结构，而所述多句结构为语句B加下一语句直至所述多句结构对应的音频时间大于预设时间(15秒)，例如若语句B加上语句C的对应音频时长(15+M秒)仍小于预设时间(15秒)，则在此基础上继续加入语句D，直至所述多句结构对应的音频时间大于预设时间(15秒)。

其中，在后续按顺序对后续语句进行歌词语句的结构判别时，将不再对被合并入所述多句结构中的歌词语句()进行判别，被合并的歌词语句(例如被合并入语句B的语句C、语句D……)将被视为所述多句结构的一部分。

人们应该明白，上述具体预设时间仅作为示例，本领域的技术人员可以根据其具体需求自行设置适合的预设时间，本发明对次不做限制。

在本发明一些实施例中，例如步骤S120中，所述预设数据库是预先设置的曲库，包括多个基础音频以及各所述基础音频对应的基础文本，可通过多种方案构建所述预设数据库的步骤，例如，作为可选方案二，可包括如下步骤：

对各所述歌词文本进行语句切分，划分成多个歌词语句；

其中，会对划分出的所有语句一一进行判断，对于判断的顺序则不做要求。

在本发明一个具体实施例中，例如上述步骤S120中，作为可选方案二，在对划分后的多个歌词语句顺序判别当前歌词语句的结构时：可设置预设时间为15秒，并对划分后的语句一一进行判断并相应提取，例如若划分出R条语句，则对所述R条语句一一进行判断其对应的音频时长是否大于等于预设时间(15秒)，即至少进行R次判断；经过所述判断后，例如有S条语句(S的数值小于等于R的数值)对应的音频时长大于等于预设时间(15秒)，则提取所述S条语句作为所述预设数据库中的文本。

在本发明另一些实施例中，上述可选方案二中的构建所述预设数据库的步骤，还可进一步包括：

组合未提取的相邻歌词语句；

其中，所述未提取的歌词语句是指在前述可选方案二中经过判断，由于对应的音频时长小于预设时间的而未被提取的歌词语句。

在本发明一个具体实施例中，作为上述可选方案二的进一步可选方案，在对所述R条语句一一进行判断其对应的音频时长是否大于等于预设时间(15秒)，并提取对应的音频时长大于等于预设时间(15秒)的S条语句后(S的数值小于等于R的数值)，可对剩余的T条(T等于R减去S，且T未正整数)语句进行进一步的组合与判断：将剩余的T条语句中按照语句顺序彼此相邻(相连)的语句进行组合，例如剩余的语句为“语句E、语句F、语句G、语句H……”，按照语句顺序“语句E、语句F、语句G”为顺序相邻的语句，而“语句H”不存在相邻的语句，则将“语句E、语句F、语句G”合并为组合语句，并判断所述组合语句对应的音频时长是否大于预设时间，若大于等于预设时间，则将所述组合语句作为所述预设数据库中的文本。

在本发明实施例中，在构建所述预设数据库的步骤时，可根据所述歌词文本所包含的时间标签，确定各歌词语句对应的音频时长。具体的所述时间标签可以包括但不限于以下信息：歌词语句开始时间、结束时间、持续时长等。

在本发明实施例中，例如步骤S120中，计算预设数据库中的各文本与所述待识别文本之间的文本相似度的步骤，包括：

将所述编辑距离转换为所述文本相似度。

在本发明实施例中，所述编辑距离又称莱文斯坦距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

在本发明一个具体实施例中，计算预设数据库中的文本与待识别文本之间的编辑距离d时，例如，计算从字符串“kitten”修改为字符串“sitting”时，如下所示，只需3次单字符编辑操作：

sitten(k→s)

sittin(e→i)

sitting(_→g)

因此，“kitten”和“sitting”的编辑距离为3。

然后，可以将编辑距离转换成文本相似度。具体地，可以根据下述公式进行转化：

sim_asr＝(m-d)/m

其中，将待识别文本与参考文本的长度进行比较，较长的长度值为所述m，d为编辑距离。

在本发明实施例中，例如在上述步骤S120中，将满足相似度阈值条件的所述数据库中的多个文本确定为目标文本集的步骤，包括：

在本发明一个具体实施例中，根据待识别文本识别出来的数据库中的文本可能有多个，可以将全部数据库中的文本按照文本相似度大小由大到小以此排列，根据实际使用需求或者具体应用场景，设置不同的选取方式。可以通过设置参考阈值，若任一文本相似度大于参考阈值，将文本相似度对应的数据库中的文本确定为目标文本，例如文本相似度大于0.9的所有数据库中的文本均可以作为目标文本以供后续确定流程使用；还可以通过设置参考数量，将全部文本相似度由大到小以依次排列为参考序列，选取排列在前的参考数量个文本相似度对应的数据库中的文本为目标文本集，例如不论文本相似度大小是否达到前文所述的参考阈值0.9，每次选取固定数量个数据库中的文本为目标文本集。

在本发明一些实施例中，例如上述步骤S130中，将所述待识别音频和所述目标音频进集行旋律检测，得到所述待识别音频与所述目标音频集之间的旋律相似度的步骤，包括：

分别基于所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征进行旋律检测，得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值；

在本发明一个具体实施例中，提取各目标音频的频谱特征的方法与前文所述提取待识别音频的频谱特征的方法类似，也可以用其他频谱特征提取方法，如直接提取梅尔频率倒谱系数特征进行替换，这里不再一一赘述。

分别基于所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征进行旋律检测，得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值的步骤，包括：

在本发明一个具体实施例中，可以将待识别音频和初步检索到的各目标音频对应的频谱特征输入预设旋律检测模型进行旋律检测，得到各帧频谱特征属于拍点的参考概率，并结合动态贝叶斯网络得到拍点数。其中，预设旋律检测模型包括但不限于循环神经网络模型。

需要说明的是，旋律是歌曲或者音频片段的重要要素，通常指若干乐音经过艺术构思而形成的有组织、节奏的序列。按一定的音高、时值和音量构成的、具有逻辑因素的单声部进行。旋律是由许多音乐基本要素，如调式、节奏、节拍、力度、音色表演方法方式等有机地结合而成。前文所述的方法仅仅是以拍点为示例对“将待识别音频和目标音频进行进一步旋律比较或检测”这一思想进行说明，但不局限于拍点检测，其他能用于表征旋律的检测方式都应涵盖在内，对应性调整所使用的预设旋律检测模型即可，这里不再一一赘述。

所述第一旋律属性值和所述第二旋律属性值均包括拍点数，计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度的步骤，包括：

下面，通过一个示例对上述子步骤进行解释说明：

在本发明一个具体实施例中，可以将检索结果，即目标音频对应的拍点数分别和待检索音频，即待识别音频的拍点数进行比较，如果待检索音频和检索库片段的拍点数差值在5以内；或者待检索音频拍点数的2倍、3倍、4倍(待识别音频或者目标音频可能为变速改编歌曲)和检索库片段的拍点数差值在5以内，都认为拍点数一致，然后可以通过下列公式计算得到具体的旋律相似度值。若认定拍点数不一致，将旋律相似度记为0。其中，计算旋律相似度值的公式可以为：

sim_bpm＝5-x/5

其中，sim_bpm为旋律相似度，x为待识别音频对应的预设倍数的拍点数与目标音频的拍点数的差值中最小的一个。具体地，预设倍数可以设置为1。

在本发明一些实施例中，例如步骤S140中，分别将对应同一目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频。其中，融合相似度处理包括但不限于加权和取最大值。

在本发明一个具体实施例中，可以将文本相似度及旋律相似度加权得到融合相似度，即所述目标相似度：

sim＝a*sim_asr+(1-a)*sim_bpm

其中sim为目标相似度，a为可调参数，sim_asr代表文本相似度，sim_bpm代表旋律相似度。a用以控制文本相似度及旋律相似度对最终结果的影响占比。判断目标相似度是否大于提前设定的融合相似度阈值，若目标相似度大于融合相似度阈值，则认为识别结果可靠，召回目标音频，否则不召回。其中，召回即为对“基于待识别音频进行音频识别”这一需求的结果响应。

具体地，还可以用“取文本相似度及旋律相似度最大值的方式作为目标相似度”的方法替换前文所述加权方法。

所述预设数据库包括多首歌曲、各歌曲对应多个音频以及各所述音频对应的文本，召回大于阈融合相似度值的目标相似度对应的目标音频的步骤，包括：

召回所述目标歌曲。

本申请提供的音频识别方法包括：基于待识别音频的频谱特征进行文本识别，得到待识别文本；计算预设数据库中各参考文本与待识别文本之间的文本相似度，将满足相似度阈值条件的参考文本确定为目标文本，以及将目标文本对应的参考音频确定为目标音频；将待识别音频和各目标音频进行旋律检测，得到待识别音频与各目标音频之间的旋律相似度；分别将对应同一目标文本的文本相似度及旋律相似度进行预设类型的处理，得到目标相似度并召回大于参考阈值的目标相似度对应的目标音频。通过结合文本相似度识别和旋律相似度识别，有效避免因噪声引起的误召回，提高音频识别召回精确性。

在本申请实施例中，还提供了一种音频识别装置。如图3所示，该音频识别装置300可包括：

初始识别单元301，用于对待识别音频进行文本识别，得到待识别文本；

文本检测单元302，用于计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与所述待识别文本之间的文本相似度，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集，并将所述目标文本集中多个文本对应的多个音频确定为目标音频集；

旋律检测单元303，用于将所述待识别音频和所述目标音频集进行旋律检测，得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度；

音频召回单元304，用于分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理，得到多个目标相似度，并召回大于融合相似度阈值的目标相似度对应的目标音频，其中，所述融合相似度处理包括加权和取最大值。

本领域技术人员将明白根据本申请实施例的音频识别装置可以结合根据本申请实施例的音频识别方法的特征，反之亦然。

在本申请实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本申请实施例所述的音频动态均衡方法。

图4示出了一种可以实施本申请实施例的方法或实现本申请实施例的电子设备400的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图4所示，电子设备400包括处理器401，其可以根据存储在只读存储器(ROM)402中的程序和/或数据或者从存储部分408加载到随机访问存储器(RAM)403中的程序和/或数据而执行各种适当的操作和处理。处理器401可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器401可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如，中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理器401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的方法、步骤或功能。

以下部件连接至I/O接口405：包括键盘、鼠标、触摸屏等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。图4中仅示意性示出部分组件，并不意味着计算机系统400只包括图4所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

尽管未示出，在本申请实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本申请实施例的音频识别方法。

在本申请的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本申请的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

所提供的电子设备和计算机可读存储介质的具体实施过程，可以参见上述实施例提供的音频识别方法的具体实施过程，在此不再一一赘述。

本申请提供的电子设备和计算机可读存储介质，基于待识别音频的频谱特征进行文本识别，得到待识别文本；计算预设数据库中各参考文本与待识别文本之间的文本相似度，将满足相似度阈值条件的参考文本确定为目标文本，以及将目标文本对应的参考音频确定为目标音频；将待识别音频和各目标音频进行旋律检测，得到待识别音频与各目标音频之间的旋律相似度；分别将对应同一目标文本的文本相似度及旋律相似度进行预设类型的处理，得到目标相似度并召回大于参考阈值的目标相似度对应的目标音频。通过结合文本相似度识别和旋律相似度识别，有效避免因噪声引起的误召回，提高音频识别召回精确性。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本申请实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本申请的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本申请的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本申请的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本申请的精神及范围。

Claims

1.一种音频识别方法，其特征在于，所述音频识别方法包括：

对待识别音频进行文本识别，得到待识别文本；

2.根据权利要求1所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，包括：

获取预设数量的歌曲音频以及各所述歌曲音频对应的歌词文本；

对各所述歌词文本进行语句切分，划分成多个歌词语句；

若所述歌词语句对应的音频时长大于预设时间，则为单句结构；

若所述歌词语句对应的音频时长小于预设时间，则为多句结构并将下一歌词语句合并到所述多句结构中直至所述多句结构对应的音频时间大于预设时间。

3.根据权利要求2所述的音频识别方法，其特征在于，包括：

将所述单句结构确定为所述预设数据库中的文本；

4.根据权利要求1所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，包括：

对各所述歌词文本进行语句切分，划分成多个歌词语句；

提取对应的音频时长大于等于预设时间的歌词语句作为所述预设数据库中的文本；

组合未提取的相邻歌词语句；

5.根据权利要求2至4中任一项所述的音频识别方法，其特征在于，构建所述预设数据库的步骤，还包括：

6.根据权利要求1所述的音频识别方法，其特征在于，计算预设数据库中的各文本与所述待识别文本之间的文本相似度的步骤，包括：

将所述编辑距离转换为所述文本相似度。

7.根据权利要求1所述的音频识别方法，其特征在于，将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集的步骤，包括：

8.根据权利要求1所述的音频识别方法，其特征在于，将所述待识别音频和所述目标音频集进行旋律检测，得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度的步骤，包括：

9.根据权利要求8所述的音频识别方法，其特征在于，分别基于所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征进行旋律检测，得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值的步骤，包括：

10.根据权利要求8所述的音频识别方法，其特征在于，所述第一旋律属性值和所述第二旋律属性值均包括拍点数，计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度的步骤，包括：

11.根据权利要求1所述的音频识别方法，其特征在于，所述预设数据库包括多首歌曲、各歌曲对应多个音频以及各所述音频对应的文本，召回大于融合相似度阈值的目标相似度对应的目标音频的步骤，包括：

召回所述目标歌曲。

12.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时实现权利要求1-11中任一项所述的音频识别方法。

13.一种存储介质，其上存储有计算机程序，其中，所述程序被处理器运行时实现如权利要求1-11中任一项所述的音频识别方法。