CN113628637A

CN113628637A - 一种音频识别方法、装置、设备及存储介质

Info

Publication number: CN113628637A
Application number: CN202110750209.XA
Authority: CN
Inventors: 张冉; 梁先华; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-11-09

Abstract

本公开提供一种关于音频识别方法、装置、设备及存储介质，涉及视频处理领域。包括：获取待分析视频的音频数据和图像数据；根据待分析视频的音频数据，确定待分析视频的音频的指纹特征；在音频库中不存在与音频的指纹特征匹配的音频的情况下，根据待分析视频的音频数据，确定待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据待分析视频的图像数据，确定待分析视频中的文字歌词和歌名中的至少一项；根据特征数据中的一项或多项，从音频库中匹配待分析视频的歌曲标识。基于此，通过视频中的音频数据和图像数据两个维度确定视频中的文件，可以提高识别视频中的音频文件的准确度。

Description

一种音频识别方法、装置、设备及存储介质

技术领域

本公开涉及视频处理领域，尤其涉及一种音频识别方法、装置、设备及存储介质。

背景技术

相关技术中，主要依赖音频识别方法识别视频中的音频文件。例如，采用指纹特征技术，确定待识别视频中的音频文件的指纹特征，并从音频库库中匹配出与待识别视频中的音频文件的指纹特征匹配的音频作为待识别视频中的音频文件。

但是受限于音频识别算法准确度较低，以及音频中的噪音影响等因素，采用音频识别方法识别视频中的音频文件的准确度较低。

发明内容

本公开提供一种音频识别方法、装置、设备及存储介质，以至少解决相关技术中采用音频识别方法识别视频中的音频文件的准确度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频识别方法，包括：

获取待分析视频的音频数据和图像数据；

根据所述待分析视频的音频数据，确定所述待分析视频的音频的指纹特征，并根据所述音频的指纹特征从音频库中匹配所述待分析视频的歌曲标识；

在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项；

根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识；所述特征数据包括：所述待分析视频中的音乐特征和语音歌词中的至少一项、以及所述待分析视频中的文字歌词以及歌名中的至少一项；其中，所述音频库中包括至少一个歌曲的歌曲标识，所述至少一个歌曲中所述每个歌曲的指纹特征，以及所述每个歌曲的所述特征数据中的一项或多项。

可选的，在所述音频库中存在与所述音频的指纹特征匹配的音频的情况下，确定所述与所述的音频的指纹特征匹配的音频的歌曲标识，为所述待分析视频的歌曲标识。

可选的，在所述音频库中存在与所述音频的指纹特征匹配的音频的情况下，确定所述待分析视频中的音频为原唱歌曲；

在所述音频库中不存在与所述音频的指纹特征匹配的音频，且从所述音频库中匹配到所述待分析视频的歌曲标识的情况下，确定所述待分析视频中的音频为翻唱歌曲。

可选的，所述根据所述待分析视频的图像信息，确定所述待分析视频中的歌曲的文字歌词和歌名中的至少一项，包括：

获取所述待分析视频的封面图像，并确定所述待分析视频的封面图像为所述待分析视频的图像信息；

识别所述待分析视频的封面图像中的文字信息；

从所述封面图像中的文字信息中，获取所述待分析视频中的歌曲的文字歌词和歌名中的至少一项。

可选的，在所述获取所述待分析视频中的歌曲的文字歌词的情况下，所述根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

查询所述音频库中是否存在与所述待分析视频的封面图像中的文字歌词匹配的歌词；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的歌词；

若存在，则确定所述匹配的歌词对应的歌曲标识为所述待分析视频的歌曲标识。

可选的，在所述获取所述待分析视频中的歌曲的歌名的情况下，所述根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

查询所述音频库中是否存在与所述待分析视频的封面图像中的歌名匹配的歌名；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的歌名；

若存在，则根据所述匹配的歌名对应的歌曲标识为所述待分析视频的歌曲标识。

获取所述待分析视频的至少一帧图像，并确定所述待分析视频的至少一帧图像为所述待分析视频的图像信息；

识别所述待分析视频的至少一帧图像中的文字信息；

从所述至少一帧图像中的文字信息中，获取所述待分析视频中的歌曲的文字歌词和歌名中的至少一项。

可选的，在获取所述待分析视频中的歌曲的文字歌词的情况下，根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

查询所述音频库中是否存在与所述待分析视频的至少一帧图像中的文字歌词匹配的歌词；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的歌词；

查询所述音频库中是否存在与所述待分析视频的至少一帧图像中的歌名匹配的歌名；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的歌名；

可选的，所述根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项，包括：

获取所述待分析视频的待分析音频；

确定所述待分析音频的音频类型，所述音频的类型包括：歌曲语音音频，纯音乐音频，非歌曲语音音频；

在所述待分析视频的音频类型为歌曲语音音频的情况下，识别所述待分析音频中的语音表征的文字信息，并从所述语音表征的文字信息中获取所述待分析视频中的语音歌词；

在所述待分析视频的音频类型为纯音乐音频的情况下，获取所述待分析音频中的纯音乐，并将所述待分析音频中的纯音乐作为所述待分析视频中的音乐特征。

可选的，在所述待分析视频的音频类型为歌曲语音音频的情况下，根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

查询所述音频库中是否存在与所述待分析视频中的语音歌词匹配的歌词；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的歌词；

可选的，在所述待分析视频的音频类型为纯音乐音频的情况下，根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

查询所述音频库中是否存在与所述待分析音频中的纯音乐匹配的纯音乐；其中，所述音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及所述每个歌曲的纯音乐；

若存在，则确定所述匹配的纯音乐对应的歌曲标识为所述待分析视频的歌曲标识。

可选的，在所述待分析视频的音频类型为非歌曲语音音频的情况下，所述方法还包括：

确定所述音频库中未包括所述待分析视频的歌曲标识。

根据本公开实施例的第二方面，提供一种音频识别装置，包括：获取模块和处理模块；

所述获取模块，被配置为获取待分析视频的音频数据和图像数据；

所述处理模块，被配置为根据所述待分析视频的音频数据，确定所述待分析视频的音频的指纹特征，并根据所述音频的指纹特征从音频库中匹配所述待分析视频的歌曲标识；

所述处理模块，被配置为在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项；

所述处理模块，还被配置为根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识；所述特征数据包括：所述待分析视频中的音乐特征和语音歌词中的至少一项、以及所述待分析视频中的文字歌词以及歌名中的至少一项。

可选的，所述获取模块，还被配置为：

在所述音频库中存在与所述音频的指纹特征匹配的音频的情况下，确定所述与所述的音频的指纹特征匹配的音频的歌曲标识，为所述待分析视频的歌曲标识。

可选的，所述处理模块，还被配置为：

在所述音频库中存在与所述音频的指纹特征匹配的音频的情况下，确定所述待分析视频中的音频为原唱歌曲；

可选的，所述获取模块，具体被配置为获取所述待分析视频的封面图像，并确定所述待分析视频的封面图像为所述待分析视频的图像信息；

所述处理模块，具体被配置为：

识别所述待分析视频的封面图像中的文字信息；

可选的，所述处理模块，具体被配置为：

可选的，所述获取模块，具体被配置为获取所述待分析视频的至少一帧图像，并确定所述待分析视频的至少一帧图像为所述待分析视频的图像信息；

所述处理模块，具体被配置为：

识别所述待分析视频的至少一帧图像中的文字信息；

可选的，所述处理模块，具体被配置为：

可选的，所述获取模块，具体被配置为获取所述待分析视频的待分析音频；

所述处理模块，具体被配置为：

在所述待分析视频的音频类型为纯音乐音频的情况下，指示所述获取模块获取所述待分析音频中的纯音乐，并将所述待分析音频中的纯音乐作为所述待分析视频中的音乐特征。

可选的，所述处理模块，具体被配置为：

确定所述音频库中未包括所述待分析视频的歌曲标识。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面及第一方面中任一种可选地音频识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面及第一方面中任一种可选地音频识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述第一方面及第一方面中任一种可选地音频识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：在音频识别装置识别待分析音频文件时，音频识别装置采用待分析视频的音频数据和图像数据相结合的方式确定待分析视频的音频文件。这样，音频识别装置在根据音频数据无法确定待分析视频的音频文件的情况下，可以进一步根据待分析视频的图像数据确定待分析视频的音频文件。提高了确定待分析视频的音频文件的成功率。此外，在音频识别装置在根据音频数据确定了待分析视频的音频文件的情况下，还可以根据待分析视频的图像数据确定待分析视频的音频文件与根据音频数据确定了待分析视频的音频文件进行对比，确定两者是否一致，进而提高确定的待分析视频的音频文件的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频识别系统的示意图；

图2是根据一示例性实施例示出的一种音频识别方法的流程图；

图3是根据一示例性实施例示出的另一种音频识别方法的流程图；

图4是根据一示例性实施例示出的又一种音频识别方法的流程图；

图5是根据一示例性实施例示出的又一种音频识别方法的流程图；

图6是根据一示例性实施例示出的又一种音频识别方法的流程图；

图7是根据一示例性实施例示出的又一种音频识别方法的流程图；

图8是根据一示例性实施例示出的一种音频识别装置的结构示意图；

图9是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在对本公开实施例的模型训练方法进行详细介绍之前，先对本公开实施例的应用场景和实施环境进行介绍。

首先，对本公开实施例的应用场景进行介绍。

本公开实施例的音频识别方法应用于对视频中的音频数据和图像数据进行识别，确定视频中的音频的场景。音频识别装置获取到待识别视频之后获取待识别视频的音频数据和图像数据。音频识别装置根据待识别视频的音频数据和图像数据，从音频库中匹配待识别视频中的音频文件。

一种示例，在歌曲翻唱视频中，音频识别装置获取到待识别歌曲翻唱视频之后，获取待识别歌曲翻唱视频的音频数据和图像数据。音频识别装置根据音频数据确定待识别歌曲翻唱视频的音频数据中的歌曲音乐和人声等数据。音频识别装置根据图像数据确定待识别歌曲翻唱视频的歌词文本和歌名文本等。音频识别装置根据待识别歌曲翻唱视频的歌曲音乐，人声，歌词文本和歌名文本等信息确定待识别歌曲翻唱视频中翻唱的歌曲。

但是，在相关技术中，音频识别装置识别音频或视频中的歌曲主要依赖音频识别方法识别音频或视频中的歌曲。例如，采用指纹特征技术，确定待识别音频的指纹特征，并从音频库中匹配出与待识别音频的指纹特征匹配的歌曲作为音频中的歌曲。

但是受限于音频识别算法准确度较低，以及音频中的噪音影响等因素，采用音频识别方法识别视频中的歌曲的准确度较低。

为了提高识别视频中的歌曲的准确度，本公开实施例提供了一种音频识别方法，在识别视频中的音频文件时，音频识别装置分别获取待识别视频中的音频数据和图像数据，并结合音频数据和图像数据，分别确定待识别视频中的音频文件。这样，音频识别装置在根据音频数据无法确定待分析视频的音频文件的情况下，可以进一步根据待分析视频的图像数据确定待分析视频的音频文件。提高了确定待分析视频的音频文件的成功率。此外，在音频识别装置在根据音频数据确定了待分析视频的音频文件的情况下，还可以根据待分析视频的图像数据确定待分析视频的音频文件与根据音频数据确定了待分析视频的音频文件进行对比，确定两者是否一致，进而提高确定的待分析视频的音频文件的准确率。

接下来，对本公开实施例的实施环境进行介绍。

图1是根据一示例性实施例示出的一种音频识别系统100的示意图。如图1所述该音频识别系统100可以包括：音频识别装置110和音频存储装置120。其中，音频识别装置110和音频存储装置120可以集成在同一个设备中。

其中，音频识别装置110用于获取待分析视频，并对待分析视频进行处理确定待分析视频的音频数据和图像数据，并从音频存储装置120中查询与待分析视频的音频数据和图像数据匹配的音频文件，并将查询到的音频文件作为待分析视频的音频文件。

音频存储装置120具体可以是存储有音频文件的存储器，服务器等设备。音频存储装置120中包括至少一个音频文件，以及至少一个音频文件中每个音频文件的相关信息。音频文件的相关信息包括但不限于：音频的指纹特征，音频的文本信息，音频的纯音乐信息。

一种示例，待分析视频为歌曲翻唱视频，音频识别装置110用于识别视频中的翻唱歌曲的场景下，音频存储装置120中包括但不限于：至少一首歌曲的歌曲标识(music id)，至少一首歌曲中每首歌曲的歌词，歌名，歌手，以及歌曲的音频文件。

其中，至少一首歌曲的歌曲标识可以为根据预设规则确定的标识。例如，采用7位数字为各个歌曲编号，确定各个歌曲的唯一歌曲标识。

在介绍了本公开实施例的应用场景和实施环境之后，对本公开实施例提供的音频识别方法进行详细介绍。

图2是根据一示例性实施例示出的一种音频识别方法的流程图，如图2所示，音频识别方法用于音频识别场景中，包括以下步骤。

S200、音频识别装置获取待分析视频的音频数据和图像数据。

可选的，待分析视频的音频数据包括：从待分析视频中获取的音频(记为待分析音频)。

待分析视频的图像数据包括以下至少一项：待分析视频的封面图像，待分析视频的至少一帧图像。待分析视频的至少一帧图像可以为在待分析视频播放过程中截取的待分析视频的图像。

S201、音频识别装置根据所述待分析视频的音频数据，确定所述待分析视频的音频的指纹特征，并根据所述音频的指纹特征从音频库中匹配所述待分析视频的歌曲标识。

可选的，待分析视频的音频数据包括待分析视频中的音频，音频识别装置确定待分析音频的指纹特征，并将待分析的音频的指纹特征作为待分析视频的音频的指纹特征。

其中，待分析音频可以包括待分析视频中的全部音频数据，例如，音频识别装置获取待分析视频中的人声，背景声，音乐声等全部的音频数据。或者，待分析音频可以包括待分析视频中的部分音频数据，例如，音频识别装置获取待分析视频中的人声和音乐声，滤除待分析视频中的噪声。

音频识别装置可以采用现有的音频获取技术从待分析视频中获取待分析音频，本公开对此不做限定。

音频的指纹特征用于唯一标识一段音频的音频特征。具有相同(或相似，即相似度大于阈值)指纹特征的音频可以认为是同一段音频。

可选的，音频的指纹特征是指采用特定算法提取出音频中独有的数字特征。音频的指纹特征包括一个或多个数字。

S202、在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，音频识别装置根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项。

可选的，结合图2，如图3所示，S202具体包括以下S202a和S202b。

S202a、音频识别装置根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项。

音频识别装置可以确定待分析音频的音频类型，并将待分析音频和待分析音频的类型作为待分析视频中的音乐特征。

待分析音频的音频类型包括：歌曲语音音频，纯音乐音频，非歌曲语音音频。

在待分析音频的音频类型为歌曲语音音频的情况下，音频识别装置还可以进一步识别待分析视频中唱歌的语音，并通过语音识别技术识别唱歌的语音，确定待分析视频中的语音歌词。

S202b、音频识别装置根据待分析视频的图像数据，确定待分析视频中的文字歌词和歌名中的至少一项。

一种示例，音频识别装置可以通过获取待分析视频的封面图像或者至少一帧图像。图像识别装置采用图像识别技术识别图像中的文字，进而根据这些文字，确定待分析视频中的文字歌词和歌名中的至少一项。

S203、音频识别装置根据特征数据中的一项或多项，从音频库中匹配待分析视频的歌曲标识。

特征数据包括：待分析视频中的音乐特征和语音歌词中的至少一项、以及待分析视频中的文字歌词以及歌名中的至少一项。

音频库中包括至少一个歌曲的歌曲标识，至少一个歌曲中每个歌曲的指纹特征，以及每个歌曲的特征数据中的一项或多项。

一种可能的实现方式中，音频识别装置确定待分析视频的特征数据，该特征数据可以为待分析视频中的音乐特征、语音歌词、文字歌词以及歌名中的任一项或多项。

音频识别装置根据待分析视频的特征数据，从音频库中匹配与待分析视频的特征数据相同或相似度大于预设条件的数据，并将匹配到的数据对应的歌曲标识作为待分析视频的歌曲标识。

若音频识别装置根据一项特征数据未从音频库中匹配到待分析视频的歌曲标识，则音频识别装置还可以选择待分析视频的另一项特征数据，继续从音频库中匹配到待分析视频的歌曲标识，直至成功匹配到待分析视频的歌曲标识，或者待分析视频的特征数据均进行了匹配。

又一种可能的实现方式中，音频识别装置还可以分别采用音乐特征、语音歌词、文字歌词以及歌名等特征数据，从音频库中匹配待分析视频的歌曲标识。

音频识别装置为采用不同特征数据匹配到的歌曲标识赋予不同的权重，并根据采用不同特征数据匹配到的歌曲标识，以及对应的权重，确定待分析视频的歌曲标识。

上述实施例提供的技术方案至少带来以下有益效果：在音频识别装置识别待分析音频文件时，音频识别装置采用待分析视频的音频数据和图像数据相结合的方式确定待分析视频的音频文件。这样，音频识别装置在根据音频数据无法确定待分析视频的音频文件的情况下，可以进一步根据待分析视频的图像数据确定待分析视频的音频文件。提高了确定待分析视频的音频文件的成功率。

此外，在音频识别装置在根据音频数据确定了待分析视频的音频文件的情况下，还可以根据待分析视频的图像数据确定的待分析视频的音频文件与根据音频数据确定的待分析视频的音频文件进行对比，确定两者是否一致，进而提高确定的待分析视频的音频文件的准确率。

一种可能的实现方式中，结合图2，如图3所示，在上述S201包括以下S300-S302实现。

S300、音频识别装置查询音频库中是否存在与待分析视频的音频的指纹特征匹配的指纹特征。

其中，音频库中包括：至少一个歌曲的歌曲标识，至少一个歌曲中每个歌曲的指纹特征。

具体来说，音频识别装置采用待分析音频的指纹特征与音频库中每个音频文件的指纹特征分别进行匹配，确定音频库中是否存在与待分析音频的指纹特征相同或相似度大于阈值的音频文件。

一种示例，音频识别装置获取待分析音频的指纹特征中特定位置的多个数字(记为数字A)，并获取音频库中一个歌曲的指纹特征中特定位置的多个数字(记为数字B)。音频识别装置确定数字A和数字B的相似度。在数字A和数字B的相似度大于或等于第一相似度的情况下，确定待分析音频的指纹特征与歌曲的指纹特征匹配。在数字A和数字B的相似度小于第一相似度的情况下，确定待分析音频的指纹特征与歌曲的指纹特征不匹配。

需要指出的是，在S300中，存在以下两种情况，分别为：音频库中存在与待分析视频的音频的指纹特征匹配的指纹特征(记为情况1)；音频库中不存在与待分析视频的音频的指纹特征匹配的指纹特征(记为情况2)。

以下分别对情况1和情况2进行说明：

情况1、音频库中存在与待分析视频的音频的指纹特征匹配的指纹特征(记为情况1)

如图3所示，在情况1中，音频识别装置执行以下S301和S302。

S301、音频识别装置确定匹配的指纹特征对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S302、音频识别装置确定待分析视频中的音频为原唱歌曲。

可选的，音频识别装置输出第一标识，第一标识用于表征待分析视频中的音频为原唱歌曲。

基于上述情况1，音频识别装置可以从待分析音频中获取待分析音频的指纹特征，从而使得音频识别装置可以根据待分析音频的指纹特征从音频库中匹配待分析视频的歌曲标识。

此外，在待分析视频中的音频的指纹特征与音频库中的原曲匹配的情况下，表明该待分析的音频为原唱歌曲，此时音频识别装置还可以通过输出第一标识表示该待分析视频中的音频为原唱歌曲。

情况2、音频库中不存在与待分析视频的音频的指纹特征匹配的指纹特征(记为情况2)。

在情况2中，音频识别装置通过执行以上S202和S203，从音频库中匹配待分析视频的歌曲标识。

需要指出的是，在情况2中，若音频识别装置从音频库中匹配到待分析视频的歌曲标识，则表示待分析视频中的音频为翻唱歌曲。

一种可能的实现方式中，在情况2中，音频识别装置从音频库中匹配待分析视频的歌曲标识，包括以下方式1-方式3，分别为：

方式1、音频识别装置获取待分析视频的封面图像，并根据封面图像表征的歌名或文字歌词，从音频库中匹配待分析视频的歌曲标识。

方式2、音频识别装置获取待分析视频的至少一帧图像，并根据至少一帧图像表征的歌名或文字歌词，从音频库中匹配待分析视频的歌曲标识。

方式3、音频识别装置确定待分析视频中的待分析音频的类型，并根据待分析音频的类型的不同，获取待分析音频中的语音歌词或纯音乐。音频识别装置根据语音歌词或纯音乐，从音频库中匹配待分析视频的歌曲标识。

以下，分别对上述方式1-方式3进行详细说明：

结合图2，如图4所示，在方式1中，上述S202a具体可以通过以下S202c至S202e实现。

S202c、音频识别装置获取待分析视频的封面图像，并确定待分析视频的封面图像为待分析视频的图像信息。

S202d、音频识别装置识别待分析视频的封面图像中的文字信息。

可选的，音频识别装置采用文字识别(optical character recognition，OCR)技术，识别待分析视频的封面图像中的文字信息。

S202e、音频识别装置从封面图像中的文字信息中，获取待分析视频中的歌曲的文字歌词和歌名中的至少一项。

一种示例，音频识别装置通过图像中的文字进行分类，确定文字信息中是否出现歌词，或者歌名。若出现，则音频识别装置获取文字信息中的歌词或歌名。

基于上述S202c和S202e，音频识别装置可以从待分析音频中获取待分析视频的封面图像，并确定封面图像表征的歌词或歌名，从而使得音频识别装置可以根据封面图像表征的歌词或歌名从音频库中匹配待分析视频的歌曲标识。

需要指出的是，音频识别装置获取待分析视频封面图像的歌词之后，与音频识别装置获取待分析视频的歌名之后，音频识别装置可以通过执行不同的动作，从音频库中匹配待分析视频中的歌曲。以下分别以方式1.1和方式1.2进行详细说明：

方式1.1、在音频识别装置获取待分析视频的歌词时，音频识别装置通过以下S203a至S203c从音频库中匹配待分析视频中的歌曲。

S203a、音频识别装置查询音频库中是否存在与待分析视频的封面图像中的文字歌词匹配的歌词。

其中，音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及每个歌曲的歌词。

可选的，音频识别装置采用模糊匹配的方法，从音频库中的各个歌曲的歌词中查询是否存在与待分析视频的封面图像中的文字歌词匹配的歌词。

需要指出的是，与待分析视频的封面图像中的文字歌词匹配可以理解为：与待分析视频的封面图像中的文字歌词的文字相同，或者与待分析视频的封面图像中的文字歌词的文字的相似度大于第二相似度。

S203b、若存在，则音频识别装置根据匹配的歌词对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

需要说明的是，在s203b中，音频识别装置还可以输出第二标识，第二标识用于表征待分析视频的音频为翻唱歌曲。

S203c、若不存在，则音频识别装置确定识别失败。

需要指出的是，在S203c之后，音频识别装置可以确定音频库中不存在待分析视频的歌曲标识，输出识别失败的结果。

或者，音频识别装置还可以采用以下方式2和/或方式3中所记载的方式继续从音频库中匹配待分析视频的歌曲标识。

基于上述方式1.1，音频识别装置可以获取待分析视频的封面图像，并确定封面图像表征的歌词，从而使得音频识别装置可以根据封面图像表征的歌词从音频库中匹配待分析视频的歌曲标识。

方式1.2、在音频识别装置获取待分析视频的歌名时，音频识别装置通过以下S203d至S203f从音频库中匹配待分析视频中的歌曲。

S203d、音频识别装置查询音频库中是否存在与待分析视频的封面图像中的歌名匹配的歌名。

其中，音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及每个歌曲的歌名。

需要指出的是，S203d的具体实现过程与上述S203a类似，关于S203d的具体实现过程可以参照上述S203a，本公开对此不在赘述。

S203e、若存在，则音频识别装置根据匹配的歌名对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S203f、若不存在，则音频识别装置确定识别失败。

需要指出的是，S203f的具体实现过程与上述S203c类似，关于S203f的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式1.2，音频识别装置可以获取待分析视频的封面图像，并确定封面图像表征的歌名，从而使得音频识别装置可以根据封面图像表征的歌名从音频库中匹配待分析视频的歌曲标识。

结合图2，如图5所示，在方式2中，上述S202具体可以通过以下S202f至S202h实现。

S202f、音频识别装置获取待分析视频的至少一帧图像，并确定待分析视频的至少一帧图像为待分析视频的图像信息。

需要指出的是，音频识别装置获取的待分析视频的至少一帧图像，可以为音频识别装置随机获取的待分析视频中的至少一帧图像。

或者，音频识别装置获取的待分析视频的至少一帧图像，可以为音频识别装置获取的待分析视频中具有文字信息的图像。本公开对此不做限定。

S202g、音频识别装置识别待分析视频的至少一帧图像中的文字信息。

可选的，音频识别装置采用文字识别(optical character recognition，OCR)技术，识别待分析视频的至少一帧图像中的文字信息。

S202h、音频识别装置从至少一帧图像中的文字信息中，获取待分析视频中的歌曲的文字歌词和歌名中的至少一项。

基于上述S202f至S202h，音频识别装置可以从待分析音频中获取待分析视频的至少一帧图像，并确定至少一帧图像表征的歌词或歌名，从而使得音频识别装置可以根据至少一帧图像表征的歌词或歌名从音频库中匹配待分析视频的歌曲标识。

需要指出的是，音频识别装置获取待分析视频至少一帧图像的歌词之后，与音频识别装置获取待分析视频的歌名之后，音频识别装置可以通过执行不同的动作，从音频库中匹配待分析视频中的歌曲。以下分别以方式2.1和方式2.2进行详细说明：

方式2.1、在音频识别装置获取待分析视频的歌词时，音频识别装置通过以下S203g至S203i，从音频库中匹配待分析视频中的歌曲。

S203g、音频识别装置查询音频库中是否存在与待分析视频的至少一帧图像中的歌词匹配的歌词。

需要指出的是，S203g的具体实现过程与上述S203a类似，关于S203g的具体实现过程可以参照上述S203a，本公开对此不在赘述。

S203h、若存在，则音频识别装置根据匹配的歌词对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S203i、若不存在，则音频识别装置确定识别失败。

需要指出的是，S203i的具体实现过程与上述S203c类似，关于S203i的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式2.1，音频识别装置可以获取待分析视频的至少一帧图像，并确定至少一帧图像表征的歌词，从而使得音频识别装置可以根据至少一帧图像表征的歌词从音频库中匹配待分析视频的歌曲标识。

方式2.2、在音频识别装置获取待分析视频的歌名时，音频识别装置通过以下S203j至S203l从音频库中匹配待分析视频中的歌曲。

S203j、音频识别装置查询音频库中是否存在与待分析视频的至少一帧图像中的歌名匹配的歌名。

需要指出的是，S203j的具体实现过程与上述S203a类似，关于S203j的具体实现过程可以参照上述S203a，本公开对此不在赘述。

S203k、若存在，则音频识别装置根据匹配的歌名对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S203l、若不存在，则音频识别装置确定识别失败。

需要指出的是，S203l的具体实现过程与上述S203c类似，关于S203l的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式2.2，音频识别装置可以获取待分析视频的至少一帧图像，并确定至少一帧图像表征的歌名，从而使得音频识别装置可以根据至少一帧图像表征的歌名从音频库中匹配待分析视频的歌曲标识。

结合图2，如图6所示，在方式3中，上述S202具体可以通过以下S202i至S202l实现。

S202i、音频识别装置获取待分析视频的待分析音频。

需要指出的是，S203f的具体实现过程与上述S203a类似，关于S203f的具体实现过程可以参照上述S203a，本公开对此不在赘述。

S202j、音频识别装置确定待分析音频的音频类型。

其中，音频的类型包括：歌曲语音音频，纯音乐音频，非歌曲语音音频。

一种可能的实现方式中，音频识别装置将待分析音频输入到音频分类模型中，确定待分析音频的音频类型。音频分类模型用于确定音频的类型，

可选的，音频分类模型为预先训练好的神经网络模型。音频分类模型可以是一个神经网络模型，也可以是多个神经网络模型。

在音频分类模型是一个神经网络模型时，音频分类模型的输入是音频文件，音频分类模型的输出的音频文件的类型。

在音频分类模型是多个神经网络模型时，以音频分类模型为三个神经网络模型为例进行说明。

该三个神经网络模型包括：纯音乐音频分类模型，歌曲语音音频分类模型，非歌曲语音音频分类模型。不同的音频分类模型可以采用不同的语料训练确定。例如，纯音乐音频分类模型可以通过纯音乐音频语料训练确定。歌曲语音音频分类模型可以通过歌曲语音音频语料训练确定。非歌曲语音音频分类模型可以通过非歌曲语音音频语料训练确定。

将音频文件输入纯音乐音频分类模型时，纯音乐音频分类模型将会输出该音频文件为纯音乐音频的概率。在该音频文件为纯音乐音频的概率大于第一概率值的情况下，确定该音频文件为纯音乐音频。

将音频文件输入歌曲语音音频分类模型时，歌曲语音音频分类模型将会输出该音频文件为歌曲语音音频的概率。在该音频文件为歌曲语音音频的概率大于第二概率值的情况下，确定该音频文件为歌曲语音音频。

将音频文件输入非歌曲语音音频分类模型时，非歌曲语音音频分类模型将会输出该音频文件为非歌曲语音音频的概率。在该音频文件为非歌曲语音音频的概率大于第三概率值的情况下，确定该音频文件为非歌曲语音音频。

S202k、音频识别装置在待分析视频的音频类型为歌曲语音音频的情况下，识别待分析音频中的语音表征的文字信息，并从语音表征的文字信息中获取待分析视频中的语音歌词。

可选的，音频识别装置采用语音识别(automatic speech recognition，ASR)技术，将待分析音频中的语音转换为文字信息。

S202l、音频识别装置在待分析视频的音频类型为纯音乐音频的情况下，获取待分析音频中的纯音乐，并将待分析音频中的纯音乐作为待分析视频中的音乐特征。

基于上述S202i至S202l，音频识别装置可以通过音频分类模型确定待分析视频中的待分析音频的类型，为音频识别装置根据待分析音频的类型从音频库中匹配待分析视频的音频文件提供依据。

方式3.1、在待分析视频的音频类型为歌曲语音音频的情况下，音频识别装置通过以下S203m至S203o，从音频库中匹配待分析视频中的歌曲。

S203m、音频识别装置查询音频库中是否存在与待分析视频中的语音歌词匹配的歌词。

需要指出的是，S203m的具体实现过程与上述S203a类似，关于S203m的具体实现过程可以参照上述S203a，本公开对此不在赘述。

S203n、若存在，则音频识别装置确定匹配的歌词对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S203o、若不存在，则音频识别装置确定识别失败。

需要指出的是，S203o的具体实现过程与上述S203c类似，关于S203o的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式3.1、音频识别装置可以在待分析视频中的待分析音频的类型为歌曲语音音频的情况下，识别出待分析音频表征的文字信息。从音频库中查询与待分析音频表征的文字信息匹配的文字信息，进而确定该匹配的文字信息对应的音频文件为确定待分析视频的音频文件。

方式3.2、在待分析视频的音频类型为纯音乐音频的情况下，音频识别装置通过以下S203p至S203r，从音频库中匹配待分析视频中的歌曲。

S203p、音频识别装置查询音频库中是否存在与待分析音频中的纯音乐匹配的纯音乐。

其中，音频库中包括至少一个歌曲中每个歌曲的歌曲标识，以及每个歌曲的纯音乐。

可选的，音频识别装置采用翻唱识别算法查询音频库中是否存在与待分析音频中的纯音乐匹配的纯音乐。

S203q、若存在，则音频识别装置确定匹配的纯音乐对应的歌曲标识为待分析视频的歌曲标识。

可选的，音频识别装置输出匹配的歌曲标识。

S203r、若不存在，则音频识别装置确定识别失败。

需要指出的是，S203r的具体实现过程与上述S203c类似，关于S203r的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式3.2、音频识别装置可以在待分析视频中的待分析音频的类型为纯音乐音频的情况下，从音频库中查询与待分析音频的纯音乐匹配的纯音乐，进而确定该匹配的纯音乐对应的音频文件为确定待分析视频的音频文件。

方式3.3、在待分析视频的音频类型为非歌曲语音音频的情况下，音频识别装置执行以下S203s。

S203s、音频识别装置确定识别失败。

需要指出的是，S203s的具体实现过程与上述S203c类似，关于S203s的具体实现过程可以参照上述S203c，本公开对此不在赘述。

基于上述方式3.3、音频识别装置可以在待分析视频中的待分析音频的类型为非歌曲语音音频的情况下，确定音频库中不存在与待分析音频匹配的音频文件。

一种示例，本公开实施例中记载的待分析视频可以为歌曲翻唱视频，本公开实施例中记载的音频库可以为歌曲库，歌曲库中包括但不限于：至少一首歌曲的歌曲标识(music id)，至少一首歌曲中每首歌曲的歌词，歌名，歌手，以及歌曲的音频文件。

以下，以音频装置依次结合歌曲翻唱视频的待分析音频的指纹特征，歌曲翻唱视频的封面图像，歌曲翻唱视频的至少一帧图像，以及歌曲翻唱视频的待分析音频的类型，从歌曲库中匹配歌曲翻唱视频中的原唱歌曲为例进行说明。

如图7所示，该示例下，本公开实施例提供的音频识别方法具体通过以下S700至S707实现：

S700、音频识别装置获取歌曲翻唱视频。

S701、音频识别装置根据待分析音频的指纹特征，从歌曲库中匹配歌曲翻唱视频的原唱歌曲。

其中，S701的具体实现过程可以参照上述方式1中的S202c和S202d，以及S203a至S203c，本公开对此不在赘述。

S702、音频识别装置根据歌曲翻唱视频的封面图像，从歌曲库中匹配歌曲翻唱视频的原唱歌曲。

其中，S702的具体实现过程可以参照上述方式1中的S202e至S202g，以及S203a至S203f，本公开对此不在赘述。

S703、音频识别装置根据歌曲翻唱视频的至少一帧图像，从歌曲库中匹配歌曲翻唱视频的原唱歌曲。

其中，S703的具体实现过程可以参照上述方式2中的S202h至S202j，以及S203g至S203l，本公开对此不在赘述。

S704、音频识别装置确定带分析音频的类型。

其中，S704的具体实现过程可以参照上述方式3中的S202k至S202n，本公开对此不在赘述。

在待分析音频的音频类型为歌曲语音音频的情况下，音频装置执行以下S705。

S705、音频识别装置根据音频中的歌曲语音表征的文字信息，从歌曲库中匹配歌曲翻唱视频的原唱歌曲。

其中，S705的具体实现过程可以参照上述方式3.1中的S203m至S203o，本公开对此不在赘述。

在待分析音频的音频类型为纯音乐音频的情况下，音频装置执行以下S706。

S706、音频识别装置根据音频中的纯音乐，从歌曲库中匹配歌曲翻唱视频的原唱歌曲。

其中，S706的具体实现过程可以参照上述方式3.1中的S203p至S203r，本公开对此不在赘述。

在待分析音频的音频类型为非歌曲音乐音频的情况下，音频装置执行以下S707。

S707、音频识别装置确地歌曲库中不存在与歌曲翻唱视频的原唱歌曲。

需要指出的是，在以上S700至S707中，以音频识别装置依次结合歌曲翻唱视频的待分析音频的指纹特征，歌曲翻唱视频的封面图像，歌曲翻唱视频的至少一帧图像，以及歌曲翻唱视频的待分析音频的类型，从歌曲库中匹配歌曲翻唱视频中的原唱歌曲为例进行了说明。

在实际执行过程中，音频识别装置可以按照任意顺序，根据歌曲翻唱视频的待分析音频的指纹特征，歌曲翻唱视频的封面图像，歌曲翻唱视频的至少一帧图像，以及歌曲翻唱视频的待分析音频的类型中的至少一项特征，确定从歌曲库中匹配歌曲翻唱视频中的原唱歌曲。本公开对此不做限定。

此外，音频识别装置还可以分别为根据待分析音频的指纹特征，歌曲翻唱视频的封面图像，歌曲翻唱视频的至少一帧图像，以及歌曲翻唱视频的待分析音频的类型匹配分配不同的权重值。

在音频识别装置分别根据这些特征匹配到原唱歌曲之后，根据各个特征对应的权重值确定最终的原唱歌曲。本公开对此不做限定。

可以理解的是，上述音频识别方法可以音频识别装置实现，音频识别装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。

本公开实施例可以根据上述方法示例对上述音频识别装置等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图8为本公开实施例公开的一种音频识别装置的结构示意图。该音频识别装置包括：获取模块801和处理模块802。

所述获取模块801，被配置为获取待分析视频的音频数据和图像数据；

所述处理模块801，被配置为根据所述待分析视频的音频数据，确定所述待分析视频的音频的指纹特征，并根据所述音频的指纹特征从音频库中匹配所述待分析视频的歌曲标识；

所述处理模块801，还被配置为在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项；

所述处理模块801，还被配置为根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识；所述特征数据包括：所述待分析视频中的音乐特征和语音歌词中的至少一项、以及所述待分析视频中的文字歌词以及歌名中的至少一项。

可选的，所述处理模块801，还被配置为：

可选的，所述获取模块801，具体被配置为获取所述待分析视频的封面图像，并确定所述待分析视频的封面图像为所述待分析视频的图像信息；

所述处理模块801，具体被配置为：

识别所述待分析视频的封面图像中的文字信息；

可选的，所述处理模块801，具体被配置为：

可选的，所述获取模块801，具体被配置为获取所述待分析视频的至少一帧图像，并确定所述待分析视频的至少一帧图像为所述待分析视频的图像信息；

所述处理模块801，具体被配置为：

识别所述待分析视频的至少一帧图像中的文字信息；

可选的，所述处理模块801，具体被配置为：

可选的，所述获取模块801，具体被配置为获取所述待分析视频的待分析音频；

所述处理模块801，具体被配置为：

在所述待分析视频的音频类型为纯音乐音频的情况下，指示所述获取模块801获取所述待分析音频中的纯音乐，并将所述待分析音频中的纯音乐作为所述待分析视频中的音乐特征。

可选的，所述处理模块801，具体被配置为：

确定所述音频库中未包括所述待分析视频的歌曲标识。

图9是根据一示例性实施例示出的一种电子设备的结构框图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器901、和一个或一个以上的存储器902。其中，存储器902中存储有至少一条指令，至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的音频识别方法。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得计算机能够执行上述所示实施例提供的音频识别方法。例如，计算机可读存储介质可以为包括指令的存储器902，上述指令可由电子设备的处理器901执行以完成上述音频识别方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得电子设备执行上述所示实施例提供的音频识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频识别方法，其特征在于，包括：

获取待分析视频的音频数据和图像数据；

在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，根据所述待分析视频的音频数据，确定所述待分析视频中的音乐类型和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待分析视频的图像信息，确定所述待分析视频中的歌曲的文字歌词和歌名中的至少一项，包括：

识别所述待分析视频的封面图像中的文字信息；

4.根据权利要求3所述的方法，其特征在于，在所述获取所述待分析视频中的歌曲的文字歌词的情况下，所述根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

5.根据权利要求3所述的方法，其特征在于，在所述获取所述待分析视频中的歌曲的歌名的情况下，所述根据特征数据中的一项或多项，从音频库中匹配所述待分析视频的歌曲标识，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述待分析视频的图像信息，确定所述待分析视频中的歌曲的文字歌词和歌名中的至少一项，包括：

识别所述待分析视频的至少一帧图像中的文字信息；

7.一种音频识别装置，其特征在于，包括：获取模块和处理模块；

所述处理模块，还被配置为在音频库中不存在与所述音频的指纹特征匹配的音频的情况下，根据所述待分析视频的音频数据，确定所述待分析视频中的音乐特征和语音歌词中的至少一项；以及，根据所述待分析视频的图像数据，确定所述待分析视频中的文字歌词和歌名中的至少一项；

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的音频识别方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6中任一项所述的音频识别方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任意一项所述的音频识别方法。