CN111046225B

CN111046225B - 音频资源处理方法、装置、设备及存储介质

Info

Publication number: CN111046225B
Application number: CN201911334453.7A
Authority: CN
Inventors: 陈康; 万里红; 雷进; 张伟东; 王润琦; 陆海天
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2024-01-26
Anticipated expiration: 2039-12-20
Also published as: CN111046225A

Abstract

本申请提供一种音频资源处理方法、装置、设备及存储介质，涉及数据处理技术领域。方法包括：采用预先训练的神经网络模型，对输入的音频资源进行属性分析，得到音频资源的属性标签和音频特征；将音频资源、及其属性标签、音频特征写入数据库。通过采用得到验证的多个音频资源标注样本，训练得到神经网络模型，并采用该模型，对音频资源进行属性分析，使得分析得到的音频资源的属性标签和音频特征准确性更高，根据音频资源及其属性标签、音频特征得到数据库，使得数据库中音频资源的标签及特征准确性较高，从而根据输入的音频资源在数据库中检索目标音频资源时，检索效率高且检索结果更加准确，避免人工设定标签带来的标签可靠性和准确性低的问题。

Description

音频资源处理方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种音频资源处理方法、装置、设备及存储介质。

背景技术

声音是人类认知世界的重要媒介之一，设计良好的声音可以极大提升影视、游戏作品的沉浸感。因此，在高品质电影和电子游戏中，丰富的声音资源是必不可少的组成部分，也催生了音频设计师这一专门负责声音的设计、资源创作和编辑的职业。寻找参考资源是所有设计师获得创作灵感、开始设计工作的第一步。显然，一个可以智能分析理解音频内容的高效的音频管理系统，可以极大地提升音频设计师的工作效率。

现有的音频管理系统中，音频资源的标签来自人工设定，随着资源量的增长和运行时间的增加，数据库中音频的标签会变得越来越混乱，维护的成本会越来越高，且很容易引入大量不可靠的标签，从而导致使用音频管理系统进行音频资源处理时，处理结果准确性较差。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种音频资源处理方法、装置、设备及存储介质，以解决现有技术中存在音频资源处理结果准确性较差的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种音频资源处理方法，包括：

采用预先训练的神经网络模型，对输入的音频资源进行属性分析，得到所述音频资源对应的属性标签和音频特征；

将所述音频资源、以及所述音频资源对应的所述属性标签和所述音频特征写入数据库，其中，所述属性标签用于通过文字检索目标音频资源，所述音频特征用于通过音频文件检索目标音频资源。

可选地，所述采用预先训练的神经网络模型，对输入的音频资源进行的属性分析，得到所述音频资源对应的属性标签和音频特征，包括：

采用预先训练的神经网络模型，对输入的音频资源进行至少一个维度的属性分析，得到所述音频资源的至少一个属性标签及音频特征。

可选地，所述音频资源的类型为：人声，所述至少一个属性标签为下述至少一个：声优标签、是否为同一声优的标签、性别标签、年龄标签、语言标签、声线风格标签；或者，

所述音频资源的类型为音乐，所述至少一个属性标签为下述至少一个：乐器标签、流派标签、情感标签；或者，

所述音频资源的类型为音效，所述至少一个属性标签为下述至少一个：功能标签、内容标签、类型标签。

可选地，所述方法还包括：

接收检索文字；

根据所述检索文字确定所述检索文字对应的检索标签；

根据所述检索标签，从所述数据库中，查找所述检索标签对应的候选音频资源；

从所述候选音频资源中确定目标音频资源。

可选地，所述根据所述检索文字确定所述检索文字对应的检索标签，包括：

采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签。

可选地，若所述检索文字为关键字，所述采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签，包括：

采用NLP算法，对所述关键字进行处理，确定与所述关键字的语义对应的标签为所述检索标签。

可选地，若所述检索文字为文本描述，所述采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签，包括：

采用NLP算法，对所述文本描述进行分词处理，得到所述文本描述的多个词语，并对各词语进行词性标注；

根据标注后的词性，确定所述多个词语中的主关键词和限定关键词；

确定所述主关键词的语义对应的标签，和，所述限定关键词的语义对应的标签为所述检索标签。

可选地，所述方法还包括：

接收检索音频样例；

采用所述神经网络模型，对所述检索音频样例进行属性分析，确定所述检索音频样例的分析结果；

根据所述分析结果，从所述数据库中，查找所述分析结果对应的候选音频资源；

从所述候选音频资源中确定目标音频资源。

可选地，所述分析结果包括：所述音频样例的检索标签及检索音频特征；

相应的，所述根据所述分析结果，从所述数据库中，查找所述分析结果对应的候选音频资源，包括：

根据所述检索标签，从所述数据库中预设检索范围内的音频资源中，查找所述检索标签对应的所述候选音频资源；和/或，

根据所述检索音频特征，以及所述数据库中预设检索范围内的音频资源的音频特征，查找与所述检索音频特征之间的距离满足预设值的所述候选音频资源。

可选地，若所述候选音频资源包括：多个音频资源；则所述从所述候选音频资源中确定目标音频资源，包括：

对所述多个音频资源进行排序；

将排序后的所述多个音频资源的信息进行展示。

可选地，所述对所述多个音频资源进行排序之前，所述方法还包括：

根据每个音频资源的相关性评分、所述每个音频资源的质量评分、所述每个音频资源的项目契合度评分，确定所述每个音频资源的综合评分；其中，所述相关性评分用于表示所述每个音频资源与检索内容的相关性，所述项目契合度评分用于表示所述每个音频资源在项目中被使用的频次；

所述对所述多个音频资源进行排序，包括：

根据所述多个音频资源的综合评分，对所述多个音频资源进行排序。

可选地，所述方法还包括：

响应输入的标签修改操作，将所述数据库中所述标签修改操作针对的音频资源的标签修改为目标属性标签。

可选地，所述方法还包括：

将预设时间段内，所述数据库中修改过属性标签的音频资源作为关键音频资源；

根据所述关键音频资源对所述神经网络模型进行优化。

第二方面，本申请实施例还提供一种音频资源处理装置，包括：获取模块、写入模块；

所述获取模块，用于采用预先训练的神经网络模型，对输入的音频资源进行属性分析，得到所述音频资源对应的属性标签和音频特征；

所述写入模块，用于将所述音频资源、以及所述音频资源对应的所述属性标签和所述音频特征写入数据库，其中，所述属性标签用于通过文字检索目标音频资源，所述音频特征用于通过音频文件检索目标音频资源。

可选地，所述获取模块，具体用于采用预先训练的神经网络模型，对输入的音频资源进行至少一个维度的属性分析，得到所述音频资源的至少一个属性标签及音频特征。

可选地，所述装置还包括：查找模块、确定模块；

所述获取模块，接收检索文字；

所述确定模块，用于根据所述检索文字确定所述检索文字对应的检索标签；

所述查找模块，用于根据所述检索标签，从所述数据库中，查找所述检索标签对应的候选音频资源；

所述确定模块，还用于从所述候选音频资源中确定目标音频资源。

可选地，所述获取模块，具体用于采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签。

可选地，若所述检索文字为关键字，所述获取模块，具体用于采用NLP算法，对所述关键字进行处理，确定与所述关键字的语义对应的标签为所述检索标签。

可选地，若所述检索文字为文本描述，所述获取模块，具体用于采用NLP算法，对所述文本描述进行分词处理，得到所述查询文本描述的多个词语，并对各词语进行词性标注；根据标注后的词性，确定所述多个词语中的主关键词和限定关键词；确定所述主关键词的语义对应的标签，和，所述限定关键词的语义对应的标签为所述检索标签。

可选地，所述获取模块，还用于接收检索音频样例；

所述确定模块，还用于采用所述神经网络模型，对所述检索音频样例进行属性分析，确定所述检索音频样例的分析结果；

所述查找模块，还用于根据所述分析结果，从所述数据库中，查找所述分析结果对应的候选音频资源；

所述查找模块，具体用于根据所述音频样例的检索标签，从所述数据库中预设检索范围内的音频资源中，查找所述音频样例的检索标签对应的所述候选音频资源；和/或，根据所述检索音频特征，以及所述数据库中预设检索范围内的音频资源的音频特征，查找与所述检索音频特征之间的距离满足预设值的所述候选音频资源。

可选地，若所述候选音频资源包括：多个音频资源；所述装置还包括：排序模块、展示模块；

所述排序模块，用于对所述多个音频资源进行排序；

所述展示模块，用于对所述多个音频资源的信息进行展示。

可选地，所述装置还包括：评分模块；

所述评分模块，用于根据每个音频资源的相关性评分、所述每个音频资源的质量评分、所述每个音频资源的项目契合度评分，确定所述每个音频资源的综合评分；其中，所述相关性评分用于表示所述每个音频资源与检索内容的相关性，所述项目契合度评分用于表示所述每个音频资源在项目中被使用的频次；

所述排序模块，具体用于根据所述多个音频资源的综合评分，对所述多个音频资源进行排序。

可选地，所述装置还包括：修改模块；

所述修改模块，用于响应输入的标签修改操作，将所述数据库中所述标签修改操作针对的音频资源的标签修改为目标属性标签。

可选地，所述装置还包括：优化模块；

所述优化模块，用于将预设时间段内，所述数据库中修改过属性标签的音频资源作为关键音频资源；根据所述关键音频资源对所述神经网络模型进行优化。

第三方面，本申请实施例还提供一种处理设备，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所提供的音频资源处理方法。

第四方面，本申请实施例还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述第一方面所提供的音频资源处理方法。

本申请的有益效果是：

本申请所提供的音频资源处理方法、装置、设备及存储介质中，可通过采用得到验证的多个音频资源标注样本，训练得到神经网络模型，并采用得到的神经网络模型，对音频资源进行属性分析，使得分析得到的音频资源的属性标签和音频特征准确性更高，根据音频资源及音频资源的属性标签、音频特征得到数据库，使得得到的数据库中音频资源的标签及特征准确性较高，从而根据输入的音频资源在数据库中检索获取目标音频资源时，检索效率高，且检索结果更加准确，避免了人工设定标签所带来的标签可靠性和准确性低的问题。

其次，采用多种检索内容的形式进行音频资源的检索，可以使得音频资源的检索效率更高，同时，检索结果准确性更高。

另外，通过预设方法，对检索结果进行排序，使得检索结果排序靠前的音频资源更加符合用户的去期望，从而使得用户可以获取满意的音频资源。

最后，通过采用改进后的主动学习算法，可以基于用户对音频资源标签的修改，对相应的神经网络模型进行优化，以使得采用优化后的神经网络模型进行音频资源的标签分析，得到的标签更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种音频资源处理系统框图；

图2为本申请实施例提供的一种音频资源处理方法的流程示意图；

图3为本申请实施例提供的另一种音频资源处理方法的流程示意图；

图4为本申请实施例提供的又一种音频资源处理方法的流程示意图；

图5为本申请实施例提供的另一种音频资源处理方法的流程示意图；

图6为本申请实施例提供的另一种音频资源处理方法的流程示意图；

图7为本申请实施例提供的一种音频资源处理装置的示意图；

图8为本申请实施例提供的另一种音频资源处理装置的示意图；

图9为本申请实施例提供的另一种音频资源处理装置的示意图；

图10为本申请实施例提供的又一种音频资源处理装置的示意图；

图11为本申请实施例提供的另一种音频资源处理装置的示意图；

图12为本申请实施例提供的又一种音频资源处理装置的示意图；

图13为本申请实施例提供的又一种音频资源处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

图1为本申请实施例提供的一种音频资源处理系统框图。该音频资源处理系统可以安装于计算机、服务器或者是终端设备上。安装有该频资源处理系统的设备可以用于执行本申请所提供的音频资源处理方法的步骤。如图1所示，该音频资源处理系统可以包括：前端交互界面模块、后端服务模块以及数据库模块；其中，后端服务模块还可以包括：智能属性分析模块、智能检索模块、智能排序模块。

前端交互界面模块：为用户与系统进行交互的入口，提供用户登录、批量上传音频资源、浏览音频数据库内容、显示音频属性、播放音频、修改音频标签、检索音频、下载音频等功能。后端服务模块：负责将用户指令分发给对应的模块(智能属性分析模块、智能检索模块、智能排序模块)进行处理，并将处理结果返回给交互界面模块，当以web形式部署时，还负责多用户并发处理。智能属性分析模块:负责对人声、音乐和音效等多种不同类型音频的属性进行分析，提取标签和特征。智能检索模块：负责解析用户输入的检索信息，检索信息可以包括：关键词、文本描述和音频样例等，理解用户意图，并在数据库中检索相关音频素材。智能排序模块：综合考虑音频本身的品质、音频资源和项目之间契合度两方面因素对检索结果进行重新排序，使得排在前面的检索结果更加符合用户预期。数据库模块：负责保存所有游戏音频资源、音频的属性标签和特征。

需要说明的是，上述音频资源处理系统的核心功能为音频资源管理和检索，以下结合三个应用场景，简单介绍该音频资源管理系统内的数据流向。

1)用户批量往系统数据库提交资源并浏览数据库

具体步骤如下：

S0、用户通过前端交互界面模块批量上传音频资源；

S1、后端服务模块将用户上传的音频资源分发给智能属性分析模块；

S2、智能属性分析模块在后台对音频资源进行智能分析，完成属性标签和特征的提取，并将提取的信息和音频资源写入数据库模块；

S3、后端服务模块从数据库模块读取资源；

S4、后端服务模块将从数据库模块读取的资源传给前端交互界面模块进行展示。

2)用户以检索信息(关键字或文本描述)进行检索

S5、用户通过前端交互界面模块提交关键字或文本描述；

S6、后端服务模块将用户输入的文本分发给智能检索模块，智能检索模块通过自然语言处理算法对用户输入的内容进行分析理解，并将其转化成候选标签列表；

S7、智能检索模块基于候选标签列表去数据库模块检索音频资源；

S8、数据库模块向智能检索模块返回库中符合要求的音频资源；

S9、智能检索模块对数据库模块返回的音频资源基于相关度进行排序；

S12、智能排序模块对顺序结果进行调整，使得排在前面的检索结果更加符合用户预期；

3)用户以检索信息(音频样例)进行检索

S5、用户通过前端交互界面模块提交音频样例；

S6、后端服务模块将用户输入的音频样例分发给智能检索模块；

S10、智能检索模块将音频样例转发给智能属性分析模块，智能属性分析模块对音频样例进行属性分析和特征提取；

S11、智能属性分析模块将提取的属性标签和特征信息返回给智能检索模块；

S7、智能检索模块基于属性标签和特征信息去数据库模块检索接近的音频资源；

S9、智能检索模块对数据库返回的音频资源基于相关度进行排序；

S12、智能排序模块对检索结果的顺序进行调整，使得排在前面的检索结果更加符合用户预期；

S4、后端服务模块将检索结果传给前端交互界面模块进行展示。

通过上述应用实例，可以对本实施例提供的音频资源处理系统中各个模块之间的数据处理流向有整体的概念。

如下通过多个实例对本申请所提供的音频资源处理方法进行示例说明。

图2为本申请实施例提供的一种音频资源处理方法的流程示意图，该音频资源处理方法可通过软件和/或硬件的方式实现。该方法的执行主体可以是计算机、控制器、服务器等具备数据处理功能的设备。如图2所示，该方法可以包括：

S101、采用预先训练的神经网络模型，对输入的音频资源进行属性分析，得到音频资源对应的属性标签和音频特征。

S102、将音频资源、以及音频资源对应的属性标签和音频特征写入数据库。

其中，属性标签用于通过文字检索目标音频资源，音频特征用于通过音频文件检索目标音频资源。需要说明的是，本实施例中，音频资源可以包括：影视、游戏制作中涉及到的全部音频素材，例如：人声(声优配音)，音乐(背景音乐、剧情配乐等)，音效(UI功能音效、环境音效、事件音效等)三类。当然，音频资源并不限于上述三类，为了便于方案的理解，本申请中仅以上述三类音频资源进行方案的解释说明。

现有方法中对数据库中的音频资源采用人工设定标签的方式进行标签设定，数据库中存储的标签的准确性和可靠性较低，从而导致根据用户输入的音频检索信息，在数据库中进行目标音频的检索，检索结果准确性也较低。

本实施例中，为了提高音频资源处理结果的准确性，可以基于人工设定的标签样本，训练神经网络模型，并根据训练得到的神经网络模型对用户输入的音频资源进行属性分析，获取音频资源对应的属性标签、及音频特征，其中，用户可以指示音频设计师，也即负责影视、游戏制作中所涉及的声音设计、声音资源创作和编辑的人员；属性标签也即音频资源的属性特征，例如：音频资源为哗啦的流水声，其对应的属性标签可以为：水流、河流等。对于任意的音频资源，其可以对应于至少一个属性标签，例如：对于音频资源为一段男声的朗读，其对应的属性标签可以为：男声、温柔、青年等。属性标签用于通过文字检索目标音频资源。也即，可以根据用户输入的文字检索信息，与数据库中存储的属性标签进行匹配，获取属性标签对应的目标音频资源。而音频特征用于通过音频文件检索目标音频资源。也即可以根据用户输入的音频样例，提取音频样例对应的音频特征，与数据库中存储的音频特征进行匹配，获取音频特征对应的目标音频资源。

可选地，为了使得数据库中存储的音频资源及音频资源的属性标签、音频特征更加全面，准确性更高。可以获取大量的音频资源，其中可以包括多种不同类型的音频资源，进行属性分析，获取音频资源的属性标签、及音频特征，并将不同的音频资源及其对应的属性标签、音频特征写入数据库中，以获取本实施例中进行音频检索时所需的音频数据库。

可选地，神经网络模型的训练分为下面几个模块：

数据收集：可以基于游戏音频设计师累积的素材和免费游戏音频资源网站下载的素材收集数据，并对收集到的数据进行预处理，使得所有数据具有一致的格式、声道、采样率等指标；

数据标注：对每一条数据由公司内部数据标注团队进行冗余标注，即保证每一条数据都经过多个人独立标注，不同人的标注信息互相验证，可以增加标签的可靠性；

训练神经网络:针对不同的数据类型，选择合适的深度神经网络结构，训练分类器。

综上，本实施例提供的音频资源处理方法，通过采用得到验证的多个音频资源标注样本，训练得到神经网络模型，并采用得到的神经网络模型，对音频资源进行属性分析，使得分析得到的音频资源的属性标签、及音频特征准确性更高，根据音频资源及音频资源的属性标签、音频特征得到数据库，使得得到的数据库中音频资源的标签及特征准确性较高，从而根据输入的音频资源在数据库中检索获取目标音频资源时，检索效率高，且检索结果更加准确，避免了人工设定标签所带来的标签可靠性和准确性低的问题。

可选地，上述步骤S101中，采用预先训练的神经网络模型，对输入的音频资源进行的属性分析，得到音频资源对应的属性标签和音频资源，可以包括：采用预先训练的神经网络模型，对输入的音频资源进行至少一个维度的属性分析，得到音频资源的至少一个属性标签及音频特征。

可以理解的是，音频资源的音频特征对应于音频资源的声音特征，而音频资源的属性标签对应于音频资源的文本特征。在进行音频资源检索时，根据用户输入的检索信息的不同，可以采用对应的音频资源的特征进行音频资源检索。

对于任意音频资源，其对应的属性标签可以包括多个，可以通过对音频资源的多维度分析，获取音频资源的至少一个属性标签。

可选地，由于每个音频资源对应的属性标签的个数不是唯一的，在对音频资源分析并获取属性标签时，本申请提供的音频资源处理系统中的智能属性分析模块可以涉及多个子任务，其中，一个子任务对应获取一个属性标签。由于需要对一段音频资源自动设置多个标签，对每一段音频资源几乎所有子任务都要运行一遍。如果用户一次性上传的资源量很大，串行逐次处理需要花费非常长的时间。因此，在本申请的音频资源处理系统中，智能属性分析模块会独立部署在服务器集群上，并行对用户上传的音频资源进行处理。而且，由于绝大部分子任务之间互相独立，子任务本身也可以并行执行。从而可以有效提高音频资源属性分析的效率。

可选地，音频资源的类型为：人声，至少一个属性标签为下述至少一个：声优标签、是否为同一声优的标签、性别标签、年龄标签、语言标签、声线风格标签；或者，

音频资源的类型为音乐，至少一个属性标签为下述至少一个：乐器标签、流派标签、情感标签；或者，

音频资源的类型为音效，至少一个属性标签为下述至少一个：功能标签、内容标签、类型标签。

在一些实施例中，针对音频资源为人声的属性分析，可以进行以下维度的分析：声优识别：给定一段人声，识别出自哪个声优；声优比对：给定两段人声，判断是否出自同一个声优；性别识别：给定一段人声，识别该声音面向角色的性别；年龄识别：给定一段人声，识别该声音面向角色的年龄(如少年、青年、老年等)；语言识别：给定一段人声，识别该声音使用的语言(如中文、英语、日语等)；声线风格识别：给定一段人声，识别该声音的声线风格(如温柔、低沉等)。

在另一些实施例中，针对音频资源为音乐的属性分析，可以进行以下维度的分析：乐器识别：给定一段音乐，识别出包含哪些乐器(如吉他、钢琴等)；流派识别：给定一段音乐，识别其流派(如电子、流行、古风等)；情感识别：给定一段音乐，识别其表达的情感(如喜庆、悲壮、忧郁等)。

在另一些实施例中，针对音频资源为音效的属性分析，可以进行以下维度的分析：功能识别：给定一段音效，识别其用途：如用于UI功能音效(各种系统和功能相关的音效，如道具的使用、拾取、丢弃、掉落、拆解装备、角色升级、UI界面的点击等音效)、场景还是人物，One-shot(只触发一次、不用于循环播放的音频，如按钮点击声、打雷声、挥砍声等)还是Loop(首尾无缝衔接、用于循环播放的音频，如持续的水流声，下雨声等；内容识别:给定一段音效，识别其中包含的内容元素，对每一元素给出标签(如风声、水声、脚步声等)，一段音效可以同时具有多个标签；类型识别：给定一段音效，在内容识别获得标签的基础上，进一步对每一标签下的各种子类型进行识别，例如在已知音效为水声的基础上，进一步识别水的各类属性标签，包括地区属性(瀑布，海洋，河流)，距离属性(远距离，中距离，近身)，状态属性(水流，水滴，水花)，自然属性(暴雨，小雨，雷阵雨)等更多属性标签。

可选地，对于不同类型的音频资源进行属性分析时，标签可以有不同的设置方式，例如针对音效的内容识别时，标签为“是”和“不是”(“是水声”和“不是水声”)，而针对音效的类型识别时，标签为“类型1”、“类型2”……“类型N”和“其他”(“流水声”、“波涛声”、“滴水声”和“其他”)。

需要说明的是，上述对于任意类型音频资源进行属性分析时，均可以采用机器学习或者是深度学习算法训练的神经网络模型进行分析。

图3为本申请实施例提供的另一种音频资源处理方法的流程示意图，可选地，如图3所示，该方法还可以包括：

S201、接收检索文字。

S202、根据检索文字确定检索文字对应的检索标签。

S203、根据检索标签，从数据库中，查找检索标签对应的候选音频资源。

在本实施例中，可以通过神经网络模型，对用户输入的音频资源对应的检索文字进行分析处理，得到检索文字对应的检索标签。

其中，检索文字也可以理解为检索关键信息，例如：可以通过关键词从数据库中进行候选音频资源的检索，如，用户输入关键词：水声，可以通过对该关键词的分析，寻找水声的近义词，如：河流声、流水声、雨声等，也即输入的检查内容对应的标签可以为：水声或是水声的近义词。进而从将数据库中，获取拥有标签水声及水声的近义词的音频资源，反馈给用户。

S204、从候选音频资源中确定目标音频资源。

需要说明的是，对于输入的任意的检索文字，均可以从数据库中检索到对应的多个音频资源，也即候选音频资源。可选地，可以采用预设的选择方法，从候选音频资源中确定目标音频资源反馈给用户，以使得用户获取到所期望的音频资源。

以下针对两种不同类型的检索文字，进行检索文字分析，得到检索文字对应的检索标签进行举例说明。

需要说明的是，检索文字可以为任意长度的文字信息，例如：一段文字、一个词语等。

可选地，若检索文字为关键字，则采用自然语言处理NLP算法，对检索文字进行处理，得到检索标签，可以包括：采用NLP算法，对关键字进行处理，确定与关键字的语义对应的标签为检索标签。

基于NLP算法，可以检索具有在语义上跟关键词接近的标签的音频资源。如输入关键词“水声”，可以对具有“水声”、“流水声”、“雨声”等一系列语义相关的标签对应的音频资源进行检索，而不仅仅局限于“水声”标签。从而一定程度上可以扩大检索范围，提高检索结果的准确度。

基于关键词的音频资源检索，实现过程可以为：假设用户输入的关键词为“水声”，采用NLP算法将用户输入的关键词转化为词向量表示，词向量是基于深度学习技术对词语的一种特征向量表示，词向量之间的距离可以度量对应词语之间的语义相似度，如“水声”和“雨声”在语义上比较接近，而“水声”和“风声”在语义上距离较远；对数据库中的每一个标签都计算其词向量与用户关键词的词向量之间的距离，并按照距离从小到大排序；保留距离小于一定阈值的标签，从而获得与用户输入关键词语义相近的候选标签列表，如“水声”、“流水声”、“雨声”等；在数据库中检索并返回具有候选标签列表中标签的音频资源。

图4为本申请实施例提供的又一种音频资源处理方法的流程示意图，可选地，如图4所示，若检索文字为文本描述，则采用NLP算法，对检索文字进行处理，得到检索标签，可以包括：

S301、采用NLP算法，对文本描述进行分词处理，得到查询文本描述的多个词语，并对各词语进行词性标注。

可选地，可以对文本描述进行智能分词和词性标注，获得主体关键词和限定性关键词。例如：用户输入“温柔低沉的男声”，通过智能分词得到“温柔”、“低沉”、“男声”三个词语，并利用词性识别技术，识别出“男声”是主体关键词，对应内容标签；“温柔”和“低沉”是限定关键词，对应风格标签。

S302、根据标注后的词性，确定多个词语中的主关键词和限定关键词。

上述对文本描述进行分词处理后，可以对得到的多个词语进行词性标注，根据标注后的词性，可以确定“男声”为主关键词，“温柔”、“低沉”为限定关键词。

S303、确定主关键词的语义对应的标签，和，限定关键词的语义对应的标签为检索标签。

可选地，可以确定主关键词的语义对应的标签为“男声”，限定关键词的语义对应的标签为“温柔”、“低沉”。进一步地，可以采用上述基于关键词的检索方法，检索出同时具有如<“温柔”，“低沉”，“男声”>、<“轻柔”，“低沉”，“男声”>、<“温和”，“低频”，“男声”>等标签组合的音频资源。

基于文本描述的音频资源检索，实现过程可以为：假设用户输入的文本，描述为“温柔低沉的男声”，采用NLP算法的智能分词技术，对文本描述进行解析，得到“温柔”、“低沉”、“男声”三个词语；采用词性识别技术，识别出“男声”是主体关键词，对应内容标签，“温柔”和“低沉”是限定关键词，对应风格标签；将“温柔”、“低沉”、“男声”三个词语都转化为词向量；对数据库中的每一段音频，计算其具有的标签能否在语义上同时覆盖(标签词向量之间的距离小于一定阈值)用户描述的标签，如果能(例如具有<“温柔”，“低沉”，“男声”>、<“轻柔”，“低沉”，“男声”>、<“温和”，“低频”，“男声”>等标签组合的音频资源)，则将对应的音频资源的索引加入候选列表中；从数据库中提取候选列表中的音频。

图5为本申请实施例提供的另一种音频资源处理方法的流程示意图，可选地，上述方法还可以包括：

S401、接收检索音频样例。

需要说明的是，在进行检索时，除了可以通过上述的检索文字进行检索外，也可以是通过检索音频样例进行检索，也即，用户输入一段音频样例，根据用户输入的音频样例，检索出与样例相似的音频。例如导入一段“流水声”的音频样例，可以自动检索出数据库中类似“流水声”的音频资源。

例如：用户上传一段游戏中的背景音乐，可以通过对该背景音乐进行属性分析，得到对应的属性标签及音频特征，例如：可以对背景音乐中包含的乐器类型、音乐流派等进行识别，得到属性标签：钢琴或者是流行乐等标签信息，从而可以根据标签：钢琴、流行乐等，在数据库中进行检索，将同样拥有标签钢琴、流行乐的音频资源反馈给用户。

S402、采用神经网络模型，对检索音频样例进行属性分析，确定检索音频样例的分析结果。

可选地，可以采用神经网络模型，对检索音频样例进行属性分析，得到检索音频样例的分析结果，其中，分析结果可以包括：音频样例的检索标签及检索音频特征。

S403、根据分析结果，从数据库中，查找分析结果对应的候选音频资源。

S404、从候选音频资源中确定目标音频资源。

可以根据音频样例的检索标签，从数据库中预设检索范围内的音频资源中，查找音频样例的检索标签对应的候选音频资源；和/或，根据音频样例的检索音频特征，以及数据库中预设检索范围内的音频资源的音频特征，查找与检索音频特征之间的距离满足预设值的候选音频资源。

可选地，基于音频样例的检索，需要用户提供一段音频样例和检索范围。检索范围可以是整个数据库、可以是某一标签下的所以音频资源、也可以是用户使用关键词或文本描述检索的结果。

首先通过智能属性分析模块，对用户输入的检索音频样例进行分析，提取音频样例的检索标签及检索音频特征。之后可以采用下述三种方式之一进行检索：

需要说明的是，音频样例的检索音频特征可以表示音频在特征空间的一个向量，本身不具备实际意义，但是两个音频特征之间距离的大小可以描述对应两段音频之间的相似程度。

例如：根据提取到的音频样例的检索标签进行检索，返回检索范围中标签与输入的音频样例的检索标签信息一致的音频资源；或者是，根据提取到的检索音频特征进行检索，返回检索范围中特征向量与输入的检索音频样例的检索音频特征距离小的音频资源；又或者是，根据提取到的音频样例的检索标签及检索音频特征进行检索，返回检索范围中标签与输入的音频样例的检索标签信息一致，并且特征向量与输入音频样例的检索音频特征距离小的音频资源。

可选地，在根据检索音频特征进行检索时，可以根据设定的距离阈值，确定数据库中音频资源的特征向量与输入的音频样例的检索音频特征距离小于预设阈值的音频资源为候选音频资源。

图6为本申请实施例提供的另一种音频资源处理方法的流程示意图，可选地，如图6所示，若候选音频资源包括：多个音频资源；则上述步骤S203、及步骤S404中，从候选音频资源中确定目标音频资源，可以包括：

S501、对多个音频资源进行排序。

S502、将排序后的多个音频资源的信息进行展示。

可选地，上述通过关键词、文本描述、音频样例进行音频资源检索后，可以从数据库中获取多个候选音频资源，而目标音频资源为候选音频资源中的一个。为了使得用户获取到满意的目标音频资源，可以采用预设方法对多个候选音频资源进行排序，使得排在前面的候选音频资源更加符合用户预期，并展示排序结果给用户，以使用户可以根据排序结果，获取更加满意的音频资源，从而极大提升了音频设计师的工作效率。

可选地，上述步骤S501中，对多个音频资源进行排序之前，方法还可以包括：根据每个音频资源的相关性评分、每个音频资源的质量评分、每个音频资源的项目契合度评分，确定每个音频资源的综合评分；其中，相关性评分用于表示每个音频资源与检索内容的相关性，项目契合度评分用于表示每个音频资源在项目中被使用的频次。

其中，音频资源的质量评分基于点击通过率指标，对单个音频本身的质量进行评价，提升质量高的音频在检索结果中的排序。音频资源的项目契合度评分可以基于协同过滤算法，度量音频与项目之间的契合度，提升与项目契合度高的音频在检索结果中的排序。

在一些实施例中，智能排序模块，可以综合考虑音频资源本身的品质、音频资源和项目之间契合度两方面因素对多个候选音频资源顺序进行调整，使得排在前面的检索结果更加符合用户预期。具体来说，对于候选音频资源列表中的每一个音频资源，可以按下述方式计算一个新的分数Q，并按这个分数重新排序，得分越高，排名越靠前。

Q＝w1*Q1+w2*Q2+w3*Q3

其中Q1为智能检索模块给出的相关性评分，计算方式为：

Q1＝20/(N+20)

其中N为音频资源在智能检索模块返回的候选音频资源列表中的排名，因此，从第一名开始，得分依次为20/21、20/22、20/23……,排名越靠前，得分越高。

Q2和Q3分别对应音频质量和与项目契合度的评分，w1、w2、w3为三项的权重系数，根据系统实际运行情况进行调整。

下面分别对音频资源质量评分、以及音频资源与项目契合度评分进行详细说明。

音频质量评分：基于点击通过率指标，对单个音频本身的质量进行评分，提升质量高的音频在检索结果中的排序。具体来说，可以从下面两个维度分别计算音频资源的点击通过率：

CTR1＝c1/c2

CTR2＝c2/c3

其中c1为一段音频资源被用户预览播放的次数，c2为一段音频资源呈现在页面上的次数，c3为一段音频资源被用户下载的次数。直观上来说，一段音频资源的CTR1越高，说明该段音频资源更能吸引用户注意力，一段音频资源的CTR2越高，说明该段音频资源的品质很高。整体的音频资源质量得分可以计算为：

Q2＝0.4*CTR1+0.6*CTR2

其中，CTR1和CTR2所占权重系数可以根据实际应用情况进行适应性调整，本申请不做具体限制。

音频资源与项目契合度评分：

基于协同过滤算法，度量音频资源与项目之间的契合度，提升与项目契合度高的音频资源在多个候选音频资源列表中的排序。这里的项目既可以指合作项目(对应多个用户)，也可以只单人项目(只对应一个用户)，形式上都可以表达为一组音频资源的集合。假设项目A使用了资源(k1，k2，k3，k4，k5，k6，k7)，项目B使用了资源(k1，k2，k3，k4，k5，k8，k9)，直观上两个项目用到资源有较高的重合度，因此两个项目比较接近，因此k6和k7很有可能与项目B的契合度较高，k8和k9很有可能与项目A的契合度也较高。协同过滤算法可以基于每个项目使用的资源列表，定量度量两个项目之间的相似度。

为了计算Q3，首先使用协同过滤算法，找到与当前用户所在项目A相似的所有项目的集合{B1、B2、B3……Bk}，于是Q3＝c/k。其中，c为一段音频在项目{B1、B2、B3……Bk}中出现的次数。

对多个音频资源进行排序，可以包括：根据多个音频资源的综合评分，对多个音频资源进行排序。

可选地，通过上述方法计算出每个候选音频资源对应的Q1、Q2、Q3后，可以根据预设的权重系数，进行加权平均计算，以得到每个候选音频资源的综合评分，从而根据评分结果，对多个候选音频资源按照评分从大到小的顺序进行排序。

可选地，本申请的方法还可以包括：响应输入的标签修改操作，将数据库中标签修改操作针对的音频资源的标签修改为目标属性标签。

在一些实施例中，根据智能属性分析模块对输入的音频资源进行属性分析，获取的属性标签难以保证百分之百正确，这一方面是由于音频资源的数量和种类繁多，有标注的训练数据几乎不可能覆盖到所有情况，另一方面，也由于很多标签设置标准相对主观，即使专业的音频设计师之间的意见也会存在分歧，因此，在使用过程中，用户难免需要对自动设置的标签进行人工调整。在使用过程中，系统会记录所有用户对标签的人工修改操作，并采用主动学习算法，基于用户对标签的修改，对预先训练的神经网络模型进行优化，从而根据优化后的模型，对用户输入的音频资源进行属性分析，提取标签信息，使得获取的标签信息更加准确，从而使得根据预先训练的神经网络模型自动设置的标签更加符合用户预期。

可选地，本申请的方法还可以包括：将预设时间段内，数据库中修改过属性标签的音频资源作为关键音频资源；根据关键音频资源对神经网络模型进行优化。

需要说明的是，本实施例中是采用主动学习模型来对数据库中音频资源的属性标签进行优化，在标准的主动学习模型中，算法需要根据某种策略自动选择一批关键数据让用户进行人工标注，而本申请中，采用主动学习算法进行模型优化时，可以直接将用户修改过标签的音频资源当成关键数据。在具体实时过程中，可以根据预设的时间周期，利用主动学习算法对预先训练的神经网络模型进行优化，举例来说，系统会记录一周内所有用户对人声标签年龄的修改，并在周末基于主动学习算法对年龄识别所对应的神经网络模型进行一轮迭代优化，随着迭代次数的增加，年龄识别所对应的神经网络模型自动设置的标签就会越来越接近用户预期。

综上所述，本申请所提供的音频资源处理方法，通过采用得到验证的多个音频资源标注样本，训练得到神经网络模型，并采用得到的神经网络模型，对音频资源进行属性分析，使得分析得到的音频资源的属性标签、及音频特征准确性更高，根据音频资源及音频资源的属性标签、音频特征得到数据库，使得得到的数据库中音频资源的标签及特征准确性较高，从而根据输入的音频资源在数据库中检索获取目标音频资源时，检索效率高，且检索结果更加准确，避免了人工设定标签所带来的标签可靠性和准确性低的问题。

下述对用以执行的本申请所提供的音频资源处理方法的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图7为本申请实施例提供的一种音频资源处理装置的示意图，如图6所示，该音频资源处理装置可包括：获取模块601、写入模块602；

获取模块601，用于采用预先训练的神经网络模型，对输入的音频资源进行属性分析，得到音频资源对应的属性标签和音频特征；

写入模块602，用于将音频资源、以及音频资源对应的属性标签和音频特征写入数据库，其中，属性标签用于通过文字检索目标音频资源，音频特征用于通过音频文件检索目标音频资源。

可选地，获取模块601，具体用于采用预先训练的神经网络模型，对输入的音频资源进行至少一个维度的属性分析，得到音频资源的至少一个属性标签及音频特征。

可选地，如图8所示，装置还包括：查找模块603、确定模块604；

获取模块601，具体用于接收检索文字；

确定模块604，用于根据检索文字确定检索文字对应的检索标签；

查找模块603，用于根据检索标签，从数据库中，查找检索标签对应的候选音频资源；

确定模块604，还用于从候选音频资源中确定目标音频资源。

可选地，获取模块601，具体用于采用自然语言处理NLP算法，对检索文字进行处理，得到检索标签。

可选地，若检索文字为关键字，获取模块601，具体用于采用NLP算法，对关键字进行处理，确定与关键字的语义对应的标签为检索标签。

可选地，若检索文字为文本描述，获取模块601，具体用于采用NLP算法，对文本描述进行分词处理，得到查询文本描述的多个词语，并对各词语进行词性标注；根据标注后的词性，确定多个词语中的主关键词和限定关键词；确定主关键词的语义对应的标签，和，限定关键词的语义对应的标签为检索标签。

可选地，获取模块601，还用于接收检索音频样例；

确定模块604，还用于采用神经网络模型，对检索音频样例进行属性分析，确定检索音频样例的分析结果；

查找模块603，还用于根据分析结果，从数据库中，查找分析结果对应的候选音频资源；

确定模块604，还用于从候选音频资源中确定目标音频资源。

可选地，分析结果包括：音频样例的检索标签及检索音频特征；

查找模块603，具体用于根据音频样例的检索标签，从数据库中预设检索范围内的音频资源中，查找音频样例的检索标签对应的候选音频资源；和/或，根据检索音频特征，以及数据库中预设检索范围内的音频资源的检索音频特征，查找与检索音频特征之间的距离满足预设值的候选音频资源。

可选地，若候选音频资源包括：多个音频资源；如图9所示，装置还包括：排序模块605、展示模块606；

排序模块605，用于对多个音频资源进行排序；

展示模块606，用于对多个音频资源的信息进行展示。

可选地，如图10所示，装置还包括：评分模块607；

评分模块607，用于根据每个音频资源的相关性评分、每个音频资源的质量评分、每个音频资源的项目契合度评分，确定每个音频资源的综合评分；其中，相关性评分用于表示每个音频资源与检索内容的相关性，项目契合度评分用于表示每个音频资源在项目中被使用的频次；

排序模块605，具体用于根据多个音频资源的综合评分，对多个音频资源进行排序。

可选地，如图11所示，装置还包括：修改模块608；

修改模块608，用于响应输入的标签修改操作，将数据库中标签修改操作针对的音频资源的标签修改为目标属性标签。

可选地，如图12所示装置还包括：优化模块609；

优化模块609，用于将预设时间段内，数据库中修改过属性标签的音频资源作为关键音频资源；根据关键音频资源对神经网络模型进行优化。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图13为本申请实施例提供的又一种音频资源处理装置的示意图，该装置可以集成于设备或者设备的芯片，该设备可以是具备音频资源处理功能的计算设备或服务器。

该音频资源处理装置包括：存储器702、处理器701。存储器702和处理器701通过总线连接。

存储器702用于存储程序，处理器701调用存储器702存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频资源处理方法，其特征在于，包括：

将所述音频资源、以及所述音频资源对应的所述属性标签和所述音频特征写入数据库，其中，所述属性标签用于通过文字检索目标音频资源，所述音频特征用于通过音频文件检索目标音频资源；

所述方法还包括：

接收检索音频样例；

从所述候选音频资源中确定目标音频资源。

2.根据权利要求1所述的方法，其特征在于，所述采用预先训练的神经网络模型，对输入的音频资源进行的属性分析，得到所述音频资源对应的属性标签和音频特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频资源的类型为：人声，所述至少一个属性标签为下述至少一个：声优标签、是否为同一声优的标签、性别标签、年龄标签、语言标签、声线风格标签；或者，

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收检索文字；

根据所述检索文字确定所述检索文字对应的检索标签；

从所述候选音频资源中确定目标音频资源。

5.根据权利要求4所述的方法，其特征在于，所述根据所述检索文字确定所述检索文字对应的检索标签，包括：

6.根据权利要求5所述的方法，其特征在于，若所述检索文字为关键字，所述采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签，包括：

7.根据权利要求5所述的方法，其特征在于，若所述检索文字为文本描述，所述采用自然语言处理NLP算法，对所述检索文字进行处理，得到所述检索标签，包括：

8.根据权利要求1所述的方法，其特征在于，所述分析结果包括：所述音频样例的检索标签及检索音频特征；

根据所述音频样例的检索标签，从所述数据库中预设检索范围内的音频资源中，查找所述音频样例的检索标签对应的所述候选音频资源；和/或，

9.根据权利要求4-8中任一所述的方法，其特征在于，若所述候选音频资源包括：多个音频资源；则所述从所述候选音频资源中确定目标音频资源，包括：

对所述多个音频资源进行排序；

将排序后的所述多个音频资源的信息进行展示。

10.根据权利要求9所述的方法，其特征在于，所述对所述多个音频资源进行排序之前，所述方法还包括：

所述对所述多个音频资源进行排序，包括：

11.根据权利要求1-8中任一所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据所述关键音频资源对所述神经网络模型进行优化。

13.一种音频资源处理装置，其特征在于，包括：获取模块、写入模块；

所述写入模块，用于将所述音频资源、以及所述音频资源对应的所述属性标签和所述音频特征写入数据库，其中，所述属性标签用于通过文字检索目标音频资源，所述音频特征用于通过音频文件检索目标音频资源；

所述装置还包括：确定模块、查找模块；

所述获取模块，还用于接收检索音频样例；

所述确定模块，用于采用所述神经网络模型，对所述检索音频样例进行属性分析，确定所述检索音频样例的分析结果；

所述查找模块，用于根据所述分析结果，从所述数据库中，查找所述分析结果对应的候选音频资源；

所述确定模块，用于从所述候选音频资源中确定目标音频资源。

14.一种处理设备，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-12任一项所述的音频资源处理方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述权利要求1-12任一项所述的音频资源处理方法。