CN109785859B

CN109785859B - 基于语音分析的管理音乐的方法、装置和计算机设备

Info

Publication number: CN109785859B
Application number: CN201910100398.9A
Authority: CN
Inventors: 李影
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2024-02-02
Anticipated expiration: 2039-01-31
Also published as: CN109785859A; WO2020155490A1

Abstract

本申请揭示了一种基于语音分析的管理音乐的方法、装置和计算机设备，其中方法包括：智能耳机接收到用户发出的采集音频片段的指令后，再判定用户佩戴所述智能耳机，则控制麦克风采集声音，得到音频信息；提取出所述音频信息中的频谱以及声纹信息；将所述频谱与预设的服务器中带有所述性别类型标签的音乐文件进行相似度计算；将相似度计算结果最相近的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；然后将所述目标音乐文件下载到所述智能耳机的存储器中。本申请自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。

Description

基于语音分析的管理音乐的方法、装置和计算机设备

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于语音分析的管理音乐的方法、装置和计算机设备。

背景技术

目前有听歌识曲的技术，是将音频文件(wav波形声音)进行傅里叶变换，可以得出这段录音的频谱，然后再与服务器中的音乐文件进行匹配看与哪首音乐文件的频谱相同。如果相同就说明音频文件是音乐文件中的音频。

用户在采集音频文件时，一般是在听歌过程中想起来了另一首歌，然后发出采集音频文件的指令；但是有时候将耳机放置在空地处，会使耳机被误操作而生成采集音频文件的指令，这样使耳机产生无用功，浪费不必要的计算资源。

发明内容

本申请的主要目的为提供一种自动识别指令的有效性后识别音乐的基于语音分析的管理音乐的方法、装置、计算机设备和存储介质。

为了实现上述发明目的，本申请提出一种基于语音分析的管理音乐的方法，包括：

智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；

判断所述佩戴值是否在预设的佩戴值范围内；

若是，判定用户佩戴所述智能耳机，并采集声音，得到音频信息；

提取出所述音频信息中的频谱以及声纹信息；

将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；

分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；

将最大的第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；

接收所述用户发送的下载指令，以下载所述目标音乐文件。

进一步地，所述音频信息包括第一歌词，所述目标音乐文件包括第二歌词文本，所述将所述目标音乐文件下载到所述智能耳机的存储器中的步骤之前，包括：

解析出所述音频信息中的第一歌词对应的第一歌词文本，并获取所述目标音乐文件的第二歌词文本；

计算所述第一歌词文本与所述第二歌词文本的相似度，得到第二相似度值；

判断所述第二相似度值是否高于预设的相似度阈值；

若是，生成下载目标音乐文件的指令。

进一步地，所述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，所述佩戴值是温度值，所述佩戴值范围是温度值范围；所述判断所述佩戴值是否在预设的佩戴值范围内的步骤，包括：

判断所述佩戴值的采集来源；

若判定所述采集来源是所述接触式温度传感器，从存储器中调用预设的温度值范围，以所述温度值范围作为所述佩戴值范围；

判断所述佩戴值是否在所述温度值范围内；

若所述佩戴值在所述温度值范围内，则判定用户佩戴所述智能耳机。

进一步地，所述将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型的步骤之前，包括：

将多个样本声纹信息以及样本声纹信息对应的性别输入到神经网络模型中，进行训练，得到所述性别判断模型。

进一步地，所述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：

将所述目标音乐文件的下载链接发送给指定的联系人。

将所述目标音乐文件所在的专辑中的其他音乐文件下载到所述存储器中。

进一步地，所述

播放所述目标音乐文件的步骤，包括：

获取所述目标音乐文件的脉冲编码调制信息；

将所述脉冲编码调制信息进行计算，得到所述目标音乐文件的分贝值；

根据所述分贝值以及预设的分贝阈值，调整所述智能耳机的输出功率；

以所述输出功率播放所述目标音乐文件。

本申请还提供一种基于语音分析的管理音乐的装置，包括：

获取佩戴模块，用于智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；

判断佩戴模块，用于判断所述佩戴值是否在预设的佩戴值范围内；

采集声音模块，用于若所述佩戴值在预设的佩戴值范围内，则判定用户佩戴所述智能耳机，并采集声音，得到音频信息；

提取模块，用于提取出所述音频信息中的频谱以及声纹信息；

判断性别模块，用于将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；

匹配计算模块，用于分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；

确定模块，用于将最大的第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；

下载模块，用于接收所述用户发送的下载指令，以下载所述目标音乐文件。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于语音分析的管理音乐的方法、装置和计算机设备，自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。识别出音乐文件后将音乐文件自动下载到智能耳机的存储器中，节省用户的下载时间；同时还自动根据音乐的标签来向用户推荐与音乐的标签相同的风格，给用户更好的体验。在识别音乐时，不仅通过频谱来识别音乐，还根据音乐的歌词来进行复核，使识别出的音乐文件更加准确。将下载的音乐发送给用户的朋友，以便用户与朋友分享音乐。

附图说明

图1为本申请一实施例的基于语音分析的管理音乐的方法的流程示意图；

图2为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图3为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图4为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图5为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图6为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图7为本申请一实施例的基于语音分析的管理音乐的装置的结构示意框图；

图8为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于语音分析的管理音乐的方法，包括步骤：

S1、智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；

S2、判断所述佩戴值是否在预设的佩戴值范围内；

S3、若是，判定用户佩戴所述智能耳机，并采集声音，得到音频信息；

S4、提取出所述音频信息中的频谱以及声纹信息；

S5、将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；

S6、分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；

S7、将最大的第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；

S8、接收所述用户发送的下载指令，以下载所述目标音乐文件。

如上述步骤S1所述，智能耳机是基于普通耳机的基础上，还加载了存储器、通信模块、处理器、麦克风的智能硬件。智能耳机上设置有按键、传感器等输入装置，用户通过输入装置在智能耳机上发出采集音频片段的指令后，智能耳机控制智能耳机上的佩戴传感器采集的佩戴值，佩戴传感器是检测智能耳机是否与用户接触并佩戴的传感器，因用户佩戴智能耳机的时候与用户没有佩戴智能耳机时，智能耳机处于不同的位置状态，根据智能耳机上设置的不同传感器以检测出不同的位置状态的值，从而来判断用户是否佩戴了该智能耳机。佩戴传感器接收到智能耳机发出的指令后，采集与用户的接触程度，得到佩戴值，然后将得到的佩戴值反馈给智能耳机。

如上述步骤S2所述，智能耳机接收到佩戴传感器采集的佩戴值后，与预设的佩戴值范围进行比较，判断采集的佩戴值是否在该范围内，如果在，进行判定该耳机是用户戴着的，因此判定智能耳机接收到采集音频片段是指令是由用户发出的，不是不小心碰到的误操作。其中，佩戴值范围是用户根据自身的身体素质、佩戴传感器的具体类型、佩戴传感器在智能耳机上的具体位置而设置的。

如上述步骤S3所述，当佩戴值在预设的佩戴值范围内，则说明用户是佩戴了智能耳机的，因此智能耳机确认采集音频片段的指令不是误操作而是用户操作的，然后控制麦克风开始采集周围的声音，将麦克风采集的声音形成音频信息。在一具体实施例中，智能耳机接收到上述指令后，控制麦克风连续采集声音10秒，得到时长为10秒的音频信息。

如上述步骤S4所述，智能耳机首先将音频信息进行预处理，包括将音频信息进行加窗处理，得到音频片断序列，然后对音频片断序列中的每一帧进行快速傅立叶变换，得到时序频谱集合。然后对上述时序频谱集合进行基督提取，得到基频序列，这个基频序列实际上就是上述音频信息的音高随时变化的函数。然后将基频序列进行音名转换，得到音名序列。最后将音名序列进行音符切分，最终得到该音频信息的频谱。也可以采用其他公开文献中记载的提取频谱的方法来对本申请中的音频信息进行提取频谱。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。音频信息中是包括了人唱歌时发出的声音。每个人的声音都是不相同的，对应的声纹也是不相同的。智能耳机将音频信号进行分帧，提取语音声学特征，并将语音声学特征进行处理，计算得到声纹信息，该声纹信息中音频信息中演唱者的声纹信息。

如上述步骤S5所述，将声纹信息输入到性别判断模型中，性别判断模型输出该声纹信息的性别类型。因男性的声音与女性的声音有明显不同的地方。其中，在一具体实施例中，性别判断模型的性别类型包括男性、女性、中性。因有些唱歌的人声音在艺术上不太好区分出性别来。

如上述步骤S6所述，根据性别判断模型输出的性别类型，在将音频信息中的频谱与预设的服务器中的音乐文件进行相似度计算时，将带有声纹信息的性别类型的标签的音乐文件筛选出来，只与筛选出来的音乐文件进行相似度计算，减小计算的对象，提高计算的速度。智能耳机在将音频信息中的频谱每与一个带有上述性别标签的音乐文件进行相似度计算后，得到一个第一相似度值，计算多次，得到多个音乐文件对应的第一相似度值。预设的服务器是工作人员预先设置的，用于存储音乐文件的服务器。

如上述步骤S7所述，将最高的第一相似度值对应的音乐文件确定为目标音乐文件。服务器中具有多个音乐文件，每个音乐文件均有与其对应的频谱。智能耳机通过通信模块访问云端，将音频信息的频谱与云端的服务器中的音乐文件的频谱依次比对，看音频信息的频谱是否与上述音乐文件的频谱相同或属于音乐文件的频谱的一部分，如果是，则判定该音乐文件为目标音乐文件，同时获取该目标音乐文件信息，播放目标音乐文件。

如上述步骤S8所述，智能耳机播放目标音乐文件后，生成一个是否下载目标音乐文件的对话框，以供用户选择是否下载。用户在该对话框中选择确认下载后，智能耳机将目标音乐文件从云端下载下来，存储在智能耳机的存储器中。便于用户收藏这首音乐。

在一个实施例中，上述音频信息包括第一歌词，上述目标音乐文件包括第二歌词文本，上述将所述目标音乐文件下载到所述智能耳机的存储器中的步骤之前，包括：

S801、解析出所述音频信息中的第一歌词对应的第一歌词文本，并获取所述目标音乐文件的第二歌词文本；

S802、计算所述第一歌词文本与所述第二歌词文本的相似度，得到第二相似度值；

S803、判断所述第二相似度值是否高于预设的相似度阈值；

S804、若是，生成下载目标音乐文件的指令。

本实施例中，音频信息中包含有第一歌词，即音频信息中是一个人在唱歌，发出了文字。智能耳机获取到音频信息，对音频信息进行语义分析，识别出其中的文本，即第一歌词文本。音乐文件中包括音乐的音频、演唱者、专辑名称、歌名、歌词文本等各种与音乐相关的信息。然后智能耳机读取目标音乐文件中的第二歌词文本，将第一歌词文本与第二歌词文本匹配计算得到两者的相似度，匹配计算的方法为：计算第一歌词文本与第二歌词文本的相似度，得到第二相似度值；具体计算方法是，以第一歌词文本的字符与第二歌词文本中的字符的重合度，若第一歌词文本的全部字符与第二歌词文本中的部分字符或全部字符完全重合，则两者的相似度是100％。相似度阈值是工作人员预先设置的用于判定第一歌词文本是否属于第二歌词文本中的临界值，设置的相似度阈值的大小基于语义分析技术中将音频信息转换成文本的成功率。判断上述第二相似度值是否高于预设的相似度阈值，若第二相似度值高于相似度阈值，说明第一歌词文本与第二歌词文本完全相同或第一歌词文本与第二歌词文本的大部分相同，则判定第一歌词文本与第二歌词文本匹配，则进一步确定音频信息中的频谱就是目标音乐文件中的音乐。因而，生成下载目标音乐文件的指令。在音乐中，有很多音乐的频谱是相同的，比如《常回家看看》中的“老人不图儿女为家做多大贡献”和《大中国》“家里盘着两条龙是长江与黄河”，这两句的频谱是一样的，如果只是单纯的通过这一句歌的频谱来查找目标音乐文件，很有可能查找错误，因此，本方案通过进一步的比对音频信息中的歌词来使智能耳机更准确的下载到用户需要听到的音乐。

在一个实施例中，上述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，所述佩戴值是温度值，所述佩戴值范围是温度值范围；上述判断所述佩戴值是否在预设的佩戴值范围内的步骤，包括：

S21、判断所述佩戴值的采集来源；

S22、若判定所述采集来源是所述接触式温度传感器，从存储器中调用预设的温度值范围，以所述温度值范围作为所述佩戴值范围；

S24、判断所述佩戴值是否在所述温度值范围内；

S25、若所述佩戴值在所述温度值范围内，则判定用户佩戴所述智能耳机。

本实施例中，接触式温度传感器是用于检测与其直接接触的物体的温度，其安装在智能耳机的扬声器处，当用户佩戴上智能耳机时，接触式温度传感器与用户的耳机或头部接触，采集到与用户接触的头部的位置的温度值；当用户没有佩戴上智能耳机时，接触式温度传感器没有接触人体，与空气接触或是与其他物体接触，采集到错误的信号或者是其他物体的温度值。温度值范围是用户根据自身的身体素质以及与用户接触的位置的正常温度值设置的。当用户没有设置时，智能耳机自动通过上述通信模块访问对应的服务器而获取到正常人体温度值范围。在其他实施例中，佩戴传感器还可以是设置在智能耳机处的与人体接触的压力传感器、距离传感器等。智能耳机获取到佩戴值后，根据佩戴值的大小以及单位，可以获取到采集来源，即佩戴传感器的具体类型。当佩戴值是一个温度值，则判定采集来源是一个温度传感器，即设置在耳机上与人的耳机接触的接触式温度传感器。然后从存储器中调用出该接触式温度传感器的温度值范围，将该温度值范围作为上述佩戴值范围。然后将上述佩戴值与佩戴值范围进行比较，看佩戴值是否在佩戴值范围内，如果在，就判定用户佩戴了智能耳机。

在一个实施例中，上述将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型的步骤之前，包括：

S501、将多个样本声纹信息以及样本声纹信息对应的性别输入到神经网络模型中，进行训练，得到所述性别判断模型。

本实施例中，本实施例中，在对性别判断模型进行训练时，以神经网络为基本模型，将多个预先采集的样本声纹信息输入到神经网络中，并对样本声纹信息的性别作为输出的结果。具体的，可以先将全部的男性的样本声纹信息输入到神经网络中，输出结果全部是男性。然后将全部的女性的样本声纹信息输入到神经网络中，输出的结果全部是女性。如此训练。神经网络模型基于男性的样本声纹信息以及女性的样本声纹信息，分别得到男性的参数以及女性的参数，对应的得到了基于神经网络模型的性别判断模型。在另一具体实施例中，在训练时，还有中性的样本声纹信息，训练过程与上述训练过程一样。则最终得到了可以识别男性、女性、中性的性别判断模型。该模型只是用于识别声音的特征，而不是用于识别用户的本身的性别。

在一个实施例中，上述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：

S9、将所述目标音乐文件的下载链接发送给指定的联系人。

本实施例中，智能耳机下载了目标音乐文件后，再在存储器中查找联系方式，该联系方式是用户的亲密朋友的联系电话或邮箱，智能耳机将下载链接通过通信模块发送给上述邮箱或手机，便于用户与他人一起分享喜好的音乐。

S10、将所述目标音乐文件所在的专辑中的其他音乐文件下载到所述存储器中。

本实施例中，用户喜欢一首音乐，对应的用户也想听与这首音乐相关联的其他音乐。一般，每首音乐均会在一个专辑中，每个音乐文件中的信息也包括专辑信息。智能耳机读取目标音乐文件中的专辑信息，再访问云端，查找带有该专辑信息的其他音乐文件，然后将其他音乐文件下载到智能耳机的存储器中，直接下载用户喜欢的音乐，给用户更好的服务体验。

在一个实施例中，上述播放所述目标音乐文件的步骤，包括：

S71、获取所述目标音乐文件的脉冲编码调制信息；

S72、将所述脉冲编码调制信息进行计算，得到所述目标音乐文件的分贝值；

S73、根据所述分贝值以及预设的分贝阈值，调整所述智能耳机的输出功率；

S74、以所述输出功率播放所述目标音乐文件。

本实施例中，智能耳机确定了目标音乐文件后，在服务器中获取到该目标音乐文件的具体信息，其中包括了目标音乐文件的脉冲编码调制信息(即PCM)。然后对PCM进行处理，得到目标音乐文件的分贝值。具体的计算过程为：首先对PCM进行滤波和放大处理，然后进行分帧，对每一帧进行采样，然后累加每个采样点的值，得到一个总值，然后将该总值除以采样个数，得到声音平均能量值。再将平均能量值做100与32767之间的等比量化，得到1-100的量化值，即目标音乐文件输出的分贝值。然后调用用户预设的分贝阈值，该分贝阈值是用户根据自身的喜好设置的最舒适与最习惯的听到的音乐的声音大小。智能耳机根据分贝值与分贝阈值的大小，同时获取到智能耳机的扬声器的额定功率，将分贝阈值乘以额定功率，再除以分贝值，得到智能耳机的扬声器的输出功率。即，以该输出功率播放该目标音乐文件，可以使扬声器输出目标音乐文件的声音大小是分贝阈值。然后控制扬声器以该输出功率播放目标音乐文件。因每个音乐文件的分贝值不同，这样播放出来的声音大不一样，如果第二个音乐文件的分贝值是第一个音乐文件的分贝值的两倍，而第一首音乐文件切换到第二个音乐文件播放时，智能耳机的功率不变，这样会使用户突然接收到非常高分贝的音乐，对用户的耳朵会有一定的损害，因此，在播放目标音乐文件前，先计算目标音乐文件的分贝值，再根据分贝值以及用户设置的分贝阈值，对智能耳机的输出功率进行调整，使目标音乐文件播放出来的声音大小符合用户的需要，给用户带来良好的体验效果。

S11、获取所述目标音乐文件的标签；

S12、将服务器中带有所述标签的音乐文件的链接加载至输出端，以供用户选择下载。

在本实施例中，服务器中的每个音乐文件均带有至少一个标签，根据音乐文件的类型、风格、演唱者、填词人、作曲者等各方面添加不同的标签。智能耳机将目标音乐文件下载到存储器中后，读取目标音乐文件的详细信息，获取详细信息中的全部标签。然后根据标签在服务器中进行检索，获取到与目标音乐文件歌词风格相近、频谱风格相近的音乐文件给用户。然后将服务器中的对应的音乐文件的下载链接加载至输出端，用户通过输出端查看音乐文件的链接，选择喜欢的音乐文件下载。智能耳机上拥有显示屏作为上述输出端。另一具体实施例中，智能耳机与用户的手机端连接，手机端的显示屏作为上述输出端，智能耳机将链接加载至用户的手机上，以供用户选择下载。

在一个实施例中，上述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后包括：

S81、获取所述存储器中的所有音乐文件的各音乐品质类型的数量；

S82、将数量最多的音乐品质类型确定为目标音乐品质；

S83、将服务器中的目标音乐文件的目标音乐品质对应的音乐文件到存储器中。

本实施例中，音乐品质包括高品质、标准音质、普通音质，是以用于区分音乐的质量，一般音乐的质量越高，其音乐对应的音频的位速越高。高品质一般是320kbps,标准音质是128kbps的，普通音质是112kbps以下的。高品质音乐的质感更好，但是对应的存储空间大。不同的人对音质要求不一样。智能耳机先访问存储器中的已有的音乐文件，获取各音乐品质类型的数量，将数量最多的音乐品质类型判定为用户喜欢的音乐品质，即目标音乐品质。因此，在下载该目标音乐文件时，以用户的喜好的目标音乐品质下载，给客户更好的服务体验。

综上所述，本申请的基于语音分析的管理音乐的方法，自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。识别出音乐文件后将音乐文件自动下载到智能耳机的存储器中，节省用户的下载时间；同时还自动根据音乐的标签来向用户推荐与音乐的标签相同的风格，给用户更好的体验。在识别音乐时，不仅通过频谱来识别音乐，还根据音乐的歌词来进行复核，使识别出的音乐文件更加准确。将下载的音乐发送给用户的朋友，以便用户与朋友分享音乐。

参照图2，本申请实施例中还提供一种基于语音分析的管理音乐的装置，包括：

获取佩戴模块1，用于智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；

判断佩戴模块2，用于判断所述佩戴值是否在预设的佩戴值范围内；

采集声音模块3，用于若所述佩戴值在预设的佩戴值范围内，则判定用户佩戴所述智能耳机，并采集声音，得到音频信息；

提取模块4，用于提取出所述音频信息中的频谱以及声纹信息；

判断性别模块5，用于将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；

匹配计算模块6，用于分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；

确定模块7，用于将最大的第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；

下载模块8，用于接收所述用户发送的下载指令，以下载所述目标音乐文件。

本实施例中，智能耳机是基于普通耳机的基础上，还加载了存储器、通信模块、处理器、麦克风的智能硬件。智能耳机上设置有按键、传感器等输入装置，用户通过输入装置在智能耳机上发出采集音频片段的指令后，获取佩戴模块1控制智能耳机上的佩戴传感器采集的佩戴值，佩戴传感器是检测智能耳机是否与用户接触并佩戴的传感器，因用户佩戴智能耳机的时候与用户没有佩戴智能耳机时，智能耳机处于不同的位置状态，根据智能耳机上设置的不同传感器以检测出不同的位置状态的值，从而来判断用户是否佩戴了该智能耳机。佩戴传感器接收到智能耳机发出的指令后，采集与用户的接触程度，得到佩戴值，然后将得到的佩戴值反馈给智能耳机。

智能耳机接收到佩戴传感器采集的佩戴值后，判断佩戴模块2与预设的佩戴值范围进行比较，判断采集的佩戴值是否在该范围内，如果在，进行判定该耳机是用户戴着的，因此判断佩戴模块2判定智能耳机接收到采集音频片段是指令是由用户发出的，不是不小心碰到的误操作。其中，佩戴值范围是用户根据自身的身体素质、佩戴传感器的具体类型、佩戴传感器在智能耳机上的具体位置而设置的。

当佩戴值在预设的佩戴值范围内，则说明用户是佩戴了智能耳机的，因此智能耳机确认采集音频片段的指令不是误操作而是用户操作的，然后采集声音模块3控制麦克风开始采集周围的声音，将麦克风采集的声音形成音频信息。在一具体实施例中，智能耳机接收到上述指令后，控制麦克风连续采集声音10秒，得到时长为10秒的音频信息。

提取模块4首先将音频信息进行预处理，包括将音频信息进行加窗处理，得到音频片断序列，然后对音频片断序列中的每一帧进行快速傅立叶变换，得到时序频谱集合。然后对上述时序频谱集合进行基督提取，得到基频序列，这个基频序列实际上就是上述音频信息的音高随时变化的函数。然后将基频序列进行音名转换，得到音名序列。最后将音名序列进行音符切分，最终得到该音频信息的频谱。也可以采用其他公开文献中记载的提取频谱的方法来对本申请中的音频信息进行提取频谱。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。音频信息中是包括了人唱歌时发出的声音。每个人的声音都是不相同的，对应的声纹也是不相同的。提取模块4将音频信号进行分帧，提取语音声学特征，并将语音声学特征进行处理，计算得到声纹信息，该声纹信息中音频信息中演唱者的声纹信息。

判断性别模块5将声纹信息输入到性别判断模型中，性别判断模型输出该声纹信息的性别类型。因男性的声音与女性的声音有明显不同的地方。其中，在一具体实施例中，性别判断模型的性别类型包括男性、女性、中性。因有些唱歌的人声音在艺术上不太好区分出性别来。

匹配计算模块6根据性别判断模型输出的性别类型，在将音频信息中的频谱与预设的服务器中的音乐文件进行相似度计算时，匹配计算模块6将带有声纹信息的性别类型的标签的音乐文件筛选出来，只与筛选出来的音乐文件进行相似度计算，减小计算的对象，提高计算的速度。智能耳机在将音频信息中的频谱每与一个带有上述性别标签的音乐文件进行相似度计算后，得到一个第一相似度值，计算多次，得到多个音乐文件对应的第一相似度值。预设的服务器是工作人员预先设置的，用于存储音乐文件的服务器。

匹配计算模块6在将音频信息中的频谱与一个带有上述性别标签的音乐文件进行相似度计算后，得到一个第一相似度值，计算多次，得到多个音乐文件对应的第一相似度值，确定模块7将值最高的第一相似度值对应的音乐文件确定为目标音乐文件。服务器中具有多个音乐文件，每个音乐文件均有与其对应的频谱。智能耳机通过通信模块访问云端，将音频信息的频谱与云端的服务器中的音乐文件的频谱依次比对，看音频信息的频谱是否与上述音乐文件的频谱相同或属于音乐文件的频谱的一部分，如果是，则判定该音乐文件为目标音乐文件，同时获取该目标音乐文件信息，播放目标音乐文件。

智能耳机播放目标音乐文件后，生成一个是否下载目标音乐文件的对话框，以供用户选择是否下载。用户在该对话框中选择确认下载后，下载模块8将目标音乐文件从云端下载下来，存储在智能耳机的存储器中。便于用户收藏这首音乐。

参照图3，在一个实施例中，上述基于语音分析的管理音乐的装置，还包括：

解析歌词模块801，用于解析出所述音频信息中的第一歌词对应的第一歌词文本，并获取所述目标音乐文件的第二歌词文本；

相似度计算模块802，用于计算所述第一歌词文本与所述第二歌词文本的相似度，得到第二相似度值；

判断相似度模块803，用于判断所述第二相似度值是否高于预设的相似度阈值；

生成指令模块804，用于若所述第二相似度值高于预设的相似度阈值，则生成下载目标音乐文件的指令。

本实施例中，音频信息中包含有第一歌词，即音频信息中是一个人在唱歌，发出了文字。解析歌词模块801获取到音频信息，对音频信息进行语义分析，识别出其中的文本，即第一歌词文本。音乐文件中包括音乐的音频、演唱者、专辑名称、歌名、歌词文本等各种与音乐相关的信息。然后解析歌词模块801读取目标音乐文件中的第二歌词文本，相似度计算模块802将第一歌词文本与第二歌词文本匹配计算得到两者的相似度，匹配计算的方法为：计算第一歌词文本与第二歌词文本的相似度，得到第二相似度值；具体计算方法是，以第一歌词文本的字符与第二歌词文本中的字符的重合度，若第一歌词文本的全部字符与第二歌词文本中的部分字符或全部字符完全重合，则两者的相似度是100％。相似度阈值是工作人员预先设置的用于判定第一歌词文本是否属于第二歌词文本中的临界值，设置的相似度阈值的大小基于语义分析技术中将音频信息转换成文本的成功率。判断相似度模块803判断上述第二相似度值是否高于预设的相似度阈值，若第二相似度值高于相似度阈值，说明第一歌词文本与第二歌词文本完全相同或第一歌词文本与第二歌词文本的大部分相同，则判定第一歌词文本与第二歌词文本匹配，则进一步确定音频信息中的频谱就是目标音乐文件中的音乐。因而，生成指令模块804生成下载目标音乐文件的指令。在音乐中，有很多音乐的频谱是相同的，比如《常回家看看》中的“老人不图儿女为家做多大贡献”和《大中国》“家里盘着两条龙是长江与黄河”，这两句的频谱是一样的，如果只是单纯的通过这一句歌的频谱来查找目标音乐文件，很有可能查找错误，因此，本方案通过进一步的比对音频信息中的歌词来使智能耳机更准确的下载到用户需要听到的音乐。

在一个实施例中，上述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，所述佩戴值是温度值，所述佩戴值范围是温度值范围；所述判断佩戴模块2包括：

第一判断单元，用于判断所述佩戴值的采集来源；

确定单元，用于若判定所述采集来源是所述接触式温度传感器，从存储器中调用预设的温度值范围，以所述温度值范围作为所述佩戴值范围；

第二判断单元，用于判断所述佩戴值是否在所述温度值范围内；

判定单元，用于若所述佩戴值在所述温度值范围内，则判定用户佩戴所述智能耳机。

本实施例中，接触式温度传感器是用于检测与其直接接触的物体的温度，其安装在智能耳机的扬声器处，当用户佩戴上智能耳机时，接触式温度传感器与用户的耳机或头部接触，采集到与用户接触的头部的位置的温度值；当用户没有佩戴上智能耳机时，接触式温度传感器没有接触人体，与空气接触或是与其他物体接触，采集到错误的信号或者是其他物体的温度值。温度值范围是用户根据自身的身体素质以及与用户接触的位置的正常温度值设置的。在其他实施例中，佩戴传感器还可以是设置在智能耳机处的与人体接触的压力传感器、距离传感器等。智能耳机获取到佩戴值后，第一判断单元根据佩戴值的大小以及单位，可以获取到采集来源，即佩戴传感器的具体类型。当佩戴值是一个温度值，则判定采集来源是一个温度传感器，即设置在耳机上与人的耳机接触的接触式温度传感器。然后确定单元从存储器中调用出该接触式温度传感器的温度值范围，将该温度值范围作为上述佩戴值范围。然后第二判断单元将上述佩戴值与佩戴值范围进行比较，看佩戴值是否在佩戴值范围内，如果在，判定单元就判定用户佩戴了智能耳机。

参照图4，在一个实施例中，上述基于语音分析的管理音乐的装置，还包括：

训练模块501，用于将多个样本声纹信息以及样本声纹信息对应的性别输入到神经网络模型中，进行训练，得到所述性别判断模型。

本实施例中，训练模块501在对性别判断模型进行训练时，以神经网络为基本模型，将多个预先采集的样本声纹信息输入到神经网络中，并对样本声纹信息的性别作为输出的结果。具体的，可以先将全部的男性的样本声纹信息输入到神经网络中，输出结果全部是男性。然后将全部的女性的样本声纹信息输入到神经网络中，输出的结果全部是女性。如此训练。神经网络模型基于男性的样本声纹信息以及女性的样本声纹信息，分别得到男性的参数以及女性的参数，对应的得到了基于神经网络模型的性别判断模型。在另一具体实施例中，在训练时，还有中性的样本声纹信息，训练过程与上述训练过程一样。则最终得到了可以识别男性、女性、中性的性别判断模型。该模型只是用于识别声音的特征，而不是用于识别用户的本身的性别。

参照图5，在一个实施例中，上述基于语音分析的管理音乐的装置，还包括：

发送模块9，用于将所述目标音乐文件的下载链接发送给指定的联系人。

本实施例中，智能耳机下载了目标音乐文件后，再在存储器中查找联系方式，该联系方式是用户的亲密朋友的联系电话或邮箱，发送模块9将下载链接通过通信模块发送给上述邮箱或手机，便于用户与他人一起分享喜好的音乐。

参照图6，在一个实施例中，上述基于语音分析的管理音乐的装置，还包括：

存储模块10，用于将所述目标音乐文件所在的专辑中的其他音乐文件下载到所述存储器中。

本实施例中，用户喜欢一首音乐，对应的用户也想听与这首音乐相关联的其他音乐。一般，每首音乐均会在一个专辑中，每个音乐文件中的信息也包括专辑信息。存储模块10读取目标音乐文件中的专辑信息，再访问云端，查找带有该专辑信息的其他音乐文件，然后将其他音乐文件下载到智能耳机的存储器中，直接下载用户喜欢的音乐，给用户更好的服务体验。

在一个实施例中，上述确定模块7包括：

获取单元，用于获取所述目标音乐文件的脉冲编码调制信息；

计算单元，用于将所述脉冲编码调制信息进行计算，得到所述目标音乐文件的分贝值；

调整单元，用于根据所述分贝值以及预设的分贝阈值，调整所述智能耳机的输出功率；

播放单元，用于以所述输出功率播放所述目标音乐文件。

本实施例中，智能耳机确定了目标音乐文件后，获取单元在服务器中获取到该目标音乐文件的具体信息，其中包括了目标音乐文件的脉冲编码调制信息(即PCM)。然后计算单元对PCM进行处理，得到目标音乐文件的分贝值。计算单元具体的计算过程为：首先对PCM进行滤波和放大处理，然后进行分帧，对每一帧进行采样，然后累加每个采样点的值，得到一个总值，然后将该总值除以采样个数，得到声音平均能量值。再将平均能量值做100与32767之间的等比量化，得到1-100的量化值，即目标音乐文件输出的分贝值。然后调整单元调用用户预设的分贝阈值，该分贝阈值是用户根据自身的喜好设置的最舒适与最习惯的听到的音乐的声音大小。调整单元根据分贝值与分贝阈值的大小，同时获取到智能耳机的扬声器的额定功率，将分贝阈值乘以额定功率，再除以分贝值，得到智能耳机的扬声器的输出功率。即，以该输出功率播放该目标音乐文件，可以使扬声器输出目标音乐文件的声音大小是分贝阈值。然后播放单元控制扬声器以该输出功率播放目标音乐文件。因每个音乐文件的分贝值不同，这样播放出来的声音大不一样，如果第二个音乐文件的分贝值是第一个音乐文件的分贝值的两倍，而第一首音乐文件切换到第二个音乐文件播放时，智能耳机的功率不变，这样会使用户突然接收到非常高分贝的音乐，对用户的耳朵会有一定的损害，因此，在播放目标音乐文件前，先计算目标音乐文件的分贝值，再根据分贝值以及用户设置的分贝阈值，对智能耳机的输出功率进行调整，使目标音乐文件播放出来的声音大小符合用户的需要，给用户带来良好的体验效果。

参照图7，在一个实施例中，上述基于语音分析的管理音乐的装置，还包括：

获取标签模块11，用于获取所述目标音乐文件的标签；

加载链接模块12，用于将服务器中带有所述标签的音乐文件的链接加载至输出端，以供用户选择下载。

在本实施例中，服务器中的每个音乐文件均带有至少一个标签，根据音乐文件的类型、风格、演唱者、填词人、作曲者等各方面添加不同的标签。智能耳机将目标音乐文件下载到存储器中后，获取标签模块11读取目标音乐文件的详细信息，获取详细信息中的全部标签。然后根据标签在服务器中进行检索，获取到与目标音乐文件歌词风格相近、频谱风格相近的音乐文件给用户。然后加载链接模块12将服务器中的对应的音乐文件的下载链接加载至输出端，用户通过输出端查看音乐文件的链接，选择喜欢的音乐文件下载。智能耳机上拥有显示屏作为上述输出端。另一具体实施例中，智能耳机与用户的手机端连接，手机端的显示屏作为上述输出端，智能耳机将链接加载至用户的手机上，以供用户选择下载。

在一个实施例中，上述下载模块8包括：

获取类型单元，用于获取所述存储器中的所有音乐文件的各音乐品质类型的数量；

确定类型单元，用于将数量最多的音乐品质类型确定为目标音乐品质；

存储单元，用于将服务器中的目标音乐文件的目标音乐品质对应的音乐文件到存储器中。

本实施例中，音乐品质包括高品质、标准音质、普通音质，是以用于区分音乐的质量，一般音乐的质量越高，其音乐对应的音频的位速越高。高品质一般是320kbps,标准音质是128kbps的，普通音质是112kbps以下的。高品质音乐的质感更好，但是对应的存储空间大。不同的人对音质要求不一样。获取类型单元先访问存储器中的已有的音乐文件，获取各音乐品质类型的数量，确定类型单元将数量最多的音乐品质类型判定为用户喜欢的音乐品质，即目标音乐品质。因此，在下载该目标音乐文件时，存储单元以用户的喜好的目标音乐品质下载，给客户更好的服务体验。

综上所述，本申请的基于语音分析的管理音乐的装置，自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。识别出音乐文件后将音乐文件自动下载到智能耳机的存储器中，节省用户的下载时间；同时还自动根据音乐的标签来向用户推荐与音乐的标签相同的风格，给用户更好的体验。在识别音乐时，不仅通过频谱来识别音乐，还根据音乐的歌词来进行复核，使识别出的音乐文件更加准确。将下载的音乐发送给用户的朋友，以便用户与朋友分享音乐。参照图8，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频信息、音乐文件等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音分析的管理音乐的方法。

上述处理器执行上述基于语音分析的管理音乐的方法的步骤：智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；判断所述佩戴值是否在预设的佩戴值范围内；若是，判定用户佩戴所述智能耳机，并采集声音，得到音频信息；提取出所述音频信息中的频谱以及声纹信息；将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；将最大第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；接收所述用户发送的下载指令，以下载所述目标音乐文件。

在一个实施例中，上述音频信息包括第一歌词，上述目标音乐文件包括第二歌词文本，上述处理器执行上述将所述目标音乐文件下载到所述智能耳机的存储器中的步骤之前，包括：解析出所述音频信息中的第一歌词对应的第一歌词文本，并获取所述目标音乐文件的第二歌词文本；计算所述第一歌词文本与所述第二歌词文本的相似度，得到第二相似度值；判断所述第二相似度值是否高于预设的相似度阈值；若是，生成下载目标音乐文件的指令。

在一个实施例中，上述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，上述佩戴值是温度值，上述佩戴值范围是温度值范围；所述判断所述佩戴值是否在预设的佩戴值范围内的步骤，包括：判断所述佩戴值的采集来源；若判定所述采集来源是所述接触式温度传感器，从存储器中调用预设的温度值范围，以所述温度值范围作为所述佩戴值范围；判断所述佩戴值是否在所述温度值范围内；若所述佩戴值在所述温度值范围内，则判定用户佩戴所述智能耳机。

在一个实施例中，上述处理器执行上述将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型的步骤之前，包括：将多个样本声纹信息以及样本声纹信息对应的性别输入到神经网络模型中，进行训练，得到所述性别判断模型。

在一个实施例中，上述处理器执行上述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：将所述目标音乐文件的下载链接发送给指定的联系人。

在一个实施例中，上述处理器执行上述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：将所述目标音乐文件所在的专辑中的其他音乐文件下载到所述存储器中。

在一个实施例中，上述处理器执行上述播放所述目标音乐文件的步骤，包括：获取所述目标音乐文件的脉冲编码调制信息；将所述脉冲编码调制信息进行计算，得到所述目标音乐文件的分贝值；根据所述分贝值以及预设的分贝阈值，调整所述智能耳机的输出功率；以所述输出功率播放所述目标音乐文件。

综上所述，本申请的计算机设备自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。识别出音乐文件后将音乐文件自动下载到智能耳机的存储器中，节省用户的下载时间；同时还自动根据音乐的标签来向用户推荐与音乐的标签相同的风格，给用户更好的体验。在识别音乐时，不仅通过频谱来识别音乐，还根据音乐的歌词来进行复核，使识别出的音乐文件更加准确。将下载的音乐发送给用户的朋友，以便用户与朋友分享音乐。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于语音分析的管理音乐的方法，具体为：智能耳机接收到用户发出的采集音频片段的指令后，获取设置在所述智能耳机上的佩戴传感器采集的佩戴值，所述佩戴传感器用于检测用户是否佩戴所述智能耳机；判断所述佩戴值是否在预设的佩戴值范围内；若是，判定用户佩戴所述智能耳机，并采集声音，得到音频信息；提取出所述音频信息中的频谱以及声纹信息；将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型；分别计算预设的服务器中带有所述性别类型标签的音乐文件与所述频谱的相似度，得到多个第一相似度值；将最大的第一相似度值对应的音乐文件作为所述目标音乐文件，并播放所述目标音乐文件；接收所述用户发送的下载指令，以下载所述目标音乐文件。

综上所述，本申请的计算机可读存储介质自动检测智能耳机是否是与人体接触来判定发出的指令是否是误操作，从而可以减小不必要的音乐识别。识别出音乐文件后将音乐文件自动下载到智能耳机的存储器中，节省用户的下载时间；同时还自动根据音乐的标签来向用户推荐与音乐的标签相同的风格，给用户更好的体验。在识别音乐时，不仅通过频谱来识别音乐，还根据音乐的歌词来进行复核，使识别出的音乐文件更加准确。将下载的音乐发送给用户的朋友，以便用户与朋友分享音乐。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于语音分析的管理音乐的方法，其特征在于，包括：

判断所述佩戴值是否在预设的佩戴值范围内；

提取出所述音频信息中的频谱以及声纹信息；

将最大的第一相似度值对应的音乐文件作为目标音乐文件，并播放所述目标音乐文件；所述目标音乐文件的频谱与所述智能耳机采集到的音频信息中的频谱相同，或者所述智能耳机采集到的音频信息的频谱属于所述目标音乐文件的频谱中的一部分；

接收所述用户发送的下载指令，以下载所述目标音乐文件；

所述音频信息包括第一歌词，所述目标音乐文件包括第二歌词文本，所述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之前，包括：

判断所述第二相似度值是否高于预设的相似度阈值；

若是，生成下载目标音乐文件的指令；

所述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，所述佩戴值是温度值，所述佩戴值范围是温度值范围；所述判断所述佩戴值是否在预设的佩戴值范围内的步骤，包括：

判断所述佩戴值的采集来源；

判断所述佩戴值是否在所述温度值范围内；

2.如权利要求1所述的基于语音分析的管理音乐的方法，其特征在于，所述将所述声纹信息输入到预设的性别判断模型中，得到所述声纹信息的性别类型的步骤之前，包括：

3.如权利要求1所述的基于语音分析的管理音乐的方法，其特征在于，所述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：

将所述目标音乐文件的下载链接发送给指定的联系人。

4.如权利要求1所述的基于语音分析的管理音乐的方法，其特征在于，所述接收所述用户发送的下载指令，以下载所述目标音乐文件的步骤之后，包括：

5.如权利要求1所述的基于语音分析的管理音乐的方法，其特征在于，所述播放所述目标音乐文件的步骤，包括：

获取所述目标音乐文件的脉冲编码调制信息；

以所述输出功率播放所述目标音乐文件。

6.一种基于语音分析的管理音乐的装置，其特征在于，包括：

采集声音模块，用于若所述佩戴值在预设的佩戴值范围内，则判定用户佩戴所述智能耳机，控制麦克风采集声音，得到音频信息；

确定模块，用于将最大的第一相似度值对应的音乐文件作为目标音乐文件；所述目标音乐文件的频谱与所述智能耳机采集到的音频信息中的频谱相同，或者所述智能耳机采集到的音频信息的频谱属于所述目标音乐文件的频谱中的一部分；

下载模块，用于将所述目标音乐文件下载到所述智能耳机的存储器中；

所述音频信息包括第一歌词，所述目标音乐文件包括第二歌词文本，所述基于语音分析的管理音乐的装置还包括：

解析歌词模块，用于解析出所述音频信息中的第一歌词对应的第一歌词文本，并获取所述目标音乐文件的第二歌词文本；

相似度计算模块，用于计算所述第一歌词文本与所述第二歌词文本的相似度，得到第二相似度值；

判断相似度模块，用于判断所述第二相似度值是否高于预设的相似度阈值；

生成指令模块，用于若所述第二相似度值高于预设的相似度阈值，则生成下载目标音乐文件的指令；

所述佩戴传感器是设置在所述智能耳机上与人的耳朵接触的接触式温度传感器，所述佩戴值是温度值，所述佩戴值范围是温度值范围，所述判断佩戴模块包括：

第一判断单元，用于判断所述佩戴值的采集来源；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。