CN108417228A - 乐器音色迁移下的人声音色相似性度量方法 - Google Patents

乐器音色迁移下的人声音色相似性度量方法 Download PDF

Info

Publication number
CN108417228A
CN108417228A CN201810105191.6A CN201810105191A CN108417228A CN 108417228 A CN108417228 A CN 108417228A CN 201810105191 A CN201810105191 A CN 201810105191A CN 108417228 A CN108417228 A CN 108417228A
Authority
CN
China
Prior art keywords
layer
voice
tone color
model
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810105191.6A
Other languages
English (en)
Other versions
CN108417228B (zh
Inventor
余春艳
齐子铭
刘煌
张栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810105191.6A priority Critical patent/CN108417228B/zh
Publication of CN108417228A publication Critical patent/CN108417228A/zh
Application granted granted Critical
Publication of CN108417228B publication Critical patent/CN108417228B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种乐器音色迁移下的人声音色相似性度量方法。该方法首先计算数据量充分且均衡的乐器数据集音频的对数梅尔频谱特征,得到特征矩阵,用乐器数据训练深度卷积神经网络模型,得到训练好的深度卷积神经网络模型;接着对数据量不充分、不均衡的人声音频数据集,用同样的方法计算得到它的对数梅尔频谱特征,再采用基于迁移学习的微调方法对已训练好的深度卷积神经网络模型进行微调,得到人声音色的表征模型,模型的输出则为人声的音色向量,最后通过计算音色向量之间的余弦相似度,可实现人声音色的相似性度量。

Description

乐器音色迁移下的人声音色相似性度量方法
技术领域
本发明属于歌唱领域的音频信号处理领域,特别是涉及一种乐器音色迁移下的人声音色相似性度量方法。
背景技术
美国国家标准化研究所对音色做了如下定义,“音色是指声音在听觉上产生的某种属性,听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同”。由此,演唱时的人声音色是指当不同的演唱者演唱同一首歌曲时,人们用来判别出具体是哪个演唱者的声音特征。
声学实验中常用声谱图进行声音的分析。声谱图可以显示幅度随频率和时间变化的特性,纵坐标代表频率,横坐标代表时间,幅度的大小用灰颜色的深浅表示或用光谱的不同颜色表示。从声谱图的角度来看,决定音色的因素是泛音的存在与否以及它们的相对强弱。
一直以来有大量的学者对声音信号处理进行研究,希望能够对人声音色的相似性进行度量,但时至今日,学术界对音色这一主观乐音属性的表征和相似度评价仍不存在一个统一的标准。因此,音色的特征表征、度量指标和相似度度量等方面有待继续研究。
目前对于音色的研究主要包括乐器的分类与识别及歌手识别等,主要通过各类音色物理特征及分类模型实现。常见的音色分类的物理特征可以分为时域特征,频域特征及倒频域特征三大类。
时域特征:时域特征反应声音的动态变化。不同音频信号的时域包络都各不相同。为了全面分析乐音,可分为起振、稳态和衰减三个阶段。起振指乐音从无到有的开始部分,稳态是乐音的主要部分,衰减指乐音从有到无的结束部分。乐音的起振和衰减部分持续时间大概是几十毫秒,但是起振阶段对音色的区分有着非常重要的作用。
频域特征:频域分析的尺度不同将会得到不同的频谱。常见的频谱有STFT谱及CQT谱。
1)STFT谱的滤波器组中心频率成线性上升,每个滤波器的带宽不变,计算公式如下:
其中,x(n)是某一帧的语音信号,w(n)为加窗函数。
2)CQT产生的频谱在频率轴为对数标度,而不是线性标度,且窗口长度随频率的改变而改变,这使得CQT比STFT有着更好的性能。CQT的定义形式公式如下:
其中,是窗函数,[g]表示大于等于x的最小整数,fs为采样频率,fk是音阶频率,fk=f0*2k/b
倒频域特征:Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是基于人的听觉感知模型提出的,在乐音、语音分类识别等领域中被证明是最重要的特征之一,人对频域的主观感知划定是非线性的,即fmel=1125log(1+f/700),fmel是以美尔为单位的感知频率, f是以赫兹为单位的实际频率。将信号频谱转换到感知域可以很好的模拟听觉处理的过程。计算 MFCC时,先对信号进行分帧、加窗、预加重的预处理,然后把每帧信号进行FFT变换变成频域数据后,计算谱线能量,把每帧信号的谱线能量通过Mel滤波器,计算在该滤波器中的能量。把通过Mel滤波器的谱线能量取对数后计算DCT,即得到MFCC。
尽管现有的人声音色相关研究可以比较有效地解决一些歌手识别问题,但是没有对人声音色的相似度进行描述。因此,本专利基于上述分析,训练深度卷积神经网络并进一步对其进行微调,在获取人声音色表征的基础上进一步得到人声音色的相似度。
发明内容
有鉴于此,本发明的目的是提供一种乐器音色迁移下的人声音色相似性度量方法,在对人声音色进行合理表征的基础上,实现人声音色的相似性度量。
本发明采用以下技术方案:一种乐器音色迁移下的人声音色相似性度量方法,其包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN 模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。
在本发明一实施例中,所述步骤S1具体包括以下步骤:步骤S11:把乐器音频文件截取成固定长度的片段;步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。
在本发明一实施例中,步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
在本发明一实施例中,步骤S13包括以下步骤:步骤S131:按照如下结构构建深度卷积神经网络模型:第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;第三层为Dropout层,比例为0.25;第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第六层为Dropout层,比例为0.25;第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling 为(3,3),激活函数为RELU;第九层为Dropout层,比例为0.25;第十层、第十一层使用256 个卷积核,尺寸为(3,3),激活函数为RELU;第十二层为全局池化层;第十三层为1024个结点的全连接层,激活函数为RELU;第十四层为Dropout层,比例为0.5;第十五层为分类层,激活函数为softmax;步骤S132:将步骤S12中得到的对数频谱特征矩阵输入深度卷积神经网络模型,采用Adam算法对网络进行迭代训练,得到训练好的深度卷积神经网络模型,即IDCNN 模型。
在本发明一实施例中,所述步骤S2具体包括以下步骤:步骤S21:把人声音频截取成固定长度的片段;步骤S22:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为微调IDCNN模型的输入矩阵;步骤S23:对于训练好的IDCNN 模型,固定其部分参数保持不变,并用步骤S22中得到的特征矩阵微调IDCNN模型的其他参数,微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出为人声的音色向量。
在本发明一实施例中,步骤S23包括以下步骤:步骤S231:保持IDCNN模型的结构不变,并冻结IDCNN模型第一层、第二层的参数不予训练;步骤S232:把步骤S22中得到的特征矩阵作为训练数据,训练IDCNN模型中第三层至第十二层的参数,此过程称为微调,微调得到的模型即为人声音色表征模型,称为HDCNN模型;
在本发明一实施例中,步骤S21采用人声分离的方法分离出伴奏声,提取出歌手的清唱声音,去除不包含人声的部分,形成只包含人声的清唱音频,音频格式为wav,采样率为16000Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
在本发明一实施例中,步骤S3中设两个不同人声音色向量分别为x=(x1,x2,...,x1024)和 y=(y1,y2,...,y1024),均为1024维,按照如下公式计算两者之间的相似度:
计算得到的sim即为不同人声音色之间的相似性,i=1,2…1024。
与现有技术相比,本发明具有如下优点:该方法首先获取数据量充分且均衡的乐器数据集,对数据集中的乐器音频进行预处理,具体包括截取固定长度(1s)、去除静音帧,再计算每个音频128维的对数梅尔频谱特征,得到每个1s音频片段的对数梅尔频谱矩阵,矩阵大小为43*128;把乐器音频片段的对数梅尔频谱特征矩阵作为深度卷积神经网络的输入矩阵,用Adam算法训练深度卷积神经网络,得到训练好的IDCNN模型;然后再获取人声清唱数据集,采用同样的预处理方式截取人声清唱音频并计算其128维的对数梅尔频谱特征,得到大小为43*128的对数梅尔频谱矩阵,固定IDCNN模型的部分参数,用人声清唱数据对IDCNN模型的其它参数进行微调,最终得到人声音色的表征模型HDCNN,模型输出为人声音色向量,计算向量之间的余弦相似度,可实现人声音色的相似性度量。深度学习网络模型需要用大量的数据进行训练,而人声清唱数据存在着不均衡和数据量不充分的问题,先采用数据量充分且均衡的乐器数据集训练模型,再采用人声音频数据用基于迁移学习的方法微调模型,有效的在人声清唱数据不足的情况下构建出了合理的人声音色表征模型,得到人声音色的表征向量。最后通过计算向量之间的余弦相似度,有效实现了人声音色的相似性度量。
附图说明
图1是本发明的方法流程示意框图。
图2是本发明的实施例中应用的深度卷积神经网络的结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步解释说明。
本发明提供一种乐器音色迁移下的人声音色相似性度量方法,其包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型 HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。主要流程示意图参见图1。
在本发明一实施例中,所述步骤S1具体包括以下步骤:步骤S11:把乐器音频文件截取成固定长度的片段;步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。
在本发明一实施例中,步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
在本发明一实施例中,步骤S13包括以下步骤:步骤S131:按照如下结构构建深度卷积神经网络模型:第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;第三层为Dropout层,比例为0.25;第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第六层为Dropout层,比例为0.25;第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling 为(3,3),激活函数为RELU;第九层为Dropout层,比例为0.25;第十层、第十一层使用256 个卷积核,尺寸为(3,3),激活函数为RELU;第十二层为全局池化层;第十三层为1024个结点的全连接层,激活函数为RELU;第十四层为Dropout层,比例为0.5;第十五层为分类层,激活函数为softmax;步骤S132:将步骤S12中得到的对数频谱特征矩阵输入深度卷积神经网络模型,采用Adam算法对网络进行迭代训练,得到训练好的深度卷积神经网络模型,即IDCNN 模型。
在本发明一实施例中,所述步骤S2具体包括以下步骤:步骤S21:把人声音频截取成固定长度的片段;步骤S22:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为微调IDCNN模型的输入矩阵;步骤S23:对于训练好的IDCNN 模型,固定其部分参数保持不变,并用步骤S22中得到的特征矩阵微调IDCNN模型的其他参数,微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出为人声的音色向量。
在本发明一实施例中,步骤S23包括以下步骤:步骤S231:保持IDCNN模型的结构不变,并冻结IDCNN模型第一层、第二层的参数不予训练;步骤S232:把步骤S22中得到的特征矩阵作为训练数据,训练IDCNN模型中第三层至第十二层的参数,此过程称为微调,微调得到的模型即为人声音色表征模型,称为HDCNN模型;
在本发明一实施例中,步骤S21采用人声分离的方法分离出伴奏声,提取出歌手的清唱声音,去除不包含人声的部分,形成只包含人声的清唱音频,音频格式为wav,采样率为16000Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
在本发明一实施例中,步骤S3中设两个不同人声音色向量分别为x=(x1,x2,...,x1024)和 y=(y1,y2,...,y1024),均为1024维,按照如下公式计算两者之间的相似度:
计算得到的sim即为不同人声音色之间的相似性,i=1,2…1024。
在本一具体实施例中,以包含10种乐器的乐器音频数据集、包含10个歌手的清唱音频数据集,根据以上方法给出实例,具体包括以下步骤:
步骤1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型,具体步骤如下:
步骤11:乐器数据集中包含10乐器的音频文件,音频格式为wav,采样率为22050Hz,每个音频长度不等,把乐器音频文件截取成固定长度为1s的片段;
步骤12:计算每个片段的对数梅尔频谱特征(128维),公式如下:其中γ[n]表示窗函数。
LogMel=log[Mel[STFT]]
得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;
步骤13:构建深度卷积神经网络模型,把步骤12中得到的特征矩阵输入深度卷积神经网络模型进行训练,具体步骤如下:
步骤131:按照如下结构构建如图2所示的深度卷积神经网络模型:
第一层、第二层(卷积层)使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;
第三层为Dropout层,比例为0.25;
第四层、第五层(卷积层)使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;
第六层为Dropout层,比例为0.25;
第七层、第八层(卷积层)使用128个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;
第九层为Dropout层,比例为0.25;
第十层、第十一层(卷积层)使用256个卷积核,尺寸为(3,3),激活函数为RELU;
第十二层为全局池化层;
第十三层为1024个结点的全连接层,激活函数为RELU;
第十四层为Dropout层,比例为0.5;
第十五层为分类层,激活函数为softmax。
步骤132:将步骤12中得到的对数频谱特征矩阵输入深度卷积神经网络模型,采用Adam 算法对网络进行迭代训练,学习率设置为0.001,batch_size设置为32,共迭代100个epoch,得到训练好的深度卷积神经网络模型,即IDCNN模型;
步骤2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量,具体步骤如下:
步骤21:采用人声分离的方法分离出伴奏声,提取出歌手的清唱声音,去除不包含人声的部分,形成只包含人声的清唱音频,人声音频中包含10个歌手的清唱,音频格式为wav,采样率为16000Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段;
步骤22:计算每个片段的对数梅尔频谱特征(128维),公式如下:其中γ[n]表示窗函数。
LogMel=log[Mel[STFT]]
得到43*128大小的特征矩阵,作为微调IDCNN模型的输入矩阵;
步骤23:对于步骤S132中训练好的IDCNN模型,固定其部分参数保持不变,并用步骤S22 中得到的特征矩阵微调IDCNN模型的其他参数,微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出为人声的音色向量。
步骤231:保持IDCNN模型的结构不变,并冻结IDCNN模型第一层、第二层的参数不予训练;
步骤232:把步骤S22中得到的特征矩阵作为训练数据,训练IDCNN模型中第三层至第十二层的参数,此过程称为微调,采用Adam优化算法,学习率设置为0.0001,batch_size设置为64,共迭代100个epoch。微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出即为人声的音色向量,向量大小为1024维。
步骤3:设两个不同人声音色向量分别为x=(x1,x2,...,x1024)和y=(y1,y2,...,y1024),均为 1024维,按照如下公式计算两者之间的相似度:
计算得到的sim即为不同人声音色之间的相似性。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (8)

1.一种乐器音色迁移下的人声音色相似性度量方法,其特征在于:包括如下步骤:
步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;
步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;
步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。
2.根据权利要求1所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:所述步骤S1具体包括以下步骤:
步骤S11:把乐器音频文件截取成固定长度的片段;
步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;
步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。
3.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
4.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S13包括以下步骤:
步骤S131:按照如下结构构建深度卷积神经网络模型:
第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;
第三层为Dropout层,比例为0.25;
第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;
第六层为Dropout层,比例为0.25;
第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;
第九层为Dropout层,比例为0.25;
第十层、第十一层使用256个卷积核,尺寸为(3,3),激活函数为RELU;
第十二层为全局池化层;
第十三层为1024个结点的全连接层,激活函数为RELU;
第十四层为Dropout层,比例为0.5;
第十五层为分类层,激活函数为softmax;
步骤S132:将步骤S12中得到的对数频谱特征矩阵输入深度卷积神经网络模型,采用Adam算法对网络进行迭代训练,得到训练好的深度卷积神经网络模型,即IDCNN模型。
5.根据权利要求1所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:把人声音频截取成固定长度的片段;
步骤S22:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为微调IDCNN模型的输入矩阵;
步骤S23:对于训练好的IDCNN模型,固定其部分参数保持不变,并用步骤S22中得到的特征矩阵微调IDCNN模型的其他参数,微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出为人声的音色向量。
6.根据权利要求5所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S23包括以下步骤:
步骤S231:保持IDCNN模型的结构不变,并冻结IDCNN模型第一层、第二层的参数不予训练;
步骤S232:把步骤S22中得到的特征矩阵作为训练数据,训练IDCNN模型中第三层至第十二层的参数,此过程称为微调,微调得到的模型即为人声音色表征模型,称为HDCNN模型。
7.根据权利要求5所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S21采用人声分离的方法分离出伴奏声,提取出歌手的清唱声音,去除不包含人声的部分,形成只包含人声的清唱音频,音频格式为wav,采样率为16000Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。
8.根据权利要求1所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S3中设两个不同人声音色向量分别为,均为1024维,按照如下公式计算两者之间的相似度:
计算得到的即为不同人声音色之间的相似性,i=1,2…1024。
CN201810105191.6A 2018-02-02 2018-02-02 乐器音色迁移下的人声音色相似性度量方法 Expired - Fee Related CN108417228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810105191.6A CN108417228B (zh) 2018-02-02 2018-02-02 乐器音色迁移下的人声音色相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810105191.6A CN108417228B (zh) 2018-02-02 2018-02-02 乐器音色迁移下的人声音色相似性度量方法

Publications (2)

Publication Number Publication Date
CN108417228A true CN108417228A (zh) 2018-08-17
CN108417228B CN108417228B (zh) 2021-03-30

Family

ID=63127415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810105191.6A Expired - Fee Related CN108417228B (zh) 2018-02-02 2018-02-02 乐器音色迁移下的人声音色相似性度量方法

Country Status (1)

Country Link
CN (1) CN108417228B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN110047514A (zh) * 2019-05-30 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN110728972A (zh) * 2019-10-15 2020-01-24 广州酷狗计算机科技有限公司 音色相似度的确定方法、装置及计算机存储介质
CN110910895A (zh) * 2019-08-29 2020-03-24 腾讯科技(深圳)有限公司 一种声音处理的方法、装置、设备和介质
CN111128222A (zh) * 2018-10-30 2020-05-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
KR20200072817A (ko) * 2018-12-13 2020-06-23 현대자동차주식회사 합성곱 신경망법을 이용한 체결력 예측방법
CN111488485A (zh) * 2020-04-16 2020-08-04 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN111755024A (zh) * 2019-03-27 2020-10-09 四川大学 一种基于迁移学习的暴恐音频检测方法
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
CN113938749A (zh) * 2021-11-30 2022-01-14 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
WO2023024501A1 (zh) * 2021-08-24 2023-03-02 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN116504235A (zh) * 2023-06-29 2023-07-28 深圳须弥云图空间科技有限公司 基于时间顺序的音频识别模型训练方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992118B (zh) * 2021-05-22 2021-07-23 成都启英泰伦科技有限公司 一种少语料的语音模型训练及合成方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103890838A (zh) * 2011-06-10 2014-06-25 X-系统有限公司 用于分析声音的方法和系统
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
CN106328121A (zh) * 2016-08-30 2017-01-11 南京理工大学 基于深度置信网络的中国传统乐器分类方法
CN106934235A (zh) * 2017-03-09 2017-07-07 中国科学院软件研究所 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN106991163A (zh) * 2017-03-31 2017-07-28 福州大学 一种基于演唱者声音特质的歌曲推荐方法
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103890838A (zh) * 2011-06-10 2014-06-25 X-系统有限公司 用于分析声音的方法和系统
US20140307878A1 (en) * 2011-06-10 2014-10-16 X-System Limited Method and system for analysing sound
CN107066801A (zh) * 2011-06-10 2017-08-18 X-系统有限公司 用于分析声音的方法和系统
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
CN106328121A (zh) * 2016-08-30 2017-01-11 南京理工大学 基于深度置信网络的中国传统乐器分类方法
CN106934235A (zh) * 2017-03-09 2017-07-07 中国科学院软件研究所 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN106991163A (zh) * 2017-03-31 2017-07-28 福州大学 一种基于演唱者声音特质的歌曲推荐方法
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN107481717A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EDUARDO COUTINHO, JUN DENG, AND BJORN SCHULLER: "Transfer Learning Emotion Manifestation Across Music and Speech", 《2014 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
李松,魏中浩,张冰尘,洪文: "深度卷积神经网络在迁移学习模式下的SAR目标识别", 《中国科学院大学学报》 *
蒋涛,茅耀斌,钱瑛,巫林: "基于迁移学习的卷积神经网络目标检测算法", 《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128222A (zh) * 2018-10-30 2020-05-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
CN111128222B (zh) * 2018-10-30 2023-09-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
KR102598426B1 (ko) 2018-12-13 2023-11-06 현대자동차주식회사 합성곱 신경망법을 이용한 체결력 예측방법
KR20200072817A (ko) * 2018-12-13 2020-06-23 현대자동차주식회사 합성곱 신경망법을 이용한 체결력 예측방법
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN111755024A (zh) * 2019-03-27 2020-10-09 四川大学 一种基于迁移学习的暴恐音频检测方法
CN111755024B (zh) * 2019-03-27 2023-02-10 四川大学 一种基于迁移学习的暴恐音频检测方法
CN110047514A (zh) * 2019-05-30 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN110910895A (zh) * 2019-08-29 2020-03-24 腾讯科技(深圳)有限公司 一种声音处理的方法、装置、设备和介质
CN110910895B (zh) * 2019-08-29 2021-04-30 腾讯科技(深圳)有限公司 一种声音处理的方法、装置、设备和介质
CN110728972A (zh) * 2019-10-15 2020-01-24 广州酷狗计算机科技有限公司 音色相似度的确定方法、装置及计算机存储介质
CN110728972B (zh) * 2019-10-15 2022-02-11 广州酷狗计算机科技有限公司 音色相似度的确定方法、装置及计算机存储介质
CN111488485A (zh) * 2020-04-16 2020-08-04 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN111488485B (zh) * 2020-04-16 2023-11-17 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN111680187B (zh) * 2020-05-26 2023-11-24 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
WO2023024501A1 (zh) * 2021-08-24 2023-03-02 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN113938749A (zh) * 2021-11-30 2022-01-14 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质
CN113938749B (zh) * 2021-11-30 2023-05-05 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN116504235B (zh) * 2023-06-29 2023-10-03 深圳须弥云图空间科技有限公司 基于时间顺序的音频识别模型训练方法及装置
CN116504235A (zh) * 2023-06-29 2023-07-28 深圳须弥云图空间科技有限公司 基于时间顺序的音频识别模型训练方法及装置

Also Published As

Publication number Publication date
CN108417228B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108417228A (zh) 乐器音色迁移下的人声音色相似性度量方法
De Poli et al. Sonological models for timbre characterization
CN106919662B (zh) 一种音乐识别方法及系统
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
CN106997765B (zh) 人声音色的定量表征方法
CN101366078A (zh) 从单音音频信号分离音频信源的神经网络分类器
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN102129456A (zh) 去相关稀疏映射音乐流派有监督自动分类方法
CN111653289A (zh) 一种回放语音检测方法
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Elie et al. Acoustic signature of violins based on bridge transfer mobility measurements
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
Zhang Application of audio visual tuning detection software in piano tuning teaching
Liu et al. Research on the Correlation Between the Timbre Attributes of Musical Sound and Visual Color
CN114302301B (zh) 频响校正方法及相关产品
CN107146630B (zh) 一种基于stft的双通道语声分离方法
CN115512718A (zh) 用于存量语音文件的语音质量评价方法、装置及系统
CN101650940A (zh) 基于音频频谱特征分析的演唱音色纯净度的客观评测方法
CN112992182B (zh) 车辆风噪水平测试系统及其测试方法
Jiang et al. Analysis and modeling of timbre perception features of chinese musical instruments
US7505858B2 (en) Method for analyzing tone quality of exhaust sound
JP3584287B2 (ja) 音響評価方法およびそのシステム
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210330

Termination date: 20220202

CF01 Termination of patent right due to non-payment of annual fee