CN112885367B - 基频获取方法、装置、计算机设备和存储介质 - Google Patents
基频获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112885367B CN112885367B CN202110069325.5A CN202110069325A CN112885367B CN 112885367 B CN112885367 B CN 112885367B CN 202110069325 A CN202110069325 A CN 202110069325A CN 112885367 B CN112885367 B CN 112885367B
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- sample
- autocorrelation
- dimension reduction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009467 reduction Effects 0.000 claims abstract description 244
- 230000005236 sound signal Effects 0.000 claims abstract description 84
- 238000000605 extraction Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 37
- 230000008859 change Effects 0.000 claims description 31
- 230000002829 reductive effect Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请涉及一种基频获取方法、装置、计算机设备和存储介质。所述方法包括:获取时域音频信号;利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号;确定具有预设窗口大小的自相关窗口;利用自相关窗口获取语音信号的归一化自相关特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器,对归一化自相关特征进行降维处理,得到具有归一化自相关特征对应的降维特征;将降维特征输入至预先构建的基频获取模型,输出降维特征对应的目标基频类别;基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。采用本方法能够提高基频获取的准确率。
Description
技术领域
本申请涉及音频处理技术领域,特别是涉及一种基频获取方法、装置、计算机设备和存储介质。
背景技术
随着音频处理技术的发展,对音频信号进行类似降噪、和声、升降调,以及编码压缩等处理过程已经在多种应用场景下有着广泛的应用。而上述对音频信号的处理,都离不开对该音频信号的基频的准确获取,基频获取的准确性与音频信号的处理精度息息相关。
目前,一般是通过预先训练好的神经网络模型进行音频信号的基频获取,相比于基于统计学的基频获取方法,在噪声环境中,信噪比降低时仍然可以保持基频获取的精度。然而,通过神经网络进行基频的获取方法中,输入的音频信号的特征维度较大,导致网络参数量大,同时输入特征幅度依赖于输入数据的幅度,当输入特征幅度与输入数据的幅度不匹配时,因此,现有的基频获取方法中基频获取的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种基频获取方法、装置、计算机设备和存储介质。
一种基频获取方法,所述方法包括:
获取时域音频信号;
利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;
确定具有预设窗口大小的自相关窗口;
利用所述自相关窗口获取所述语音信号的归一化自相关特征;
将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于所述第一误差阈值,则将所述自编码器模型作为所述特征提取模型;
将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;
基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。
在其中一个实施例中,所述滤波器组包括多个滤波器通道;所述多个滤波器通道对应于多个滤波器函数;所述得到语音信号,包括:确定各滤波器通道对应的滤波器函数;利用所述各滤波器通道对应的滤波器函数对所述时域音频信号进行滤波处理,获取所述各滤波器通道对应的子语音信号,得到多个子语音信号;所述利用所述自相关窗口获取所述语音信号的归一化自相关特征,包括:利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,包括:将所述多个归一化子自相关特征输入所述编码器。
在其中一个实施例中,所述利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征,包括:获取预设的自相关特征提取周期;根据所述自相关特征提取周期,以及所述预设窗口大小,获取所述各子语音信号的所述归一化子自相关特征。
在其中一个实施例中,所述确定具有预设窗口大小的自相关窗口,包括:获取预设的第一基频频率,以及预设的对所述时域音频信号进行采样的采样频率;根据所述第一基频频率以及所述采样频率确定所述自相关窗口的窗口大小。
在其中一个实施例中,所述将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别,包括:将所述降维特征输入至所述基频获取模型,以使所述基频获取模型获取所述降维特征对应的预测概率向量;所述预测概率向量用于表征所述降维特征属于预先设定的多个基频类别的预测概率;将所述预测概率向量输入隐马尔可夫模型,从所述多个基频类别中确定所述目标基频类别。
在其中一个实施例中,所述降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;所述从所述多个基频类别中确定所述目标基频类别,包括:确定当前降维特征;若所述当前降维特征为首个降维特征,则将所述当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为所述目标基频类别;若所述当前降维特征为非首个降维特征,则获取所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量;基于所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及所述当前降维特征对应的预测概率向量,确定各降维特征对应的多个预测基频类别;利用所述多个预测基频类别得到多个基频类别变化路径,将基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,利用所述目标基频类别变化路径确定所述目标基频类别。
在其中一个实施例中,所述多个基频类别由不同的基频频率与预设的第二基频频率之间的比值,以及预设的转换系数得到;所述基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,包括:根据所述目标基频类别、所述转换系数,以及所述第二基频频率,获取所述目标基频频率。
在其中一个实施例中,所述编码器由卷积层与最大值池化层组成;所述解码器由卷积层和上采样层组成;所述获取所述样本归一化自相关特征与所述样本升维特征的均方误差之后,还包括:若所述均方误差大于预设的第一误差阈值,则利用所述均方误差更新所述编码器权值以及所述解码器权值,并返回至将所述样本归一化自相关特征输入待训练的自编码器模型的编码器的步骤。
在其中一个实施例中,所述将所述降维特征输入预先训练的由预设数量的全连接层组成的基频获取模型之前,还包括:通过所述特征提取模型的编码器获取所述样本归一化自相关特征对应的样本降维特征,以及获取所述样本降维特征对应的样本标签;所述样本标签用于标识所述样本降维特征属于预先设定的多个基频类别的概率;将所述样本降维特征输入待训练的基频估计模型,以使所述基频估计模型获取所述样本降维特征属于所述多个基频类别的样本概率;获取所述样本概率与所述样本标签的误差;若所述误差大于预设的第二误差阈值,则利用所述误差更新所述基频估计模型,并返回至将所述样本降维特征输入待训练的基频估计模型的步骤,若所述误差小于或者等于所述第二误差阈值,则将所述基频估计模型作为所述基频获取模型。
一种基频获取装置,所述装置包括:
音频信号获取模块,用于获取时域音频信号;
音频信号滤波模块,用于利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;
自相关窗口确定模块,用于确定具有预设窗口大小的自相关窗口;
音频特征获取模块,用于利用所述自相关窗口获取所述语音信号的归一化自相关特征;
降维特征获取模块,用于将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;还用于获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于所述第一误差阈值,则将所述自编码器模型作为所述特征提取模型;
基频类别确定模块,用于将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;
基频频率确定模块,用于基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述基频获取方法、装置、计算机设备和存储介质,获取时域音频信号;利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号;确定具有预设窗口大小的自相关窗口;利用自相关窗口获取语音信号的归一化自相关特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使编码器对归一化自相关特征进行降维处理,得到具有预设维度的归一化自相关特征对应的降维特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将样本归一化自相关特征输入待训练的自编码器模型的编码器,以使编码器的编码器权值对样本归一化自相关特征进行降维处理,得到预设维度的样本归一化自相关特征对应的样本降维特征;将样本降维特征输入自编码器模型的解码器,以使解码器的解码器权值对样本降维特征进行升维处理,将样本降维特征的维度恢复为样本归一化自相关特征的维度,得到样本升维特征;获取样本归一化自相关特征与样本升维特征的均方误差;若均方误差小于等于第一误差阈值,则将自编码器模型作为特征提取模型;将降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使基频获取模型输出降维特征对应的目标基频类别;基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。本申请通过特征提取模型对归一化自相关特征进行降维处理,从而避免因输入的音频信号的特征维度大造成的网络参数量大的问题,同时本申请还使用归一化自相关特征作为输入特征,该特征不依赖于输入信号的幅度,因此可以提高基频获取的准确率。
附图说明
图1为一个实施例中基频获取方法的流程示意图;
图2为一个实施例中确定目标基频类别的流程示意图;
图3为一个实施例中从多个基频类别中确定目标基频类别的流程示意图;
图4为一个实施例中自编码器模型的结构示意图;
图5为一个实施例中训练基频获取模型的流程示意图;
图6为一个应用实例中基于神经网络降维的基频估计方法的流程示意图;
图7为一个实施例中基频获取装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基频获取方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,终端获取时域音频信号;
步骤S102,终端利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号。
其中,时域音频信号指的是需要进行基频获取的音频信号,该音频信号可以通过音频采集设备采集得到,并传输至终端,也可以是终端从预先存储有多种音频信号的音频数据库中读取得到,语音信号则指的是进行滤波处理后的时域音频信号,可以通过滤波器组的方式实现信号滤波,该滤波器组可以是数字耳蜗滤波器组。具体来说,在终端得到需要进行基频获取的时域音频信号后,可以先利用滤波器组对得到得时域音频信号进行滤波处理,从而得到对应的语音信号。
步骤S103,终端确定具有预设窗口大小的自相关窗口;
步骤S104,终端利用自相关窗口获取语音信号的归一化自相关特征。
自相关窗口指的是用于自相关的窗口,该窗口的窗口大小可以是通过用户预先进行设置。终端在得到预先设定的窗口大小的自相关窗口后,可以利用该自相关窗口对步骤S102中得到的语音信号进行归一化自相关特征的计算,从而得到语音信号的归一化自相关特征。
步骤S105,终端将归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使编码器对归一化自相关特征进行降维处理,得到具有预设维度的归一化自相关特征对应的降维特征;另外,在终端将归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还可以包括:终端获取样本音频信号的样本归一化自相关特征;将样本归一化自相关特征输入待训练的自编码器模型的编码器,以使编码器的编码器权值对样本归一化自相关特征进行降维处理,得到预设维度的样本归一化自相关特征对应的样本降维特征;将样本降维特征输入自编码器模型的解码器,以使解码器的解码器权值对样本降维特征进行升维处理,将样本降维特征的维度恢复为样本归一化自相关特征的维度,得到样本升维特征;获取样本归一化自相关特征与样本升维特征的均方误差;若均方误差小于等于第一误差阈值,则将自编码器模型作为特征提取模型。
之后,终端可以将步骤S104中得到的归一化自相关特征输入预先训练完成的特征提取模型,该特征提取模型可以是通过某个自编码器模型实现,该自编码器模型可以包括有编码器和解码器,其中编码器用于将输入的归一化自相关特征进行降维处理,使其维度降低,转化为某个用户预先设定维度的降维特征,而解码器则是用于将由编码器得到的降维特征的维度进行还原,使其还原成原先输入的归一化自相关特征对应的维度。本步骤中,终端可以通过特征提取模型中的编码器,实现对输入的归一化自相关特征进行降维处理,得到对应的降维特征,并利用降维特征实现基频的获取。
而为了进一步提高特征提取模型中的编码器输出的归一化自相关特征对应的降维特征的准确性,在终端将归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还需要对特征提取模型进行训练,训练的具体过程可如下所示。
具体来说,终端预先需要得到用于对特征提取模型进行训练的样本音频信号,并通过步骤S102至步骤S104的方式,得到该样本音频信号的样本归一化自相关特征,以R(j)表示。之后,终端可以将得到的样本归一化自相关特征R(j)输入至需要进行训练的自编码器模型的编码器中,该编码器中存储有用于实现特征降维的编码器权值,并通过该编码器的编码器权值,使得样本归一化自相关特征R(j)降维成某个预先设定的维度的样本降维特征,以Q(j)表示,其中样本降维特征Q(j)的维度低于样本归一化自相关特征R(j)的维度。
然后,终端可以将编码器得到的样本降维特征Q(j),再次输入至自编码器模型的解码器中,存储有用于实现特征升维的解码器权值,该解码器可以采取与编码器相反的顺序进行配置,因此可以将样本降维特征Q(j)的维度还原成原来输入自编码器模型之前的样本归一化自相关特征R(j)的维度。当终端将样本降维特征Q(j)输入至自编码器模型的解码器后,可以通过解码器的解码器权值对输入的样本降维特征Q(j)进行升维处理,从而将维度恢复的同时,得到样本降维特征Q(j)对应的样本升维特征,以R'(j)表示,其中,R'(j)的维度与R(j)相同。
终端得到样本升维特征R'(j)后,则可以利用样本升维特征R'(j)以及样本归一化自相关特征R(j),通过公式Emse=mean((R(j)-R'(j))2)计算样本归一化自相关特征与样本升维特征之间的均方误差,mean表示对形成的自相关特征矩阵内的所有元素求平均,并利用计算得到的均方误差与预先设定的第一误差阈值进行对比,如果均方误差小于或者等于预先设定的第一误差阈值,那么终端则可以将当前的自编码器模型作为特征提取模型。
步骤S106,终端将降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使基频获取模型输出降维特征对应的目标基频类别。
其中,基频类别可以包括多种,目标基频类别指的是时域音频信号的降维特征对应的基频类别,基频获取模型则是用于根据输入的降维特征输出对应的目标基频类别的模型,该模型由多个全连接层组成,具体来说,终端可以将特征提取模型的编码器得到的降维特征输入至基频获取模型中,以使得频获取模型可以得到该降维特征对应的目标基频类别。
步骤S107,终端基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。
最后,不同的基频类别,可以是分别对应于不同基频频率,用户可以预先设定基频类别与基频频率的对应关系,例如形成某个对应关系表,终端则可以基于通过查表的方式找到目标基频类别对应的目标基频频率,作为输入的时域音频信号的基频频率。
上述基频获取方法中,终端获取时域音频信号;利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号;确定具有预设窗口大小的自相关窗口;利用自相关窗口获取语音信号的归一化自相关特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使编码器对归一化自相关特征进行降维处理,得到具有预设维度的归一化自相关特征对应的降维特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将样本归一化自相关特征输入待训练的自编码器模型的编码器,以使编码器的编码器权值对样本归一化自相关特征进行降维处理,得到预设维度的样本归一化自相关特征对应的样本降维特征;将样本降维特征输入自编码器模型的解码器,以使解码器的解码器权值对样本降维特征进行升维处理,将样本降维特征的维度恢复为样本归一化自相关特征的维度,得到样本升维特征;获取样本归一化自相关特征与样本升维特征的均方误差;若均方误差小于等于第一误差阈值,则将自编码器模型作为特征提取模型;将降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使基频获取模型输出降维特征对应的目标基频类别;基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。本申请通过特征提取模型对归一化自相关特征进行降维处理,从而避免因输入的音频信号的特征维度大造成的网络参数量大的问题,同时本申请还使用归一化自相关特征作为输入特征,该特征不依赖于输入信号的幅度,因此可以提高基频获取的准确率。
在一个实施例中,滤波器组包括多个滤波器通道;多个滤波器通道对应于多个滤波器函数;步骤S102可以进一步包括:终端确定各滤波器通道对应的滤波器函数;利用各滤波器通道对应的滤波器函数对时域音频信号进行滤波处理,获取各滤波器通道对应的子语音信号,得到多个子语音信号;步骤S104可以进一步包括:终端利用自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;步骤S105可以进一步包括:终端将多个归一化子自相关特征输入编码器。
其中,滤波器组可以包含有多个滤波器通道,且每个滤波器通道存储有滤波器函数,终端可以通过滤波器组中不同滤波器通道对应的滤波器函数,对输入滤波器组的时域音频信号进行滤波处理,从而得到时域音频信号对应的多个子语音信号。
例如,终端得到的时域音频信号可以用s(n)表示,利用滤波器组对时域音频信号s(n)进行滤波处理后得到的子语音信号则可以用sm(n)表示,子语音信号sm(n)=fm(s(n)),其中fm()表示第m个滤波器通道对应的滤波器函数,m∈[0,m-1]。
终端得到多个子语音信号后,则可以利用自相关窗口分别计算每一个滤波器通道得到的子语音信号的归一化自相关特征,作为各子语音信号的归一化子自相关特征,从而得到多个归一化子自相关特征。并且,终端还可以将得到的多个归一化子自相关特征一并输入至特征提取模型中的编码器,以使得该编码器输出时域音频信号的降维特征。
进一步地,终端利用自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征,可以进一步包括:终端获取预设的自相关特征提取周期;根据自相关特征提取周期,以及预设窗口大小,获取各子语音信号的归一化子自相关特征。
其中,自相关特征提取周期指的是对子语音信号进行归一化子自相关特征提取的提取周期,由于归一化自相关特征的提取会提高计算的复杂度,为了降低计算的复杂度,本实施例中设置了自相关特征提取周期,终端只在自相关特征提取周期的整数倍时,才根据预设窗口大小,得到每一个子语音信号的归一化子自相关特征。
例如,对每一个子语音信号的归一化子自相关特征可以通过公式计算得到,其中sm(k)表示第m个滤波器通道对应的子语音信号,L则表示自相关窗口的窗口大小,n=k*D,k∈Z,τ∈[0,L-1],用于表示只在自相关特征提取周期D的整数倍时,才进行归一化子自相关特征的计算。通过本实施例的计算。终端可以得到每一个滤波器通道对应的归一化子自相关特征Rm(n+τ)。
进一步地,步骤S103中终端确定具有预设窗口大小的自相关窗口,可以进一步包括:终端获取预设的第一基频频率,以及预设的对时域音频信号进行采样的采样频率;根据第一基频频率以及采样频率确定自相关窗口的窗口大小。
其中,第一基频频率指的是用户预先设计的可以采集得到的最低的基频频率,由于窗口的大小需要满足可以采集最低的基频频率,因此终端需要根据用户设定的第一基频频率设计对应窗口大小的自相关窗口。具体来说,终端可以根据用户设定的第一基频频率,以及对时域音频信号进行采样的采样频率确定自相关窗口的窗口大小,自相关窗口的窗口大小L可通过公式计算得到,其中,f0min表示用户估计得到的最小基频频率,即第一基频频率,fs则表示对时域音频信号进行采样的采样频率。
上述实施例中,终端可以通过多个滤波器通道的滤波器组得到多个子语音信号,并利用多个子语音信号得到降维特征,可提高得到的降维特征的准确性,并且,还可以通过设置自相关特征提取周期的方式,降低归一化子自相关特征的计算量,以及通过设置合适的自相关窗口的窗口大小,以保证基频估计的准确性。
在一个实施例中,如图2所示,步骤S106可以进一步包括:
步骤S201,终端将降维特征输入至基频获取模型,以使基频获取模型获取降维特征对应的预测概率向量;预测概率向量用于表征降维特征属于预先设定的多个基频类别的预测概率。
其中,基频类别可以包括多个,例如可以包括基频类别A,基频类别B以及基频类别C,预测概率向量则是用于表征该降维特征分别属于每一个基频类别的预测概率,可以通过基频获取模型输出得到。例如,基频获取模型输出得到的降维特征属于基频类别A的预测概率为0.1,属于基频类别B的预测概率为0.9,属于基频类别C的预测概率为0,那么其生成的预测概率向量则可以是[0.1,0.9,0]。
步骤S202,终端将预测概率向量输入隐马尔可夫模型,从多个基频类别中确定目标基频类别。
在步骤S201中,终端得到预测概率向量后,可以将预测概率向量输入至隐马尔可夫模型,即HMM模型中,并通过隐马尔可夫模型得到对应的目标基频类别。
进一步地,降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;如图3所示,步骤S202可以进一步包括:
步骤S301,终端确定当前降维特征;
步骤S302,若当前降维特征为首个降维特征,终端则将当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为目标基频类别。
其中,降维特征的个数可以是多个,由于终端在不同的提取时刻中对应的时域音频信号有可能不同,因此其得到降维特征也可能发生对应的变化。具体来说,终端需要先确定现在得到的降维特征,即当前降维特征,之后再判断当前降维特征是否是终端第一个得到的降维特征,即是否为首个降维特征。如果终端判断得到的当前降维特征为首个降维特征时,可以将预测概率向量中,预测概率最大的基频类别作为目标基频类别。如上个例子中,生成的预测概率向量为[0.1,0.9,0],那么预测概率最大的基频类别,即基频类别B则可以作为目标基频类别。
步骤S303,若当前降维特征为非首个降维特征,终端则获取当前降维特征之前的所有降维特征分别对应的多个预测概率向量。
而如果当前降维特征不是首个降维特征时,终端则可以得到当前降维特征之前的所有降维特征求取出的多个预测概率向量,例如,如果当前降维特征为得到的第二个降维特征,那么终端则需要得到首个降维特征对应的预测概率向量,而如果当前降维特征为得到的第三个降维特征,那么终端则需要得到首个降维特征对应的预测概率向量以及第二个降维特征对应的预测向量。
步骤S304,终端基于当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及当前降维特征对应的预测概率向量,确定各降维特征对应的多个预测基频类别;
步骤S305,终端利用多个预测基频类别得到多个基频类别变化路径,将基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,利用目标基频类别变化路径确定目标基频类别。
终端在步骤S303中得到当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及当前降维特征对应的预测概率向量,即不同降维特征的提取时刻对应的预测概率向量后,可以分别得到确定每一个降维特征对应的多个预测基频类别,并且可以根据上述多个预测基频类别,生成多个用于描述预测基频类别的变化过程的基频类别变化路径,并利用最短路径算法,遍历所有路径,输出路径最短的基频类别变化路径,即基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,最后利用目标基频类别变化路径确定目标基频类别。
例如,当前降维特征为第二个降维特征,且对应的预测概率向量为[0.5,0,0.5],其对应的当前降维特征之前的所有降维特征,即首个降维特征对应的预测概率向量为[1,0,0],因此,其对应的基频类别变化路径,可以包括由基频类别A变化为基频类别A的路径1,以及由基频类别A变化为基频类别C的路径2,由于路径1明显短于路径2,即路径1的基频类别变化率小于路径2的基频类别变化率,因此终端会选择路径1作为目标基频类别变化路径,并将基频类别A作为目标基频类别。
进一步地,多个基频类别由不同的基频频率与预设的第二基频频率之间的比值,以及预设的转换系数得到,步骤S107可以进一步包括:终端根据目标基频类别、转换系数,以及第二基频频率,获取目标基频频率。
其中,基频类别可以是终端根据不同基频频率与预先设定的某个第二基频频率之间的比值,并利用某个转化系数转化得到,例如级别A可以是由基频频率A与第二基频频率的比值得到,级别B可以是由基频频率B与第二基频频率的比值得到,而级别C则可以是由基频频率C与第二基频频率的比值得到。因此终端在步骤S106中得到目标基频类别后,即可以根据预先设定的第二基频频率以及转化系数得到对应的目标基频频率。
例如:基频类别的序号p可以预先根据公式其中fmin表示第二基频频率,B则代表预先设定的转换系数,表示每次扩大一倍频率,其对应增加B个基频类别,因此,在终端得到目标基频类别后,则可以根据公式计算目标基频频率,通过将上述公式的p设置为目标基频类别,则可以计算出对应的f作为目标基频频率。
上述实施例中,终端可以利用预先训练的基频获取模型得到预先设定的不同基频类别的预测概率,并利用隐马尔可夫模型,以及最小路径算法,确定出准确的目标基频类别,并且可利用得到的该目标基频类别找到目标基频频率,因此本实施例通过获取准确的目标基频类别,可以进一步提高得到的目标基频频率的准确性。
另外,在一个实施例中,编码器由卷积层与最大值池化层组成;解码器由卷积层和上采样层组成;步骤S105中,终端获取样本归一化自相关特征与样本升维特征的均方误差之后,还可以包括:若均方误差大于预设的第一误差阈值,终端则利用均方误差更新编码器权值以及解码器权值,并返回至将样本归一化自相关特征输入待训练的自编码器模型的编码器的步骤。
具体来说,用于实现归一化自相关特征的降维的自编码器模型的模型结构可如图4所示,该自编码器模型可包括编码器和解码器,其中编码器由卷积层与最大值池化层堆叠而成,用于对输入的样本归一化自相关特征进行降维处理,得到样本降维特征,而解码器则可以由卷积层和上采样层堆叠而成,用于提高特征的维度,将样本降维特征的维度恢复为输入的样本归一化自相关特征的维度。同时,如果步骤S105中得到的样本归一化自相关特征与样本升维特征的均方误差要大于第一误差阈值,则说明样本归一化自相关特征与样本升维特征的误差较大,因此需要根据得到的均方误差对自编码器模型的编码器权值以及解码器权值进行相应的更新,并重新将样本归一化自相关特征输入至更新后的自编码器模型,并再次计算均方误差,直到均方误差小于或者等于该第一误差阈值时,将得到的自编码器模型作为特征提取模型。
并且,如图5所示,在步骤S106之前,还可以包括:
步骤S501,终端通过特征提取模型的编码器获取样本归一化自相关特征对应的样本降维特征,以及获取样本降维特征对应的样本标签;样本标签用于标识样本降维特征属于预先设定的多个基频类别的概率。
其中,样本标签是用于标识样本降维特征属于预先设定的多个基频类别的概率的标签,改标签可以通过用户预先对输入至自编码器模型的样本归一化自相关特征进行标注得到,例如用户可以对某个样本归一化自相关特征标注为[0,1,0],那么该样本归一化自相关特征通过特征提取模型中的编码器得到的样本降维特征对应的样本标签则为[0,1,0]。
步骤S502,终端将样本降维特征输入待训练的基频估计模型,以使基频估计模型获取样本降维特征属于多个基频类别的样本概率;
步骤S503,终端获取样本概率与样本标签的误差;
其中,需要训练的基频估计模型由多个全连接层组成,可用于计算输入的样本降维特征属于预先设定的不同基频类别的概率,作为样本概率并可以形成对应的样本概率向量,之后可以根据得到的样本概率与样本标签计算损失,作为误差,例如可以通过计算交叉熵的方式,确定样本概率与样本标签的误差。
步骤S504,若误差大于预设的第二误差阈值,终端则利用误差更新基频估计模型,并返回至步骤S502,若误差小于或者等于第二误差阈值,则将基频估计模型作为基频获取模型。
最后,终端可以将得到的误差与设定的第二误差阈值进行比较,如果得到的误差大于第二误差阈值,那么则说明样本概率与样本标签的误差较大,此时基频估计模型输出的基频类别的准确率较低,因此则需要利用该误差更新基频估计模型,并再次将样本降维特征输入更新后的基频估计模型,直到误差小于或者等于第二误差阈值时,才将基频估计模型作为训练完成的基频获取模型。
上述实施例中,通过均方误差对编码器权值以及解码器权值更新,可以提高通过自编码器模型得到的降维特征的准确性,以及通过样本概率与样本标签的误差更新基频估计模型,则可以提高通过基频获取模型得到的目标基频类别的准确性,从而进一步提高得到的时域音频信号的基频频率的准确性。
在一个应用实例中,还提供了一种基于神经网络降维的基频估计方法和系统,该系统包括基频估计器PE、特征提取器FE。
其中,特征提取器FE采用自编码器结构,自编码器由编码器与解码器两部分组成,通过输入自相关特征,在编码器端,通过卷积层与最大值池化层堆叠,逐渐降低神经网络维度,到解码器端,通过卷积层和上采样层堆叠,逐渐提高神经网络维度,进一步还原自相关特征,通过自相关特征计算均方误差,更新编码器和解码器权值,输出高精度的基频估计值,即由编码器把特征R(j)编码成低维度特征向量Q(j),再由解码器把低维度特征向量Q(j)恢复成R'(j)。
而基频估计器PE则是由多个全连接层组成,神经网络训练时,将训练好的特征提取器FE对输入的归一化自相关特征R(j)进行降维处理得到满足预设维度的低维度特征Q(j),并得到基频估计器得到的V(j)与标注的结果Vgt(j),计算交叉熵并更新编码器和解码器的权值。
整个过程需要两个训练模型:自编码器模型、基频估计器模型;
第一,先训练自编码器部分,输入特征经过编码器编码,解码器解码后的输出数据和尽量接近输入特征对应的原始数据。此阶段是不需要数据标注,属于无监督学习。
第二,训练基频估计器模型,把取训练好的自编码器的编码器部分作为特征提取器,对输入特征降维,然后输入到基频估计器中,由基频估计器的结果与标注的结果计算误差更新基频估计器,得到基频估计器模型,但自编码器的权值不更新,此阶段是需要数据标注,属于监督学习。
具体来说,如图6所示,基频估计的具体步骤可如下所示:
1)获取时域信号s(n),通过数字耳蜗滤波器组对语音信号s(n)进行滤波处理,滤波分解得到m个通道的语音信号,可表示为sm(n)=fm(s(n)),m∈[0,m-1],fm()为第m个通道的滤波器函数;
2)对各通道的语音信号分别计算归一化自相关特征:
L为计算自相关的窗口大小,与估计的最小基频频率相关,一般为了基频估计的准确性,窗口值取f0min为估计得到的最小基频频率,fs为音频采样频率;基于语音短时频谱的平稳性,归一化自相关在相邻的时间上存在巨大的冗余数据。为了平衡计算的复杂度与基频估计的精度,预设D作为计算归一化自相关的周期,即只在n=k*D,k∈Z,计算自适应自相关特征R(j);
4)由多个全连接层组成的基频估计器PE输出类别,基频频率按照每倍频B个类别把基频频率分解到预设的P+1个类别中(即每个频率包含预设值B个类别),具体公式为p∈[1,P-1],P为每个类别的序号,且一个序号对应一个频率,换算公式为:若P为0,即序号为0的分类为无语音分类,不需要进行基频查找,全连接层的数量这里是可选的,无定值;
5)输入特征向量Q(j)到由多个全连接层组成的基频估计器PE中,获取时刻j的预测概率向量V(j);
6)输入至HMM模型,根据过去到时刻j的概率预测向量V(j-k)……V(j-1)、V(j),计算当前最佳估计类别Bm,并根据换算或查表得到当前类别对应的频率值,即得到j时刻的基频估计值;其中最佳类别计算为传统最短路径的计算方式,遍历所有路径,每个时刻都有P+1个节点可选,通过记录时刻j-k到时刻j的所有路径,比较输出最短路径,即对应最佳的估计类别。
另外,特征提取的降维具体方法可以包括:
1)特征提取器FE训练过程应用自编码器结构,所述的自编码器由编码器与解码器两部分组成,训练时由编码器把特征R(j)编码成低维度特征向量Q(j),再由解码器把低维度特征向量Q(j)恢复成R'(j),根据均方误差Emse=mean((R(j)-R'(j))2),mean为对自相关特征矩阵内所有元素求平均,根据反向传播算法迭代更新编码器和解码器的权值;
2)编码器部分使用卷积层与最大值池化层堆叠而成,逐渐降低特征维度,当降低特征维度满足预设维度值时,输出当前维度基频估计的训练模型;
所述的最大值池化层,属于神经网络中的层级,在最大子采样函数取区域内所有神经元的最大值;
3)解码器部分使用跟编码部分顺序相反的配置堆叠,对降维后对特征逐层升维,最终达到与原来编码器输入的高维度特征一样维度;
4)最终特征提取器FE取编码器部分模型。
上述应用实例中,通过神经网络降维处理,归一化相关系数与输入信号点幅度无关,范围固定,有效解决数据输入幅度变换引起的网络估计错误问题,提高泛化性。并且使用自编码器训练特征提取器,大大降低原始特征的神经网络输入参数维度,降低了运行资源需求,自编码器训练是一种无监督学习,不需要有标注的数据,有效解决样本少的问题。同时,特征提取器中使用卷积层与最大值池化层堆叠,因为卷积层的权值共用特性,大大减少了权值数量与运算资源需求。相对于传统的特征提取算法如PCA等,本技术方案通过计算最佳估计类别,得到精确的基频估计值,适合大规模集成电路实现。
应该理解的是,虽然本申请的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种基频获取装置,包括:音频信号获取模块701、音频信号滤波模块702、自相关窗口确定模块703、音频特征获取模块704、降维特征获取模块705、基频类别确定模块706和基频频率确定模块707,其中:
音频信号获取模块701,用于获取时域音频信号;
音频信号滤波模块702,用于利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号;
自相关窗口确定模块703,用于确定具有预设窗口大小的自相关窗口;
音频特征获取模块704,用于利用自相关窗口获取语音信号的归一化自相关特征;
降维特征获取模块705,用于将归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使编码器对归一化自相关特征进行降维处理,得到具有预设维度的归一化自相关特征对应的降维特征;还用于获取样本音频信号的样本归一化自相关特征;将样本归一化自相关特征输入待训练的自编码器模型的编码器,以使编码器的编码器权值对样本归一化自相关特征进行降维处理,得到预设维度的样本归一化自相关特征对应的样本降维特征;将样本降维特征输入自编码器模型的解码器,以使解码器的解码器权值对样本降维特征进行升维处理,将样本降维特征的维度恢复为样本归一化自相关特征的维度,得到样本升维特征;获取样本归一化自相关特征与样本升维特征的均方误差;若均方误差小于等于第一误差阈值,则将自编码器模型作为特征提取模型;
基频类别确定模块706,用于将降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使基频获取模型输出降维特征对应的目标基频类别;
基频频率确定模块707,用于基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。
在一个实施例中,滤波器组包括多个滤波器通道;多个滤波器通道对应于多个滤波器函数;音频信号滤波模块702,进一步用于确定各滤波器通道对应的滤波器函数;利用各滤波器通道对应的滤波器函数对时域音频信号进行滤波处理,获取各滤波器通道对应的子语音信号,得到多个子语音信号;音频特征获取模块704,进一步用于利用自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;降维特征获取模块705,进一步用于将多个归一化子自相关特征输入编码器。
在一个实施例中,音频特征获取模块704,进一步用于获取预设的自相关特征提取周期;根据自相关特征提取周期,以及预设窗口大小,获取各子语音信号的归一化子自相关特征。
在一个实施例中,自相关窗口确定模块703,进一步用于获取预设的第一基频频率,以及预设的对时域音频信号进行采样的采样频率;根据第一基频频率以及采样频率确定自相关窗口的窗口大小。
在一个实施例中,基频类别确定模块706,进一步用于将降维特征输入至基频获取模型,以使基频获取模型获取降维特征对应的预测概率向量;预测概率向量用于表征降维特征属于预先设定的多个基频类别的预测概率;将预测概率向量输入隐马尔可夫模型,从多个基频类别中确定目标基频类别。
在一个实施例中,降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;基频类别确定模块706,进一步用于确定当前降维特征;若当前降维特征为首个降维特征,则将当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为目标基频类别;若当前降维特征为非首个降维特征,则获取当前降维特征之前的降维特征分别对应的多个预测概率向量;基于当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及当前降维特征对应的预测概率向量,确定各降维特征对应的多个预测基频类别;利用多个预测基频类别得到多个基频类别变化路径,将基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,利用目标基频类别变化路径确定目标基频类别。
在一个实施例中,多个基频类别由不同的基频频率与预设的第二基频频率之间的比值,以及预设的转换系数得到;基频频率确定模块707,进一步用于根据目标基频类别、转换系数,以及第二基频频率,获取目标基频频率。
在一个实施例中,编码器由卷积层与最大值池化层组成;解码器由卷积层和上采样层组成;降维特征获取模块705,还用于若均方误差大于预设的第一误差阈值,则利用均方误差更新编码器权值以及解码器权值,并返回至将样本归一化自相关特征输入待训练的自编码器模型的编码器的步骤。
在一个实施例中,基频类别确定模块706,还用于通过特征提取模型的编码器获取样本归一化自相关特征对应的样本降维特征,以及获取样本降维特征对应的样本标签;样本标签用于标识样本降维特征属于预先设定的多个基频类别的概率;将样本降维特征输入待训练的基频估计模型,以使基频估计模型获取样本降维特征属于多个基频类别的样本概率;获取样本概率与样本标签的误差;若误差大于预设的第二误差阈值,则利用误差更新基频估计模型,并返回至将样本降维特征输入待训练的基频估计模型的步骤,若误差小于或者等于第二误差阈值,则将基频估计模型作为基频获取模型。
关于基频获取装置的具体限定可以参见上文中对于基频获取方法的限定,在此不再赘述。上述基频获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基频获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种基频获取方法,其特征在于,所述方法包括:
获取时域音频信号;
利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;
确定具有预设窗口大小的自相关窗口;
利用所述自相关窗口获取所述语音信号的归一化自相关特征;
将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于第一误差阈值,则将所述自编码器模型作为所述特征提取模型;
将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;
基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。
2.根据权利要求1所述的方法,其特征在于,所述滤波器组包括多个滤波器通道;所述多个滤波器通道对应于多个滤波器函数;
所述得到语音信号,包括:
确定各滤波器通道对应的滤波器函数;
利用所述各滤波器通道对应的滤波器函数对所述时域音频信号进行滤波处理,获取所述各滤波器通道对应的子语音信号,得到多个子语音信号;
所述利用所述自相关窗口获取所述语音信号的归一化自相关特征,包括:
利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;
所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,包括:
将所述多个归一化子自相关特征输入所述编码器。
3.根据权利要求2所述的方法,其特征在于,所述利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征,包括:
获取预设的自相关特征提取周期;
根据所述自相关特征提取周期,以及所述预设窗口大小,获取所述各子语音信号的所述归一化子自相关特征。
4.根据权利要求3所述的方法,其特征在于,所述确定具有预设窗口大小的自相关窗口,包括:
获取预设的第一基频频率,以及预设的对所述时域音频信号进行采样的采样频率;
根据所述第一基频频率以及所述采样频率确定所述自相关窗口的窗口大小。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别,包括:
将所述降维特征输入至所述基频获取模型,以使所述基频获取模型获取所述降维特征对应的预测概率向量;所述预测概率向量用于表征所述降维特征属于预先设定的多个基频类别的预测概率;
将所述预测概率向量输入隐马尔可夫模型,从所述多个基频类别中确定所述目标基频类别。
6.根据权利要求5所述的方法,其特征在于,所述降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;所述从所述多个基频类别中确定所述目标基频类别,包括:
确定当前降维特征;
若所述当前降维特征为首个降维特征,则将所述当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为所述目标基频类别;
若所述当前降维特征为非首个降维特征,则获取所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量;
基于所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及所述当前降维特征对应的预测概率向量,确定各降维特征对应的多个预测基频类别;
利用所述多个预测基频类别得到多个基频类别变化路径,将基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,利用所述目标基频类别变化路径确定所述目标基频类别。
7.根据权利要求6所述的方法,其特征在于,所述多个基频类别由不同的基频频率与预设的第二基频频率之间的比值,以及预设的转换系数得到;
所述基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,包括:
根据所述目标基频类别、所述转换系数,以及所述第二基频频率,获取所述目标基频频率。
8.根据权利要求1所述的方法,其特征在于,所述编码器由卷积层与最大值池化层组成;所述解码器由卷积层和上采样层组成;
所述获取所述样本归一化自相关特征与所述样本升维特征的均方误差之后,还包括:
若所述均方误差大于预设的第一误差阈值,则利用所述均方误差更新所述编码器权值以及所述解码器权值,并返回至将所述样本归一化自相关特征输入待训练的自编码器模型的编码器的步骤。
9.根据权利要求8所述的方法,其特征在于,所述将所述降维特征输入预先构建的由预设数量的全连接层组成的基频获取模型之前,还包括:
通过所述特征提取模型的编码器获取所述样本归一化自相关特征对应的样本降维特征,以及获取所述样本降维特征对应的样本标签;所述样本标签用于标识所述样本降维特征属于预先设定的多个基频类别的概率;
将所述样本降维特征输入待训练的基频估计模型,以使所述基频估计模型获取所述样本降维特征属于所述多个基频类别的样本概率;
获取所述样本概率与所述样本标签的误差;
若所述误差大于预设的第二误差阈值,则利用所述误差更新所述基频估计模型,并返回至将所述样本降维特征输入待训练的基频估计模型的步骤,若所述误差小于或者等于所述第二误差阈值,则将所述基频估计模型作为所述基频获取模型。
10.一种基频获取装置,其特征在于,所述装置包括:
音频信号获取模块,用于获取时域音频信号;
音频信号滤波模块,用于利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;
自相关窗口确定模块,用于确定具有预设窗口大小的自相关窗口;
音频特征获取模块,用于利用所述自相关窗口获取所述语音信号的归一化自相关特征;
降维特征获取模块,用于将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;还用于获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于第一误差阈值,则将所述自编码器模型作为所述特征提取模型;
基频类别确定模块,用于将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;
基频频率确定模块,用于基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069325.5A CN112885367B (zh) | 2021-01-19 | 2021-01-19 | 基频获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069325.5A CN112885367B (zh) | 2021-01-19 | 2021-01-19 | 基频获取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112885367A CN112885367A (zh) | 2021-06-01 |
CN112885367B true CN112885367B (zh) | 2022-04-08 |
Family
ID=76049812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069325.5A Active CN112885367B (zh) | 2021-01-19 | 2021-01-19 | 基频获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885367B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115483944B (zh) * | 2022-09-01 | 2023-12-05 | 浙江吉利控股集团有限公司 | 一种pwm控制方法、装置、车辆和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN111108549A (zh) * | 2019-12-24 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN111860130A (zh) * | 2020-06-05 | 2020-10-30 | 南方科技大学 | 基于音频的手势识别方法、装置、终端设备和存储介质 |
CN112086104A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的基频获取方法、装置、电子设备和存储介质 |
-
2021
- 2021-01-19 CN CN202110069325.5A patent/CN112885367B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN111108549A (zh) * | 2019-12-24 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN111860130A (zh) * | 2020-06-05 | 2020-10-30 | 南方科技大学 | 基于音频的手势识别方法、装置、终端设备和存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN112086104A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的基频获取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112885367A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978142B (zh) | 神经网络模型的压缩方法和装置 | |
US9984683B2 (en) | Automatic speech recognition using multi-dimensional models | |
WO2020042707A1 (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
JP6679898B2 (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
KR20190050141A (ko) | 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치 | |
JPH05333898A (ja) | 時系列信号処理装置 | |
CN106897254B (zh) | 一种网络表示学习方法 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN111553477A (zh) | 图像处理方法、装置及存储介质 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN111860970B (zh) | 一种河流流量预测方法、装置及电子设备和存储介质 | |
CN114360520A (zh) | 语音分类模型的训练方法、装置、设备及存储介质 | |
EP4287182A1 (en) | Method and apparatus for training a speech recognition model, electronic device and storage medium | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN110675879B (zh) | 基于大数据的音频评估方法、系统、设备及存储介质 | |
CN101019171B (zh) | 用于生成向量码本的方法、用于压缩数据的方法及装置、以及分布式语音识别系统 | |
CN116884398B (zh) | 语音识别方法、装置、设备和介质 | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
CN117672176A (zh) | 基于语音自监督学习表征的重读可控语音合成方法及装置 | |
CN112446461A (zh) | 一种神经网络模型训练方法及装置 | |
RU2504027C1 (ru) | Способ создания кодовой книги и поиска в ней при векторном квантовании данных | |
CN112735392B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN114037051A (zh) | 一种基于决策边界的深度学习模型压缩方法 | |
CN111368976B (zh) | 基于神经网络特征识别的数据压缩方法 | |
CN116364102A (zh) | 一种数据处理方法及装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 519000 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province Applicant after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province Applicant before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |