CN116884438B - 基于声学特征的练琴音准检测方法及系统 - Google Patents

基于声学特征的练琴音准检测方法及系统 Download PDF

Info

Publication number
CN116884438B
CN116884438B CN202311153352.6A CN202311153352A CN116884438B CN 116884438 B CN116884438 B CN 116884438B CN 202311153352 A CN202311153352 A CN 202311153352A CN 116884438 B CN116884438 B CN 116884438B
Authority
CN
China
Prior art keywords
audio
audio information
information
energy
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311153352.6A
Other languages
English (en)
Other versions
CN116884438A (zh
Inventor
杨星星
严庆武
刘志敏
顾贤能
周萌
刘宁
严韩文
陈志�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuen Technology Co ltd
Original Assignee
Hangzhou Yuen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuen Technology Co ltd filed Critical Hangzhou Yuen Technology Co ltd
Priority to CN202311153352.6A priority Critical patent/CN116884438B/zh
Publication of CN116884438A publication Critical patent/CN116884438A/zh
Application granted granted Critical
Publication of CN116884438B publication Critical patent/CN116884438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种基于声学特征的练琴音准检测方法及系统,涉及音频处理技术领域,包括基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征;将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配。

Description

基于声学特征的练琴音准检测方法及系统
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于声学特征的练琴音准检测方法及系统。
背景技术
以往音乐学习者练琴时,通常是凭感觉或者依靠专业的老师进行一对一的指导,自己练习时,难以确定当前练习方式是否准确,久而久之容易导致养成不良习惯;而依靠专业的老师进行一对一指导,不仅需要较高的费用,还需要前往专业的场地,费时费力。
申请号为CN201910222788.3,发明名称为音频处理方法、存储介质与音乐练习终端,发明了:获取麦克风采集的用户音频信息;从所述用户音频信息中提取音乐特征;将所述提取的音乐特征与用户音频信息对应曲目的预设音乐特征进行对比,得到偏差信息;向用户反馈偏差信息。本发明可使用户获得自己表演的用户音频信息与预设音频信息之间的偏差信息,以根据所述偏差信息进行有针对性的练习,有利于快速提高用户的练习效果。
现有发明文献仅利用音频信号对音乐演奏进行评估,但是对于音频的特征提取较为粗糙,导致最后对于音准的判断也不准确。
发明内容
本发明实施例提供一种基于声学特征的练琴音准检测方法及系统,至少能够解决现有技术中部分问题。
本发明实施例的第一方面,
提供一种基于声学特征的练琴音准检测方法,包括:
基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征;
将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配,其中,所述音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
在一种可选的实施方式中,
从所述音频信息中提取频谱特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行短时傅里叶变换转化为时频图;
提取所述时频图的幅度谱和相位谱,分别对所述幅度谱进行梅尔滤波器处理以及对所述相位谱进行离散余弦变换处理,通过预设的卷积神经网络模型提取所述频谱特征;
从所述音频信息中提取时域特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行自相关分析,确定自相关值;
若所述自相关值大于预设自相关阈值,则对所述自相关值进行峰值检测,确定峰值位置,并将所述峰值位置作为所述时域特征。
在一种可选的实施方式中,
融合所述频谱特征、所述时域特征确定第一音频特征包括:
分别计算所述频谱特征之间的第一相关系数矩阵、所述时域特征之间的第二相关系数矩阵;
将所述第一相关系数矩阵和所述第二相关系数矩阵与预设相关系数阈值进行比较,分别从所述第一相关系数矩阵和所述第二相关系数矩阵中筛选大于预设相关系数阈值的筛选频谱特征和筛选时域特征;
计算所述筛选频谱特征和所述筛选时域特征的相关系数得分,按照由高到低的顺序选择相关系数得分在前一半的所述筛选频谱特征和所述筛选时域特征进行特征拼接,融合确定所述第一音频特征。
在一种可选的实施方式中,
所述对所述幅度谱进行梅尔滤波器处理如下公式所示:
其中,P F 表示对所述幅度谱进行梅尔滤波器处理的结果,N表示音频信息的帧长,X (i)表示第i帧音频信息中梅尔滤波器的响应值,A i 表示频率为f i 的离散傅里叶变换系数,f i-1 f i f i+1 分别表示第i帧音频信息中梅尔滤波器的左、中、右边界的频率值;
所述对所述相位谱进行离散余弦变换处理如下公式所示:
其中,P L 表示对所述相位谱进行离散余弦变换处理的结果,L i 表示第i帧音频信息中对数梅尔滤波器的频谱响应,n表示梅尔滤波器的个数;
所述对得到的每一帧音频信息进行自相关分析如下公式所示:
其中,R(t)表示自相关分析的滞后时间t时刻自相关值,C表示一帧音频信息的采样点数,k表示自相关系数的个数,x(c)表示第c个采样点的音频信息,t表示自相关分析的滞后时间, x(c+t)表示第c个采样点在自相关分析的滞后时间的音频信息。
在一种可选的实施方式中,
通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征包括:
根据所述音频信息的频谱幅度,以及所述音频信息对应的能量衰减频率和能量中心频率,结合所述音频信息对应的时间索引,确定每一帧音频的音频能量;
基于所述音频信息在多个时刻的频谱的音阶峰值,将所述音频信息切分为多个音频子信息,结合每一帧音频的音频能量,确定多个音频子信息的能量熵,将所述能量熵作为所述音频信息对应的第二音频特征。
在一种可选的实施方式中,
所述方法还包括训练音准识别模型:
基于预先获取的音频训练信息,通过待训练的音准识别模型对所述音频训练信息进行非线性分解,确定所述音频训练信息的非线性音频信息;
确定所述音频训练信息和所述非线性音频信息的音频偏差信息,结合待训练的音准识别模型的损失函数,确定所述音频偏差信息对应的音频梯度;
根据所述音频梯度以及预设的学习因子对待训练的音准识别模型中所有层的池化位置进行重构,确定重构后待训练的音准识别模型的损失函数的交叉熵损失,通过梯度下降算法迭代优化待训练的音准识别模型的损失函数的参数,直至所述损失函数的交叉熵损失值最小。
在一种可选的实施方式中,
通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配包括:
确定所述音准识别模型的输出结果与预设音准标准对应的向量信息的空间距离,
若所述空间距离小于等于预设距离阈值,则认定所述音频信息的音准与预设音准标准相匹配;
若所述空间距离大于预设距离阈值,则认定所述音频信息的音准与预设音准标准不匹配。
本发明实施例的第二方面,
提供一种基于声学特征的练琴音准检测系统,包括:
第一单元,用于基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
第二单元,用于通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征;
第三单元,用于将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配,其中,所述音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
本发明实施例的第三方面,
提供一种设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明实施例的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本发明实施例的有益效果可以参考具体实施方式中技术特征对应的效果,在此不再赘述。
附图说明
图1为本发明实施例基于声学特征的练琴音准检测方法的流程示意图;
图2为本发明实施例基于声学特征的练琴音准检测系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例基于声学特征的练琴音准检测方法的流程示意图,如图1所示,所述方法包括:
S101. 基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
示例性地,音频信息可以包括多种信息,如音高、音量和谐波等。频谱特征可以通过对频谱图的分析来提取相关的演奏特征,例如,可以提取出音频信号的谐波比和基音频率等特征;时域特征指的是音频信号的波形在时间上的变化,可以通过对时域特征进行分析,提取与演奏质量相关的信息,例如,可以提取出音频信号的音量、音高稳定性、音符持续时间等特征。
本申请的音频特征可以是通过融合所述频谱特征和所述时域特征得到的,能够综合表示音频信息中的演奏特征。
在一种可选的实施方式中,
所述从所述音频信息中提取频谱特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行短时傅里叶变换转化为时频图,并提取所述时频图的幅度谱和相位谱,分别对所述幅度谱进行梅尔滤波器处理以及对所述相位谱进行离散余弦变换处理,通过卷积神经网络模型提取所述频谱特征;
示例性地,可以将音频信息进行预处理,例如去除直流分量、归一化等,以确保音频信息的稳定性和可靠性;将音频信息分成若干帧,每帧的长度一般为10~30ms,相邻帧之间有50%的重叠;对每一帧进行短时傅里叶变换,将音频信息转化为时频图,其中,时频图中包括幅度谱和相位谱,其中,
幅度谱描述了音频信号在不同频率上的能量分布情况,如音高、音量、音色等,通过对幅度谱的分析,可以提取出许多有用的信息,例如频谱质心(spectral centroid)、光谱平均带宽(spectral bandwidth)、光谱质量因子(spectral flatness)等等。相位谱则描述了音频信号在不同频率上的相位信息,通常用于音频重构和合成,在音频压缩、噪声抑制、语音识别等应用中,相位信息也起到了非常重要的作用。
因此,幅度谱和相位谱的细化可以更准确地描述音频信号的时频特征,有助于实现更精确的音频处理。其中,
对所述幅度谱进行梅尔滤波器处理可以如下公式所示:
其中,P F 表示对所述幅度谱进行梅尔滤波器处理的结果,N表示音频信息的帧长,X (i)表示第i帧音频信息中梅尔滤波器的响应值,A i 表示频率为f i 的离散傅里叶变换系数,f i-1 f i f i+1 分别表示第i帧音频信息中梅尔滤波器的左、中、右边界的频率值;
通过将幅度谱进行梅尔滤波器处理,可以帮助提高音频信号特征的鲁棒性和减少特征的维度;
对所述相位谱进行离散余弦变换处理可以如下公式所示:
其中,P L 表示对所述相位谱进行离散余弦变换处理的结果,N表示音频信息的帧长,L i 表示第i帧音频信息中对数梅尔滤波器的频谱响应,n表示梅尔滤波器的个数。
对所述幅度谱进行梅尔滤波器处理以及对所述相位谱进行离散余弦变换处理后,将其输入卷积神经网络,卷积神经网络包括多个卷积层和池化层,以及全连接层,以提取特定的频谱特征。通过不断调整卷积核大小、卷积步长、激活函数等参数,可以优化卷积神经网络模型的性能,从而得到更好的频谱特征表示,其中,频谱特征可以表示为F L =(P F ,P L )。其中,卷积神经网络提取频谱特征的方式可以参考现有的方法,本申请在此不再赘述。
时域特征提取是从时间域上对音频信号进行分析,主要考虑信号的时序信息,比如振幅、能量、过零率等。常见的时域特征包括短时能量、短时过零率、短时自相关函数等。时域特征提取是指在时间轴上对信号进行分析,从中提取与音频质量相关的特征。
在一种可选的实施方式中,
所述从所述音频信息中提取时域特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行自相关分析,确定自相关值;若所述自相关值大于预设自相关阈值,则对所述自相关值进行峰值检测,确定峰值位置,并将所述峰值位置作为所述时域特征;
示例性地,自相关分析是指一个信号与其在时间上滞后一段时间后的自身重叠部分的相关性。其中,所述对得到的每一帧音频信息进行自相关分析如下公式所示:
其中,R(t)表示自相关分析的滞后时间t时刻自相关值,C表示一帧音频信息的采样点数,k表示自相关系数的个数,x(c)表示第c个采样点的音频信息,t表示自相关分析的滞后时间, x(c+t)表示第c个采样点在自相关分析的滞后时间的音频信息;
若自相关值大于预设自相关阈值,则对所述自相关值进行峰值检测,其中,进行峰值检测的方法如下公式所示:
其中,A P 表示峰值位置,T表示采样周期。
在一种可选的实施方式中,
所述融合所述频谱特征、所述时域特征确定第一音频特征包括:
分别计算所述频谱特征之间的第一相关系数矩阵、所述时域特征之间的第二相关系数矩阵,分别将所述第一相关系数矩阵和所述第二相关系数矩阵与预设相关系数阈值进行比较,分别从所述第一相关系数矩阵和所述第二相关系数矩阵中筛选大于预设相关系数阈值的筛选频谱特征和筛选时域特征,并计算所述筛选频谱特征和所述筛选时域特征的相关系数得分,按照由高到低的顺序选择相关系数得分在前一半的所述筛选频谱特征和所述筛选时域特征进行特征融合确定所述音频特征。
示例性地,计算所述频谱特征之间的第一相关系数矩阵、所述时域特征之间的第二相关系数矩阵如下公式所示:
其中,表示第一相关系数矩阵,cov(F i ,F j )表示第i个频谱特征和第j个频谱特征的协方差,/>、/>分别表示第i个频谱特征和第j个频谱特征的标准差;
其中,表示第二相关系数矩阵,cov(P i ,P j )表示第i个时域特征和第j个时域特征的协方差,/>、/>分别表示第i个时域特征和第j个时域特征的标准差;
所述计算所述筛选频谱特征和所述筛选时域特征的相关系数得分如下公式所示:
其中,、/>分别表示筛选频谱特征的相关系数得分和筛选时域特征的相关系数得分,F max P max 分别表示筛选频谱特征和筛选时域特征的数量。
时域特征和频域特征是音频信息的两个基本特征,它们都可以用于音频信号的分析和处理。在音频信号分析领域,时域特征和频域特征往往结合起来使用,以获取更全面的信息,从而更准确地描述音频信息的特性,以提高检测精度。
S102. 通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征;
示例性地,在音频处理中,采样窗口是指对音频信号进行分析的固定时间段,通常情况下,音频信号会被分成一小段一小段的窗口进行处理,以便进行频谱分析等操作。音频能量是指在一个时间窗口内的音频信号的总能量,它通常是音频信号幅度的平方和,用于表示在该时间段内声音的强弱。频谱是指音频信号在频率域的表示,可以显示不同频率上的能量分布。音阶峰值是指在频谱中的一些频率区间内能量的峰值,用来描述音频的特定频率成分。
在一种可选的实施方式中,
通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征包括:
根据所述音频信息的频谱幅度,以及所述音频信息对应的能量衰减频率和能量中心频率,结合所述音频信息对应的时间索引,确定每一帧音频的音频能量;
基于所述音频信息在多个时刻的频谱的音阶峰值,将所述音频信息切分为多个音频子信息,结合每一帧音频的音频能量,确定多个音频子信息的能量熵,将所述能量熵作为所述音频信息对应的第二音频特征。
示例性地,频谱幅度是指在频谱中每个频率分量的振幅,频谱分析可以将音频信号从时域转换为频域,以便分析不同频率上的成分;能量衰减频率表示频谱中能量下降的频率,而能量中心频率是能量分布的中心。能量熵可以理解为音频信号在时间窗口内能量分布的不确定性度量。
可选地,为了准确分析音频特性可以从音频特征入手,分别确定每一帧音频的信号能量以及每一帧音频的熵值,相比于现有的音频分析方法,例如,短时能量与短时过零率双门限法、相关法、谱距离法,现有的方法在较高的信噪比环境下具有良好的性能,但是在低信噪比时性能急剧恶化,使得音频信号的端点检测准确率极速下降,而本申请的方法将信号能量和熵值作为特征分析参数,只与能量的随机性有关,与能量幅值无关,对噪声具有一定的鲁棒性,能有效避免突发噪声的干扰,而且能够避免大量的运算。
在一种可选的实施方式中,
能量衰减频率控制频谱信号原子的长短,能量中心频率服从高斯分布,能够将频谱信号原子规整到对应的单位能量。
确定音频能量可以如下公式所示:
其中,E表示每一帧音频的信号能量,M表示采样数量,k表示频域点,r表示相位偏移角度,N表示音频的帧数, 表示所述预设的采样窗口的频率响应,w j 表示第j个采样点的采样尺度,u表示采样窗口大小,e表示采样频率。
G(n)表示第n个频谱信号,Xi表示第i帧音频的频谱幅度值,Xi (m)表示对频谱幅度值进行傅里叶变换后的结果,t表示所述频谱幅度值对应的时间索引,c表示能量中心频率,s表示能量衰减频率。
在一种可选的实施方式中,
对于每个帧的频谱特征,计算音阶峰值,即在特定频率范围内的能量峰值,这些峰值反映了音频信号中的重要频率成分;将每个帧的音阶峰值作为特征,将所有帧的特征构成一个特征矩阵;使用聚类算法(例如K均值聚类、层次聚类等)对特征矩阵进行聚类,每个聚类簇代表一个音频子信息;对于每个聚类簇,可以选择代表性帧作为该子信息的频谱特征,这些代表性帧可以是每个簇内的中心点,即该簇中频谱特征平均值最接近的帧。将每个聚类簇的代表性帧重新合成为音频,这样就可以得到多个音频子信息。
通过上述方案,可以根据频谱的音阶峰值将音频切分为不同的音频子信息,每个子信息代表了在特定频率成分上的共振结构。
在一种可选的实施方式中,
确定多个音频子信息的能量熵如下公式所示:
其中,Qi表示第i帧音频的能量熵,V(i)表示第i帧音频对应的能量概率,L(i)表示第i帧的信息熵,Ez(i)表示第i帧和第i+1帧的音频子信息能量。
通过分析频谱的音阶峰值以及能量衰减和能量中心频率,可以更好地捕获音频的音高特性,音高的准确性对于音准评估至关重要;能量熵可以提供有关音频能量分布的信息,从而揭示音频的稳定性和变化情况;结合音频能量和频谱信息,可以获得更全面的音频质量评估,包括音频的清晰度、声音质量以及频率成分的变化。
S103. 将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配。
示例性地,本申请的音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
在一种可选的实施方式中,
所述方法还包括训练音准识别模型:
基于预先获取的音频训练信息,通过待训练的音准识别模型对所述音频训练信息进行非线性分解,确定所述音频训练信息的非线性音频信息;
确定所述音频训练信息和所述非线性音频信息的音频偏差信息,结合待训练的音准识别模型的损失函数,确定所述音频偏差信息对应的音频梯度;
根据所述音频梯度以及预设的学习因子对待训练的音准识别模型中所有层的池化位置进行重构,确定重构后待训练的音准识别模型的损失函数的交叉熵损失,通过梯度下降算法迭代优化待训练的音准识别模型的损失函数的参数,直至所述损失函数的交叉熵损失值最小。
示例性地,使用待训练的音准识别模型对训练数据进行非线性分解,以确定每个音频训练样本的非线性音频信息,非线性分解可以是模型对音频数据的特征提取和编码过程。根据训练数据和分解得到的非线性音频信息,计算音频训练信息和非线性音频信息之间的音频偏差,这可以看作是模型在特定音频上的预测与实际标签之间的差异。
定义音准识别模型的损失函数,通常使用交叉熵损失,将模型预测与实际标签之间的差异考虑在内。结合模型的损失函数,计算每个音频偏差信息对应的音频梯度,音频梯度表示了调整模型预测以减小损失的方向。使用计算得到的音频梯度以及预设的学习因子,对待训练的音准识别模型中所有层的池化位置进行重构,这可以看作是对模型参数的微调。
通过梯度下降算法,反复迭代优化模型的参数,以使损失函数的交叉熵损失最小化,在每次迭代中,使用重构后的模型参数计算新的损失和梯度。
其中,确定音频梯度可以包括:
使用模型的当前参数,对音频样本进行正向传播,生成模型的预测音高;将模型的预测音高与实际标签音高进行比较,计算损失,其中,常用的损失函数是均方误差(MeanSquared Error);对损失函数进行反向传播,计算损失对于模型参数的梯度,这会产生关于模型参数的梯度信息,包括池化位置的梯度。根据计算得到的梯度信息,使用预设的学习因子对池化位置进行微调。其中,学习因子决定了在每次迭代中,模型沿着梯度方向更新参数的距离。较大的学习因子意味着每次迭代更新的幅度较大,模型可能会跳过最优点;而较小的学习因子可能导致收敛速度缓慢,需要更多的迭代次数。
其中,音准识别模型输出音频信息的音准可以包括对第一音频特征和第二音频特征进行融合、卷积操作后,输入到音准识别模型的分类器中,确定输入特征对应的音频。
在一种可选的实施方式中,
通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配包括:
确定所述音准识别模型的输出结果与预设音准标准对应的向量信息的空间距离,
若所述空间距离小于等于预设距离阈值,则认定所述音频信息的音准与预设音准标准相匹配;
若所述空间距离大于预设距离阈值,则认定所述音频信息的音准与预设音准标准不匹配。
示例性地,本申请的预设距离阈值可以是通过音准误差允许范围进行适应性设定的,本申请实施例对此并不进行限定。
本发明实施例的第二方面,
提供一种基于声学特征的练琴音准检测系统,图2为本发明实施例基于声学特征的练琴音准检测系统的结构示意图,包括:
第一单元,用于基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
第二单元,用于通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征;
第三单元,用于将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配,其中,所述音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
本发明实施例的第三方面,
提供一种设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明实施例的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于声学特征的练琴音准检测方法,其特征在于,包括:
基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征,其中,所述音阶峰值是指在频谱中的频率区间内能量的峰值,用来描述音频的特定频率成分;
将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配,其中,所述音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
2.根据权利要求1所述的方法,其特征在于,从所述音频信息中提取频谱特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行短时傅里叶变换转化为时频图;
提取所述时频图的幅度谱和相位谱,分别对所述幅度谱进行梅尔滤波器处理以及对所述相位谱进行离散余弦变换处理,通过预设的卷积神经网络模型提取所述频谱特征;
从所述音频信息中提取时域特征包括:
将所述音频信息进行分帧处理,并对得到的每一帧音频信息进行自相关分析,确定自相关值;
若所述自相关值大于预设自相关阈值,则对所述自相关值进行峰值检测,确定峰值位置,并将所述峰值位置作为所述时域特征。
3.根据权利要求1所述的方法,其特征在于,融合所述频谱特征、所述时域特征确定第一音频特征包括:
分别计算所述频谱特征之间的第一相关系数矩阵、所述时域特征之间的第二相关系数矩阵;
将所述第一相关系数矩阵和所述第二相关系数矩阵与预设相关系数阈值进行比较,分别从所述第一相关系数矩阵和所述第二相关系数矩阵中筛选大于预设相关系数阈值的筛选频谱特征和筛选时域特征;
计算所述筛选频谱特征和所述筛选时域特征的相关系数得分,按照由高到低的顺序选择相关系数得分在前一半的所述筛选频谱特征和所述筛选时域特征进行特征拼接,融合确定所述第一音频特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述幅度谱进行梅尔滤波器处理如下公式所示:
其中,PF表示对所述幅度谱进行梅尔滤波器处理的结果,N表示音频信息的帧长,X(i)表示第i帧音频信息中梅尔滤波器的响应值,Ai表示频率为fi的离散傅里叶变换系数,fi-1、fi、fi+1分别表示第i帧音频信息中梅尔滤波器的左、中、右边界的频率值;
所述对所述相位谱进行离散余弦变换处理如下公式所示:
其中,PL表示对所述相位谱进行离散余弦变换处理的结果,Li表示第i帧音频信息中对数梅尔滤波器的频谱响应,n表示梅尔滤波器的个数;
所述对得到的每一帧音频信息进行自相关分析如下公式所示:
其中,R(t)表示自相关分析的滞后时间t时刻自相关值,C表示一帧音频信息的采样点数,k表示自相关系数的个数,x(c)表示第c个采样点的音频信息,t表示自相关分析的滞后时间,x(c+t)表示第c个采样点在自相关分析的滞后时间的音频信息。
5.根据权利要求1所述的方法,其特征在于,通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征包括:
根据所述音频信息的频谱幅度,以及所述音频信息对应的能量衰减频率和能量中心频率,结合所述音频信息对应的时间索引,确定每一帧音频的音频能量;
基于所述音频信息在多个时刻的频谱的音阶峰值,将所述音频信息切分为多个音频子信息,结合每一帧音频的音频能量,确定多个音频子信息的能量熵,将所述能量熵作为所述音频信息对应的第二音频特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括训练音准识别模型:
基于预先获取的音频训练信息,通过待训练的音准识别模型对所述音频训练信息进行非线性分解,确定所述音频训练信息的非线性音频信息;
确定所述音频训练信息和所述非线性音频信息的音频偏差信息,结合待训练的音准识别模型的损失函数,确定所述音频偏差信息对应的音频梯度;
根据所述音频梯度以及预设的学习因子对待训练的音准识别模型中所有层的池化位置进行重构,确定重构后待训练的音准识别模型的损失函数的交叉熵损失,通过梯度下降算法迭代优化待训练的音准识别模型的损失函数的参数,直至所述损失函数的交叉熵损失值最小。
7.根据权利要求1所述的方法,其特征在于,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配包括:
确定所述音准识别模型的输出结果与预设音准标准对应的向量信息的空间距离,
若所述空间距离小于等于预设距离阈值,则认定所述音频信息的音准与预设音准标准相匹配;
若所述空间距离大于预设距离阈值,则认定所述音频信息的音准与预设音准标准不匹配。
8.一种基于声学特征的练琴音准检测系统,其特征在于,包括:
第一单元,用于基于在乐器上设置的声学传感器获取演奏者在练琴时的音频信息,从所述音频信息中提取频谱特征、时域特征,并融合所述频谱特征、所述时域特征确定第一音频特征;
第二单元,用于通过预设的采样窗口确定所述音频信息中每一帧音频的音频能量,根据所述音频能量结合所述音频信息在多个时刻的频谱的音阶峰值,确定所述音频信息对应的第二音频特征,其中,所述音阶峰值是指在频谱中的频率区间内能量的峰值,用来描述音频的特定频率成分;
第三单元,用于将所述第一音频特征和所述第二音频特征输入预先构建的音准识别模型,通过所述音准识别模型判断所述音频信息的音准是否与预设音准标准相匹配,其中,所述音准识别模型基于在卷积神经网络模型中引入学习因子并且对所有层的池化位置进行重构构建而成。
9.一种基于声学特征的练琴音准检测设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN202311153352.6A 2023-09-08 2023-09-08 基于声学特征的练琴音准检测方法及系统 Active CN116884438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311153352.6A CN116884438B (zh) 2023-09-08 2023-09-08 基于声学特征的练琴音准检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311153352.6A CN116884438B (zh) 2023-09-08 2023-09-08 基于声学特征的练琴音准检测方法及系统

Publications (2)

Publication Number Publication Date
CN116884438A CN116884438A (zh) 2023-10-13
CN116884438B true CN116884438B (zh) 2023-12-01

Family

ID=88262648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311153352.6A Active CN116884438B (zh) 2023-09-08 2023-09-08 基于声学特征的练琴音准检测方法及系统

Country Status (1)

Country Link
CN (1) CN116884438B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364184A (zh) * 2019-07-15 2019-10-22 西安音乐学院 基于深度卷积神经网络dcnn和ctc算法的音准评估方法
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN112489682A (zh) * 2020-11-25 2021-03-12 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质
CN113053337A (zh) * 2021-03-26 2021-06-29 北京儒博科技有限公司 一种音准评定方法、装置、设备及存储介质
CN114093386A (zh) * 2021-11-10 2022-02-25 厦门大学 一种面向教育的多维度歌唱评价方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质
CN116246598A (zh) * 2023-02-28 2023-06-09 厦门大学 一种基于片段式的多阶段自动音准评分方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364184A (zh) * 2019-07-15 2019-10-22 西安音乐学院 基于深度卷积神经网络dcnn和ctc算法的音准评估方法
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN112489682A (zh) * 2020-11-25 2021-03-12 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质
WO2021213135A1 (zh) * 2020-11-25 2021-10-28 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质
CN113053337A (zh) * 2021-03-26 2021-06-29 北京儒博科技有限公司 一种音准评定方法、装置、设备及存储介质
CN114093386A (zh) * 2021-11-10 2022-02-25 厦门大学 一种面向教育的多维度歌唱评价方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质
CN116246598A (zh) * 2023-02-28 2023-06-09 厦门大学 一种基于片段式的多阶段自动音准评分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小提琴音准练习软件设计;石恒昆;;软件导刊(第06期);全文 *

Also Published As

Publication number Publication date
CN116884438A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Gfeller et al. SPICE: Self-supervised pitch estimation
CN106486131B (zh) 一种语音去噪的方法及装置
Emiya et al. Multipitch estimation of piano sounds using a new probabilistic spectral smoothness principle
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
CN111369982A (zh) 音频分类模型的训练方法、音频分类方法、装置及设备
KR20140079369A (ko) 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법
Kawahara et al. Using instantaneous frequency and aperiodicity detection to estimate F0 for high-quality speech synthesis
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
CN108682432B (zh) 语音情感识别装置
CN109300470B (zh) 混音分离方法和混音分离装置
CN101133442B (zh) 生成音频信号的印迹的方法
RU2427044C1 (ru) Текстозависимый способ конверсии голоса
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
KR20040088364A (ko) 잔여 모델을 사용하여 포먼트 트랙킹을 하기 위한 방법 및장치
de Fréin Power-weighted LPC formant estimation
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
CN114302301B (zh) 频响校正方法及相关产品
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
CN112259063B (zh) 一种基于音符瞬态字典和稳态字典的多音高估计方法
Derrien A very low latency pitch tracker for audio to MIDI conversion
Bhaskar et al. Analysis of language identification performance based on gender and hierarchial grouping approaches
Assaleh et al. Speech recognition using the modulation model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant