CN105845149A - 声音信号中主音高的获取方法及系统 - Google Patents

声音信号中主音高的获取方法及系统 Download PDF

Info

Publication number
CN105845149A
CN105845149A CN201610156616.7A CN201610156616A CN105845149A CN 105845149 A CN105845149 A CN 105845149A CN 201610156616 A CN201610156616 A CN 201610156616A CN 105845149 A CN105845149 A CN 105845149A
Authority
CN
China
Prior art keywords
formula
frequency
group
peak point
acoustical signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610156616.7A
Other languages
English (en)
Other versions
CN105845149B (zh
Inventor
曹裕行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yunzhixin Intelligent Technology Co Ltd
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201610156616.7A priority Critical patent/CN105845149B/zh
Publication of CN105845149A publication Critical patent/CN105845149A/zh
Application granted granted Critical
Publication of CN105845149B publication Critical patent/CN105845149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种声音信号中主音高的获取方法及系统,该方法包括:提供声音信号并对声音信号进行分帧以形成声音信号分帧;利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;获取所述频域信号中幅度的峰值点;计算所述峰值点的谐波和;利用概率转换公式将所述谐波和中的幅度转换为概率,再通过维特比算法选取最强概率的频率曲线;以及将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。本发明通过计算声音信号的峰值点、谐波和、以及概率转换公式,进而获得声音信号的主音高,提高了音高获取的准确率,进而使得通过音高提取人声成为可能。本发明解决了现有采用人耳听觉识别音高的不准确的问题。

Description

声音信号中主音高的获取方法及系统
技术领域
本发明涉及语音识别领域,特指一种声音信号中主音高的获取方法及系统。
背景技术
音高是指人耳对声音调子高低的主观感觉,主要取决于频率的高低与响度的大小,频率低的调子给人以低沉、厚实、粗犷的感觉;频率高的调子给人以亮丽、明亮、尖刻的感觉。目前音高是通过人耳的听觉来识别的,不能准确的判断一段音乐信号的音高,进而也就不能对该音乐信号中的主音高进行分离提取、转换等操作了。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种声音信号中主音高的获取方法及系统,解决现有技术中采用人耳听觉识别音高不准确而不能对音乐信号中的主音高进行分离提取、转换等操作的问题。
实现上述目的的技术方案是:
本发明一种声音信号中主音高的获取方法,包括:
获取声音信号,对所述声音信号进行分帧以形成声音信号分帧;
利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;
获取所述频域信号中幅度的峰值点;
计算所述峰值点的谐波和;
利用概率转换公式将所述谐波和中的幅度转换为概率,再通过维特比算法选取最强概率的频率曲线;以及
将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。
本发明通过计算声音信号的峰值点、谐波和、以及概率转换公式,进而获得声音信号的主音高,提高了音高获取的准确率,进而使得通过音高提取人声成为可能。本发明解决了现有采用人耳听觉识别音高的不准确的问题,解决了不能对音乐信号中的主音高进行分离提取、转换等操作的问题。
本发明声音信号中主音高的获取方法的进一步改进在于,利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号,包括:
利用公式一将所述声音信号分帧从时域转换到频域内以形成频域信号,并画出对应所述频域信号的频域波形;
所述公式一为:
X ( k , 1 ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平方是-1,n是信号时域采样点。
本发明声音信号中主音高的获取方法的进一步改进在于,获取所述频域信号中幅度的峰值点,包括:
从所述频域波形中找到峰值点,所述频域波形的横坐标为频率值,纵坐标为幅度值;
利用第一组公式查找距所述峰值点前后一个单位的频率值所对应的幅度值,并与所述峰值点对应的幅度值一起做二次插值;
所述第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
基于第二组公式和所述二次插值对所述峰值点进行修正,得到经修正的峰值点;
所述第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点;
计算所述候选峰值点对应的虚拟峰值点。
本发明声音信号中主音高的获取方法的进一步改进在于,计算所述峰值点的谐波和,包括:
利用第三组公式计算每一虚拟峰值点的谐波和;
所述第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数。
本发明声音信号中主音高的获取方法的进一步改进在于,利用概率转换公式将所述谐波和中的幅度转换为概率,包括:
利用所述第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表;
利用第四组公式统计所述概率表中整体谐波和的均值与标准差;
所述第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
所述第四组公式中:H是均值,σ是标准差,p是概率,t是概率表。
本发明还提供了一种声音信号中主音高的获取系统,包括:
声音获取单元,用于获取声音信号;
声音分帧单元,与所述声音获取单元连接,用于对所述声音信号进行分帧以形成声音信号分帧;
频域转换单元,与所述声音分帧单元连接,用于基于傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;
峰值获取单元,与所述频域转换单元连接,用于获取所述频域信号中幅度的峰值点;
谐波和计算单元,与所述峰值获取单元连接,用于计算所述峰值点的谐波和;
概率转换单元,与所述谐波和计算单元连接,用于利用概率转换公式将所述谐波和中的幅度转换为概率,并通过维特比算法选取最强概率的频率曲线;以及
音高转换单元,与所述概率转换单元连接,用于将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。
本发明声音信号中主音高的获取系统的进一步改进在于,还包括有存储单元,所述存储单元内存储有公式一,所述公式一为:
X ( k , 1 ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平方是-1,n是信号时域采样点;
所述频域转换单元与所述存储单元连接,所述频域转换单元利用所述存储单元内存储的所述公式一将所述声音信号分帧从时域转换到频域内以形成频域信号,并画出对应所述频域信号的频域波形。
本发明声音信号中主音高的获取系统的进一步改进在于,所述存储单元内还存储有第一组公式和第二组公式;
所述第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
所述第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
所述峰值获取单元与所述存储单元连接,所述峰值获取单元包括有峰值查找模块、幅度差值模块、修正模块、以及虚拟峰值模块;
所述峰值查找模块用于从所述频域波形中找到峰值点;
所述幅度差值模块与所述峰值查找模块连接,用于依据所述第一组公式查找出距所述峰值点前后一个单元的频率值对应的幅度值,并与所述峰值点对应的幅度值一起做二次插值;
所述修正模块与所述峰值查找模块和所述幅度差值模块连接,用于利用所述第二组公式和所述二次插值对所述峰值点进行修正以得到经修正的峰值点;
所述虚拟峰值模块与所述修正模块连接,用于从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点,并计算所述候选峰值点对应的虚拟峰值点。
本发明声音信号中主音高的获取系统的进一步改进在于,所述存储单元内还存储有第三组公式;
所述第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数;
所述谐波和计算单元与所述存储单元连接,所述谐波和计算单元用于利用所述第三组公式计算每一虚拟峰值点的谐波和。
本发明声音信号中主音高的获取系统的进一步改进在于,所述存储单元内存储有第四组公式;
所述第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
所述第四组公式中:H是均值,σ是标准差,p是概率,t是概率表;
所述概率转换单元与所述存储单元连接,所述概率转换单元通过所述第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表,并利用所述第四组公式统计所述概率表中整体谐波和的均值与标准差。
附图说明
图1为本发明声音信号中主音高的获取系统的系统图。
图2为本发明声音信号中主音高的获取方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供了一种声音信号中主音高的获取系统及方法,目的在于准确的获取声音信号中的主音高,较佳用于获取音乐信号中的主音高,为从音乐信号中提取人声提供基础。本发明解决了现有技术中采用人工听觉识别音高存在的音高识别不准确的问题。本发明采用将声波信号转换到频域内,并画出对应的频域波形,再获取频域波形的峰值点,获取峰值点时通过提高频域的分辨率来提高获取音高的准确率。计算峰值点的谐波和,再通过概率转换将幅度转换为概率,就获得了每帧的频率,也就是音高。下面结合附图对本发明声音信号中主音高的获取系统及方法进行说明。
参阅图1,显示了本发明声音信号中主音高的获取系统的系统图。下面结合图1,对本发明声音信号中主音高的获取系统进行说明。
如图1所示,本发明声音信号中主音高的获取系统包括声音获取单元11、声音分帧单元12、频域转换单元13、峰值获取单元14、谐波和计算单元15、概率转换单元16、音高转换单元17、以及存储单元18;声音获取单元11与声音分帧单元12连接,声音分帧单元12与频域转换单元13连接,频域转换单元13与峰值获取单元14连接,峰值获取单元14与谐波和计算单元15连接,谐波和计算单元15与概率转换单元16连接,概率转换单元16与音高转换单元17连接,声音获取单元11、声音分帧单元12、频域转换单元13、峰值获取单元14、谐波和计算单元15、概率转换单元16、以及音高转换单元17均与存储单元18连接。
声音获取单元11用于获取声音信号,所获取的声音信号可以是音乐信号,该音乐信号为多种音高旋律的混合体。声音获取单元11可以是麦克风,通过录制的方式获取声音信号,也可以是声音输入设备,通过输入以声波形式的声音信号而获取对应的声音信号。
声音分帧单元12接收到声音获取单元11获取的声音信号,声音分帧单元12用于对该声音信号进行分帧以形成声音信号分帧,一般以30ms为一帧对声音信号进行分帧处理,经分帧处理的声音信号成为以时间帧为划分单位的声音信号分帧。
频域转换单元13接收到声音分帧单元12的声音信号分帧,该频域转换单元13利用傅里叶变换将声音信号分帧的每一帧信号从时域转换到频域内以形成频域信号。频域转换单元13还将频域信号以公式一画出频域波形,该频域信号的波形图是以频率为X轴,以幅度为Y轴的频域图。公式一存储在存储单元18内,该公式一为:
X ( k , l ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
在公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平方是-1,n是信号时域采样点;
频域转换单元13调取存储单元18内存储的公式一,利用公式一将声音信号分帧从时域转换到频域内,形成频域信号并画出对应该频域信号的频域波形。
峰值获取单元14接收到频域转换单元13的频域信号和频域波形,峰值获取单元14用于获取频域信号中的幅度的峰值点,频域波形的波形图是以频率为X轴,以幅度为Y轴。峰值获取单元14通过第一组公式和第二组公式提高频域的分辨率,提升获取的峰值点的准确率,以提高音高获取的准确率。第一组公式和第二组公式存储在存储单元18内,该第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
在第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
该第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
在第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值,其中的A2是频率值km对应的幅度值,A1是频率值km-1对应的幅度值,A3是频率值km+1对应的幅度值;
峰值获取单元14包括有峰值查找模块、幅度差值模块、修正模块、以及虚拟峰值模块;
峰值查找模块用于从频域波形中找到峰值点,峰值点为幅度较高的点,峰值点的横坐标是频率值km,纵坐标是幅度值A2
幅度差值模块与峰值查找模块连接,用于依据第一组公式查找出距峰值点前后一个单元的频率值km-1、km+1对应的幅度值A1、A3,并与峰值点对应的幅度值A2一起做二次插值,得到了二次插值d;
修正模块与峰值查找模块和幅度差值模块连接,用于利用第二组公式和二次插值d对峰值点进行修正以得到经修正的峰值点,该经修正的峰值点的横坐标是频率值纵坐标是幅度值
虚拟峰值模块与修正模块连接,用于从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点,并计算候选峰值点对应的虚拟峰值点。计算虚拟峰值点如下:
得到的峰值点中选取100HZ到1200HZ中的峰值点作为候选项,假设两个峰值点对应的虚拟峰值点(f1,a1)、(f2,a2)的第h次谐波、第h+1次谐波;则有h=f1/(f2-f1),则对应的虚拟峰值点为(f1/h,a0),a0通过检测前一帧中相近候选峰值点的幅度来近似,如果没有相近的峰值点则删除。同样的,继续假设h和h+2次谐波来计算虚拟峰值点。
谐波和计算单元15接收到峰值获取单元14得出的虚拟峰值点,谐波和计算单元15用于计算该虚拟峰值点的谐波和,该谐波和计算单元15利用第三组公式计算每一虚拟峰值点的谐波和。该第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数。
概率转换单元16接收到谐波和计算单元15得出的谐波和,该概率转换单元16利用概率转换公式将谐波和中的幅度转换为概率,转换为概率后再通过维特比算法选取最强概率的频率曲线。该概率转换公式以第四组公式存储在存储单元18内,该第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
在第四组公式中:H是均值,σ是标准差,p是概率,t是概率表;
概率转换单元16通过第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表t,并利用第四组公式统计概率表t中整体谐波和的均值与标准差,就形成了对应谐波和的概率p。
音高转换单元17接收到概率转换单元16得到的频率曲线,该音高转换单元17将频率曲线中的每一帧的频率值转换为音高,较佳地,对频率曲线中的每一帧的频率值求log即为音高,进而形成了对应声音信号的主音高。
下面对本发明音乐信号中主音高的获取方法进行说明。
本发明音乐信号中主音高的获取方法,包括以下步骤:
执行步骤S21,获取声音信号并进行分帧形成声音信号分帧,提供的声音信号可以是音乐信号,该音乐信号为多种音高旋律的混合体。可以通过麦克风录制的方式提供声音信号,也可以是通过声音输入设备输入以声波形式的声音信号而获取对应的声音信号。一般以30ms为一帧对声音信号进行分帧处理,经分帧处理的声音信号成为以时间帧为划分单位的声音信号分帧。接着执行步骤S22。
执行步骤S22,利用傅里叶变换将声音信号分帧从时域转换到频域,通过傅里叶变换将声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号。利用傅里叶变换将声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号,包括:
利用公式一将声音信号分帧从时域转换到频域内以形成频域信号,并画出对应频域信号的频域波形;
该公式一为:
X ( k , l ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
在公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平方是-1,n是信号时域采样点。接着执行步骤S23。
执行步骤S23,获取频域信号中幅度的峰值点,获取该频域信号中幅度的峰值点,包括:
从频域波形中找到峰值点,频域波形的横坐标为频率值,纵坐标为幅度值;
利用第一组公式查找距所述峰值点前后一个单位的频率值所对应的幅度值,并与所述峰值点对应的幅度值一起做二次插值;
该第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
在第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值,其中的A2是频率值km对应的幅度值,A1是频率值km-1对应的幅度值,A3是频率值km+1对应的幅度值;
基于第二组公式和二次插值对所述峰值点进行修正,得到经修正的峰值点;
第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
在第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
通过第一组公式将原始信号补充三倍大小都零然后做fft,然后对找到的峰值点做二次插值。在通过第二组公式对峰值点进行修正。
从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点;计算所述候选峰值点对应的虚拟峰值点。具体地,从得到的峰值点中选取100HZ至1200HZ范围的峰值点作为候选项,同时计算候选项的虚拟峰值点,假设两个峰值点对应的虚拟峰值点(f1,a1)、(f2,a2)的第h次谐波、第h+1次谐波;则有h=f1/(f2-f1),则对应的虚拟峰值点为(f1/h,a0),a0通过检测前一帧中相近候选峰值点的幅度来近似,如果没有相近的峰值点则删除。同样的,继续假设h和h+2次谐波来计算虚拟峰值点。接着执行步骤S24。
执行步骤S24,计算峰值点的谐波和,以得到所有峰值点的谐波和。计算峰值点的谐波和,包括:
利用第三组公式计算每一虚拟峰值点的谐波和;
该第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
在第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数。接着执行步骤S25。
执行步骤S25,利用概率转换公式将谐波和中的幅度转换为概率,选取最强概率的频率曲线,利用概率转换公式将所述谐波和中的幅度转换为概率,包括:
利用第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表t;
利用第四组公式统计概率表t中整体谐波和的均值与标准差;
该第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
在第四组公式中:H是均值,σ是标准差,p是概率,t是概率表。
再通过维特比算法选取最强概率的频率曲线。接着执行步骤S26。
执行步骤S26,将频率曲线转换为音高,对频率曲线中的每帧的频率求log,即获得了音高,进而形成了对应声音信号的主音高。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (10)

1.一种声音信号中主音高的获取方法,其特征在于,包括:
获取声音信号,对所述声音信号进行分帧以形成声音信号分帧;
利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;
获取所述频域信号中幅度的峰值点;
计算所述峰值点的谐波和;
利用概率转换公式将所述谐波和中的幅度转换为概率,再通过维特比算法选取最强概率的频率曲线;以及
将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。
2.如权利要求1所述的声音信号中主音高的获取方法,其特征在于,利用傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号,包括:
利用公式一将所述声音信号分帧从时域转换到频域内以形成频域信号,并画出对应所述频域信号的频域波形;
所述公式一为:
X ( k , l ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平放是-1,n是信号时域采样点。
3.如权利要求2所述的声音信号中主音高的获取方法,其特征在于,获取所述频域信号中幅度的峰值点,包括:
从所述频域波形中找到峰值点,所述频域波形的横坐标为频率值,纵坐标为幅度值;
利用第一组公式查找距所述峰值点前后一个单位的频率值所对应的幅度值,并与所述峰值点对应的幅度值一起做二次插值;
所述第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
基于第二组公式和所述二次插值对所述峰值点进行修正,得到经修正的峰值点;
所述第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点;
计算所述候选峰值点对应的虚拟峰值点。
4.如权利要求3所述的声音信号中主音高的获取方法,其特征在于,计算所述峰值点的谐波和,包括:
利用第三组公式计算每一虚拟峰值点的谐波和;
所述第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数。
5.如权利要求4所述的声音信号中主音高的获取方法,其特征在于,利用概率转换公式将所述谐波和中的幅度转换为概率,包括:
利用所述第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表;
利用第四组公式统计所述概率表中整体谐波和的均值与标准差;
所述第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
所述第四组公式中:H是均值,σ是标准差,p是概率,t是概率表。
6.一种声音信号中主音高的获取系统,其特征在于,包括:
声音获取单元,用于获取声音信号;
声音分帧单元,与所述声音获取单元连接,用于对所述声音信号进行分帧以形成声音信号分帧;
频域转换单元,与所述声音分帧单元连接,用于基于傅里叶变换将所述声音信号分帧中的每一帧信号从时域转换到频域内以形成频域信号;
峰值获取单元,与所述频域转换单元连接,用于获取所述频域信号中幅度的峰值点;
谐波和计算单元,与所述峰值获取单元连接,用于计算所述峰值点的谐波和;
概率转换单元,与所述谐波和计算单元连接,用于利用概率转换公式将所述谐波和中的幅度转换为概率,并通过维特比算法选取最强概率的频率曲线;以及
音高转换单元,与所述概率转换单元连接,用于将所述频率曲线转换为音高,进而形成了对应所述声音信号的主音高。
7.如权利要求6所述的声音信号中主音高的获取系统,其特征在于,还包括有存储单元,所述存储单元内存储有公式一,所述公式一为:
X ( k , l ) = Σ n = 0 M - 1 w ( n ) · x ( n ) e - j 2 π N k n
公式一中:x(n)是时域信号,w(n)是窗函数,k是频率刻度,l是帧数,M窗函数长度,N是傅里叶变换大小,j的平方是-1,n是信号时域采样点;
所述频域转换单元与所述存储单元连接,所述频域转换单元利用所述存储单元内存储的所述公式一将所述声音信号分帧从时域转换到频域内以形成频域信号,并画出对应所述频域信号的频域波形。
8.如权利要求7所述的声音信号中主音高的获取系统,其特征在于,所述存储单元内还存储有第一组公式和第二组公式;
所述第一组公式为:
A1=X(km-1)
A2=X(km)
A3=X(km+1)
d = 0.5 A 1 - A 3 A 1 - 2 A 2 + A 3
第一组公式中:km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
所述第二组公式为:
k m ^ = k m + d
a ^ = A 2 - d 4 ( A 1 - A 3 )
第二组公式中:是经修正的峰值点的频率值,是经修正的峰值点的幅度值,km是频率值,A1、A2、A3是幅度值,d是三个峰值点的二次插值;
所述峰值获取单元与所述存储单元连接,所述峰值获取单元包括有峰值查找模块、幅度差值模块、修正模块、以及虚拟峰值模块;
所述峰值查找模块用于从所述频域波形中找到峰值点;
所述幅度差值模块与所述峰值查找模块连接,用于依据所述第一组公式查找出距所述峰值点前后一个单元的频率值对应的幅度值,并与所述峰值点对应的幅度值一起做二次插值;
所述修正模块与所述峰值查找模块和所述幅度差值模块连接,用于利用所述第二组公式和所述二次插值对所述峰值点进行修正以得到经修正的峰值点;
所述虚拟峰值模块与所述修正模块连接,用于从得到的经修正的峰值点中选取100HZ至1200HZ范围的峰值点作为候选峰值点,并计算所述候选峰值点对应的虚拟峰值点。
9.如权利要求8所述的声音信号中主音高的获取系统,其特征在于,所述存储单元内还存储有第三组公式;
所述第三组公式为:
H S = Σ i = 1 I a ^ β i ϵ ( a ^ )
ϵ ( a ^ ) = 1 , a > a m a x * γ 0 , o t h e r w i s e
第三组公式中:β是衰减参数,I待计算的谐波阶数,ε是选择函数,HS是谐波和,γ是阈值系数;
所述谐波和计算单元与所述存储单元连接,所述谐波和计算单元用于利用所述第三组公式计算每一虚拟峰值点的谐波和。
10.如权利要求9所述的声音信号中主音高的获取系统,其特征在于,所述存储单元内存储有第四组公式;
所述第四组公式为:
K=(HS-H)/σ
idx1=K*100+0.5
idx2=min(max(idx1,0),99)
p=t[idx2]
所述第四组公式中:H是均值,σ是标准差,p是概率,t是概率表;
所述概率转换单元与所述存储单元连接,所述概率转换单元通过所述第三组公式获取a为2,β为2的β分布,均匀分成100个点的概率表,并利用所述第四组公式统计所述概率表中整体谐波和的均值与标准差。
CN201610156616.7A 2016-03-18 2016-03-18 声音信号中主音高的获取方法及系统 Active CN105845149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610156616.7A CN105845149B (zh) 2016-03-18 2016-03-18 声音信号中主音高的获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610156616.7A CN105845149B (zh) 2016-03-18 2016-03-18 声音信号中主音高的获取方法及系统

Publications (2)

Publication Number Publication Date
CN105845149A true CN105845149A (zh) 2016-08-10
CN105845149B CN105845149B (zh) 2019-07-09

Family

ID=56587381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610156616.7A Active CN105845149B (zh) 2016-03-18 2016-03-18 声音信号中主音高的获取方法及系统

Country Status (1)

Country Link
CN (1) CN105845149B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074588A (zh) * 2016-11-15 2018-05-25 北京唱吧科技股份有限公司 一种音高计算方法及装置
CN108600130A (zh) * 2017-12-29 2018-09-28 南京理工大学 一种基于频谱带信噪比的电网频率估计方法
US10529354B1 (en) 2018-07-10 2020-01-07 Cedar Audio Ltd. Audio amplitude unwrapping
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN112202980A (zh) * 2020-09-21 2021-01-08 南通大学 一种基于能量插值的fft测量多音信号频率的方法
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113658612A (zh) * 2021-08-25 2021-11-16 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54162405A (en) * 1978-06-14 1979-12-24 Toshiba Corp Pitch frequency extracting unit
JP2004538525A (ja) * 2001-08-08 2004-12-24 アミューズテック カンパニー リミテッド 周波数分析によるピッチ判断方法および装置
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54162405A (en) * 1978-06-14 1979-12-24 Toshiba Corp Pitch frequency extracting unit
JP2004538525A (ja) * 2001-08-08 2004-12-24 アミューズテック カンパニー リミテッド 周波数分析によるピッチ判断方法および装置
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张文歆: "基于多基频提取的歌曲主旋律提取研究", 《硕士学位论文》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074588B (zh) * 2016-11-15 2020-12-01 北京唱吧科技股份有限公司 一种音高计算方法及装置
CN108074588A (zh) * 2016-11-15 2018-05-25 北京唱吧科技股份有限公司 一种音高计算方法及装置
CN108600130A (zh) * 2017-12-29 2018-09-28 南京理工大学 一种基于频谱带信噪比的电网频率估计方法
CN108600130B (zh) * 2017-12-29 2020-12-18 南京理工大学 一种基于频谱带信噪比的电网频率估计方法
GB2575461A (en) * 2018-07-10 2020-01-15 Cedar Audio Ltd Audio amplitude unwrapping
US10529354B1 (en) 2018-07-10 2020-01-07 Cedar Audio Ltd. Audio amplitude unwrapping
GB2575461B (en) * 2018-07-10 2020-12-30 Cedar Audio Ltd Audio amplitude unwrapping
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN112202980A (zh) * 2020-09-21 2021-01-08 南通大学 一种基于能量插值的fft测量多音信号频率的方法
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113658612A (zh) * 2021-08-25 2021-11-16 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统
CN113658612B (zh) * 2021-08-25 2024-02-09 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统

Also Published As

Publication number Publication date
CN105845149B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN105845149A (zh) 声音信号中主音高的获取方法及系统
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN103871418B (zh) 一种扩声系统啸叫频点的检测方法及装置
CN101023469B (zh) 数字滤波方法和装置
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN101154384B (zh) 声音信号纠正方法、声音信号纠正设备以及计算机程序
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN105788592A (zh) 一种音频分类方法及装置
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
CN108597505A (zh) 语音识别方法、装置及终端设备
CN105632512A (zh) 一种基于统计模型的双传感器语音增强方法与装置
CN103646649A (zh) 一种高效的语音检测方法
CN103323532B (zh) 一种基于心理声学参量的鱼类识别方法及系统
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN110728991B (zh) 一种改进的录音设备识别算法
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN107507625A (zh) 声源距离确定方法及装置
CN106033669B (zh) 语音识别方法及装置
CN106997765A (zh) 人声音色的定量表征方法
CN108806721A (zh) 信号处理器
CN106340310B (zh) 语音检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171023

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: Cloud known sound (Shanghai) Technology Co. Ltd.

Address before: 200031 Shanghai Xuhui District Qinzhou North Road 1198, 82 buildings, 2 stories, 01 rooms

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY CO., LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200403

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Patentee before: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right