CN108538309B - 一种歌声侦测的方法 - Google Patents

一种歌声侦测的方法 Download PDF

Info

Publication number
CN108538309B
CN108538309B CN201810170413.2A CN201810170413A CN108538309B CN 108538309 B CN108538309 B CN 108538309B CN 201810170413 A CN201810170413 A CN 201810170413A CN 108538309 B CN108538309 B CN 108538309B
Authority
CN
China
Prior art keywords
voice
gain
singing
frequency spectrum
singing voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810170413.2A
Other languages
English (en)
Other versions
CN108538309A (zh
Inventor
龚俊
熊永春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoying Innovation Technology Co ltd
Original Assignee
Hangzhou Xiaoying Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoying Innovation Technology Co ltd filed Critical Hangzhou Xiaoying Innovation Technology Co ltd
Priority to CN201810170413.2A priority Critical patent/CN108538309B/zh
Publication of CN108538309A publication Critical patent/CN108538309A/zh
Application granted granted Critical
Publication of CN108538309B publication Critical patent/CN108538309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种歌声侦测的方法,具体包括如下步骤:101)获取BGM频谱特征步骤,102)剔除BGM步骤,103)人声判断步骤,104)侦测数据的后处理步骤;本发明提供一种通过歌曲分析,侦测出歌声段落,免去了手动定位的繁琐操作的一种歌声侦测的方法。

Description

一种歌声侦测的方法
技术领域
本发明涉及音频处理领域,更具体的说,其涉及用于一种歌声侦测的方法。
背景技术
随着智能手机的普及,音视频编辑在手机上的应用越来越广,而利用手机制作一段自己专属的MV逐渐成为一种风尚。在手机上制作个人MV所选用的歌曲往往随意性较大,在配置歌词时,一般通用的歌词文件所给出的时间点往往无法与歌曲相匹配,因此需要用户自己配置字幕,实际使用时需要用户自己定位以到“声词同步”的效果。
现有的做法:每一段歌唱开始点,都需要用户先听一下,大致确认在什么位置,然后拖动播放进度条到大致范围;再播放听一下,然后较为细致的来回拖动;如此可能要反复几轮。期间,万一出现误操作,则需要重新来一遍。在手机上用这种手工方式做定位,需要消耗大量的时间和精力,限制了个人的创作与发挥。
发明内容
本发明的目的在于提供一种通过歌曲分析,侦测出歌声段落,免去了手动定位的繁琐操作的一种歌声侦测的方法。
为了解决上述技术问题,本发明的技术方案如下:
一种歌声侦测的方法,具体步骤如下:
101)获取BGM频谱特征步骤:选定出目标歌曲中一段没有歌唱的纯背景音乐即BGM,提取其频谱特征,所述频谱特征的获取方式为先将BGM划分为N个单元,提取每个单元的频谱,而后求其频谱均值来作为其频谱特征;
102)剔除BGM步骤:根据步骤101)针对一个频点,遍历其前后5个单元的相应频点的频谱特征,并根据频谱特征得到的频谱值来找出其中的次极大值;当次极大值大于等于该值时,则该频点为需要进行剔除处理的频点;
103)人声判断步骤:将经过步骤102)处理后的音频信号,利用WebRTC来判断人声,并将音频信号分割为每次输入10ms的音频信号,WebRTC检测后的结果为“真”表示是人声,为“假”表示不是人声;所述WebRTC是Google开放项目,其中的VAD功能用于检测人声;
104)侦测数据的后处理步骤:将步骤103)的判断后的结构数据进行处理,最终将以时间段落的方式呈现歌声,具体包括如下处理的状况:
将步骤103)中经过判断的每段检测结果作为一个结果单元,根据其是否在歌声区域进行进一步的判别处理,当该结果单元处于歌声区域,并且WebRTC检测结果为“真”,则计算已有歌声区间的长度,当其大于歌声区间的长度则判定构建为一段歌唱区间,并进行重置标志量,若其小于歌声区间的长度则进行下一个结果单元的判定;当该结果单元处于歌声区域,并且WebRTC检测结果为“假”,则进行累加静音时长,再将该静音时长与预设的一首歌的静音阈值进行比较,若小于静音阈值则直接进行下一个结构单元的判定,若大于等于静音阈值则计算前一段声长并与声长下限阈值进行对比,若小于声长下限阈值则丢弃这段数据,重置标志量,若大于下限阈值则构建为一段歌唱区间,重置标志量;当该结果单元不处于歌声区域,则进一步判定是否是歌声,若是,则标志歌声开始,若不是,则进行下一个结果单元的判定。
进一步的,所述步骤102)某个需要进行剔除处理的频点的频谱值为X(k),则处理后的频谱值为
X′(k)=G*X(k) 公式(1)
其中G=0.000001为剔除增益;因直接这样抹除BGM,其处理后的信号平滑性仍不足。声音会有触发、衰减、延续、释放的过程,因此还需进一步结合该机理过程,在触发和释放阶段做平滑处理。
进一步的,所述平滑处理,具体处理方式如下:
触发阶段取20毫秒,释放阶段取100毫秒;
触发阶段,每一个单元的增益G1有:
G1=10gain/(20.0*(1+Ta*SampleRate/StepSize)) 公式(2)
其中,Ta是触发时长,SampleRate是信号的采样率,StepSize是分析步进,综合性能与平滑度取StepSize=N/4,gain是以分贝计量的增益;
可通过如下公式(3)换算得到:
gain=20*log10G 公式(3)
释放阶段,每一个单元的增益G2有:
G2=10gain/(20.0*(1+Tr*SampleRate/StepSize)) 公式(4)
其中,Tr是释放时长,其他参量含义与公式(2)相同。
进一步的,所述触发阶段、释放阶段在应用时,会出现一下子将信号衰减到很小,这就会大大降低信号的平滑度,因此需将所要求衰减的增益与触发增益比较,取其中较大的值,以保证处理后的信号在时域上有较好的平滑度。同样,释放阶段也需要这样处理。
进一步的,所述触发阶段、释放阶段在应用时,在时域上的平滑处理,能保证处理后的信号随时间不会出现过大跃变,但同一时间点,信号相邻频点之间仍有可能出现跃变的情况,因此会对出现该跃变进行处理;
具体处理如下:令某一频点的增益为Gi,前一个频点的增益为Gi-1,后一个频点的增益为Gi+1,取该频点前后频点增益的均值作为平滑后的频谱值,该频点的增益为
Figure BDA0001585655670000041
进一步,转换代入频谱值得到公式(6):
X′(k)=G′*X(k) 公式(6)
其中G'是经过上述时域频域平滑后的信号增益。
本发明相比现有技术优点在于:本发明通过歌曲分析,侦测出歌声段落,免去了手动定位的繁琐操作。在歌曲分析中采用了快速傅里叶变换,使得乘法计算量减半,最终的算法时间复杂度大大降低,为高精度快速频谱分析提供了保证。
本发明在声音触发阶段、释放阶段都做了相应的平滑处理,同时在频域也做了平滑处理。这样做可以使得处理后的信号更趋近与真实信号,最终可以得到较高的检测准确度。
附图说明
图1为本发明的发声机理图;
图2为本发明的侦测数据的后处理流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。
如图1和图2所示,一种歌声侦测的方法,具体步骤如下:
101)获取BGM频谱特征步骤:选定出目标歌曲中一段没有歌唱的纯背景音乐即BGM,提取其频谱特征,所述频谱特征的获取方式为先将BGM划分为N个单元,提取每个单元的频谱,而后求其频谱均值来作为其频谱特征。
音频信息是通过FFT进行分析,所述FFT即快速傅里叶变换为DFT(即离散傅里叶变换)的一种改进型快速处理音频信息的方法。
所述DFT采用如下公式(1)进行频谱分析:
Figure BDA0001585655670000051
其中N为有限长序列的数量,x(n)为有限长序列的表达式,
Figure BDA0001585655670000052
j为虚数单位,e为自然常数。对于N点有限长序列,DFT需要进行4N2次乘法运算,计算的时间复杂度为O(N2)。而为了要想获取高精度频谱分析结果,N值一般在512以上,此时的计算量很大,将直接导致该方法的实时性很差。作为DFT的一种快速算法,FFT要求输入序列的数量N=2L,(L是为方便,用指数形式表示序列个数的一个数学表示量,例如:L=1,序列个数2L=2;L=2序列个数2L=4...)如果不满足这个条件,可以人为地加上若干零值点,使之达到这一要求。FFT的输入序列可以分别表示成如下公式(4)偶点序列x1(r)和奇点序列x2(r),r为序列的索引值:
Figure BDA0001585655670000053
进而DFT的表达式可以拆分为如下公式(5):
Figure BDA0001585655670000054
其中
Figure BDA0001585655670000055
进而公式进一步演变成为如下公式(6):
Figure BDA0001585655670000061
X1(k)和X2(k)分别是x1(r)和x2(r)的N/2点DFT,从而演化的公式(7):
Figure BDA0001585655670000062
可以看出,一个N点DFT已分解成两个N/2点的DFT,他们又组成一个N点DFT。而X1(k)和X2(k)以及x1(r)和x2(r)都是N/2点序列,X(k)却有N点。用上述计算得到的只是X(k)的前一半项数结果,要想利用X1(k)和X2(k)得到X(k)的全部的值的话,需利用复指数根的周期性如下公式(8):
Figure BDA0001585655670000063
从而可以得到如下公式(9):
X1(k+N/2)=X1(k),X2(k+N/2)=X2(k) 公式(9)
同时
Figure BDA0001585655670000064
也具有周期性,从而得出如下公式(10):
Figure BDA0001585655670000065
结合公式(9)和公式(10)可得到完整的N点FFT的表达式为,如下公式(11)进行前半部分分析,公式(12)进行后半部分分析:
Figure BDA0001585655670000066
Figure BDA0001585655670000067
做这样的分解分析计算后,乘法计算量减半,同时因为输入的FFT序列个数为2L,因此还可以进一步一直分解,最后分解为2点DFT,分解次数为log2N,最终的算法时间复杂度为O(Nlog2N)。这样相比原始的DFT,FFT的时间复杂度大幅缩减。以N=1024为例,耗时与DFT差2个数量级。这为高精度频谱分析提供了保证。
102)剔除BGM步骤:根据步骤101)针对一个频点,遍历其前后5个单元的相应频点的频谱特征,并根据特征频谱值来找出其中的次极大值,当次极大值大于等于该值时,则该频点为需要进行剔除处理的频点。
令某个需要进行剔除处理的频点的频谱值为X(k),则处理后的频谱值为
X′(k)=G*X(k) 公式(13)
其中G=0.000001为剔除增益,如果不是目标剔除频点则G=1.0;因直接这样抹除BGM,其处理后的信号平滑性仍不足。声音会有触发、衰减、延续、释放的过程,因此还需进一步结合该机理过程,在触发和释放阶段做平滑处理。
一般触发阶段取20毫秒,释放阶段取100毫秒;
触发阶段,每一个单元的增益G1有:
G1=10gain/(20.0*(1+Ta*SampleRate/StepSize)) 公式(14)
其中,Ta是触发时长,SampleRate是信号的采样率,StepSize是分析步进,综合性能与平滑度取StepSize=N/4,gain是以分贝计量的增益;
gain可以通过如下公式(15)换算:
gain=20*log10G 公式(15)
释放阶段,每一个单元的增益G2有:
G2=10gain/(20.0*(1+Tr*SampleRate/StepSize)) 公式(16)
其中,Tr是释放时长,其他参量含义与公式(14)相同。
具体以触发阶段为例,在应用时,如果一下子将信号衰减到很小,就会造成信号的平滑度不好,因此需将所要求衰减的增益与触发增益比较,取其中较大的值,以保证处理后的信号在时域上有较好的平滑度。同样,释放阶段也需要这样处理。
所述触发阶段、释放阶段在应用时,在时域上的平滑处理,能保证处理后的信号随时间不会出现过大跃变,但同一时间点,信号相邻频点之间仍可能出现跃变的状况,因此会对出现该跃变进行处理;
令某一频点的增益为Gi,前一个频点的增益为Gi-1,后一个频点的增益为Gi+1,取该频点前后频点增益的均值,平滑后,该频点的增益为
Figure BDA0001585655670000081
进一步,转换后得到公式(18):
X′(k)=G′*X(k) 公式(18)
其中G'是经过上述时域频域平滑后的信号增益。
得到X′(k)之后,再利用IFFT(快速傅里叶逆变换),计算得出时域音频信号。对于IFFT,只需将式-1中的因子:
Figure BDA0001585655670000082
替换成
Figure BDA0001585655670000083
相应的x(n)替换成频谱X(k)即可。
103)人声判断步骤:因为经过步骤102)处理后,可以将绝大部分音乐剔除掉,剩下的音频信号中的主要成分是人声,也有小部分残留的音乐信息。针对将经过步骤102)处理后的音频信号即剩下的音频信号,可以利用WebRTC来判断人声,并将音频信号分割为每次输入10ms的音频信号,WebRTC检测后的结果为“真”表示是人声,为“假”表示不是人声;所述WebRTC是Google开放项目,其中的VAD功能用于检测人声。这一步得出结果,将称其为“结果单元”。将步骤102)得出的数据源源不断的送给VAD进行检测,可以得出一连串“结果单元”供步骤104)来进行处理。
104)侦测数据的后处理步骤:将步骤103)的判断后的结构数据进行处理,最终将以时间段落的方式呈现歌声。具体加入该处理步骤是因一首歌,可能有会几分钟。因此,对于10ms的处理单元而言,会有上万个“结果单元”。这么大的数据量直接使用起来不方便,同时与实际歌唱表现的直接关联性也较弱。实际歌唱时音与音之间也可能会有几十至上百毫秒的停顿(即没有发声),一段话也不会一口气从头唱的尾,因此还需要结合实际对数据进一步处理,处理的目的是要得出更精炼,更易用的结果。经过这一步处理,最终歌声将以时间段落的方式呈现。比如得出:5100ms~12000ms含有歌声。具体包括如下处理的内容:
将步骤103)中经过判断的每段检测结果作为一个结果单元,根据其是否在歌声区域进行进一步的判别处理。当该结果单元处于歌声区域,并且WebRTC检测结果为“真”,则计算已有歌声区间的长度,当其大于歌声区间的长度则判定构建为一段歌唱区间,并进行重置标志量,若其小于歌声区间的长度则进行下一个结果单元的判定;当该结果单元处于歌声区域,并且WebRTC检测结果为“假”,则累加静音时长,再比较该静音时长与预设的一首歌的静音阈值,若小于静音阈值则直接进行下一个结构单元的判定,若大于静音阈值则计算前一段声长,并与声长下限阈值进行对比,若小于声长下限阈值则丢弃这段数据,重置标志量,若大于下限阈值则构建为一段歌唱区间,重置标志量;当该结果单元不处于歌声区域,则进一步判定是否是歌声,若是,则标志歌声开始,若不是,则进行下一个结果单元的判定。
重复上述步骤102)、步骤103)、步骤104),直至所有要侦测的歌曲范围完成,既而完成了对整首歌的歌声的检测。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (5)

1.一种歌声侦测的方法,其特征在于,具体步骤如下:
101)获取BGM频谱特征步骤:选定出一段目标歌曲中没有歌唱的纯背景音乐即BGM,提取其频谱特征,所述频谱特征的获取方式为先将BGM划分为N个单元,提取每个单元的频谱,而后求其频谱均值来作为其频谱特征;
102)剔除BGM步骤:根据步骤101)针对一个频点,遍历其前后5个单元的相应频点的频谱特征,并根据特征频谱值来找出其中的次极大值,当次极大值大于等于频谱值时,则该频点为需要进行剔除处理的频点;
103)人声判断步骤:将经过步骤102)处理后的音频信号,利用WebRTC来判断人声,并将音频信号分割为每次输入10ms的音频信号,WebRTC检测后的结果为“真”表示是人声,为“假”表示不是人声;所述WebRTC是Google开放项目,其中的VAD功能用于检测人声;
104)侦测数据的后处理步骤:将步骤103)的判断后的结果数据进行处理,最终将以时间段落的方式呈现歌声,具体包括如下处理的状况:
将步骤103)中经过判断的每段检测结果作为一个结果单元,根据其是否在歌声区域进行进一步的判别处理,当该结果单元处于歌声区域,并且WebRTC检测结果为“真”,则计算已有歌声区间的长度,当其大于歌声区域的长度则判定构建为一段歌唱区间,并进行重置标志量,若其小于歌声区域的长度则进行下一个结果单元的判定;当该结果单元处于歌声区域,并且WebRTC检测结果为“假”,则进行累加静音时长,再进行比较该静音时长与预设的一首歌的静音阈值,若小于静音阈值则直接进行下一个结果单元的判定,若大于静音阈值则计算声长,并与声长下限阈值进行对比,若小于声长下限阈值则丢弃这段数据,重置标志量,若大于声长下限阈值则构建为一段歌唱区间,重置标志量;当该结果单元不处于歌声区域,则进一步判定是否是歌声,若是,则标志歌声开始,若不是,则进行下一个结果单元的判定。
2.根据权利要求1所述的一种歌声侦测的方法,其特征在于,所述步骤102)某个需要进行剔除处理的频点的频谱值为X(k),则处理后的频谱值为
X′(k)=G*X(k) 公式(1)
其中G=0.000001为剔除增益;因直接这样抹除BGM,其处理后的信号平滑性仍不足;声音会有触发、衰减、延续、释放的过程,在触发和释放阶段做平滑处理。
3.根据权利要求2所述的一种歌声侦测的方法,其特征在于,所述平滑处理,具体处理方式如下:
触发阶段取20毫秒,释放阶段取100毫秒;
触发阶段,每一个单元的增益G1有:
G1=10gain/(20.0*(1+Ta*SampleRate/StepSize)) 公式(2)
其中,Ta是触发时长,SampleRate是信号的采样率,StepSize是分析步进,综合性能与平滑度取StepSize=N/4,gain是以分贝计量的增益;
可通过如下公式(3)换算得到:
gain=20*log10G 公式(3)
释放阶段,每一个单元的增益G2有:
G2=10gain/(20.0*(1+Tr*SampleRate/StepSize)) 公式(4)
其中,Tr是释放时长,其他参量含义与公式(2)相同。
4.根据权利要求3所述的一种歌声侦测的方法,其特征在于,所述触发阶段、释放阶段在应用时,会出现一下子将信号衰减到很小,这就会大大降低信号的平滑度,因此需将所要求衰减的增益与触发增益比较,取其中较大的值,以保证处理后的信号在时域上有较好的平滑度。
5.根据权利要求2所述的一种歌声侦测的方法,其特征在于,所述触发阶段、释放阶段在应用时,在时域上的平滑处理,能保证处理后的信号随时间不会出现过大跃变,但同一时间点,信号相邻频点之间仍存在出现跃变的状况,因此会对出现该跃变进行处理;
令某一频点的增益为Gi,前一个频点的增益为Gi-1,后一个频点的增益为Gi+1,取该频点前后频点增益的均值,平滑后,该频点的增益为
Figure FDA0003125251640000031
进一步,转换后得到公式(6):
X′(k)=G′*X(k) 公式(6)
其中G'是经过上述时域频域平滑后的信号增益。
CN201810170413.2A 2018-03-01 2018-03-01 一种歌声侦测的方法 Active CN108538309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810170413.2A CN108538309B (zh) 2018-03-01 2018-03-01 一种歌声侦测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810170413.2A CN108538309B (zh) 2018-03-01 2018-03-01 一种歌声侦测的方法

Publications (2)

Publication Number Publication Date
CN108538309A CN108538309A (zh) 2018-09-14
CN108538309B true CN108538309B (zh) 2021-09-21

Family

ID=63486434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810170413.2A Active CN108538309B (zh) 2018-03-01 2018-03-01 一种歌声侦测的方法

Country Status (1)

Country Link
CN (1) CN108538309B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
CN111968623B (zh) * 2020-08-19 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 气口位置检测方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127210A (zh) * 2007-09-20 2008-02-20 Ut斯达康通讯有限公司 实现歌曲播放过程中歌词同步的方法和装置
JP5125957B2 (ja) * 2008-09-30 2013-01-23 ブラザー工業株式会社 音域特定システム、プログラム
CN103137167A (zh) * 2013-01-21 2013-06-05 青岛海信宽带多媒体技术有限公司 播放音乐的方法及音乐播放器
CN103220407A (zh) * 2013-03-06 2013-07-24 广东欧珀移动通信有限公司 铃声截取方法及终端
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置
CN105933635A (zh) * 2016-05-04 2016-09-07 王磊 一种对音频或视频内容附加标签的方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN107181986A (zh) * 2016-03-11 2017-09-19 百度在线网络技术(北京)有限公司 视频与字幕的匹配方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014219607A (ja) * 2013-05-09 2014-11-20 ソニー株式会社 音楽信号処理装置および方法、並びに、プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127210A (zh) * 2007-09-20 2008-02-20 Ut斯达康通讯有限公司 实现歌曲播放过程中歌词同步的方法和装置
JP5125957B2 (ja) * 2008-09-30 2013-01-23 ブラザー工業株式会社 音域特定システム、プログラム
CN103137167A (zh) * 2013-01-21 2013-06-05 青岛海信宽带多媒体技术有限公司 播放音乐的方法及音乐播放器
CN103220407A (zh) * 2013-03-06 2013-07-24 广东欧珀移动通信有限公司 铃声截取方法及终端
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN107181986A (zh) * 2016-03-11 2017-09-19 百度在线网络技术(北京)有限公司 视频与字幕的匹配方法和装置
CN105933635A (zh) * 2016-05-04 2016-09-07 王磊 一种对音频或视频内容附加标签的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Identifying Accuracy of Social Tags by Using Clustering Representations of Song Lyrics;Yajie Hu;《2012 11th International Conference on Machine Learning and Applications》;20130111;全文 *
基于时频分析的音乐识别和歌声分离算法研究;朱碧磊;《中国博士学位论文全文数据库》;20160131(第1期);I136-15 *

Also Published As

Publication number Publication date
CN108538309A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
EP3723080B1 (en) Music classification method and beat point detection method, storage device and computer device
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN105118522B (zh) 噪声检测方法及装置
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
EP2962299B1 (en) Audio signal analysis
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN107967922A (zh) 一种基于特征的音乐版权识别方法
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
CN111680187A (zh) 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN112866770B (zh) 一种设备控制方法、装置、电子设备及存储介质
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
CN108538309B (zh) 一种歌声侦测的方法
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
JP2012032677A (ja) テンポ検出装置、テンポ検出方法およびプログラム
WO2020206975A1 (zh) 单位时间内音节数量的计算方法及相关装置
CN113674723B (zh) 一种音频处理方法、计算机设备及可读存储介质
CN113593604B (zh) 检测音频质量方法、装置及存储介质
CN111462775B (zh) 音频相似度确定方法、装置、服务器及介质
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
CN111755029B (zh) 语音处理方法、装置、存储介质以及电子设备
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN108074588B (zh) 一种音高计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310000 16 / F, HANGGANG metallurgical technology building, 294 Tianmushan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Xiaoying Innovation Technology Co.,Ltd.

Address before: 310013 16th floor, metallurgical science and technology building, no.294, Tianmushan Road, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co.,Ltd.

Address after: 310000 16 / F, HANGGANG metallurgical technology building, 294 Tianmushan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Xiaoying Innovation Technology Co.,Ltd.

Address before: 310000 16 / F, HANGGANG metallurgical technology building, 294 Tianmushan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Xiaoying Innovation Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant