CN112309432A - 一种基于数据驱动的音符起始点检测方法 - Google Patents

一种基于数据驱动的音符起始点检测方法 Download PDF

Info

Publication number
CN112309432A
CN112309432A CN202011162728.6A CN202011162728A CN112309432A CN 112309432 A CN112309432 A CN 112309432A CN 202011162728 A CN202011162728 A CN 202011162728A CN 112309432 A CN112309432 A CN 112309432A
Authority
CN
China
Prior art keywords
note
layer
starting point
audio
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011162728.6A
Other languages
English (en)
Inventor
雷小林
蒋文颉
胡健
张震
郑婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202011162728.6A priority Critical patent/CN112309432A/zh
Publication of CN112309432A publication Critical patent/CN112309432A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于数据驱动的音符起始点检测方法,包括以下步骤:1、对预处理后的log梅尔频谱数据进行编码和时间窗口滑动分片,生成时间片特性样本;2、加载时间片样本进行一维卷积、最大池化操作;3、将池化层的结果输入到BiLSTM层,提取样本语义信息;4、将BiLSTM层的结果输入到attention层,加强模型对关键时序样本的学习;5、将attention层的结果输入到softmax分类层进行判别;6、参照时间阀值将softmax层的判别结果进行合并,输出音符起始点序列。本发明能够多次多音频进行记录,并进行比对,对颤音、滑音等进行筛选,提高了演唱场景识别效果,减少误检以及漏检情况的发生,提高了音符起始点检测的准确性。

Description

一种基于数据驱动的音符起始点检测方法
技术领域
本发明涉及计算机应用技术领域,具体为一种基于数据驱动的音符起始点检测方法。
背景技术
音符起始点检测是一种在音频信号中定位事件起点的过程,即从音乐信号中找到所有音符的起始点。它是许多高级音乐分析如节拍检测、节奏估计、音高提取和自动转录等任务的基础性研究工作,如图1所示。
在公告号为CN1963919B的中国发明专利中公布了一种基于能量的音符切分方法,该方法计算音频信号的能量特征,通过能量阀值判别拾取音符分割点,该方法判决简单但准确度较差,只适用于能量显著性较强的场景,在针对音频信号的声谱特征,需根据各频段的第一语音频谱参数和第二语音频谱参数对比确定音符的起始点。该方法根据语音频谱参数曲线峰值点拾取起始点的判决方式很难从峰值点中识别出伪起始点,同时对颤音、滑音等演唱场景识别效果不佳,会有误检和漏检情况的发生。
发明内容
本发明的目的在于提供一种基于数据驱动的音符起始点检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于数据驱动的音符起始点检测方法,包括以下步骤:
步骤1:构建曲目清单,清单包括不同歌曲类型,歌曲类型,每首歌曲的时间为10-60秒的片段;
步骤2:构建人声清唱音频采集模块,由多名专业和业余演唱者组成的人员根据曲目清单清唱录制10-60秒的音频,音频的格式为wav文件,音频采样率为16kHz;记录好曲目类型、歌曲编号、歌曲名称、演唱者类型、歌词内容后将音频保存到数据库;
步骤3:由多名专业演唱者对保存的所有音频进行人工标注,每位演唱者独立地为所有音频的音符起始位置标注,标注格式为Praat TextGrid,精度为毫秒;
步骤4:构建Praat TextGrid文件批量解析模块,对所述步骤3保存的PraatTextGrid音符起始点标注数据进行批量解析;
步骤5:构建标注自动修正模块,对所述步骤4的解析结果进行统计修正;根据标注时间的均值及标准差进行处理,均值计算公式为
Figure BDA0002744876470000021
标准差计算公式为
Figure BDA0002744876470000022
;其中N为所述步骤3中参与人工标注的人数,ti为各标注者各自标注的音符起始点时间;若标准差σt大于偏差阀值θt,则说明每个专业演唱者对该音符起始点标注存在较大分歧,需要记录该标注点相关信息进行二次集中讨论标注;若标准差σt小于偏差阀值θt,则将均值计算结果μt加入标签序列中,并将Praat TextGrid文件对应的起始点修正为μt
进一步的,根据所述步骤五中需要二次集中讨论标注的标注点,由多名专业演唱者集中一起商讨重新标注,将重新标签结果的均值计算结果μt加入标签序列中,并将PraatTextGrid文件对应的起始点修正为μt
进一步的,利用卷积层和池化层来提取音频的log梅尔频谱特征信息,双向长短时记忆循环神经网络(BiLSTM)直接对log梅尔频谱片段进行分类,从而达到识别音符起始点的目的。
进一步的,设音频文件的总时长为Tduration,滑动步长为Lhop,log梅尔频谱的总帧数为Nframe=Tduration/Lhop,滑动窗口包括1个中心帧及前后各为Ncontext个的上下文帧,即滑动窗口的总长度为1+2*Ncontext;这样设置滑动窗口的内容主要让机器学习模型学习到音符起始点及前后时间段的特征信息及关联信息;在对log梅尔频谱进行滑动切分前需要在开始和结尾处分别扩充Ncontext个空白帧。
进一步的,由标注的音符起始点的时间位置及滑动步长Lhop,计算该音符起始点的时间点位于log梅尔频谱中哪个帧,以该帧作为滑动窗口的中心帧即可计算得到所在片段;将音符起始点所在的片段记为正向样本,其标签权重置为1;为了抵消人工标注精度上的误差,可以将所在片段的前后相临片段也记为正向样本,其标签权重置为0.5;这样设置即抵消人工标带来的偏差,同时也能扩充正向样本的数量;由所有的正向样本及标签权重信息即可构建出标签序列及标签权重序列。
进一步的,加载数据生成训练集和验证集,构建cnn+BILSTM+attention模型,并利用训练集和验证集来训练优化模型。
进一步的,所述cnn+BILSTM+attention模型主要包括:一维卷积层、池化层、BILSTM层、注意力机制层及softmax分类层。
进一步的,BiLSTM层中的前向传播层和反向传播层包括遗忘门,输入门,输出门,细胞状态,隐藏层状态,其各自的更新函数如下:
Figure BDA0002744876470000031
与现有技术相比,本发明的有益效果是:能够多次多音频进行记录,并进行比对,对颤音、滑音等进行筛选,提高了演唱场景识别效果,减少误检以及漏检情况的发生,提高了音频的准确性。
附图说明
图1为现有技术提供的音频起始点检测流程示意图;
图2为本发明音频音符起始点人工标注操作流程示意图;
图3为本发明原始音频和标注数据进行预处理流程图;
图4为本发明音符起始点深度学习模型训练及预测操作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种人声清唱音符起始点检测分析数据集的构建方法包括以下步骤:
步骤一:构建曲目清单,清单包括不同歌曲类型,歌曲类型如表1,每首歌曲可以是10-60秒不等的片段,歌曲的选择尽可能多地包括大部分的音乐元素,即保证曲目清单有较好的覆盖性、完整性。
表一 歌曲类型
曲目类型 中国风、乡村、流行、儿歌、民谣、说唱、摇滚、舞曲
步骤二:构建人声清唱音频采集模块,由多名专业和业余演唱者组成的人员根据曲目清单清唱录制10-60秒不等的音频,音频的格式为wav文件,音频采样率为16kHz。记录好曲目类型、歌曲编号、歌曲名称、演唱者类型、歌词内容等相关信息后将音频保存到数据库。具体实施的录音过程尽量贴近实际使用本发明来检查音符起始点的应用场景,但不要有较大或较多的背景噪声,如果是用个人电脑录音,推荐使用CoolEdit、praat或者AdobeAudition录音。
步骤三:由多名专业演唱者对保存的所有音频进行人工标注,每位演唱者Praat工具打开wav和TextGrid,各自独立地对所有音频逐一地进行音符起始位置标注,标注格式为Praat TextGrid,精度为毫秒,人工标注的主要操作流程如图2。textGrid文件中的关键信息如下:
class="IntervalTier"
name="1"
xmin=0
xmax=9.035
intervals:size=5
intervals[1]:
xmin=0
xmax=2.7631872090840837
text=""
intervals[2]:
xmin=2.7631872090840837
xmax=3.2374193616623876
text=""
intervals[3]:
xmin=3.2374193616623876
xmax=3.8491168825075066
text=""
intervals[4]:
xmin=3.8491168825075066
xmax=4.381877945053241
text=""
intervals[5]:
xmin=4.381877945053241
xmax=9.035
text=""
步骤四:构建Praat TextGrid文件批量解析模块,对步骤三保存的PraatTextGrid音符起始点标注数据进行批量解析。
步骤五:构建标注自动修正模块,对步骤四的解析结果进行统计修正。由于三名专业演唱者对同一音符起始点时间的标注会不同,需要根据标注时间的均值及标准差进行不同处理,均值计算公式为
Figure BDA0002744876470000061
标准差计算公式为
Figure BDA0002744876470000062
其中N为步骤三中参与人工标注的人数,ti为标注者各自标注的音符起始点时间。若标准差σt大于偏差阀值θt,则说明每个专业演唱者对该音符起始点标注存在较大分歧,需要记录该标注点相关信息进行二次集中讨论标注;若标准差σt小于偏差阀值θt,则将均值计算结果μt加入标签序列中,并将Praat TextGrid文件对应的起始点修正为μt
对步骤五中需要二次集中讨论标注的标注点,由多名专业演唱者集中一起商讨重新标注,将重新标签结果的均值计算结果μt加入标签序列中,并将Praat TextGrid文件对应的起始点修正为μt
实施例2
利用卷积层和池化层来提取音频的log梅尔频谱特征信息,双向长短时记忆循环神经网络(BiLSTM)直接对log梅尔频谱片段进行分类,从而达到识别音符起始点的目的。包括以下步骤:
步骤S1、对原始音频和标注数据进行预处理;
进一步的,步骤S1的流程如图3,具体地包括:
步骤S101:根据设定的采样率加载音频文件,并进行去噪处理;
步骤S102:根据设定的梅尔频谱阶数、采样率、短时傅里叶变换窗口大小、重叠率等参数计算音频信号的log梅尔频谱,本实例中优选参数如下表;
表二
Figure BDA0002744876470000063
Figure BDA0002744876470000071
步骤S103:统计样本整体的均值及方差信息,并根据统计结果对log梅尔频谱进行规一化,以提高模型训练效率,具体地计算公式如下:
Figure BDA0002744876470000072
Figure BDA0002744876470000073
其中N为样本总个数,mi为计算的log梅尔频谱
步骤S104:按照设定的滑动窗口大小及滑动步长对log梅尔频谱进行滑动切片;
设音频文件的总时长为Tduration,滑动步长为Lhop,log梅尔频谱的总帧数为Nframe=Tduration/Lhop,滑动窗口包括1个中心帧及前后各为Ncontext个的上下文帧,即滑动窗口的总长度为1+2*Ncontext。这样设置滑动窗口的内容主要让机器学习模型学习到音符起始点及前后时间段的特征信息及关联信息。在对log梅尔频谱进行滑动切分前需要在开始和结尾处分别扩充Ncontext个空白帧。
步骤S105:将切片后的log梅尔频谱片段保存,以便模型训练时加载。
与此同时可以进行标注文件的处理,具体地包括:
步骤S111:加载praat textGrid标注文件,解析出每个音符起始点的时间;
步骤S112:读取步骤S104中切片总数及音频时长,两者主要用于计算标注的音符起始点所在的log梅尔频谱片段;
步骤S113:根据切片总数及音频总时长计算出标注的音符起始点所在的log梅尔频谱片段,并构建出标签序列及标签权重序列;
由标注的音符起始点的时间位置及滑动步长Lhop,可以计算该音符起始点的时间点位于log梅尔频谱中哪个帧,以该帧作为滑动窗口的中心帧即可计算得到所在片段。将音符起始点所在的片段记为正向样本,其标签权重置为1。为了抵消人工标注精度上的误差,可以将所在片段的前后相临片段也记为正向样本,其标签权重置为0.5。这样设置即抵消人工标带来的偏差,同时也能扩充正向样本的数量。由所有的正向样本及标签权重信息即可构建出标签序列及标签权重序列。
步骤S114:保存标签序列及标签权重序列,以便模型训练时加载。
步骤S2、加载数据生成训练集和验证集,构建cnn+BILSTM+attention模型,并利用训练集和验证集来训练优化模型;
cnn+BILSTM+attention模型主要包括:一维卷积层、池化层、BILSTM层、注意力机制层及softmax分类层。
步骤S2的流程如图4,具体地包括:
步骤S21:加载数据到卷积层,通过不同大小的卷积核提取不同时间跨度的特征矩阵,并通过池化层进行极大值池化操作,对特征矩阵进行降维进一步提取重要特征;
步骤S22:将池化层的结果输入到BiLSTM层,通过前向传播层和反向传播层一起提取输入特征矩阵的语义信息。
BiLSTM层中的前向传播层和反向传播层包括遗忘门,输入门,输出门,细胞状态,隐藏层状态,其各自的更新函数如下:
Figure BDA0002744876470000081
步骤S23:将BiLSTM层的结果输入到注意力机制层找到输入数据中与判别结果更相关的时序向量,对不同的时序输入分配不同权重,进一步提升模型的判别性能。计算公式如下:
M=tanh(H)
α=softmax(wTM)
r=HαT
其BiLSTM层输出矩阵H={h1,h1,h1,...,hT}。
步骤S24:将注意力机制层的输出传给softmax分类层,输出判别结果,即是否为音符起始点的概率。由于本发明将音符起始点检测问题设计为二分类问题,所以softmax层的损失函数采用二元交叉熵损失函数。
步骤S25:根据音符起始点间隔阀值对过密的音符起始点进行合并,得到包括所有音符起始点的序列
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于数据驱动的音符起始点检测方法,其特征在于:包括以下步骤:
步骤1:构建曲目清单,清单包括不同歌曲类型,歌曲类型,每首歌曲的时间为10-60秒的片段;
步骤2:构建人声清唱音频采集模块,由多名专业和业余演唱者组成的人员根据曲目清单清唱录制10-60秒的音频,音频的格式为wav文件,音频采样率为16kHz;记录好曲目类型、歌曲编号、歌曲名称、演唱者类型、歌词内容后将音频保存到数据库;
步骤3:由多名专业演唱者对保存的所有音频进行人工标注,每位演唱者独立地为所有音频的音符起始位置标注,标注格式为Praat TextGrid,精度为毫秒;
步骤4:构建Praat TextGrid文件批量解析模块,对所述步骤3保存的Praat TextGrid音符起始点标注数据进行批量解析;
步骤5:构建标注自动修正模块,对所述步骤4的解析结果进行统计修正;根据标注时间的均值及标准差进行处理,均值计算公式为
Figure FDA0002744876460000011
标准差计算公式为
Figure FDA0002744876460000012
其中N为所述步骤3中参与人工标注的人数,ti为各标注者各自标注的音符起始点时间;若标准差σt大于偏差阀值θt,则说明每个专业演唱者对该音符起始点标注存在较大分歧,需要记录该标注点相关信息进行二次集中讨论标注;若标准差σt小于偏差阀值θt,则将均值计算结果μt加入标签序列中,并将Praat TextGrid文件对应的起始点修正为μt
2.根据权利要求1所述的一种基于数据驱动的音符起始点检测方法,其特征在于:根据所述步骤五中需要二次集中讨论标注的标注点,由多名专业演唱者集中一起商讨重新标注,将重新标签结果的均值计算结果μt加入标签序列中,并将Praat TextGrid文件对应的起始点修正为μt
3.根据权利要求1所述的一种基于数据驱动的音符起始点检测方法,其特征在于:利用卷积层和池化层来提取音频的log梅尔频谱特征信息,双向长短时记忆循环神经网络(BiLSTM)直接对log梅尔频谱片段进行分类,从而达到识别音符起始点的目的。
4.根据权利要求3所述的一种基于数据驱动的音符起始点检测方法,其特征在于:设音频文件的总时长为Tduration,滑动步长为Lhop,log梅尔频谱的总帧数为Nframe=Tduration/Lhop,滑动窗口包括1个中心帧及前后各为Ncontext个的上下文帧,即滑动窗口的总长度为1+2*Ncontext;这样设置滑动窗口的内容主要让机器学习模型学习到音符起始点及前后时间段的特征信息及关联信息;在对log梅尔频谱进行滑动切分前需要在开始和结尾处分别扩充Ncontext个空白帧。
5.根据权利要求4所述的一种基于数据驱动的音符起始点检测方法,其特征在于:由标注的音符起始点的时间位置及滑动步长Lhop,计算该音符起始点的时间点位于log梅尔频谱中哪个帧,以该帧作为滑动窗口的中心帧即可计算得到所在片段;将音符起始点所在的片段记为正向样本,其标签权重置为1;为了抵消人工标注精度上的误差,可以将所在片段的前后相临片段也记为正向样本,其标签权重置为0.5;这样设置即抵消人工标带来的偏差,同时也能扩充正向样本的数量;由所有的正向样本及标签权重信息即可构建出标签序列及标签权重序列。
6.根据权利要求3所述的一种基于数据驱动的音符起始点检测方法,其特征在于:加载数据生成训练集和验证集,构建cnn+BILSTM+attention模型,并利用训练集和验证集来训练优化模型。
7.根据权利要求6所述的一种基于数据驱动的音符起始点检测方法,其特征在于:所述cnn+BILSTM+attention模型主要包括:一维卷积层、池化层、BILSTM层、注意力机制层及softmax分类层。
8.根据权利要求6所述的一种基于数据驱动的音符起始点检测方法,其特征在于:BiLSTM层中的前向传播层和反向传播层包括遗忘门,输入门,输出门,细胞状态,隐藏层状态,其各自的更新函数如下:
Figure FDA0002744876460000031
Figure FDA0002744876460000032
Figure FDA0002744876460000033
ct=itgt+ftct-1
Figure FDA0002744876460000034
ht=ottanh(ct)。
CN202011162728.6A 2020-10-27 2020-10-27 一种基于数据驱动的音符起始点检测方法 Pending CN112309432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011162728.6A CN112309432A (zh) 2020-10-27 2020-10-27 一种基于数据驱动的音符起始点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011162728.6A CN112309432A (zh) 2020-10-27 2020-10-27 一种基于数据驱动的音符起始点检测方法

Publications (1)

Publication Number Publication Date
CN112309432A true CN112309432A (zh) 2021-02-02

Family

ID=74330375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011162728.6A Pending CN112309432A (zh) 2020-10-27 2020-10-27 一种基于数据驱动的音符起始点检测方法

Country Status (1)

Country Link
CN (1) CN112309432A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052138A (zh) * 2021-04-25 2021-06-29 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN108877779A (zh) * 2018-08-22 2018-11-23 百度在线网络技术(北京)有限公司 用于检测语音尾点的方法和装置
CN109065067A (zh) * 2018-08-16 2018-12-21 福建星网智慧科技股份有限公司 一种基于神经网络模型的会议终端语音降噪方法
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110188769A (zh) * 2019-05-14 2019-08-30 广州虎牙信息科技有限公司 关键点标注的审核方法、装置、设备及存储介质
US20190362741A1 (en) * 2018-05-24 2019-11-28 Baidu Online Network Technology (Beijing) Co., Ltd Method, apparatus and device for recognizing voice endpoints
CN111508480A (zh) * 2020-04-20 2020-08-07 网易(杭州)网络有限公司 音频识别模型的训练方法、音频识别方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
US20190362741A1 (en) * 2018-05-24 2019-11-28 Baidu Online Network Technology (Beijing) Co., Ltd Method, apparatus and device for recognizing voice endpoints
CN109065067A (zh) * 2018-08-16 2018-12-21 福建星网智慧科技股份有限公司 一种基于神经网络模型的会议终端语音降噪方法
CN108877779A (zh) * 2018-08-22 2018-11-23 百度在线网络技术(北京)有限公司 用于检测语音尾点的方法和装置
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110188769A (zh) * 2019-05-14 2019-08-30 广州虎牙信息科技有限公司 关键点标注的审核方法、装置、设备及存储介质
CN111508480A (zh) * 2020-04-20 2020-08-07 网易(杭州)网络有限公司 音频识别模型的训练方法、音频识别方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
游学军等: "音符起始点检测研究", 《花炮科技与市场》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052138A (zh) * 2021-04-25 2021-06-29 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法
CN113052138B (zh) * 2021-04-25 2024-03-15 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法

Similar Documents

Publication Publication Date Title
US8918316B2 (en) Content identification system
Ren et al. Deepsinger: Singing voice synthesis with data mined from the web
Ni et al. An end-to-end machine learning system for harmonic analysis of music
Ryynänen et al. Transcription of the Singing Melody in Polyphonic Music.
Arzt et al. Fast Identification of Piece and Score Position via Symbolic Fingerprinting.
Gulati et al. Automatic tonic identification in Indian art music: approaches and evaluation
CN103824565A (zh) 一种基于音符和时值建模的哼唱识谱方法及系统
Clarisse et al. An Auditory Model Based Transcriber of Singing Sequences.
Román et al. An End-to-end Framework for Audio-to-Score Music Transcription on Monophonic Excerpts.
Grill et al. Music boundary detection using neural networks on spectrograms and self-similarity lag matrices
Liang et al. Piano sustain-pedal detection using convolutional neural networks
CN102842310A (zh) 中国民族民间音乐音频修复的音频特征提取及使用的方法
Gulati et al. A two-stage approach for tonic identification in Indian art music
Ryynanen et al. Automatic bass line transcription from streaming polyphonic audio
CN102841932A (zh) 一种基于内容的音频语义特征相似度比较方法
CN112309432A (zh) 一种基于数据驱动的音符起始点检测方法
CN111382303B (zh) 一种基于指纹权重的音频样例检索方法
Gulati A tonic identification approach for Indian art music
Wang et al. Musicyolo: A vision-based framework for automatic singing transcription
CN109410968A (zh) 一种高效的歌曲中人声起始位置检测方法
Weiß Global key extraction from classical music audio recordings based on the final chord
Montecchio et al. A Discrete Filter Bank Approach to Audio to Score Matching for Polyphonic Music.
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
Tang et al. Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant.
Every Discriminating between pitched sources in music audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication