CN111462776A - 一种歌曲寻点方法及其终端 - Google Patents
一种歌曲寻点方法及其终端 Download PDFInfo
- Publication number
- CN111462776A CN111462776A CN202010256735.6A CN202010256735A CN111462776A CN 111462776 A CN111462776 A CN 111462776A CN 202010256735 A CN202010256735 A CN 202010256735A CN 111462776 A CN111462776 A CN 111462776A
- Authority
- CN
- China
- Prior art keywords
- music
- unit
- model
- training
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 abstract description 6
- 230000005477 standard model Effects 0.000 abstract description 4
- 230000001755 vocal effect Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 8
- 241001342895 Chorus Species 0.000 description 4
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种歌曲寻点方法及其终端,方法包括:获取精准标注时间点位的若干音乐素材;提取若干音乐素材中的声学特征;根据声学特征,进行训练,建立模型;接收待标注的音乐;将待标注音乐与模型进行匹配;输出待标注音乐时间点位。本方法通过对现有的少量音乐素材进行精准的标注,然后对精准标注的音乐素材进行学习,建立标准模型;然后将带标注的音乐放置模型中,进行自动地智能地对音乐进行寻点标注,极大地提升音频节目制作效率;从原来人工处理流转为人工智能处理,节约人力成本。
Description
技术领域
本发明涉及智能寻点技术领域,尤其涉及一种歌曲寻点方法及其终端。
背景技术
歌曲打点(打点)是指为一首歌标注相关的时间点位(人声起止、音乐副歌起止),可提示主持人当前歌曲播放的实时状态,主持人在歌曲无人声有背景乐时进行在线主持,或进行音频节目的制作,根据标注点剪辑形成音乐节目。
现有主流音频剪辑软件的歌曲打点都是通过人工完成,即由人在听完一首歌后,在软件中标注出歌曲的人声起止与副歌起止时间节点,存在无法形成批量处理,消耗大量人力成本,不能及时提供音频素材的情况。
发明内容
有鉴于此,本发明的一种歌曲寻点方法及其终端,通过本方法,可智能地对歌曲进行寻点,极大地提升音频节目制作效率。
一种歌曲寻点方法,方法包括:
S1.获取精准标注时间点位的若干音乐素材;
S2.提取若干音乐素材中的声学特征;
S3.根据声学特征,进行训练,建立模型;
S4.接收待标注的音乐;
S5.将待标注音乐与模型进行匹配;
S6.输出待标注音乐时间点位。
优选地,所述步骤S3具体为:
根据提取的声学特征,进行若干次的训练;
将训练后的声学特征进行参数调整,建立模型。
优选地,所述声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。
优选地,所述步骤S5与步骤S6之间还包括:
将匹配的信息低频滤波进行去噪。
优选地,所述声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。
一种歌曲寻点终端,终端包括获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元;所述获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元依次连接,其中:
获取单元,用于获取精准标注时间点位的若干音乐素材;
提取单元,用于提取若干音乐素材中的声学特征;
训练建模单元,用于根据声学特征,进行训练,建立模型;
接收单元,用于接收待标注的音乐;
匹配单元,用于将待标注音乐与模型进行匹配;
输出单元,用于输出待标注音乐时间点位。
优选地,所述训练建模单元包括训练单元以及调参建模单元,其中:
训练单元,用于根据提取的声学特征,进行若干次的训练;
调参建模单元,用于将训练后的声学特征进行参数调整,建立模型。
优选地,所述调参建模单元中的声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。
优选地,所述匹配单元与输出单元之间还设置有去噪单元,所述去噪单元两端分别连接于匹配单元、输出单元;所述去噪单元用于将匹配的信息低频滤波进行去噪。
优选地,所述提取单元提取的声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。
本发明的有益效果在于:本发明的一种歌曲寻点方法及其终端,本方法通过对现有的少量音乐素材进行精准的标注,然后对精准标注的音乐素材进行学习,建立标准模型;然后将带标注的音乐放置模型中,进行自动地智能地对音乐进行寻点标注,极大地提升音频节目制作效率;从原来人工处理流转为人工智能处理,节约人力成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种歌曲寻点方法实施例1的流程图;
图2为一种歌曲寻点方法实施例2的流程图;
图3为一种歌曲寻点终端实施例1的框图示意图;
图4为一种歌曲寻点终端实施例2的框图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参看图1,一种歌曲寻点方法实施例1的流程图,一种歌曲寻点方法,方法包括:
S11.获取精准标注时间点位的若干音乐素材;对现有的音乐素材进行精准的标注;一般来说,获取的音乐素材越多、标注越精准,对后续的带寻点的音乐识别标注越精准,但是在实际过程中,考虑效率及精准的平衡,一般会选取有代表性的音乐进行精准标注时间位点;在标注时,对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后,获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。
S12.提取若干音乐素材中的声学特征;对获取的精准标注了时间点位的若干音乐素材进行声学特征提取;其中,声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码;一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时,取连续帧长约0.2秒的数据作为一次采样结果,尽量保证样本正反例的均匀;其中,时间点位以人声演唱为例:人声演唱具有连续的特点,选择第一个峰值超过3秒的时间点作为人声起点,选择最后一个峰值超过3秒的时间点作为人声终止。
S13.根据声学特征,进行训练,建立模型;根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码),多音乐素材、多声学特征、多次不断地进行训练,将精准标注时间点位声学特征进行提取获得,得到训练结果,根据训练的结果,建立模型;一般地,建立的模型为标准模型。
S14.接收待标注的音乐;将一些待标注的音乐输入至模型;待标注的音乐为用户需要标注的音乐;即接收待标注的音乐。
S15.将待标注音乐与模型进行匹配;将接收的待标注音乐与模型进行匹配,即待标注音乐与模型声学特征进行定位,将待标注音乐中的声学特征标注出来,在一段时间内的音乐上进行确定时间点位。
S16.输出待标注音乐时间点位;在一段时间内的音乐上进行了时间点位后,输出待标注音乐时间点位,呈现给用户。
请参看图3,一种歌曲寻点终端实施例1的流程图,一种歌曲寻点终端,终端300包括获取单元31、提取单元32、训练建模单元33、接收单元34、匹配单元35以及输出单元36;获取单元31、提取单元32、训练建模单元33、接收单元34、匹配单元35以及输出单元36依次连接,其中:
获取单元31,用于获取精准标注时间点位的若干音乐素材;对现有的音乐素材进行精准的标注;一般来说,获取的音乐素材越多、标注越精准,对后续的带寻点的音乐识别标注越精准,但是在实际过程中,考虑效率及精准的平衡,一般会选取有代表性的音乐进行精准标注时间位点;在标注时,对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后,获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。
提取单元32,用于提取若干音乐素材中的声学特征;对获取的精准标注了时间点位的若干音乐素材进行声学特征提取;其中,声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码;一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时,取连续帧长约0.2秒的数据作为一次采样结果,尽量保证样本正反例的均匀;其中,时间点位以人声演唱为例:人声演唱具有连续的特点,选择第一个峰值超过3秒的时间点作为人声起点,选择最后一个峰值超过3秒的时间点作为人声终止。
训练建模单元33,用于根据声学特征,进行训练,建立模型;根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码),多音乐素材、多声学特征、多次不断地进行训练,将精准标注时间点位声学特征进行提取获得,得到训练结果,根据训练的结果,建立模型;一般地,建立的模型为标准模型。
接收单元34,用于接收待标注的音乐;将一些待标注的音乐输入至模型;待标注的音乐为用户需要标注的音乐;即接收待标注的音乐。
匹配单元35,用于将待标注音乐与模型进行匹配;将接收的待标注音乐与模型进行匹配,即待标注音乐与模型声学特征进行定位,将待标注音乐中的声学特征标注出来,在一段时间内的音乐上进行确定时间点位。
输出单元36,用于输出待标注音乐时间点位;在一段时间内的音乐上进行了时间点位后,输出待标注音乐时间点位,呈现给用户。
请参看图2,一种歌曲寻点方法实施例2的流程图,一种歌曲寻点方法,方法包括:
S21.获取精准标注时间点位的若干音乐素材;对现有的音乐素材进行精准的标注;一般来说,获取的音乐素材越多、标注越精准,对后续的带寻点的音乐识别标注越精准,但是在实际过程中,考虑效率及精准的平衡,一般会选取有代表性的音乐进行精准标注时间位点;在标注时,对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后,获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。
S22.提取若干音乐素材中的声学特征;对获取的精准标注了时间点位的若干音乐素材进行声学特征提取;其中,声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码;一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时,取连续帧长约0.2秒的数据作为一次采样结果,尽量保证样本正反例的均匀;其中,时间点位以人声演唱为例:人声演唱具有连续的特点,选择第一个峰值超过3秒的时间点作为人声起点,选择最后一个峰值超过3秒的时间点作为人声终止。
S23.根据声学特征,进行训练;根据提取的声学特征,进行若干次的训练;根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码),多音乐素材、多声学特征、多次不断地进行训练,将精准标注时间点位声学特征进行提取获得,得到训练结果;一般地,训练的次数取决于音乐素材的多少。
S24.对声学特征参数进行调整,建立模型;将训练后的声学特征进行参数调整,建立模型;由于训练的结果不一定会符合目标模型,所以一般需要对声学特征参数进行调整;一般调整为通过不断调整CNN(卷积神经网络)和VAD(声音活跃侦测)算法,实现智能寻点,调整模型;选出最优的模型。
S25.接收待标注的音乐;将一些待标注的音乐输入至模型;待标注的音乐为用户需要标注的音乐;即接收待标注的音乐。
S26.用于将待标注音乐与模型进行匹配;将接收的待标注音乐与模型进行匹配,即待标注音乐与模型声学特征进行定位,将待标注音乐中的声学特征标注出来,在一段时间内的音乐上进行确定时间点位。
S27.将匹配的信息低频滤波进行去噪;由于匹配出来的信息可能会有很多不想关,但是会干扰目标信息;所以需要对信息进行低频滤波去噪。例如:有的乐器与人声的音色较接近,经过分析,模型将纯音乐预测为人声的错误率较高。因此在预测阶段,在预测曲线上增加低频滤波器,过滤小于中位数的值。
S28.用于输出待标注音乐时间点位;在一段时间内的音乐上进行了时间点位后,输出待标注音乐时间点位,呈现给用户。
请参看图4,一种歌曲寻点终端实施例2的流程图,一种歌曲寻点终端,终端400包括获取单元41、提取单元42、训练单元43、调参建模单元44、接收单元45、匹配单元46、去噪单元47以及输出单元48;获取单元41、提取单元42、训练单元43、调参建模单元44、接收单元45、匹配单元46、去噪单元47以及输出单元48依次连接;其中:
获取单元41,用于用于获取精准标注时间点位的若干音乐素材;对现有的音乐素材进行精准的标注;一般来说,获取的音乐素材越多、标注越精准,对后续的带寻点的音乐识别标注越精准,但是在实际过程中,考虑效率及精准的平衡,一般会选取有代表性的音乐进行精准标注时间位点;在标注时,对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后,获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。
提取单元42,用于用于提取若干音乐素材中的声学特征;对获取的精准标注了时间点位的若干音乐素材进行声学特征提取;其中,声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码;一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时,取连续帧长约0.2秒的数据作为一次采样结果,尽量保证样本正反例的均匀;其中,时间点位以人声演唱为例:人声演唱具有连续的特点,选择第一个峰值超过3秒的时间点作为人声起点,选择最后一个峰值超过3秒的时间点作为人声终止。
训练单元43,用于根据声学特征,进行训练;根据提取的声学特征,进行若干次的训练;根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码),多音乐素材、多声学特征、多次不断地进行训练,将精准标注时间点位声学特征进行提取获得,得到训练结果;一般地,训练的次数取决于音乐素材的多少。
调参建模单元44,用于对声学特征参数进行调整,建立模型;将训练后的声学特征进行参数调整,建立模型;由于训练的结果不一定会符合目标模型,所以一般需要对声学特征参数进行调整;一般调整为通过不断调整CNN(卷积神经网络)和VAD(声音活跃侦测)算法,实现智能寻点,调整模型;选出最优的模型。
接收单元45,用于接收待标注的音乐;将一些待标注的音乐输入至模型;待标注的音乐为用户需要标注的音乐;即接收待标注的音乐。
匹配单元46,用于用于将待标注音乐与模型进行匹配;将接收的待标注音乐与模型进行匹配,即待标注音乐与模型声学特征进行定位,将待标注音乐中的声学特征标注出来,在一段时间内的音乐上进行确定时间点位。
去噪单元47,用于将匹配的信息低频滤波进行去噪;由于匹配出来的信息可能会有很多不想关,但是会干扰目标信息;所以需要对信息进行低频滤波去噪。例如:有的乐器与人声的音色较接近,经过分析,模型将纯音乐预测为人声的错误率较高。因此在预测阶段,在预测曲线上增加低频滤波器,过滤小于中位数的值。
输出单元48,用于用于输出待标注音乐时间点位;在一段时间内的音乐上进行了时间点位后,输出待标注音乐时间点位,呈现给用户。
以上所描述的实施例仅仅是示意性的,本发明实施例可以根据实际需要进行顺序调整、合并和删减。
实施例对本方案进行了详细的介绍,本文中应用了具体个例对本发明的结构原理及实施方式进行了阐述,以上实施例只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种歌曲寻点方法,其特征在于,方法包括:
S1.获取精准标注时间点位的若干音乐素材;
S2.提取若干音乐素材中的声学特征;
S3.根据声学特征,进行训练,建立模型;
S4.接收待标注的音乐;
S5.将待标注音乐与模型进行匹配;
S6.输出待标注音乐时间点位。
2.根据权利要求1所述的歌曲寻点方法,其特征在于,所述步骤S3具体为:
根据提取的声学特征,进行若干次的训练;
将训练后的声学特征进行参数调整,建立模型。
3.根据权利要求2所述的歌曲寻点方法,其特征在于,所述声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。
4.根据权利要求1所述的歌曲寻点方法,其特征在于,所述步骤S5与步骤S6之间还包括:
将匹配的信息低频滤波进行去噪。
5.根据权利要求1所述的歌曲寻点方法,其特征在于,所述声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。
6.一种歌曲寻点终端,其特征在于,终端包括获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元;所述获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元依次连接,其中:
获取单元,用于获取精准标注时间点位的若干音乐素材;
提取单元,用于提取若干音乐素材中的声学特征;
训练建模单元,用于根据声学特征,进行训练,建立模型;
接收单元,用于接收待标注的音乐;
匹配单元,用于将待标注音乐与模型进行匹配;
输出单元,用于输出待标注音乐时间点位。
7.根据权利要求6所述的歌曲寻点终端,其特征在于,所述训练建模单元包括训练单元以及调参建模单元,其中:
训练单元,用于根据提取的声学特征,进行若干次的训练;
调参建模单元,用于将训练后的声学特征进行参数调整,建立模型。
8.根据权利要求7所述的歌曲寻点终端,其特征在于,所述调参建模单元中的声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。
9.根据权利要求6所述的歌曲寻点终端,其特征在于,所述匹配单元与输出单元之间还设置有去噪单元,所述去噪单元两端分别连接于匹配单元、输出单元;所述去噪单元用于将匹配的信息低频滤波进行去噪。
10.根据权利要求6所述的歌曲寻点终端,其特征在于,所述提取单元提取的声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256735.6A CN111462776A (zh) | 2020-04-02 | 2020-04-02 | 一种歌曲寻点方法及其终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256735.6A CN111462776A (zh) | 2020-04-02 | 2020-04-02 | 一种歌曲寻点方法及其终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111462776A true CN111462776A (zh) | 2020-07-28 |
Family
ID=71680262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010256735.6A Pending CN111462776A (zh) | 2020-04-02 | 2020-04-02 | 一种歌曲寻点方法及其终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462776A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410968A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
-
2020
- 2020-04-02 CN CN202010256735.6A patent/CN111462776A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410968A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
Gómez et al. | Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing | |
CN107369439B (zh) | 一种语音唤醒方法和装置 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
CN111326171B (zh) | 一种基于简谱识别和基频提取的人声旋律提取方法及系统 | |
CN109979428B (zh) | 音频生成方法和装置、存储介质、电子设备 | |
CN107871499A (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
CN108172211B (zh) | 可调节的波形拼接系统及方法 | |
CN106887233A (zh) | 音频数据处理方法及系统 | |
CN112420015A (zh) | 一种音频合成方法、装置、设备及计算机可读存储介质 | |
CN109189982A (zh) | 一种基于svm主动学习的音乐情感分类方法 | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
CN113297412B (zh) | 音乐推荐方法、装置、电子设备和存储介质 | |
CN111027675B (zh) | 一种多媒体播放设置自动调节方法及系统 | |
CN107025902B (zh) | 数据处理方法及装置 | |
CN111462776A (zh) | 一种歌曲寻点方法及其终端 | |
CN106503181A (zh) | 一种音频数据处理方法及装置 | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 | |
CN114038481A (zh) | 一种歌词时间戳生成方法、装置、设备及介质 | |
CN114579724A (zh) | 针对虚拟人在多种场景下的无缝衔接方法及系统 | |
CN113781989A (zh) | 一种音频的动画播放、节奏卡点识别方法及相关装置 | |
CN113744721B (zh) | 模型训练方法、音频处理方法、设备及可读存储介质 | |
CN112750420B (zh) | 一种歌声合成方法、装置及设备 | |
CN112750422B (zh) | 一种歌声合成方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200728 |