CN114783456A - 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 - Google Patents
歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 Download PDFInfo
- Publication number
- CN114783456A CN114783456A CN202210499349.9A CN202210499349A CN114783456A CN 114783456 A CN114783456 A CN 114783456A CN 202210499349 A CN202210499349 A CN 202210499349A CN 114783456 A CN114783456 A CN 114783456A
- Authority
- CN
- China
- Prior art keywords
- song
- accompaniment
- signal
- target
- frequency point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 58
- 238000003672 processing method Methods 0.000 title abstract description 14
- 230000005236 sound signal Effects 0.000 claims abstract description 155
- 230000001755 vocal effect Effects 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000003044 adaptive effect Effects 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本申请涉及音频技术领域,提供一种歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品。本申请能有效将歌曲中包含伴唱和非伴唱部分的伴奏去除,清除了主旋律提取过程中存在的干扰信号,增加基于干声信号估计得到的主旋律的准确率。该方法包括:获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号;原始伴奏包含伴唱部分及非伴唱部分;将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入自适应滤波器,由自适应滤波器识别目标歌曲中的初步干声信号;将目标歌曲的歌曲信号输入人声提取模型,得到人声提取模型输出的目标歌曲中的人声信号;根据初步干声信号和人声信号,确定目标歌曲的目标干声信号;根据目标干声信号得到目标歌曲的主旋律。
Description
技术领域
本申请涉及音频技术领域,特别是涉及一种歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品。
背景技术
随着互联网技术发展,用户与应用软件的交互日益增多,实际应用中,用户可以演唱曲目并由应用软件给出相应评价,也可以通过应用软件对用户提供的歌曲片段进行检索,获取相关歌曲。而在评价或进行检索时,应用软件往往会先识别歌曲主的旋律,然后再进行后续处理。
在相关技术中,可以通过一个源分离模型分离提取出歌曲中的人声信号,并直接基于当前人声信号进行主旋律识别。然而,上述方式往往容易将歌曲中的干扰信号错误地识别为主旋律的信号,影响主旋律的正确识别,存在主旋律识别准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高主旋律识别准确率的歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品。
第一方面,本申请提供了一种歌曲主旋律提取方法。所述方法包括:
获得目标歌曲的歌曲信号以及所述目标歌曲对应的原始伴奏的伴奏信号;其中所述原始伴奏包含伴唱部分及非伴唱部分;
将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中的初步干声信号;
将所述目标歌曲的歌曲信号输入人声提取模型,得到所述人声提取模型输出的所述目标歌曲中的人声信号;
根据所述初步干声信号和人声信号,确定所述目标歌曲的目标干声信号;
根据所述目标干声信号,得到所述目标歌曲的主旋律。
第二方面,本申请还提供了一种歌曲处理方法。所述方法包括:
获得用户哼唱歌曲;
根据如上任一项所述的歌曲主旋律提取方法,得到所述用户哼唱歌曲的主旋律;
根据所述主旋律检索满足预设要求的用户需求歌曲,展示所述用户需求歌曲;或者,根据所述主旋律生成哼唱评价信息,展示所述哼唱评价信息。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获得目标歌曲的歌曲信号以及所述目标歌曲对应的原始伴奏的伴奏信号;其中所述原始伴奏包含伴唱部分及非伴唱部分;
将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中的初步干声信号;
将所述目标歌曲的歌曲信号输入人声提取模型,得到所述人声提取模型输出的所述目标歌曲中的人声信号;
根据所述初步干声信号和人声信号,确定所述目标歌曲的目标干声信号;
根据所述目标干声信号,得到所述目标歌曲的主旋律。
第四方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获得用户哼唱歌曲;
根据如上任一项所述的歌曲主旋律提取方法,得到所述用户哼唱歌曲的主旋律;
根据所述主旋律检索满足预设要求的用户需求歌曲,展示所述用户需求歌曲;或者,根据所述主旋律生成哼唱评价信息,展示所述哼唱评价信息。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获得目标歌曲的歌曲信号以及所述目标歌曲对应的原始伴奏的伴奏信号;其中所述原始伴奏包含伴唱部分及非伴唱部分;
将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中的初步干声信号;
将所述目标歌曲的歌曲信号输入人声提取模型,得到所述人声提取模型输出的所述目标歌曲中的人声信号;
根据所述初步干声信号和人声信号,确定所述目标歌曲的目标干声信号;
根据所述目标干声信号,得到所述目标歌曲的主旋律。
第六方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获得用户哼唱歌曲;
根据如上任一项所述的歌曲主旋律提取方法,得到所述用户哼唱歌曲的主旋律;
根据所述主旋律检索满足预设要求的用户需求歌曲,展示所述用户需求歌曲;或者,根据所述主旋律生成哼唱评价信息,展示所述哼唱评价信息。
上述歌曲主旋律提取方法、歌曲处理方法、计算机设备和计算机程序产品,可以获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号,其中原始伴奏包含伴唱部分及非伴唱部分;进而可以将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中的初步干声信号,以及,将目标歌曲的歌曲信号输入人声提取模型,得到人声提取模型输出的目标歌曲中的人声信号,根据初步干声信号和人声信号,确定目标歌曲的目标干声信号,根据目标干声信号,得到目标歌曲的主旋律。本申请通过结合自适应滤波器和人声提取模型的识别结果,能有效将歌曲中包含伴唱和非伴唱部分的伴奏去除,清除了主旋律提取过程中存在的干扰信号,提升干声信号的可靠性,增加基于干声信号估计得到的主旋律的准确率。
附图说明
图1为一个实施例中一种歌曲主旋律提取方法的流程示意图;
图2为一个实施例中的一种歌曲信号的示意图;
图3为一个实施例中的一种初步干声信号的示意图;
图4为一个实施例中的一种由人声提取模型识别的人声信号的示意图;
图5为一个实施例中一种获取伴奏步骤的流程示意图;
图6为一个实施例中一种获取干声信号的步骤的流程示意图;
图7为一个实施例中的一种干声信号的示意图;
图8为一个实施例中一种歌曲处理方法的应用环境示意图;
图9为一个实施例中一种歌曲处理方法的流程示意图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的歌曲主旋律提取方法,可以由终端、服务器等计算机设备执行,例如可以单独应用于终端或服务器,也可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在应用场景上,本申请提供的歌曲主旋律提取方法可具体应用在歌曲主旋律识别的场景下,通过对目标歌曲进行分析,将目标歌曲中歌曲伴奏的伴奏信号(包含伴唱和非伴唱部分的)作为干扰信号去除,得到目标干声信号,进而可以基于识别出的目标干声信号确定歌曲主旋律。
以下结合各实施例及相应附图对本申请提供的音频处理方法进行说明。
在一个实施例中,如图1所示,提供了一种歌曲主旋律提取方法,可以包括以下步骤:
步骤S110,获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号;原始伴奏包含伴唱部分及非伴唱部分。
作为一示例,目标歌曲可以是待识别主旋律的歌曲,可以是单调音乐,也可以是复调音乐,其中,复调音乐中的主导歌声往往可以具有关联的多音伴奏,能够将来自不同声源的声音按照和声结构高度耦合叠加在一起。示例性地,目标歌曲可以是在播放歌曲伴奏并进行演唱的情况下录制得到的音频,目标歌曲中除了包括演唱者的人声,还可以包括歌曲伴奏的声音或环境噪声。
在实际应用中,可以获取目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号,例如在得到目标歌曲后,可以从预存的原始伴奏库中确定出目标歌曲对应的原始伴奏,并获取原始伴奏的伴奏信号。
其中,原始伴奏库中可以预先存储有多首歌曲对应的伴奏,即原始伴奏,原始伴奏中除了包括由纯音乐或乐器声音等非人声内容构成的非伴唱部分,还可以包括伴唱部分,即由人声演绎的伴唱内容,当用户播放原始伴奏并进行演唱时,用户演唱的声音与原始伴奏中的伴唱部分可以构成和声,优化演唱效果。在一示例中,若获取到的目标歌曲是待评价歌曲,则在获取目标歌曲时还可以对应获取目标歌曲对应的歌曲标识,并根据歌曲标识从预存的原始伴奏库中获取目标歌曲对应的原始伴奏。
步骤S120,将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中的初步干声信号。
其中,自适应滤波器是能够根据输入信号自动调整性能进行数字信号处理的数字滤波器,可以应用于没有信号先验统计特性、难以使用固定参数滤波器来处理的信号处理系统,实际应用中,自适应滤波可以利用前一时刻已得的滤波器参数结果,自动调节当前时刻的滤波器参数,以适应信号随时间变化的统计特性,从而实现最优滤波。
初步干声信号可以是由自适应滤波器估计得到的干声信号,其中,干声又可以叫做裸声,是不包含音乐的纯人声,在本实施例中可以指不包括歌曲伴奏的纯人声,即演唱者的干声信号。
具体实现中,由于演唱者的声音特点、演唱方式等多种原因,目标歌曲中的干声信号往往缺少先验统计信息,难以直接从目标歌曲的歌曲信号中直接提取干声信号,可以将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器根据原始伴奏的伴奏信号,时变地滤除歌曲信号中所存在的伴奏信号,识别出目标歌曲中的初步干声信号。
在一些主旋律提取方式中,会利用音乐信号的频谱特性及音高连续性的特点来进行主旋律估计,但在复调音乐中主导歌声通常会有至少一个多音伴奏,从而导致复调音乐的频谱包括了来自不同声源且按照和声结构高度耦合叠加在一起的多个声音信号,例如,如图2所示,为目标歌曲对应的歌曲信号,图2所显示的歌曲信号是对干声信号和伴奏信号糅合后得到的结果,干声信号和伴奏信号相互叠加,若要将频谱分开到对应的音符上,其处理难度显著提升。针对此种情况,基于显著性的方法则是利用音乐信号的频谱信息定义了音高显著性函数,将音高显著性函数中出现的极大值位置作为候选旋律音高,但候选旋律音高常常分布在谐波上,在识别过程中容易将基频误识别成倍频,导致最终得到的主旋律八度错误,并且,当歌曲中存在人声演绎的伴唱部分时,若伴唱出现时用户所演唱的干声并未出现,但由于伴唱和干声均属于人声,容易误将伴唱部分识别为用户演唱的干声主旋律,降低主旋律识别的准确率。
而在本实施例中,则可以由自适应滤波器根据输入的原始伴奏的伴奏信号,自适应地调整滤波器参数并对歌曲信号中存在的伴奏信号进行滤除,适应伴奏信号和歌曲信号随时间变化的统计特性,从而有效识别出初步干声信号。
步骤S130,将目标歌曲的歌曲信号输入人声提取模型,得到人声提取模型输出的目标歌曲中的人声信号。
具体地,在获取到目标歌曲的歌曲信号后,可以将目标歌曲的歌曲信号输入到人声提取模型,通过人声提取模型对目标歌曲中的人声进行识别,得到模型输出的目标歌曲中的人声信号。
具体实现中,歌曲中的伴奏较多包含非伴唱内容,如由纯音乐或乐器声音编制而成的伴奏,因此对歌曲的主旋律进行识别时可以先简单分类,识别出歌曲中存在的人声,获取歌曲中人声的人声信号,换句话说,当目标歌曲中同时包括演唱者的人声和歌曲伴奏中伴唱部分的人声时,可以通过人声提取模型获取演唱者对应的干声信号以及伴唱部分人声的人声信号,并作为识别结果输出。示例性地,在对信号分类时,可以通过源分离的方法或机器学习的方法进行分类,如基于深度神经网络的干声伴奏分离模型,本领域技术人员可以根据实际情况选择人声提取模型。
步骤S140,根据初步干声信号和人声信号,确定目标歌曲的目标干声信号。
作为一示例,目标干声信号可以是最终识别得到目标歌曲中演唱者的干声信号。
在得到初步干声信号和人声信号后,则可以结合初步干声信号和人声信号,确定目标歌曲的目标干声信号。
具体地,自适应滤波器无需依赖模型训练,而是可以基于原始伴奏及时地对歌曲中的伴奏进行估计,基于自适应滤波器估计得到的初步干声信号可以如图3所示,歌曲信号中在尾部实线方框位置中针对伴唱部分的伴奏信号能够有效去除,但受自适应滤波器收敛速度影响(例如收敛速度较慢),歌曲中部虚线方框中仍残留部分针对非伴唱部分的伴奏信号。
而使用人声提取模型进行人声信号提取时,虽然人声提取模型可以通过对信号分类较好地消除歌曲信号中人声信号以外的部分,如非伴唱部分的伴奏信号,但伴奏中的伴唱部分也是由人声信号构成,人声提取模型容易将伴唱部分的伴奏信号错误地误识别为演唱者的干声信号而将其保留,如图4所示,是基于人声提取模型识别得到的人声信号,可以看到歌曲信号尾部虚线方框仍然有信号残留,该残留信号为伴唱部分的人声信号,而歌曲信号中部实线方框的伴奏(非伴唱部分的伴奏信号)则有效消除。
在本实施例中,针对自适应滤波器部分未滤除出的伴奏信号(例如歌曲信号中伴唱部分的伴奏信号),可以借助人声提取模型作的识别结果进一步识别,或者,针对人声提取模型未能识别出的包含伴唱部分的伴奏,可以通过自适应滤波器的识别结果作进一步识别,从而得到目标歌曲的目标干声信号。
步骤S150,根据目标干声信号,得到目标歌曲的主旋律。
在得到目标干声信号后,则可以基于目标干声信号确定歌曲的主旋律。
在本实施例中,可以获得目标歌曲的歌曲信号以及目标歌曲对应的原始伴奏的伴奏信号,其中原始伴奏包含伴唱部分及非伴唱部分;进而可以将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中的初步干声信号,以及,将目标歌曲的歌曲信号输入人声提取模型,得到人声提取模型输出的目标歌曲中的人声信号,根据初步干声信号和人声信号,确定目标歌曲的目标干声信号,根据目标干声信号,得到目标歌曲的主旋律。本申请通过结合自适应滤波器和人声提取模型的识别结果,能有效将歌曲中包含伴唱和非伴唱部分的伴奏去除,清除了主旋律提取过程中存在的干扰信号,提升干声信号的可靠性,增加基于干声信号估计得到的主旋律的准确率。
并且,人声提取模型时可以直接使用现有模型,而自适应滤波器也不需要进行模型训练,因此,上述歌曲主旋律提取方法能够不依赖基于标注数据的深度模型,显著降低了计算复杂度。
在一示例性实施例中,步骤S120将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中的初步干声信号,包括:
将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中歌曲伴奏的伴奏信号;根据目标歌曲的伴奏信号及目标歌曲的歌曲信号,得到目标歌曲中的初步干声信号。
其中,歌曲伴奏包含伴唱部分及非伴唱部分。
具体地,目标歌曲由伴奏(包含伴唱部分和非伴唱部分)以及演唱者的干声信号构成,通过去除目标歌曲歌曲信号中的伴奏信号,即可以得到目标歌曲的干声信号。为了便于与后续进一步处理得到的干声信号进行区分,此处得到的干声信号可以称为初步干声信号。
在具体实现中,目标歌曲可以是由用户播放的伴奏和用户演唱时录制的干声组成,当前虽然可以获取到目标歌曲对应的原始伴奏,但目标歌曲中伴奏与干声的组成方式尚未明确,换句话说,在目标歌曲的歌曲信号中伴奏部分对应的伴奏信号和原始伴奏的伴奏信号并不完全一致,难以通过直接将原始伴奏的伴奏信号从目标歌曲的歌曲信号中剔除的这一方式,确定出目标歌曲中干声的干声信号。
但目标歌曲中歌曲伴奏的伴奏信号可以由原始伴奏的伴奏信号预测获得,而目标歌曲的歌曲信号可以理解为由两部分组成,一部分是目标歌曲中的干声所对应的干声信号,而另一部分为歌曲伴奏所对应的伴奏信号,当目标歌曲中干声所对应的干声信号固定时,相应地,原始伴奏的伴奏信号和目标歌曲的歌曲信号可以构成因果系统。基于此,可以将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入到自适应滤波器,由自适应滤波器基于输入的伴奏信号和目标歌曲的歌曲信号,随信号变化而动态预测原始伴奏的伴奏信号以及歌曲伴奏的伴奏信号之间的映射关系,从而可以由自适应滤波器根据原始伴奏的伴奏信号识别出目标歌曲的歌曲信号所包含的伴奏信号,该伴奏信号包括伴唱部分和非伴唱部分的信号。在预测出目标歌曲中歌曲伴奏的伴奏信号后,则可以根据该伴奏信号和歌曲信号,确定出歌曲中的初步干声信号。
本申请则可以通过系统辨识的方法,利用自适应滤波器估计目标歌曲中包含伴唱部分和非伴唱部分的歌曲伴奏与原始伴奏的映射关系,得到系统模型,同时自适应滤波器能够自动连续地适应于当前输入的原始伴奏的伴奏信号和目标歌曲的歌曲信号及时调整参数,大大提高了对目标歌曲中歌曲伴奏估计的准确性,除了可以去除目标歌曲中非伴唱部分的伴奏,更可以有效地消除目标歌曲中伴唱部分的伴奏,能够提高最终识别得到的初步干声信号的准确性和可靠性。
在一示例性实施例中,如图5所示,步骤S120中将原始伴奏的伴奏信号和目标歌曲的歌曲信号输入至自适应滤波器,由自适应滤波器识别目标歌曲中歌曲伴奏的伴奏信号,可以包括如下步骤:
步骤S121,将各频点下的原始伴奏的伴奏信号以及目标歌曲的歌曲信号,输入至自适应滤波器,由当前频点下的滤波器参数所构成的自适应滤波器根据当前频点下的伴奏信号以及当前频点下的歌曲信号确定当前频点的预测伴奏信号。
其中,当前频点为各频点中的一频点,且在当前频点为非首个频点的情况下,当前频点下的滤波器参数根据当前频点的前一频点下的滤波器参数、前一频点下的伴奏信号以及前一频点下的歌曲信号计算得到。
在实际应用中,原始伴奏的伴奏信号和目标歌曲的歌曲信号可以是频域下信号,即伴奏信号和歌曲信号可以是各频点对应的信号幅值。具体而言,针对获取到的原始伴奏和目标歌曲,可以分别分帧加窗得到各自对应的信号帧,例如可以将歌曲和原始伴奏分割成固定时间长度的信号帧,相邻信号帧间之间存在重叠区域,然后为每个信号帧添加汉宁窗做平滑处理,防止频谱泄露。在得到原始伴奏的多个音频帧以及歌曲的多个音频帧后,可以将歌曲信号帧y(t)中的时域信号和伴奏信号帧x(t)中的时域信号,通过傅里叶变换得到频域下的歌曲信号Yn(k)和伴奏信号Xn(k),其中k和n分别为信号帧在频域的频点索引和帧索引。
在获取到各频点下的伴奏信号和歌曲信号后,则可以将其输入到自适应滤波器,将各频点中的一频点作为待分析的当前频点,并且在当前频点并非为多个频点中的首个频点时,可以根据当前频点的前一频点下的滤波器参数、前一频点下的伴奏信号以及前一频点下的歌曲信号估计得到当前频点下的滤波器参数。进而可以由当前频点下的滤波器参数所构成的自适应滤波器根据当前频点下对应的滤波器参数、当前频点下的伴奏信号和当前频点下的歌曲信号,确定出当前频点下的预测伴奏信号。可以理解,随着每个频点下原始伴奏的伴奏信号以及目标歌曲的歌曲信号的变化,自适应滤波器可以相应调整滤波器参数。
例如,自适应滤波器可以根据如下公式对歌曲信号中的伴奏信号进行预测,得到预测伴奏信号,并基于预测伴奏信号确定初步干声信号:
Sn(k)=Yn(k)-Gn(k)
在获取预测伴奏信号时,由于原始伴奏信号与歌曲信号之间构成因果系统,即原始伴奏的伴奏信号与目标歌曲中的伴奏信号存在映射关系,而歌曲信号中的干声信号则与伴奏信号无关,因此,可以基于原始伴奏信号Xn(k)和歌曲信号Yn(k)构造系统辨识,通过自适应滤波方法估计原始伴奏信号Xn(k)和歌曲信号Yn(k)之间的系统模型Hn(k),进而同时估计出初步干声信号Sn(k);其中,系统辨识是根据系统的输入输出时间函数来描述系统行为的数学模型,是自适应滤波器的应用之一。
在一示例中,在确定滤波器参数时,可以通过归一化最小均方误差算法,其思路为基于自适应滤波器当前输出的输出信号与期望信号之间的误差,对自适应滤波器的滤波器参数进行调整,并根据调整后的滤波器参数对下一信号进行处理,重复上述过程,在处理过程中,自适应滤波器参数逐渐收敛。
在将对应频点下的原始伴奏信号和歌曲信号输入到自适应滤波器后,自适应滤波器可以基于滤波器参数和原始伴奏信号,得到预测伴奏信号,并将预测伴奏信号与期望信号比较确定出对应的误差,在根据误差多次调整滤波器参数并使自适应滤波器收敛时,原始伴奏信号则可以正确地映射到歌曲信号中的伴奏信号。具体而言,可以将歌曲信号理解为由两部分组成,包括真正的伴奏信号M1和真正的干声信号M2,即歌曲信号除了伴奏信号M1就是干声信号M2,而干声信号M2并非由伴奏信号M1触发产生的,即伴奏信号M1和干声信号M2两者是相互独立、不相关的。在此基础上,在基于期望信号(即期望的伴奏信号)与预测伴奏信号确定误差时,可以对消期望信号、降低误差的只有歌曲信号中与伴奏部分相关的信号,即基于伴奏信号M1确定的预测伴奏信号,而干声信号M2由于与伴奏信号M1并不相关,干声信号M2在通过自适应滤波器所输出的信号M2’与伴奏信号也是不相关的,因而若将歌曲信号中的干声信号M2错误识别为伴奏信号M1,不相关的输出信号M2’也将会反映在误差中,因此,为了降低自适应滤波器的误差,将调整滤波器参数以更准确地识别歌曲信号中的伴奏信号M1,提高预测伴奏信号与期望信号的相关性,从而可以在自适应滤波器收敛时,识别出歌曲信号中的伴奏信号。实际应用中,歌曲信号中真正的伴奏信号是无法预先获得作为期望信号的,期望信号可以采用原始伴奏的伴奏信号,如对应时刻的伴奏信号或存在延时的伴奏信号。
步骤S122,根据各个当前频点的预测伴奏信号,得到目标歌曲中歌曲伴奏的伴奏信号。
在获取到各个当前频点的预测伴奏信号后,则可以结合多个当前频点的预测伴奏信号,获取到预测伴奏信号在频域中不同频点上的预测伴奏信号的信息,例如预测伴奏信号在频域上各频点的信号幅值大小,由此可以根据多个当前频点的预测伴奏信号确定出目标歌曲中歌曲伴奏的伴奏信号,也可以基于歌曲伴奏的伴奏信号得到目标歌曲中的歌曲伴奏。
在本实施例中,可以将各频点下的原始伴奏的伴奏信号以及目标歌曲的歌曲信号,输入至自适应滤波器,由当前频点下的滤波器参数所构成的自适应滤波器根据当前频点下的伴奏信号以及当前频点下的歌曲信号确定当前频点的预测伴奏信号,而当前频点下的滤波器参数可以根据当前频点的前一频点下的滤波器参数、前一频点下的伴奏信号以及前一频点下的歌曲信号计算得到,进而可以根据各个当前频点的预测伴奏信号,得到目标歌曲中歌曲伴奏的伴奏信号,能够基于输入的伴奏信号,自适应地对歌曲信号中与伴唱和非伴唱部分关联的伴奏信号进行准确预测,为后续获取可靠的初步干声信号提供基础。
在一示例性实施例中,自适应滤波器的滤波器参数可以通过以下方式获得:
若当前频点为首个频点,则获取初始化的滤波器参数,并根据初始化的滤波器参数、原始伴奏的伴奏信号以及目标歌曲的歌曲信号,确定下一频点的滤波器参数。
在实际应用中,若当前频点为多个频点中的首个频点,则可以对滤波器参数进行初始化,例如可以获取预先设定的值作为初始化的滤波器参数,进而可以根据初始化的滤波器参数、原始伴奏信号和歌曲信号,确定下一频点对应的滤波器参数。
示例性地,下一频点的滤波器参数可以通过如下公式确定:
Pn(k)=ρPn(k-1)+(1-ρ)|Xn(k)|2
其中,Hn(k+1)为下一频点的滤波器参数,Hn(k)为当前频点的滤波器参数,μ为更新步长,可以是固定步长也可以是变步长,Pn(k)是滤波器参数调整过程中用于更新参数的中间因子,ρ为预设参数,可用于调整自适应滤波器的收敛速度。在对滤波器参数进行初始化时,可以通过对Pn(k-1)和Hn(k)进行初始化,为计算下一频点的滤波器参数提供基础。
在一示例性实施例中,步骤S130根据目标歌曲的伴奏信号及目标歌曲的歌曲信号,得到目标歌曲中的初步干声信号具体可以通过以下步骤实现:
获取各频点下目标歌曲的伴奏信号和目标歌曲的歌曲信号;在各频点下将歌曲信号中的伴奏信号去除,得到目标歌曲中的初步干声信号。
在实际应用中,在得到各频点下的预测伴奏信号和歌曲的歌曲信号Yn(k)后,针对每个频点,可以将歌曲信号中的伴奏信号去除,得到歌曲的初步干声信号。示例性地,可以通过如下公式确定每个频点下的初步干声信号Sn(k):
在本实施例中,针对每个频点,通过将歌曲信号中的伴奏信号去除得到初步干声信号,消除的伴奏信号包括伴唱部分和非伴唱部分。
在一示例性实施例中,如图6所示,步骤S150根据初步干声信号和人声信号确定目标歌曲的目标干声信号可以通过以下步骤S151-S152实现:
步骤S151,根据各频点下的初步干声信号和人声信号,获取目标歌曲在各频点下的干声存在概率。
具体实现中,可以获取频域下的初步干声信号和人声信号,针对每个频点,可以根据该频点下的初步干声信号和人声信号,获取目标歌曲在该频点下的干声存在概率,换句话说,可以根据初步干声信号和人声信号,对每个频点下是否存在干声信号以及干声信号的大小进行估计,得到该频点下的干声存在概率。
步骤S152,根据目标歌曲在各频点下的干声存在概率对目标歌曲在各频点下的歌曲信号进行处理,得到目标歌曲的目标干声信号。
在获取到干声存在概率后,针对歌曲信号中的每个频点,可以根据目标歌曲的歌曲信号在该频点下的干声存在概率对歌曲信号进行处理,得到该频点下的干声信号,通过结合多个频点下的干声信号可以得到目标歌曲的目标干声信号。示例性地,可以通过如下公式得到目标歌曲在每个频点下的目标干声信号:
Gn(k)=βn(k)×Yn(k)
其中,βn(k)为频点的干声存在概率,Gn(k)为目标歌曲在该频点下的干声信号。示例性地,最终得到的干声信号可以如图7所示。
在本实施例中,可以根据各频点下的初步干声信号和人声信号,获取目标歌曲在各频点下的干声存在概率,并根据目标歌曲在各频点下的干声存在概率对目标歌曲在各频点下的歌曲信号进行处理,得到目标歌曲的目标干声信号,使得最终估计得到的干声信号既能有效消除非伴唱的伴奏,同时也能有效消除伴唱部分的伴奏。
在一示例性实施例中,根据各频点下的初步干声信号和人声信号,获取目标歌曲在各频点下的干声存在概率,包括:
基于各频点下的初步干声信号和歌曲信号的比值,确定各频点下的第一干声存在概率;基于各频点下的人声信号和歌曲信号的比值,确定各频点下的第二干声存在概率;基于各频点下的第一干声存在概率与第二干声存在概率的乘积,得到目标歌曲在各频点下的干声存在概率。
在具体实现中,可以获取各频点下的初步干声信号、人声信号和歌曲信号。针对每个频点,可以基于该频点下初步干声信号与歌曲信号的比值,确定该频点下的第一干声存在概率βn1(k),例如,可以如下所示:
并且,可以基于该频点下人声信号Zn(k)与歌曲信号的比值,确定该频点下的第二干声存在概率βn2(k),例如,可以如下所示:
进而可以基于各频点下的第一干声存在概率与第二干声存在概率的乘积,得到歌曲分别在各频点下对应的干声存在概率βn(k):
在本实施例中,基于各频点下的初步干声信号和歌曲信号的比值,确定各频点下的第一干声存在概率,基于各频点下的人声信号和歌曲信号的比值,确定各频点下的第二干声存在概率,基于各频点下的第一干声存在概率与第二干声存在概率的乘积,得到目标歌曲在各频点下的干声存在概率,能够同时结合人声提取模型和自适应滤波器估计干声存在概率,使最终有效去除歌曲信号中的伴奏信号,特别是伴唱部分,提高了主旋律提取的准确性。
在一示例性实施例中,步骤S160中根据目标干声信号,得到目标歌曲的主旋律,可以包括如下步骤:
获取目标干声信号的基频序列,并基于目标干声信号的基频序列得到目标歌曲的主旋律。
在实际应用中,由目标干声信号构成的声音为单调音乐,相应地,可以基于目标干声信号识别目标歌曲的主旋律,在本实施例中,可以获取目标干声信号的基频序列,由目标干声信号的基频序列确定目标歌曲的主旋律。
具体例如,可以通过自相关函数识别歌曲的主旋律,自相关函数是信号与其延迟的相似性量度。在获取到目标干声信号后,可以对目标干声信号进行时域处理,得到时域下的目标干声信号,并利用自相关函数确定时域下干声信号的周期,其中,自相关函数在目标干声信号的重复周期处可以得到最大值。在确定出目标干声信号的周期后,则可以基于周期的倒数得到目标干声信号的基频,基于连续平滑的多个基频,则可以得到目标干声信号的基频序列,该基频序列构成歌曲的主旋律。
在本实施例中,可以获取目标干声信号的基频序列,并基于该基频序列得到准确可靠的歌曲主旋律。
在一个实施例中,提供了一种歌曲处理方法,可以应用于如图8所示的应用环境中,该应用环境中包括终端和服务器。
其中,终端通过网络与服务器进行通信,数据存储系统可以存储服务器需要处理的数据,如原始伴奏库,数据存储系统可以集成在服务器上,也可以放在云上或其他网络服务器上。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图9所示,提供了一种歌曲处理方法,以该方法应用于图8中的服务器为例进行说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
在本实施例中,可以包括以下步骤:
步骤S210,获得用户哼唱歌曲。
作为一示例,用户哼唱歌曲可以是包含用户演唱声音的歌曲。
在具体实现中,用户可以在播放歌曲时进行歌曲演唱,并通过终端进行歌曲录制,得到用户哼唱歌曲。在获取到用户哼唱歌曲后,终端可以将用户哼唱歌曲发送到服务器,使服务器获得用户哼唱歌曲。
步骤S220,根据歌曲主旋律提取方法,得到用户哼唱歌曲的主旋律。
在获取到用户哼唱歌曲后,服务器可以通过如前文任一项的歌曲主旋律提取方法,对用户哼唱歌曲进行分析,得到用户哼唱歌曲的主旋律。
步骤S230,根据主旋律检索满足预设要求的用户需求歌曲,展示用户歌曲。
在得到用户哼唱歌曲的主旋律后,服务器可以根据主旋律检索预设曲库中的歌曲,确定出满足预设要求的歌曲,作为用户需求歌曲,其中,预设要求可以根据实际情况确定。
例如,若需要检索主旋律对应的歌曲,用户可以执行预设的检索触发操作,例如可以点击针对翻唱识别或哼唱识别的按键。响应于检索触发操作,终端在获取到用户哼唱歌曲后,可以发送携带有用户哼唱歌曲的歌曲识别请求到服务器,指示服务器根据当前的用户哼唱歌曲,获取对应的用户需求歌曲,进而服务器可以获取预设曲库中候选歌曲的候选歌曲主旋律,并将候选歌曲主旋律与用户哼唱歌曲主旋律相匹配的候选歌曲,确定为用户需求歌曲;
又如,若需要根据用户哼唱歌曲的主旋律进行歌曲推荐,则可以提取用户哼唱歌曲主旋律的旋律特征,并从预设曲库中检索具有该旋律特征的候选歌曲作为用户需求歌曲。
在检索出用户需求歌曲后,可以将用户需求歌曲返回到终端展示。
通过使用上述的歌曲主旋律提取方法提取用户哼唱歌曲的主旋律,并基于该主旋律检索出满足预设要求的用户需求歌曲,能够提高音乐检索服务的准确率和召回率。
步骤S240,根据主旋律,生成哼唱评价信息,展示哼唱评价信息。
作为一示例,哼唱评价信息可以是针对用户哼唱歌曲的评价信息,示例性地,哼唱评价信息可以是评价等级或评价得分。
在得到用户哼唱歌曲的主旋律后,服务器可以将主旋律与预设的参考旋律进行比对,根据比对结果生成用户哼唱歌曲的哼唱评价信息,并将哼唱评价信息返回到终端展示。
具体例如,在录制用户哼唱歌曲时,若需要进行歌曲评价,用户可以执行预设的评价触发操作,例如点击针对歌唱评价的按钮。响应于检测到的评价触发操作,终端在获取到用户哼唱歌曲后,可以发送携带有用户哼唱歌曲的歌曲评价请求到服务器,指示服务器根据当前的用户哼唱歌曲,生成哼唱评价信息。通过使用上述的歌曲主旋律提取方法提取用户哼唱歌曲的主旋律,并基于该主旋律进行歌曲评价,能够有效提高评价结果的可靠性和准确性。
在本实施例中,在获得用户哼唱歌曲后,可以根据上述歌曲主旋律提取方法,得到用户哼唱歌曲的主旋律,进而可以根据主旋律检索满足预设要求的用户需求歌曲,并展示用户需求歌曲;或者,可以根据主旋律生成哼唱评价信息并展示,能够提高音乐检索服务的准确率和召回率,也可以提高歌唱评价结果的可靠性和准确性,提升用户体验。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多首歌曲和原始伴奏。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌曲主旋律提取方法或歌曲处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种歌曲主旋律提取方法或歌曲处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10、11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种歌曲主旋律提取方法,其特征在于,所述方法包括:
获得目标歌曲的歌曲信号以及所述目标歌曲对应的原始伴奏的伴奏信号;其中所述原始伴奏包含伴唱部分及非伴唱部分;
将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中的初步干声信号;
将所述目标歌曲的歌曲信号输入人声提取模型,得到所述人声提取模型输出的所述目标歌曲中的人声信号;
根据所述初步干声信号和人声信号,确定所述目标歌曲的目标干声信号;
根据所述目标干声信号,得到所述目标歌曲的主旋律。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中的初步干声信号,包括:
将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中歌曲伴奏的伴奏信号;其中所述歌曲伴奏包含伴唱部分及非伴唱部分;
根据所述目标歌曲的伴奏信号及所述目标歌曲的歌曲信号,得到所述目标歌曲中的初步干声信号。
3.根据权利要求2所述的方法,其特征在于,所述将所述原始伴奏的伴奏信号和所述目标歌曲的歌曲信号输入至自适应滤波器,由所述自适应滤波器识别所述目标歌曲中歌曲伴奏的伴奏信号,包括:
将各频点下的所述原始伴奏的伴奏信号以及所述目标歌曲的歌曲信号,输入至所述自适应滤波器,由当前频点下的滤波器参数所构成的自适应滤波器根据所述当前频点下的伴奏信号以及所述当前频点下的歌曲信号确定所述当前频点的预测伴奏信号;其中,所述当前频点为所述各频点中的一频点,且在所述当前频点非首个频点的情况下,所述当前频点下的滤波器参数根据所述当前频点的前一频点下的滤波器参数、所述前一频点下的伴奏信号以及所述前一频点下的歌曲信号计算得到;
根据各个所述当前频点的预测伴奏信号,得到所述目标歌曲中歌曲伴奏的伴奏信号。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标歌曲的伴奏信号及所述目标歌曲的歌曲信号,得到所述目标歌曲中的初步干声信号,包括:
获取各频点下所述目标歌曲的伴奏信号和所述目标歌曲的歌曲信号;
在各个所述频点下将所述歌曲信号中的所述伴奏信号去除,得到所述目标歌曲中的初步干声信号。
5.根据权利要求1所述的方法,其特征在于,所述根据所述初步干声信号和人声信号,确定所述目标歌曲的目标干声信号,包括:
根据各频点下的初步干声信号和人声信号,获取所述目标歌曲在各频点下的干声存在概率;
根据所述目标歌曲在各频点下的干声存在概率对所述目标歌曲在各频点下的歌曲信号进行处理,得到所述目标歌曲的目标干声信号。
6.根据权利要求5所述的方法,其特征在于,所述根据各频点下的初步干声信号和人声信号,获取所述目标歌曲在各频点下的干声存在概率,包括:
基于所述各频点下的初步干声信号和所述歌曲信号的比值,确定所述各频点下的第一干声存在概率;
基于所述各频点下的人声信号和所述歌曲信号的比值,确定所述各频点下的第二干声存在概率;
基于所述各频点下的第一干声存在概率与第二干声存在概率的乘积,得到所述目标歌曲在各频点下的干声存在概率。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述目标干声信号,得到所述目标歌曲的主旋律,包括:
获取所述目标干声信号的基频序列,并基于所述目标干声信号的基频序列得到所述目标歌曲的主旋律。
8.一种歌曲处理方法,其特征在于,所述方法包括:
获得用户哼唱歌曲;
根据权利要求1至7任一项所述的方法,得到所述用户哼唱歌曲的主旋律;
根据所述主旋律检索满足预设要求的用户需求歌曲,展示所述用户需求歌曲;或者,根据所述主旋律生成哼唱评价信息,展示所述哼唱评价信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210499349.9A CN114783456A (zh) | 2022-05-09 | 2022-05-09 | 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210499349.9A CN114783456A (zh) | 2022-05-09 | 2022-05-09 | 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114783456A true CN114783456A (zh) | 2022-07-22 |
Family
ID=82436808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210499349.9A Pending CN114783456A (zh) | 2022-05-09 | 2022-05-09 | 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783456A (zh) |
-
2022
- 2022-05-09 CN CN202210499349.9A patent/CN114783456A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8170702B2 (en) | Method for classifying audio data | |
US8321414B2 (en) | Hybrid audio-visual categorization system and method | |
US11875807B2 (en) | Deep learning-based audio equalization | |
JP4825800B2 (ja) | 楽曲分類方法 | |
CN111309965B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
EP3477643A1 (en) | Audio fingerprint extraction and audio recognition using said fingerprints | |
CN111309966B (zh) | 音频匹配方法、装置、设备及存储介质 | |
JP2009139769A (ja) | 信号処理装置、信号処理方法及びプログラム | |
JP2007122442A (ja) | 楽曲分類装置及び楽曲分類プログラム | |
WO2017030661A1 (en) | Media feature determination for internet-based media streaming | |
KR101942459B1 (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
CN113223485B (zh) | 节拍检测模型的训练方法、节拍检测方法及装置 | |
WO2016102737A1 (en) | Tagging audio data | |
CN111445922B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
Niyazov et al. | Content-based music recommendation system | |
JPWO2006137271A1 (ja) | 楽曲検索装置、楽曲検索方法および楽曲検索プログラム | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
US20180173400A1 (en) | Media Content Selection | |
EP3161689B1 (en) | Derivation of probabilistic score for audio sequence alignment | |
CN110739006A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN114783456A (zh) | 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 | |
Mirza et al. | Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams | |
Purnama | Music Genre Recommendations Based on Spectrogram Analysis Using Convolutional Neural Network Algorithm with RESNET-50 and VGG-16 Architecture | |
Pimenta-Zanon et al. | Complex Network-Based Approach for Feature Extraction and Classification of Musical Genres | |
US11550831B1 (en) | Systems and methods for generation and deployment of a human-personified virtual agent using pre-trained machine learning-based language models and a video response corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |