CN117079666A - 歌曲打分方法、装置、终端设备以及存储介质 - Google Patents
歌曲打分方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN117079666A CN117079666A CN202311120715.6A CN202311120715A CN117079666A CN 117079666 A CN117079666 A CN 117079666A CN 202311120715 A CN202311120715 A CN 202311120715A CN 117079666 A CN117079666 A CN 117079666A
- Authority
- CN
- China
- Prior art keywords
- singing
- frame
- song
- audio data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000009432 framing Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical group N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 3
- 230000013707 sensory perception of sound Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本发明公开了一种歌曲打分方法、装置、终端设备以及存储介质,其方法包括:获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。本发明解决了对歌曲打分不准确及打分速度慢的问题,提高了歌曲打分的效率。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种歌曲打分方法、装置、终端设备以及存储介质。
背景技术
现在技术中的歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分。虽仅需基于演唱部分进行歌曲打分,但基于上述方式在进行歌曲打分时,间奏部分也可能会被计算进而影响歌曲打分的结果,且此时因计算了间奏部分等无效数据导致打分时间变长,打分效率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种歌曲打分方法、装置、终端设备以及存储介质,旨在解决对歌曲打分不准确及打分速度慢的技术问题。
为实现上述目的,本发明提供一种歌曲打分方法,所述歌曲打分方法包括:
获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
可选的,所述基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
获取原唱者演唱所述指定音频得到的原唱音频,并对所述原唱音频进行分帧处理,获取多帧原唱音频数据;
计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;
通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
可选的,所述通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;
获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;
通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。
可选的,所述获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值的步骤之前还包括:
对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;
对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。
可选的,所述通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数的步骤之后还包括:
获取所述歌曲分数的反馈数据;
根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;
通过所述分析结果对每一帧所述原唱音频的权重值进行调整。
可选的,所述识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征的步骤包括:
对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;
将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。
可选的,所述计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征的步骤包括:
对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;
根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;
对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;
对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。
本发明实施例还提出一种歌曲打分装置,所述歌曲打分装置包括:
分帧模块,用于获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算模块,用于计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
打分模块,用于基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
本发明实施例还提出了一种终端设备所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的歌曲打分程序,所述歌曲打分程序被所述处理器执行时实现如上所述的歌曲打分方法的步骤。
本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有歌曲打分程序,所述歌曲打分程序被处理器执行时实现如上所述的歌曲打分方法的步骤。
本发明将待打分的演唱音频分帧得到多帧音频数据,并得到每帧音频数据的MFCC特征,因MFCC特征能够充分体现出相应音频数据的声音特征,因此基于MFCC特征对演唱音频进行打分能够使得所得歌曲分数较为准确;在此基础上,本发明基于MFCC特征对演唱音频进行打分前,还会识别并去除演唱音频中不包含人声的帧及相应MFCC特征,使得保留的MFCC特征均为包含人声的、即演唱部分的帧的特征,因此能够避免间奏部分等对歌曲打分的影响,有效提高了打分效率。
附图说明
图1为本发明歌曲打分装置所属终端设备的功能模块示意图;
图2为本发明歌曲打分方法一示例性实施例的流程示意图;
图3为本发明歌曲打分方法另一实例性实施例的流程示意图;
图4为本发明歌曲打分方法涉及进行歌曲分数计算的流程示意图;
图5为本发明歌曲打分方法涉及设置原唱音频权重值的流程示意图;
图6为本发明歌曲打分方法涉及对权重值进行调整的流程示意图;
图7为本发明歌曲打分方法另一实例性实施例的流程示意图;
图8为本发明歌曲打分方法涉及获取待评分音频数据及相应的MFCC特征的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取原唱者演唱所述指定音频得到的原唱音频,并对所述原唱音频进行分帧处理,获取多帧原唱音频数据;计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。获取所述歌曲分数的反馈数据;根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;通过所述分析结果对每一帧所述原唱音频的权重值进行调整。对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。从而解决了对歌曲打分不准确及打分速度慢的问题,实现了对歌曲的打分计算,提高了歌曲打分的效率。基于本发明方案,从现实中歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分,因为只需要比对演唱部分,所以上述方法会导致间奏部分影响系统的打分,并且因为计算了无效数据会导致打分时间变长,基于上述问题,本申请设计了一种歌曲打分方法,并在对歌曲进行打分时验证了本发明的歌曲打分方法的有效性,最后经过本发明方法进行歌曲打分的效率得到了明显的提升。
本发明实施例涉及的技术术语:
MFCC特征:MFCC(Mel-Frequency Cepstral Coefficients)特征是一种常用于语音信号处理和音频识别的特征表示方法,它可以将语音信号转换为在频域和倒谱域中的表示,提取出语音信号中的关键信息,MFCC特征在语音识别、语音合成、说话人识别等领域得到广泛应用,并且已被证明在音频处理中是一种有效且高效的特征表示方法。
梅尔滤波器:梅尔滤波器(Mel Filter)是在声学领域中使用的一种滤波器,常用于语音信号处理和音频特征提取中,它的设计原则是模拟人耳对声音频率的感知特性,人耳感知声音的频率并不是线性的,而是具有非线性感知特性。梅尔刻度(Mel Scale)是一种根据人耳感知频率的非线性特性而设计的刻度,用来描述人耳对声音频率的相对感知,梅尔滤波器通常由一组三角形滤波器组成,这些滤波器在梅尔刻度上均匀分布。每个滤波器的中心频率对应梅尔刻度上的一个点,而滤波器的形状由其中心频率和带宽确定,在语音信号处理中,梅尔滤波器通常用于将线性频谱转换为梅尔频谱,即通过一组梅尔滤波器对频谱进行滤波,得到在梅尔刻度上的频谱表示,这些梅尔频谱系数(Mel FrequencySpectrum Coefficients)可以更好地模拟人耳对声音的感知,提供更适合语音信号分析和识别的特征表示。
傅里叶变换:傅里叶变换(Fourier Transform)是一种广泛应用于信号处理和频谱分析的数学工具,它将一个时域上的函数转换为频域上的函数,可以将信号分解成不同频率的成分,傅里叶变换通过将一个信号表示为许多正弦和余弦函数的加权和来实现,它的基本思想是将一个信号分解为一系列不同的正弦和余弦波,这些波的频率、幅值和相位可以描述原始信号的频谱特征,傅里叶变换在信号处理和频谱分析中具有广泛的应用,例如音频处理、图像处理、通信系统等。它可以帮助我们理解信号的频率成分,从而进行滤波、频谱分析、信号合成等操作。傅里叶变换在数字信号处理中起着至关重要的作用,并且对于理解和处理各种信号具有重要意义。
本发明实施例考虑到,歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分,因为只需要比对演唱部分,所以上述方法会导致间奏部分影响系统的打分,并且因为计算了无效数据会导致打分时间变长,故上述方式存在对歌曲打分不准确及打分速度慢的问题。
因此,本发明实施例,从现实中歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分,因为只需要比对演唱部分,所以上述方法会导致间奏部分影响系统的打分,并且因为计算了无效数据会导致打分时间变长,基于上述问题,本申请设计了一种歌曲打分方法,并在对歌曲进行打分时验证了本发明的歌曲打分方法的有效性,最后经过本发明方法进行歌曲打分的效率得到了明显的提升。
具体地,参照图1,图1为本发明歌曲打分装置所属终端设备的功能模块示意图。该歌曲打分装置可以独立于终端设备的、能够进行歌曲打分的装置,其可以通过硬件或者软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动设备,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该歌曲打分装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及歌曲打分程序,歌曲打分装置可以获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。通过该歌曲打分程序进行歌曲打分,得到打分结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中存储器130中的歌曲打分程序被处理器执行时实现以下步骤:
获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
获取原唱者演唱所述指定音频得到的原唱音频,并对所述原唱音频进行分帧处理,获取多帧原唱音频数据;
计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;
通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;
获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;
通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;
对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
获取所述歌曲分数的反馈数据;
根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;
通过所述分析结果对每一帧所述原唱音频的权重值进行调整。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;
将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。
进一步地,存储器130中的歌曲打分程序被处理器执行时还实现以下步骤:
对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;
根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;
对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;
对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。
本实施例通过上述方案,具体通过获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数,可以解决对歌曲打分不准确及打分速度慢的问题。基于本发明方案,从现实中歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分,因为只需要比对演唱部分,所以上述方法会导致间奏部分影响系统的打分,并且因为计算了无效数据会导致打分时间变长,基于上述问题,本申请设计了一种歌曲打分方法,并在对歌曲进行打分时验证了本发明的歌曲打分方法的有效性,最后经过本发明方法进行歌曲打分的效率得到了明显的提升。
基于上述终端设备架构但不限于上述框架,提出本发明方法实施例。
参照图2,图2为本发明歌曲打分方法一实例性实施例的流程示意图。所述歌曲打分方法包括:
步骤S01,获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
本实施例方法的执行主体可以是一种歌曲打分装置,也可以是一种歌曲打分终端设备或服务器,本实施例以歌曲打分装置进行举例,该歌曲打分装置可以集成在具有数据处理功能终端设备上。
为了实现快速以及准确的打分,先对演唱者的演唱音频进行分帧,通过以下步骤实现:
首先,本实施例中演唱音频的获取,可以为实时状态,例如在KTV中,演唱者进行演唱时对其演唱音频进行获取,在其他实施例中也可以为演唱者提前进行演唱录音,获取到演唱音频;
然后,对获取到的演唱音频进行分帧处理,具体可以为将输入的演唱音频进行分割,获取到若干短时帧,每帧的长度为25ms,其中,每帧的长度在本实施例中为25ms,在其他实施例中也可以为30ms、35ms等等,设置的依据可以为根据业务需求进行设置,也可以为根据演唱曲目的曲谱、歌词等信息进行设置;
最后,获取到多帧演唱音频数据,表现为[0-25ms,25-50ms,……],获取到的帧数应当根据演唱音频的实际长度进行获取。
步骤S02,计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
在获取到多帧演唱音频数据后,还需进行平滑帧的筛选:
首先,计算每一帧演唱音频数据的频率倒谱系数MFCC特征,其中,MFCC特征是一种常用于语音信号处理和音频识别的特征表示方法,它可以将语音信号转换为在频域和倒谱域中的表示,提取出语音信号中的关键信息,MFCC特征能够有效地表示音频的光谱特性,且具有较好的抗噪性和鲁棒性;
然后,在一整段的演唱音频数据中,可能存在没有演唱的部分,这些部分即为平滑帧,其不仅对歌曲的打分准确度造成影响,还在一定程度上影响了打分的速度,故通过MFCC特征对每一帧演唱音频数据进行识别以及筛选;
最后,获取用于打分计算的多帧待评分音频数据及相应的MFCC特征。
步骤S03,基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
在进行平滑帧识别以及筛选后,通过以下步骤实现对演唱音频的打分计算:
首先,在已经进行平滑帧的识别以及筛选后,用于评分的帧数得到了大幅下降,且精准度也得到了提升;
然后,以KTV为例,演唱者在点击要演唱的歌曲后,此时已经确定了原唱的音频数据,此时可以对其进行相同的平滑帧计算,筛选到对应的音频数据后再进行对比,也可以通过筛选后的多帧待评分音频数据在原唱音频中选取得到对应的帧数进行比对;
最后,通过对应的原唱音频帧与待评分音频进行相似度计算,得到每一帧的相似度,再加上每一帧的权重值进行最终打分结果的计算,获取到歌曲分数。
本实施例通过上述方案,具体通过获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。由此,实现了歌曲分数的获取,解决了歌曲打分不准确及打分速度慢的问题,提高了歌曲打分的效率。
参照图3,图3为本发明歌曲打分方法另一实例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S03,基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
步骤S031,计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;
步骤S032,计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;
步骤S033,通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
具体地,通过以下步骤实现歌曲分数的获取:
首先,获取原唱者演唱指定音频得到的原唱音频,其中,原唱音频的获取在本实施例中以KTV为例,在演唱者选取歌曲时,对应的获取到原唱音频数据,在其他实施例中,也可以对演唱音频进行识别,例如对歌词进行识别,获取到对应的原唱音频;
然后,对原唱音频进行分帧,获取到多帧原唱音频数据;
然后,计算每一帧原唱音频数据的MFCC特征进行计算,并进行平滑帧的识别以及筛选,获取到多帧用于评分计算的原唱音频数据以及相应的MFCC特征;
最后,通过多帧原唱音频数据及相应的MFCC特征,对多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱指定音频的歌曲分数。
进一步地,在获取多帧原唱音频数据以及相应的MFCC特征时,也可以通过使用多帧待评分音频数据与原唱音频数据进行比对,获取到原唱音频数据中对应的多帧原唱音频数据及相应的MFCC特征,由于实际获取演唱音频的方式不同,故具体应由实际的业务需求以及应用场景进行设置。
本实施例通过上述方案,具体通过获取原唱者演唱所述指定音频得到的原唱音频,并对所述原唱音频进行分帧处理,获取多帧原唱音频数据;计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。使用多帧原唱音频数据的MFCC特征与待评分音频数据的MFCC特征进行歌曲的打分计算,解决了歌曲打分没有对应评分依据的问题,提高了歌曲分数获取的准确度。
参照图4,图4为本发明歌曲打分方法涉及进行歌曲分数计算的流程示意图。
基于上述图3所示的实施例,所述步骤S033,通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
步骤S0331,根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;
步骤S0332,获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;
步骤S0333,通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。
具体地,通过以下步骤完成歌曲的打分计算:
首先,将多帧待评分音频相应的MFCC特征与多帧原唱音频相应的MFCC特征进行一一对应;
然后,使用每一帧待评分音频相应的MFCC特征与原唱音频相应的MMFCC特征进行余弦相似度计算,得到相似度矩阵,计算的方式可如下所述:对演唱者和原唱的MFCC特征向量分别做余弦相似度的计算,得到每一帧的余弦相似度矩阵S1,S2,S3...Si,然后将所有帧的余弦相似度合并成一个相似度矩阵,假设有N帧,那么相似度矩阵就是一个N×len(S1)的矩阵,其中,每一行对应的一帧矩阵的每一个元素就是演唱者的第i帧和原唱的第i帧的余弦相似度;
然后,由于一首歌曲中包括了主歌、副歌以及技巧部分,故应当对其对应的帧数进行权重值的计算,以得到更精确的歌曲分数;
然后,获取每一帧的相似度在原唱音频数据中对应帧的权重值;
最后,通过相似度矩阵以及每一帧的权重值进行分数计算,具体的计算过程可如下所述,使用每一帧计算出的相似度乘以帧数对应的权重值,将每一帧的计算结果进行相加,得到所有帧的总数值,使用总数值除以演唱音频数据的总帧数得到歌曲分数。
进一步地,由于在本实施例中设置了权重值以及将音频数据分为了多帧,故得到的分数不止整首歌曲的分数,在实际的使用中,也可以获取得到对应的主歌部分分数、技巧部分分数以及副歌部分分数等等。
本实施例通过上述方案,具体通过根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。由此,实现了歌曲的打分计算,通过MFCC特征计算原唱音频与演唱音频的相似度,再结合原唱音频的权重值进行最终歌曲分数的计算,解决了歌曲打分不准确的问题,提高了歌曲打分的效率。
参照图5,图5为本发明歌曲打分方法涉及设置原唱音频权重值的流程示意图。
基于上述图4所示的实施例,所述步骤S0334,获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值的步骤之前还包括:
步骤S0332,对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;
步骤S0333,对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。
具体地,为了获取精确的歌曲打分结果,需要预先对原唱音频的权重值进行设置:
首先,对原唱音频进行识别,获取到原唱音频中的主歌部分、副歌部分以及非演唱部分;
然后,对主歌部分、副歌部分以及非演唱部分对应的帧分别设置相应的权重值;
然后,在本实施例中,对应的权重值设置应当为主歌部分的权重值高于副歌部分的权重值,且副歌部分的权重值高于非演唱部分;
最后,本实施例中使用的权重值设置应当理解为包括但不限于,在当前的歌曲中,由于类别的不同,例如美声、流行歌曲、嘻哈以及民谣等等类别,其进行权重的设置都有对应的设置方式,而每一首歌需要的技巧也可能有所不同,其需要进行设置的权重值也不同。
本实施例通过上述方案,具体通过对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。由此,完成了歌曲权重值的设置,解决了歌曲打分时没有对应的权重值进行打分计算的问题,提高了歌曲打分的准确性。
参照图6,图6为本发明歌曲打分方法涉及对权重值进行调整的流程示意图。
基于上述图4所示的实施例,所述步骤S0335,通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数的步骤之后还包括:
步骤S0336,获取所述歌曲分数的反馈数据;
步骤S0337,根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;
步骤S0338,通过所述分析结果对每一帧所述原唱音频的权重值进行调整。
具体地,还可以通过以下步骤完成对权重值的调整:
首先,获取歌曲分数的反馈数据,其中,获取的方式可为设置歌曲打分结果反馈表,在用户获取到歌曲分数后,对获取歌曲分数进行结果反馈,分为整体准确性评价、主歌部分准确性评价、副歌部分准确性评价以及技巧部分评价等等;
然后,根据获取到的反馈数据进行分析,具体为根据评价的歌曲部分,找到对应的帧数进行分析,获取到此部分预先设置的主歌部分、副歌部分以及非演唱部分的情况是否准确,根据反馈数据进行逐帧的分析,直至所有反馈数据分析完成,获取到分析结果;
最后,根据分析结果,对权重值进行调整,由于每个人对歌曲打分的主观判断都有所不同,故采取平均值原则,取所有反馈数据的平均值,对相应帧的权重值进行调整,获取到优化后的权重值。
本实施例通过上述方案,具体通过获取所述歌曲分数的反馈数据;根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;通过所述分析结果对每一帧所述原唱音频的权重值进行调整。通过用户的反馈数据对权重值进行调整,实现了歌曲打分结果的进一步优化,解决了歌曲打分不准确的问题,提高了歌曲打分的效率。
参照图7,图7为本发明歌曲打分方法另一实例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S02,计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征的步骤包括:
步骤S021,对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;
步骤S022,根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;
步骤S023,对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;
步骤S024,对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。
具体地,为了实现对演唱音频的准确打分,通过以下步骤获取MFCC特征进行打分计算:
首先,对每一帧演唱音频数据进行傅里叶变化,获取到每一帧的频谱信息,其中,傅里叶变换(Fourier transform)是一种数学变换,用于将一个函数(或信号)从时域(时间域)转换为频域,傅里叶变换通过将信号分解为一系列不同频率的正弦和余弦函数来实现这种转换;
然后,将频谱通过梅尔滤波器组进行滤波,滤波器组是按照人耳对声音频率的敏感度设计的,通常使用20-40个三角滤波器,滤波器的中心频率按照梅尔尺度均匀分布,得到每一帧的频谱能量;
然后,对频谱能量进行对数压缩,以模拟人耳对声音响度的感知,获取频谱能量的对数能量值;
最后,对频谱能量的对数能量值进行离散余弦变换,获取每一帧演唱音频数据的MFCC特征,其中,离散余弦变换是一种将信号从时域转换到频域的数学工具,用于数字信号处理中的数据压缩、信号分析等任务。
进一步地,如图8所示,图8为本发明歌曲打分方法涉及获取待评分音频数据及相应的MFCC特征的流程示意图。
基于上述图2所示的实施例,所述步骤S02,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征的步骤包括:
步骤S025,对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;
步骤S026,将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。
在获取到每一帧MFCC特征后,存在一些帧数为平滑帧,即不具有人声的部分,需要进行筛选过滤,通过以下步骤实现:
首先,对每一帧的音频数据的MFCC特征计算其方差或标准差,作为该帧的“平滑度”指标,具体的步骤可为,对于每一帧,计算其MFCC特征向量的和,得到N个MFCC和的数值,计算这N个数值的平均值,并将n个数值依次进行差值计算得到的结果就是n个方差,使用n个方差求和得到总方差,由此得到MFCC特征向量的总体离散程度,可以作为平滑度指标对不含人声的帧进行筛选;
然后,设置阈值为50%若某一帧的方差如果低于总方差均值的50%则认为此帧为不包含人声,其中,阈值在本实施例中为50%,而在实际的使用中应当根据业务的需求进行具体的设置;
最后,对平滑帧进行筛选,保留下的演唱音频帧即为待评分帧。
本实施例通过上述方案,具体通过对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。并通过对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。实现了对音频数据的MFCC特征的计算,并对不包含人声的平滑帧进行筛选,减少了需要进行打分的无效数据,解决了歌曲打分不准确及打分速度慢的问题,提高了歌曲打分的效率。
此外,本发明实施例还提出一种歌曲打分装置,所述歌曲打分装置包括:
分帧模块,用于获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算模块,用于计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
打分模块,用于基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的歌曲打分程序,所述歌曲打分程序被所述处理器执行时实现如上所述的歌曲打分方法的步骤。
由于本歌曲打分程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有歌曲打分程序,所述歌曲打分程序被处理器执行时实现如上所述的歌曲打分方法的步骤。
由于本歌曲打分程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明实施例提出的歌曲打分方法、装置、终端设备以及存储介质,获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。从而解决了对歌曲打分不准确及打分速度慢的问题,实现了对歌曲的打分计算,提高了歌曲打分的效率。基于本发明方案,从现实中歌曲打分基本都是对演唱者的音频数据进行人声识别,然后基于人声识别的结果计算频域能量或者计算音高数据的相似度,进而基于计算的结果进行歌曲打分,因为只需要比对演唱部分,所以上述方法会导致间奏部分影响系统的打分,并且因为计算了无效数据会导致打分时间变长,基于上述问题,本申请设计了一种歌曲打分方法,并在对歌曲进行打分时验证了本发明的歌曲打分方法的有效性,最后经过本发明方法进行歌曲打分的效率得到了明显的提升。
和现有的技术相比,本发明实施例方案具有以下优点:
1、此方法显著提高了歌曲打分的速度和准确性,同时减轻了硬件负担,使得这种打分系统可以在各种演唱系统和音频处理设备中广泛应用;
2、保护点主要包括MFCC特征提取,数据规模缩减,和特定的打分计算方法;
3、一个高效的音频处理解决方案,它通过简化数据规模和优化打分计算方法,提供了一个实用且准确的KTV评分系统。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种歌曲打分方法,其特征在于,所述歌曲打分方法包括以下步骤:
获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
2.根据权利要求1所述的歌曲打分方法,其特征在于,所述基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
获取原唱者演唱所述指定音频得到的原唱音频,并对所述原唱音频进行分帧处理,获取多帧原唱音频数据;
计算每一帧所述原唱音频数据的MFCC特征,识别并去除所述原唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧原唱音频数据及相应的MFCC特征;
通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
3.根据权利要求2所述的歌曲打分方法,其特征在于,所述通过所述多帧原唱音频数据及相应的MFCC特征,对所述多帧待评分音频数据及相应的MFCC特征进行打分计算,获取演唱者演唱所述指定音频的歌曲分数的步骤包括:
根据所述多帧原唱音频相应的MFCC特征以及所述多帧待评分音频相应的MFCC特征,进行每一帧的相似度计算,获取每一帧的相似度;
获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值;
通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数。
4.根据权利要求3所述的歌曲打分方法,其特征在于,所述获取所述每一帧的相似度在所述原唱音频数据中对应帧的权重值的步骤之前还包括:
对所述原唱音频进行识别,获取所述原唱音频的主歌部分、副歌部分以及非演唱部分;
对所述主歌部分、副歌部分及非演唱部分对应的帧分别设置相应的权重值,其中,所述主歌部分的权重值高于所述副歌部分的权重值,且所述副歌部分的权重值高于所述非演唱部分的权重值。
5.根据权利要求4所述的歌曲打分方法,其特征在于,所述通过所述每一帧的相似度以及所述权重值进行分数计算,获取演唱者演唱所述指定音频的歌曲分数的步骤之后还包括:
获取所述歌曲分数的反馈数据;
根据所述反馈数据对每一帧所述指定音频的权重值进行分析,获取分析结果;
通过所述分析结果对每一帧所述原唱音频的权重值进行调整。
6.根据权利要求1至5任一项所述的歌曲打分方法,其特征在于,所述识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征的步骤包括:
对每一帧所述演唱音频数据的MFCC特征进行方差或标准差计算,获取每一帧所述演唱音频数据的平滑度数值;
将所述演唱音频数据中平滑度数值高于预设阈值的帧进行提取,获取多帧待评分音频数据及相应的MFCC特征。
7.根据权利要求6所述的歌曲打分方法,其特征在于,所述计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征的步骤包括:
对每一帧所述演唱音频数据进行傅里叶变化,获取频谱信息;
根据所述频谱信息,通过梅尔滤波器组进行滤波,获取频谱能量;
对所述频谱能量进行对数压缩,获取所述频谱能量的对数能量值;
对所述对数能量值进行离散余弦变换,获取每一帧所述演唱音频数据的MFCC特征。
8.一种歌曲打分装置,其特征在于,所述歌曲打分装置包括:
分帧模块,用于获取演唱者演唱指定音频得到的演唱音频,并对所述演唱音频进行分帧处理得到多帧演唱音频数据;
计算模块,用于计算每一帧所述演唱音频数据的频率倒谱系数MFCC特征,识别并去除所述演唱音频数据中不包含人声的平滑帧及相应的MFCC特征,获取多帧待评分音频数据及相应的MFCC特征;
打分模块,用于基于所述多帧待评分音频数据的MFCC特征对所述演唱音频进行打分计算,获取演唱者演唱所述指定音频的歌曲分数。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的歌曲打分程序,所述歌曲打分程序被所述处理器执行时实现如权利要求1-7中任一项所述的歌曲打分方法的步骤。
10.一种计算器可读存储介质,其特征在于,所述计算器可读存储介质上存储有歌曲打分程序,所述歌曲打分程序被处理器执行时实现如权利要求1-7中任一项所述的歌曲打分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311120715.6A CN117079666A (zh) | 2023-08-31 | 2023-08-31 | 歌曲打分方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311120715.6A CN117079666A (zh) | 2023-08-31 | 2023-08-31 | 歌曲打分方法、装置、终端设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079666A true CN117079666A (zh) | 2023-11-17 |
Family
ID=88711516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311120715.6A Withdrawn CN117079666A (zh) | 2023-08-31 | 2023-08-31 | 歌曲打分方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079666A (zh) |
-
2023
- 2023-08-31 CN CN202311120715.6A patent/CN117079666A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4177755B2 (ja) | 発話特徴抽出システム | |
US10134409B2 (en) | Segmenting audio signals into auditory events | |
EP2549475B1 (en) | Segmenting audio signals into auditory events | |
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
JP2004531767A5 (zh) | ||
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN112786057B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
CN113160852A (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制系统 | |
JP7184236B2 (ja) | 声紋を認識する方法、装置、設備、および記憶媒体 | |
CN117079666A (zh) | 歌曲打分方法、装置、终端设备以及存储介质 | |
CN110767238B (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN116645975B (zh) | 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 | |
Wu et al. | Robust underwater target recognition using auditory cepstral coefficients | |
CN118522271A (zh) | 一种基于ai技术的沉浸式数字医生评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20231117 |
|
WW01 | Invention patent application withdrawn after publication |