CN110867180B - 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 - Google Patents
一种基于k均值聚类算法生成逐字歌词文件的系统与方法 Download PDFInfo
- Publication number
- CN110867180B CN110867180B CN201910978654.4A CN201910978654A CN110867180B CN 110867180 B CN110867180 B CN 110867180B CN 201910978654 A CN201910978654 A CN 201910978654A CN 110867180 B CN110867180 B CN 110867180B
- Authority
- CN
- China
- Prior art keywords
- cluster
- frequency domain
- word
- audio data
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003064 k means clustering Methods 0.000 title claims abstract description 33
- 230000008859 change Effects 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于K均值聚类算法生成逐字歌词文件的系统与方法,所述方法包括:获取需要生成歌词文件的音频数据和文字,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度数值确定频率变化明显的时间节点,再结合所述音频数据中的文字,将所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种基于K均值聚类算法生成逐字歌词文件的系统与方法。
背景技术
K均值聚类算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
现在mp3等音频播放设备播放歌曲文件时,没有逐字对应的歌词,逐字歌词需要人工制作。目前,通过音频检测文件核语音智能识别技术,可以实现所有歌曲自动生成逐字歌词。但是,现有的歌词字幕不能够对歌曲中每个字的发音时长做出准确的判断。比如当我们去KTV唱歌时,往往是通过某个字的颜色渐变等方法来表示这个字需要唱的时长,例如,该字字体颜色由白色逐渐变为蓝色来表示这个字需要唱的时间,但是,由于现阶段歌词字幕往往是人工制作或者根据检测音频文件和语音智能识别自动生成的,存在歌曲文件逐字歌词时长识别不精确的问题。
目前,针对上述问题,还没有提出一种能够有效解决问题的技术方案。
发明内容
本发明提供了一种基于K均值聚类算法生成逐字歌词文件的系统与方法,可有效解决歌曲文件逐字歌词时长识别不精确的问题。
一方面,本发明提供了一种基于K均值聚类算法生成逐字歌词文件的系统,包括:
获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
节点模块,用于获取所述所有频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
生成模块,用于将获取的所有时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在一个实施例中,所述节点模块中,所述K均值聚类算法的算法处理过程为:
步骤1,随机任选K个频率片段作为K个簇中心;
步骤2,分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
步骤3,根据步骤2的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
步骤4,循环执行步骤2和步骤3的过程,直到每个簇的差异度均值小于或等于设定的阈值。
在一个实施例中,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。
在一个实施例中,所述生成模块包括:用于将所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
在一个实施例中,所述分割模块的预设分割时长可根据所述音频数据的舒缓程度设定。
另一方面,本发明还提供了一种基于K均值聚类算法生成逐字歌词文件的方法,包括:
获取需要生成歌词文件的音频数据和所述音频数据中的文字;
对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
获取所述所有频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
将获取的所有时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在一个实施例中,所述K均值聚类算法的算法处理过程为:
步骤1,随机任选K个频率片段作为K个簇中心;
步骤2,分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
步骤3,根据步骤2的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
步骤4,循环执行步骤2和步骤3的过程,直到每个簇的差异度均值小于或等于设定的阈值。
在一个实施例中,所述方法包括,通过智能语音识别技术,识别所述音频数据中的所有文字。
在一个实施例中,所述方法包括,将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
在一个实施例中,所述预设分割时长可根据所述音频数据的舒缓程度设定。
本发明通过获取需要生成歌词文件的音频数据和文字,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值确定频率变化明显的时间节点,再结合所述音频数据中的文字,将所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题,可实现自动制作逐字歌词的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于K均值聚类算法生成逐字歌词文件方法流程图;
图2是一种K均值聚类算法的运算方法过程图;
图3是一种基于K均值聚类算法生成逐字歌词文件系统框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
本发明具体的实施方法流程图如图1所示。
S11、获取需要生成歌词文件的音频数据和所述音频数据中的文字;
S12、对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
S13、对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
S14、获取所述所有频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
S15、将所得的所有时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在步骤S11中,需要获取需要生成歌词文件的音频数据和该音频数据中所对应的文字信息,该文字信息可以是人工提取的,也可以是通过智能语音识别技术进行识别的,该步骤需要获取该音频数据中的所有文字信息,并计算出所有文字的总个数。
步骤S12中,需要对该音频数据根据预设的分割时长进行分割,具体地,该分割时长的设定可以根据音频数据的语调快慢,即舒缓程度进行设定,设定的分割时长最少需满足条件:分割所得的音频片段总数至少为一倍的所述文字总数,优选的,为获得好的运算结果,一般应将分割所得的音频片段设置的远远大于该音频片段内的文字总数。在一个实施例中,可以将该预设分割时长设定为10ms。
步骤S13需要对分割所得的所有音频片段进行傅里叶变换,将其转换到频域空间,从而获得与上述音频片段一一对应的频域片段。
步骤S14是利用K聚类均值算法对步骤S13所得的频域片段进行处理,从而得到有歌词介入或另一个字开始唱的时间节点。
具体的,K均值聚类算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标,该算法的具体处理过程如下所示:
步骤1:从N个数据文档(样本)随机选取K个数据文档作为质心(聚类中心);
步骤2:对每个数据文档测量其到每个质心的距离,并把它归到最近的质心的类;
步骤3:重新计算已经得到的各个类的质心;
步骤4,迭代步骤2、步骤3直至新的质心与原质心相等或小于指定阈值,算法结束。
即,当所有样本所属的质心都不再变化时,算法收敛。
应用K均值聚类算法处理过程中,K个初始聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机地选取任意k个对象作为初始聚类中心,初始地代表一个簇,该初始聚类中心并不能准确反映样本的簇分类情况,需要根据后续步骤,在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离赋给最近的簇。当考查完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来,重复执行迭代过程,直到所有样本所属的质心都不再发生变化时,跳出循环。
例如,一个简单的K均值聚类算法应用为:在一个足球史时间轴上,有1997-2009年,每一年相当于切割成N个片段。选取2003年,其中亚洲球队实力水平差不多,那么中日韩以中国为中心点,日韩和中国实力差不多这3个国家为一个簇,中国为中心,同样的西班牙+葡萄牙+墨西哥实力差不多为另一个簇;巴西实力跟他们都不是一个级别不能进入这两个簇。
将K均值聚类算法应用到本发明中的算法处理过程如图2所示:
S21:随机任选K个频率片段作为K个簇中心;
S22:分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
S23:根据步骤S22的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
S24:循环执行S22和S23的过程,直到每个簇的差异度均值小于或等于设定的阈值。
即,在一个具体的实例中,如通过S13获得的待测音频文件对应的频域能量分布范围值如下表所示:
频率片段 | 能量值1-100 | 能量值100-200 | 能量值200-300 | 能量值300-400 |
1 | 30 | 401 | 520 | 1100 |
2 | 41 | 580 | 610 | 920 |
3 | 29 | 460 | 590 | 1000 |
4 | 50 | 454 | 650 | 1200 |
5 | 2 | 14 | 32 | 2000 |
在上表中,通过10ms的分割时长,我们获取了5个频域片段(1,2,3,4,5),对其进行傅里叶变换后,得到对应的频域片段,并获得各个频域片段的频域能量分布范围。
若当前待测音频文件中所包含的文字总数为2,则我们选取簇总数K为2。
步骤1,随机选取任意两个频域片段,例如2,5;
步骤2,分别计算频域片段1,3,4,5与音频片段2的频域能量变化差异度数值,然后将差异度数值较低的频域片段分到一个簇中,例如,从图2中可以看出,频域片段1,3,4与频域片段2的频率能量变化差异度数值较频域片段5与频域片段2的差异度数值小,则将频域片段1,2,3,4分到一个簇中;然后,再分别计算频域片段1,2,3,4与频域片段2的频率能量变化差异度数值,得到一个新的簇,仅包含频域片段5;
步骤3,再利用均值算法计算上述每个簇的质心,并将质心设为新的簇中心;
步骤4,重新执行上述步骤2和步骤3,直到新的簇中心与簇中每一个频域片段的欧式距离均小于或等于指定的阈值时,跳出循环。
步骤5,对步骤4获得的每个簇和每个簇中的频域片段分别根据时间次序进行排序,并将每一个簇中的起始频域片段所对应的时间记为一个时间节点;
最后,执行步骤S15,依次将所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
图3是一种基于K均值聚类算法生成逐字歌词文件的系统,具体包括:
获取模块31,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块32,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块33,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
节点模块34,用于获取所述所有频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
生成模块35,用于将所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
具体的,所述分割模块中,预设分割时长可根据所述音频数据的舒缓程度进行设定,设定的分割时长最最少满足条件:分割所得的音频片段总数至少为一倍的所述文字总数,需要注意的是,为保证较好的判断结果,预设分割时长的设定一般应确保足够小,使得分割所得的音频片段的总数目应远远大于该待测音频数据中文字的总数目。优选的,在一个实施例中,可以将该预设分割时长设定为10ms。
上述节点模块中,K均值聚类算法的算法处理过程为:
步骤1,随机任选K个频率片段作为K个簇中心;
步骤2,分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
步骤3,根据步骤2的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
步骤4,循环执行步骤2和步骤3的过程,直到每个簇的差异度均值小于或等于设定的阈值。
上述K均值聚类算法的详细处理过程在上文有详细的叙述,在此不再赘述。
在上述获取模块中,包括语音识别模块36,可通过智能语音识别技术,识别所述音频数据中的所有文字信息。
所述生成模块中包括,用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
从以上的描述中,可以看出,本发明通过获取需要生成歌词文件的音频数据和文字,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值确定频率变化明显的时间节点,再结合所述音频数据中的文字,将所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题,可实现自动制作逐字歌词的目的。
至此,已详细描述了本发明。为了避免蒙蔽本发明的构思,没有对本领域所公知的一些细节进行描述。本领域技术人员根据上面的描述,完全可以明白如何实施本发明公开的技术方案。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于K均值聚类算法生成逐字歌词文件的系统,其特征在于,包括:
获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块,用于对所有所述音频片段进行傅里叶变换,得到对应的频域片段;
节点模块,用于获取所有所述频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
生成模块,用于将获取的所有时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
2.根据权利要求1所述的系统,其特征在于,所述节点模块中,所述K均值聚类算法的算法处理过程为:
步骤1,随机任选K个频率片段作为K个簇中心;
步骤2,分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
步骤3,根据步骤2的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
步骤4,循环执行步骤2和步骤3的过程,直到每个簇的差异度均值小于或等于设定的阈值。
3.根据权利要求1所述的系统,其特征在于,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。
4.根据权利要求3所述的系统,其特征在于,所述生成模块包括:用于将所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
5.根据权利要求1所述的系统,其特征在于,所述分割模块的预设分割时长可根据所述音频数据的舒缓程度设定。
6.一种基于K均值聚类算法生成逐字歌词文件的方法,其特征在于,包括:
获取需要生成歌词文件的音频数据和所述音频数据中的文字;
对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
对所有所述音频片段进行傅里叶变换,得到对应的频域片段;
获取所有所述频域片段能量在频域分布范围值,利用K均值聚类算法根据频率能量变化差异度值将所述频域片段分成K个簇,其中,所述K值与所述音频数据中的文字总数一致,根据时间先后次序对每个簇中的频域片段进行排序,将每个簇中排序后的起始频域片段对应的时间记为频率发生变化的时间节点;
将获取的所有时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
7.根据权利要求6所述的方法,其特征在于,所述K均值聚类算法的算法处理过程为:
步骤1,随机任选K个频率片段作为K个簇中心;
步骤2,分别计算剩余的频率片段与K个簇中心的频率能量变化差异度,将所述差异度数值最低的频域片段划分到同一个簇;
步骤3,根据步骤2的簇聚类结果,重新计算每个簇的簇中心,并对簇中心进行更新,所述计算方法为计算每个簇中所有频域片段频率能量变化差异度的均值;
步骤4,循环执行步骤2和步骤3的过程,直到每个簇的差异度均值小于或等于设定的阈值。
8.根据权利要求6所述的方法,其特征在于,所述方法包括,通过智能语音识别技术,识别所述音频数据中的所有文字。
9.根据权利要求8所述的方法,其特征在于,所述方法包括,将所得的所述时间节点与识别的所述文字根据先后次序进行一一对应,生成逐字歌词文件。
10.根据权利要求6所述的方法,其特征在于,所述预设分割时长可根据所述音频数据的舒缓程度设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910978654.4A CN110867180B (zh) | 2019-10-15 | 2019-10-15 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910978654.4A CN110867180B (zh) | 2019-10-15 | 2019-10-15 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110867180A CN110867180A (zh) | 2020-03-06 |
CN110867180B true CN110867180B (zh) | 2022-03-29 |
Family
ID=69652368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910978654.4A Active CN110867180B (zh) | 2019-10-15 | 2019-10-15 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867180B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507254B (zh) * | 2020-04-16 | 2023-10-24 | 北京雷石天地电子技术有限公司 | 制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质 |
CN111863043B (zh) * | 2020-07-29 | 2022-09-23 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
CN112133327B (zh) * | 2020-09-17 | 2024-02-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频样本的提取方法、设备、终端及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200741645A (en) * | 2006-04-26 | 2007-11-01 | Mitac Res Shanghai Ltd | System and method to play the lyrics of a song and the song synchronously |
CN101984490A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 一种逐字同步的歌词文件的生成方法及系统 |
CN107220339A (zh) * | 2017-05-26 | 2017-09-29 | 北京酷我科技有限公司 | 一种歌词逐字显示方法 |
CN108206029A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 一种实现逐字歌词的方法及系统 |
CN108364637A (zh) * | 2018-02-01 | 2018-08-03 | 福州大学 | 一种音频句子边界检测方法 |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN110287949A (zh) * | 2019-07-30 | 2019-09-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 视频片段提取方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020095290A1 (en) * | 1999-02-05 | 2002-07-18 | Jonathan Kahn | Speech recognition program mapping tool to align an audio file to verbatim text |
US10546575B2 (en) * | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
-
2019
- 2019-10-15 CN CN201910978654.4A patent/CN110867180B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200741645A (en) * | 2006-04-26 | 2007-11-01 | Mitac Res Shanghai Ltd | System and method to play the lyrics of a song and the song synchronously |
CN101984490A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 一种逐字同步的歌词文件的生成方法及系统 |
CN108206029A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 一种实现逐字歌词的方法及系统 |
CN107220339A (zh) * | 2017-05-26 | 2017-09-29 | 北京酷我科技有限公司 | 一种歌词逐字显示方法 |
CN108364637A (zh) * | 2018-02-01 | 2018-08-03 | 福州大学 | 一种音频句子边界检测方法 |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN110287949A (zh) * | 2019-07-30 | 2019-09-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 视频片段提取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
孟永辉 等.一种新颖的语言/音乐分割与分类方法.《计算机工程与科学》.2019,第31卷(第4期),正文第106-109页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110867180A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN110867180B (zh) | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 | |
Gulati et al. | Phrase-based rāga recognition using vector space modeling | |
US9767792B2 (en) | System and method for learning alternate pronunciations for speech recognition | |
CN101710490B (zh) | 语音评测的噪声补偿方法及装置 | |
US20070131095A1 (en) | Method of classifying music file and system therefor | |
US9043207B2 (en) | Speaker recognition from telephone calls | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
CN104823235A (zh) | 声音识别装置 | |
CN111128128A (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
US20110029108A1 (en) | Music genre classification method and apparatus | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
CN110853636B (zh) | 一种基于k最近邻算法生成逐字歌词文件的系统与方法 | |
CN114373453B (zh) | 一种基于运动轨迹和区分性信息的语音关键词检测方法 | |
Tan et al. | A sparse representation-based classifier for in-set bird phrase verification and classification with limited training data | |
Dharini et al. | Singer identification using clustering algorithm | |
EP0109140B1 (en) | Recognition of continuous speech | |
CN113159203A (zh) | 歌曲标记模型训练、歌曲标记方法、电子设备及存储介质 | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
Sturm | Music genre recognition with risk and rejection | |
CN118280325B (zh) | 基于随机森林的符号音乐生成方法、装置、设备及介质 | |
Kroher et al. | Discovery of repeated vocal patterns in polyphonic audio: A case study on flamenco music | |
CN111159465A (zh) | 一种歌曲分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |