CN110853636B - 一种基于k最近邻算法生成逐字歌词文件的系统与方法 - Google Patents

一种基于k最近邻算法生成逐字歌词文件的系统与方法 Download PDF

Info

Publication number
CN110853636B
CN110853636B CN201910979892.7A CN201910979892A CN110853636B CN 110853636 B CN110853636 B CN 110853636B CN 201910979892 A CN201910979892 A CN 201910979892A CN 110853636 B CN110853636 B CN 110853636B
Authority
CN
China
Prior art keywords
frequency domain
word
audio data
characters
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910979892.7A
Other languages
English (en)
Other versions
CN110853636A (zh
Inventor
马哲
高超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunderstone Technology Co ltd
Original Assignee
Beijing Thunderstone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunderstone Technology Co ltd filed Critical Beijing Thunderstone Technology Co ltd
Priority to CN201910979892.7A priority Critical patent/CN110853636B/zh
Publication of CN110853636A publication Critical patent/CN110853636A/zh
Application granted granted Critical
Publication of CN110853636B publication Critical patent/CN110853636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于K最近邻算法生成逐字歌词文件的系统与方法,所述方法包括:获取需要生成歌词文件的音频数据,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法检测所有频域片段能量在频域分布范围值的变动,从而检测出所述音频数据出现歌词的时间节点,再结合所述音频数据中的文字,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题。

Description

一种基于K最近邻算法生成逐字歌词文件的系统与方法
技术领域
本发明涉及音频处理领域,尤其涉及一种基于K最近邻算法生成逐字歌词文件的系统与方法。
背景技术
K最近邻算法的思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
现在mp3等音频播放设备播放歌曲文件时,没有逐字对应的歌词,逐字歌词需要人工制作。目前,通过音频检测文件核语音智能识别技术,可以实现所有歌曲自动生成逐字歌词。但是,现有的歌词字幕不能够对歌曲中每个字的发音时长做出准确的判断。比如当我们去KTV唱歌时,往往是通过某个字的颜色渐变等方法来表示这个字需要唱的时长,例如,该字字体颜色由白色逐渐变为蓝色来表示这个字需要唱的时间,但是,由于现阶段歌词字幕往往是人工制作或者根据检测音频文件和语音智能识别自动生成的,存在歌曲文件逐字歌词时长识别不精确的问题。
目前,针对上述问题,还没有提出一种能够有效解决问题的技术方案。
发明内容
本发明提供了一种基于K最近邻算法生成逐字歌词文件的系统与方法,可有效解决歌曲文件逐字歌词时长识别不精确的问题。
一方面,本发明提供了一种基于K最近邻算法生成逐字歌词文件的系统,包括:
获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
判断模块,用于获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;
节点模块,用于当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
生成模块,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在一个实施例中,所述判断模块中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值。
在一个实施例中,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。
在一个实施例中,所述生成模块包括:用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
在一个实施例中,所述分割模块的预设分割时长可根据所述音频数据的舒缓程度设定。
另一方面,本发明还提供了一种基于K最近邻算法生成逐字歌词文件的方法,包括:
获取需要生成歌词文件的音频数据和所述音频数据中的文字;
对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;
当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在一个实施例中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值。
在一个实施例中,所述方法包括,通过智能语音识别技术,识别所述音频数据中的所有文字。
在一个实施例中,所述方法包括,将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
在一个实施例中,所述预设分割时长可根据所述音频数据的舒缓程度设定。
本发明通过获取需要生成歌词文件的音频数据,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法检测所有频域片段能量在频域分布范围值的变动,从而检测出所述音频数据出现歌词的时间节点,再结合所述音频数据中的文字,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题,可实现自动制作逐字歌词的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于K最近邻算法生成逐字歌词文件方法流程图;
图2是一种基于K最近邻算法生成逐字歌词文件系统框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
本发明具体的实施方法流程图如图1所示。
S11、获取需要生成歌词文件的音频数据和所述音频数据中的文字;
S12、对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
S13、对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
S14、获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;
S15、当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
S16、将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
在步骤S11中,需要获取需要生成歌词文件的音频数据和该音频数据中所对应的文字信息,该文字信息可以是人工提取的,也可以是通过智能语音识别技术进行识别的,该步骤需要获取该音频数据中的所有文字信息,并计算出所有文字的总个数。
步骤S12中,需要对该音频数据根据预设的分割时长进行分割,具体地,该分割时长的设定可以根据音频数据的语调快慢,即舒缓程度进行设定,设定的分割时长最少满足条件:分割所得的音频片段总数至少为一倍的所述文字总数,优选的,为获得好的运算结果,一般应将分割所得的音频片段设置的远远大于该音频片段内的文字总数。在一个实施例中,可以将该预设分割时长设定为100ms。
步骤S13需要对分割所得的所有音频片段进行傅里叶变换,将其转换到频域空间,从而获得与上述音频片段一一对应的频域片段。
步骤S14是利用K最近邻算法对步骤S13所得的频域片段进行处理,从而得到有歌词介入或另一个字开始唱的时间节点。
具体地,K最近邻算法的核心思想是:如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
在该实施例的操作过程中,可以通过判断当前频域片段于其左右相邻的至少一个频域片段是否属于同一个类别,当判断不属于同一个类别时,则说明歌词的频率发生的变化,即说明歌曲中有歌词介入或者歌词应为另一个字的起始。
具体的,如下表所述,为一种待测音频文件对应的能量在频域分布范围值分布范围实例。
Figure BDA0002234841920000041
Figure BDA0002234841920000051
在表中,通过100ms的分割时长,我们获取了5个音频片段(1,2,3,4,5),对其进行傅里叶变换后,得到对应的频域片段,并获得各个频域片段的频域能量分布范围。
通过K最近邻算法,可以对上述5个音频片段进行分类,通过表中的能量值分布范围数据,可以计算得到至少1,2,3,4属于同一个类别,音频片段5是不属于音频片段1、2、3、4这一类的音频片段所述的类别,即,待测音频文件中有语音频率的变换,暗示该待测音频文件中存在新的歌词,记录当前音频片段5的起始时刻为一个时间节点。
根据上述具体实施例中的方法,判断所有频域片段和与其相邻的至少一个频域片段能量在频域分布范围值是否属于同一个类别,当不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点。
当然,上述根据K最近邻算法判断类别的过程中,存在一定的差异。特别是在实际情况中,由于K最近邻算法中的K值(即,判断K个最相邻的样本属于同一个类别)并不是一个固定的值,需要人为选取,这样不可避免地会引入很大的误差,如果任意选取的话,分类的性能较差,无法得出有效的结果。另外,如果K值选取的过大或者过小,都有可能无法得到与歌词文字一一对应的时间节点,另外,如果K值选取的过大的话,还可能造成过大的运算量,影响运算的速度。
为增强该方法的稳健性,在此,特别采用了循环迭代进行测试的方法选取K值,循环迭代的结果结束的标志为:通过K最近邻算法所得到的总的时间节点数与该待测音频数据中文字的总数目一致时,则跳出循环,记录该K值,并获取该K值下所得的时间节点。
最后,执行步骤S16,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
图2是一种基于K最近邻算法生成逐字歌词文件的系统,具体包括:
获取模块21,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块22,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块23,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
判断模块24,用于获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;
节点模块25,用于当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
生成模块26,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
具体的,所述分割模块中,预设分割时长可根据所述音频数据的舒缓程度进行设定,设定的分割时长最最少满足条件:分割所得的音频片段总数至少为一倍的所述文字总数,需要注意的是,为保证较好的判断结果,预设分割时长的设定一般应确保足够小,使得分割所得的音频片段的总数目应远远大于该待测音频数据中文字的总数目。优选的,在一个实施例中,可以将该预设分割时长设定为100ms。
具体的,在判断模块24中,K最近邻算法中的K值(即,判断K个最相邻的样本属于同一个类别)并不是一个固定的值,如果任意选取的话,分类的性能较差,无法得出有效的结果。如果K值选取的过大或者过小,都有可能无法得到与歌词文字一一对应的时间节点,另外,如果K值选取的过大的话,还可能造成过大的运算量,影响运算的速度。
为增强该方法的稳健性,在此,特别采用了循环迭代进行测试的方法选取K值,循环迭代的结果结束的标志为:通过K最近邻算法所得到的总的时间节点数与该待测音频数据中文字的总数目一致时,则跳出循环,记录该K值,并获取该K值下所得的时间节点。
在上述获取模块中,包括语音识别模块27,可通过智能语音识别技术,识别所述音频数据中的所有文字信息。
所述生成模块中包括,用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
从以上的描述中,可以看出,本发明通过获取需要生成歌词文件的音频数据,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法检测所有频域片段能量在频域分布范围值的变动,从而检测出所述音频数据出现歌词的时间节点,再结合所述音频数据中的文字,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题,可实现自动制作逐字歌词的目的。
至此,已详细描述了本发明。为了避免蒙蔽本发明的构思,没有对本领域所公知的一些细节进行描述。本领域技术人员根据上面的描述,完全可以明白如何实施本发明公开的技术方案。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于K最近邻算法生成逐字歌词文件的系统,其特征在于,包括:
获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块,用于对所有音频片段进行傅里叶变换,得到对应的频域片段;
判断模块,用于获取所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;其中,所述判断模块中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值;
节点模块,用于当待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
生成模块,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
2.根据权利要求1所述的系统,其特征在于,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。
3.根据权利要求2所述的系统,其特征在于,所述生成模块包括:用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
4.根据权利要求1所述的系统,其特征在于,所述分割模块的预设分割时长可根据所述音频数据的舒缓程度设定。
5.一种基于K最近邻算法生成逐字歌词文件的方法,其特征在于,包括:
获取需要生成歌词文件的音频数据和所述音频数据中的文字;
对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
对所有音频片段进行傅里叶变换,得到对应的频域片段;
获取所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;其中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值;
当待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。
6.根据权利要求5所述的方法,其特征在于,所述方法包括,通过智能语音识别技术,识别所述音频数据中的所有文字。
7.根据权利要求6所述的方法,其特征在于,所述方法包括,将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。
8.根据权利要求5所述的方法,其特征在于,所述预设分割时长可根据所述音频数据的舒缓程度设定。
CN201910979892.7A 2019-10-15 2019-10-15 一种基于k最近邻算法生成逐字歌词文件的系统与方法 Active CN110853636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910979892.7A CN110853636B (zh) 2019-10-15 2019-10-15 一种基于k最近邻算法生成逐字歌词文件的系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979892.7A CN110853636B (zh) 2019-10-15 2019-10-15 一种基于k最近邻算法生成逐字歌词文件的系统与方法

Publications (2)

Publication Number Publication Date
CN110853636A CN110853636A (zh) 2020-02-28
CN110853636B true CN110853636B (zh) 2022-04-15

Family

ID=69596377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979892.7A Active CN110853636B (zh) 2019-10-15 2019-10-15 一种基于k最近邻算法生成逐字歌词文件的系统与方法

Country Status (1)

Country Link
CN (1) CN110853636B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507254B (zh) * 2020-04-16 2023-10-24 北京雷石天地电子技术有限公司 制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347068A (zh) * 2013-08-08 2015-02-11 索尼公司 音频信号处理装置和方法以及监控系统
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法
CN106547789A (zh) * 2015-09-22 2017-03-29 阿里巴巴集团控股有限公司 一种歌词生成方法及装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338148B (zh) * 2014-07-18 2018-11-06 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
US10475530B2 (en) * 2016-11-10 2019-11-12 Sonde Health, Inc. System and method for activation and deactivation of cued health assessment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347068A (zh) * 2013-08-08 2015-02-11 索尼公司 音频信号处理装置和方法以及监控系统
CN106547789A (zh) * 2015-09-22 2017-03-29 阿里巴巴集团控股有限公司 一种歌词生成方法及装置
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法
CN109903775A (zh) * 2017-12-07 2019-06-18 北京雷石天地电子技术有限公司 一种音频爆音检测方法和装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种新颖的语言/音乐分割与分类方法;孟永辉等;《计算机工程与科学》;20090415(第04期);全文 *

Also Published As

Publication number Publication date
CN110853636A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
Gulati et al. Phrase-based rāga recognition using vector space modeling
CN101710490B (zh) 语音评测的噪声补偿方法及装置
Kroher et al. Automatic transcription of flamenco singing from polyphonic music recordings
US7649137B2 (en) Signal processing apparatus and method, program, and recording medium
CN102982804A (zh) 音频分类方法和系统
CN110599987A (zh) 基于卷积神经网络的钢琴音符识别算法
US8494668B2 (en) Sound signal processing apparatus and method
CN110867180B (zh) 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN108665903A (zh) 一种音频信号相似程度的自动检测方法及其系统
CN109979485B (zh) 音频评价方法和装置
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN106098079A (zh) 音频信号的信号提取方法与装置
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN110853636B (zh) 一种基于k最近邻算法生成逐字歌词文件的系统与方法
Bhattacharjee et al. Time-frequency audio features for speech-music classification
Gulati et al. A two-stage approach for tonic identification in Indian art music
US20110029108A1 (en) Music genre classification method and apparatus
Gao et al. Vocal melody extraction via DNN-based pitch estimation and salience-based pitch refinement
Zhu et al. Fusing transcription results from polyphonic and monophonic audio for singing melody transcription in polyphonic music
Kroher et al. Discovery of repeated vocal patterns in polyphonic audio: A case study on flamenco music
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
CN112562647A (zh) 一种音频起始点的标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant