CN114141250A - 歌词识别方法、装置、电子设备及可读存储介质 - Google Patents

歌词识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114141250A
CN114141250A CN202111465773.3A CN202111465773A CN114141250A CN 114141250 A CN114141250 A CN 114141250A CN 202111465773 A CN202111465773 A CN 202111465773A CN 114141250 A CN114141250 A CN 114141250A
Authority
CN
China
Prior art keywords
audio
analyzed
target
clip
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111465773.3A
Other languages
English (en)
Inventor
洛晋申
张培熙
党正军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN202111465773.3A priority Critical patent/CN114141250A/zh
Publication of CN114141250A publication Critical patent/CN114141250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明实施例提供了一种歌词识别方法、装置、电子设备及可读存储介质,该方法包括:获取待识别歌词的目标音频;从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;对所述待分析音频片段进行语音识别,得到识别结果;基于所得到的识别结果,生成所述目标音频的歌词内容。本方案中,通过选取目标音频中唱歌类型的待分析音频片段后,再对待分析音频片段进行语音识别,从而基于识别结果生成歌词内容,这样可以大大降低唱歌类型以外的音频内容的干扰,因此,通过本方案能够提高歌词识别的准确率。

Description

歌词识别方法、装置、电子设备及可读存储介质
技术领域
本发明涉及语音识别技术领域,特别是涉及一种歌词识别方法、装置、电子设备及可读存储介质。
背景技术
随着语音识别技术的发展,对歌曲中的歌词进行识别,也成为一种识别需求,受到用户的欢迎。
相关技术中,采用通常的语音识别方法,对歌曲的整个音频数据来进行语音识别,例如:基于隐马尔可夫的语音识别方法来识别歌词。
但是,歌曲中存在一些干扰内容,例如:无歌词、无人声的无意义片段,这样,导致在利用相关技术进行歌词识别时,歌词识别的准确率较低。
发明内容
本发明实施例的目的在于提供一种歌词识别方法、装置、电子设备及可读存储介质,以提高歌词识别的准确率。具体技术方案如下:
第一方面,本发明实施例提供了一种歌词识别方法,所述方法包括:
获取待识别歌词的目标音频;
从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
对所述待分析音频片段进行语音识别,得到识别结果;
基于所得到的识别结果,生成所述目标音频的歌词内容。
可选地,从所述目标音频中,选取待分析音频片段,包括:
从所述目标音频中,提取多个音频片段;其中,所述多个音频片段的片段内容覆盖所述目标音频的音频内容;
对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果;其中,所述音频类型识别所针对的音频类型包括唱歌类型;
确定所对应识别结果为唱歌类型的音频片段,作为待分析音频片段。
可选地,所述对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果,包括:
针对每一音频片段,将该音频片段的音频数据输入预先训练的分类模型,得到该音频片段对应的识别结果;
其中,所述分类模型为预先基于样本音频和类型标签所训练的分类模型,所述类型标签包括唱歌类型。
可选地,所述从所述目标音频中,提取多个音频片段,包括:
采用滑动窗口,从所述目标音频中依此选取具有指定长度的各个音频片段,其中,所述指定长度为滑动窗口的窗口大小。
可选地,所述滑动窗口的滑动步长小于所述窗口大小。
可选地,所述待分析音频片段的数量为多个;
所述对所述待分析音频片段进行语音识别,得到识别结果,包括:
若多个待分析音频片段中,存在符合预定整合条件的各个目标片段,则获取各个目标片段对应的整合片段,其中,所述预定整合条件包括:音频时间连续且相邻片段存在重叠的音频时间;所述整合片段为所述目标音频中以第一时间点为起始时间点,以第二时间点为终止时间点的音频片段,所述第一时间点为各个目标片段的起始时间点的最小值,所述第二时间点为各个目标片段的终止时间点的最大值;
对所述整合片段以及其他待分析音频片段,分别进行语音识别,得到识别结果;其中,其他待分析音频片段为除各个目标片段以外的待分析音频片段。
可选地,所述基于所得到的识别结果,生成所述目标音频的歌词内容,包括:
对所识别得到的识别结果进行纠错处理;
利用纠错处理后的识别结果,构成所述目标音频的歌词内容。
第二方面,本发明实施例提供了一种歌词识别装置,所述装置包括:
获取模块,用于获取待识别歌词的目标音频;
选取模块,用于从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
识别模块,用于对所述待分析音频片段进行语音识别,得到识别结果;
生成模块,用于基于所得到的识别结果,生成所述目标音频的歌词内容。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述歌词识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述歌词识别方法的步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述歌词识别方法的步骤。
本发明实施例有益效果:本发明实施例提供的歌词识别方法,先获取待识别歌词的目标音频;从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;对所述待分析音频片段进行语音识别,得到识别结果;基于所得到的识别结果,生成所述目标音频的歌词内容。本方案中,选取目标音频中唱歌类型的待分析音频片段,再对待分析音频片段进行语音识别,从而基于识别结果生成歌词内容,这样可以大大降低唱歌类型以外的音频内容的干扰,因此,通过本方案能够提高歌词识别的准确率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例提供的语音识别方法的流程图;
图2为本发明实施例提供的滑动窗口的原理图;
图3为本发明实施例提供的语音识别方法的另一流程图;
图4为本发明实施例提供的语音识别装置的结构图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
对于歌曲中歌词的识别,可以通过人工来进行识别,但是人工识别消耗了大量的人力资源,并且在歌词语速过快、歌手发音不清晰时,会造成不可避免的人为误差。
相关技术中,可以通过基于隐马尔可夫的语音识别方法来识别歌词,但是,歌曲中往往存在大量的片段,是非唱歌类型的内容,导致在利用相关技术进行歌词识别时,干扰信息较多,因而歌词识别的准确率较低。
为了解决上述问题,提高歌词识别的准确率,本发明实施例提供了一种歌词识别方法、装置、电子设备及可读存储介质。
下面首先对本发明实施例所提供的一种歌词识别方法进行介绍。
其中,本发明实施例所提供的一种歌词识别方法可以应用于电子设备中,在实际应用中,该电子设备可以为服务器或终端设备,但不限于此。
并且,实现本发明实施例所提供的一种歌词识别方法的执行主体可以为一种歌词识别装置。该歌词识别装置可以为专门的用于歌词识别的客户端;当然,该歌词识别装置也可以为指定客户端中的插件程序,示例性的,指定客户端可以为社交类客户端、音乐流媒体客户端、工具类客户端等等。
本发明实施例所提供的一种歌词识别方法,可以包括如下步骤:
获取待识别歌词的目标音频;
从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
对所述待分析音频片段进行语音识别,得到识别结果;
基于所得到的识别结果,生成所述目标音频的歌词内容。
本发明实施例提供的歌词识别方法,先获取待识别歌词的目标音频;从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;对所述待分析音频片段进行语音识别,得到识别结果;基于所得到的识别结果,生成所述目标音频的歌词内容。本方案中,通过选取目标音频中唱歌类型的待分析音频片段后,再对待分析音频片段进行语音识别,从而基于识别结果生成歌词内容,这样可以大大降低唱歌类型以外的音频内容的干扰,因此,通过本方案能够提高歌词识别的准确率。
下面结合附图对本发明实施例提供的一种歌词识别方法进行介绍。
如图1所示,本发明实施例提供的一种歌词识别方法,可以包括以下步骤:
S101,获取待识别歌词的目标音频;
其中,目标音频是任一待识别歌词的音频,例如:目标音频可以是一歌曲音频,也可以是用户录制的带有歌曲内容的音频文件,等等。并且,该目标音频可以为用户上传的音频文件,也可以为从音乐播放平台中获取的音频文件,还可以是通过电子设备自身的音频采集单元所采集到的音频文件。
另外,可以理解的是,目标音频中除了包含唱歌类型的片段,还可以包含其他内容,例如:纯音乐、说话或者噪音的片段。
S102,从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
由于针对目标音频而言,除了歌手唱歌的片段以外,还可能存在有纯音乐的片段,也可能存在噪音等其他内容的声音片段,因此,针对目标音频的歌词识别,可以先提取出该目标音频中属于唱歌类型的片段作为待分析音频片段,从而后续仅仅针对待分析音频片段进行歌词识别。这样,可以减少其他类型声音的干扰,从而提升歌词识别的准确率。其中,待分析音频片段可以为一个或多个。
其中,从所述目标音频中,选取待分析音频片段的具体实现方式可以存在多种。
示例性的,在一种实现方式中,从所述目标音频中,选取待分析音频片段可以包括:将目标音频输入预先训练的识别模型,得到属于唱歌类型的音频片段的区间信息,从而基于所识别到的区间信息,选取待分析音频片段。其中,识别模型为预先训练的、用于识别输入音频的属于唱歌类型的片段的区间信息的模型。
示例性地,在一种实现方式中,从所述目标音频中,选取待分析音频片段,可以包括步骤A1-A3:
步骤A1,从所述目标音频中,提取多个音频片段;其中,所述多个音频片段的片段内容覆盖所述目标音频的音频内容;
即,从目标音频中,提取多个音频片段,多个音频片段要覆盖目标音频的全部音频内容。需要说明的是,不同音频片段之间可以有重叠的部分。例如,目标音频共10秒,提取的一个音频片段是0-1秒,另一个音频片段是0.5-1.5秒,这都是可以的,但是所提取的所有音频片段的片段内容要覆盖0-10秒。
步骤A2,对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果;其中,所述音频类型识别所针对的音频类型包括唱歌类型;
可以理解的是,基于音频中通常所包含的声音内容可知,目标音频中可以包括唱歌、说话、纯音乐以及噪音等声音内容。因此,在一种实现方式中,音频类型可以包括唱歌类型、说话类型、纯音乐类型、噪音类型等,此时,考虑到每种音频类型都有其对应的声学特征,可以根据每一音频片段所包含的声学特征,得到各个音频片段对应的识别结果。当然,在另一种实现方式中,可以按照是否包含唱歌内容,来划分音频类型,此时,音频类型可以包括唱歌类型、非唱歌类型,并基于每种音频类型对应的声学特征,来对各个音频片段进行音频类型识别,得到识别结果,这也是合理的。
本实施例中,音频类型的识别可以通过最小距离法、神经网络、隐马尔可夫模型等算法得到。
示例性的,在一种实现方式中,所述对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果,可以包括如下步骤:
针对每一音频片段,将该音频片段的音频数据输入预先训练的分类模型,得到该音频片段对应的识别结果;
其中,所述分类模型为预先基于样本音频和类型标签所训练的分类模型,所述类型标签包括唱歌类型。
该分类模型可以为一个音频分类算法的神经网络模型,基于样本音频和包含唱歌类型的类型标签,训练该分类模型,直至模型收敛。该分类模型可以用于识别各个音频片段属于哪一类型,如,唱歌类型、纯音乐类型等,也可以只用于判断各个音频片段是否属于唱歌类型。本实施例并不对分类模型的具体训练过程进行限定。
步骤A3,确定所对应识别结果为唱歌类型的音频片段,作为待分析音频片段。
将识别为唱歌类型的音频片段,作为待分析音频片段。
通过上述的步骤A1-A3,对目标音频进行分析,从而可以得到至少一个待分析音频片段。
上述的从所述目标音频中,选取待分析音频片段的具体实现方式,仅仅作为一种示例,并不应该构成对本发明实施例的限定。
S103,对所述待分析音频片段进行语音识别,得到识别结果;
该识别结果可以为,根据待分析音频片段中的语音信息,所识别的文本信息。示例性的,语音识别的过程可以通过预先训练好的深度学习算法模型来完成。
示例性地,在一种实现方式中,所述待分析音频片段的数量为多个;
所述对所述待分析音频片段进行语音识别,得到识别结果,包括:
若多个待分析音频片段中,存在符合预定整合条件的各个目标片段,则获取各个目标片段对应的整合片段,其中,所述预定整合条件包括:音频时间连续且相邻片段存在重叠的音频时间;所述整合片段为所述目标音频中以第一时间点为起始时间点,以第二时间点为终止时间点的音频片段,所述第一时间点为各个目标片段的起始时间点的最小值,所述第二时间点为各个目标片段的终止时间点的最大值;
对所述整合片段以及其他待分析音频片段,分别进行语音识别,得到识别结果;其中,其他待分析音频片段为除各个目标片段以外的待分析音频片段。
当存在多个待分析音频片段的音频时间是连续的,且相邻片段存在重叠的音频时间,单独对这些待分析音频片段进行语音识别时,可能会产生重复的歌词,而且由于内容的冗余,还会影响识别速度。此外,由于一段连续的唱歌片段被分成了多个片段,某个字的发音容易被从中间截断,这样也不利于歌词的识别,影响歌词识别的准确率。
因此,若存在多个待分析音频片段的时间是连续的,且相邻片段存在重叠的音频时间,则将这些待分析音频片段作为目标片段,并将各个目标片段中起始时间点的最小值,以及终止时间点的最大值作为整合片段的起始时间点和终止时间点。其中,整合片段为包含一整段连续唱歌内容的音频片段。
示例性的,多个待分析音频片段中,存在音频时间范围是2.5-3.5秒、3-4秒和3.5-4.5秒的三个目标片段,可见,这三个目标片段重复的音频时间范围是3-3.5秒,及3.5-4秒,此时,将这三个目标片段整合为音频时间范围是2.5-4.5秒的整合片段。
整合片段以及其他待分析音频片段均为包含唱歌内容的音频片段,因此要对这些片段进行语音识别,得到识别结果。
S104,基于所得到的识别结果,生成所述目标音频的歌词内容。
整理各个待分析音频片段的识别结果,可以得到该目标音频的歌词内容。例如,识别结果是文本信息,则可以按照各个待分析音频片段对应的时间顺序,排布文本信息,得到完整的歌词内容。
本实施例中提供的歌词识别方法,先获取待识别歌词的目标音频;从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;对所述待分析音频片段进行语音识别,得到识别结果;基于所得到的识别结果,生成所述目标音频的歌词内容。本方案中,选取目标音频中唱歌类型的待分析音频片段,再对待分析音频片段进行语音识别,从而基于识别结果生成歌词内容,这样可以大大降低唱歌类型以外的音频内容的干扰,因此,通过本方案能够提高歌词识别的准确率。
可选地,在另一实施例中,所述从所述目标音频中,提取多个音频片段,包括:
采用滑动窗口,从所述目标音频中依此选取具有指定长度的各个音频片段,其中,所述指定长度为滑动窗口的窗口大小。
其中,滑动窗口可以按照时间的顺序,以起始点为0时刻开始,按照预定的滑动步长,从目标音频中依此选取具有指定窗口大小的各个音频片段。
这样,通过滑动窗口的方式从目标音频中依此选取具有窗口大小的各个音频片段,可以使得选取的音频片段更加有序,从而提高歌词识别的效率。
在一种实现方式中,滑动窗口的滑动步长小于窗口大小。
示例性的,如图2所示,该滑动窗口的窗口长度为1秒,滑动步长为0.5秒,目标音频的长度为T秒,其中,目标音频的唱歌片段为10-15秒,其余为伴奏。
该滑动窗口从0-1秒开始,每次间隔0.5秒,选取1秒时长的音频片段,用于判断该音频片段是否是唱歌、伴奏还是噪音等其他声音。当检测到9.5秒至10.5秒时,判断到该音频片段为唱歌类型的片段;移动0.5秒的滑动步长,判断10-11秒的音频片段仍为唱歌类型的片段,以此类推,直到最后一次判断为唱歌类型的片段是14.5-15.5秒,下一次滑动到15-16秒时,判断为非唱歌类型的片段。最终判断在9.5秒至15.5秒的歌曲片段中有人声唱歌,误差不会超过1秒。
可以理解的,滑动窗口的滑动步长小于窗口大小,能保证对唱歌部分的覆盖。例如,滑动窗口的窗口大小为1秒,目标音频在9.9秒处开始唱歌,如果滑动步长也为1秒,则滑动到9-10秒处截取到唱歌的片段只有0.1秒,容易被误认为不是唱歌类型,之后滑动到10-11秒处才识别为唱歌类型,此时,有0.1秒的唱歌片段没有被选取。而如果滑动步长为0.5秒,就算9-10秒处没有识别到唱歌内容,9.5-10.5秒处也能识别到,此时,待分析音频片段的起始时间为9.5秒处,不大于9.9秒,最终仍能把唱歌类型的片段完整覆盖,从而能够完整保留有效信息。
本实施例中,通过滑动窗口从目标音频中依此选取具有指定长度的各个音频片段,并且滑动窗口的滑动步长小于窗口大小,可以保证对唱歌类型片段的有效覆盖,从而提高歌词识别的准确率。
可选地,在本发明的另一实施例中,所述基于所得到的识别结果,生成所述目标音频的歌词内容,包括:
对所识别得到的识别结果进行纠错处理;
利用纠错处理后的识别结果,构成所述目标音频的歌词内容。
由于所得到的识别结果中可能会出现识别错误的内容,因此,可以对所识别得到的识别结果进行纠错处理。例如,识别结果是文本信息时,可以纠正该文本中的错字、或不符合语境的词句。
在一种实现方式中,还可以通过预先训练好的文字算法模型进行纠错。利用文字算法模型上下文理解的能力,对句子中易错词,尤其是同音不同字的词,进行纠错,例如:将“一生一世不曾有怎样”纠正为“一生一事无成又怎样”。
本实施例中,对所识别得到的识别结果进行纠错处理;再利用纠错处理后的识别结果,构成所述目标音频的歌词内容,可以进一步提高歌词识别的准确率。
为了方便理解本发明的歌词识别方法,下面结合图3,以目标音频为歌曲文件为例,进行示例性介绍。
首先获取歌曲文件,通过滑动窗口的方式,从0时刻开始,从该歌曲文件中依此选取具有指定长度的各个音频片段;
再通过音频分类算法,识别各个音频片段是否为属于唱歌类型的待分析片段;
之后,基于各个待分析片段,得到整合片段以及其他待分析音频片段;
对整合片段以及其他待分析音频片段进行语音识别,得到识别结果;
最后,再对识别结果进行文字纠错,生成最终的歌词文件。
本实施例中,通过滑动窗口的方式选取待分析音频片段;其中,待分析音频片段为属于唱歌类型的片段;对每一待分析音频片段进行语音识别,得到识别结果;并对识别结果进行文字纠错,生成最终的歌词文件。本方案中,选取目标音频中唱歌类型的待分析音频片段,再对待分析音频片段进行语音识别,可以大大降低唱歌类型以外的音频内容的干扰,并对识别结果进行纠错,进一步提高歌词识别的准确率。
本发明实施例还提供了一种歌词识别装置,如图4所示,该装置包括:
获取模块410,用于获取待识别歌词的目标音频;
选取模块420,用于从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
识别模块430,用于对所述待分析音频片段进行语音识别,得到识别结果;
生成模块440,用于基于所得到的识别结果,生成所述目标音频的歌词内容。
可选地,所述选取模块,包括:
提取子模块,用于从所述目标音频中,提取多个音频片段;其中,所述多个音频片段的片段内容覆盖所述目标音频的音频内容;
识别子模块,用于对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果;其中,所述音频类型识别所针对的音频类型包括唱歌类型;
确定子模块,用于确定所对应识别结果为唱歌类型的音频片段,作为待分析音频片段。
可选地,所述识别子模块,具体用于:
针对每一音频片段,将该音频片段的音频数据输入预先训练的分类模型,得到该音频片段对应的识别结果;
其中,所述分类模型为预先基于样本音频和类型标签所训练的分类模型,所述类型标签包括唱歌类型。
可选地,所述提取子模块,具体用于:
采用滑动窗口,从所述目标音频中依此选取具有指定长度的各个音频片段,其中,所述指定长度为滑动窗口的窗口大小。
可选地,所述滑动窗口的滑动步长小于所述窗口大小。
可选地,所述待分析音频片段的数量为多个;
所述识别模块,具体用于:
若多个待分析音频片段中,存在符合预定整合条件的各个目标片段,则获取各个目标片段对应的整合片段,其中,所述预定整合条件包括:音频时间连续且相邻片段存在重叠的音频时间;所述整合片段为所述目标音频中以第一时间点为起始时间点,以第二时间点为终止时间点的音频片段,所述第一时间点为各个目标片段的起始时间点的最小值,所述第二时间点为各个目标片段的终止时间点的最大值;
对所述整合片段以及其他待分析音频片段,分别进行语音识别,得到识别结果;其中,其他待分析音频片段为除各个目标片段以外的待分析音频片段。
可选地,所述生成模块,包括:
纠错子模块,用于对所识别得到的识别结果进行纠错处理;
构成子模块,用于利用纠错处理后的识别结果,构成所述目标音频的歌词内容。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述歌词识别方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一歌词识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一歌词识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种歌词识别方法,其特征在于,所述方法包括:
获取待识别歌词的目标音频;
从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
对所述待分析音频片段进行语音识别,得到识别结果;
基于所得到的识别结果,生成所述目标音频的歌词内容。
2.根据权利要求1所述的方法,其特征在于,从所述目标音频中,选取待分析音频片段,包括:
从所述目标音频中,提取多个音频片段;其中,所述多个音频片段的片段内容覆盖所述目标音频的音频内容;
对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果;其中,所述音频类型识别所针对的音频类型包括唱歌类型;
确定所对应识别结果为唱歌类型的音频片段,作为待分析音频片段。
3.根据权利要求2所述的方法,其特征在于,所述对各个音频片段进行音频类型识别,得到各个音频片段对应的识别结果,包括:
针对每一音频片段,将该音频片段的音频数据输入预先训练的分类模型,得到该音频片段对应的识别结果;
其中,所述分类模型为预先基于样本音频和类型标签所训练的分类模型,所述类型标签包括唱歌类型。
4.根据权利要求2所述的方法,其特征在于,所述从所述目标音频中,提取多个音频片段,包括:
采用滑动窗口,从所述目标音频中依此选取具有指定长度的各个音频片段,其中,所述指定长度为滑动窗口的窗口大小。
5.根据权利要求4所述的方法,其特征在于,所述滑动窗口的滑动步长小于所述窗口大小。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述待分析音频片段的数量为多个;
所述对所述待分析音频片段进行语音识别,得到识别结果,包括:
若多个待分析音频片段中,存在符合预定整合条件的各个目标片段,则获取各个目标片段对应的整合片段,其中,所述预定整合条件包括:音频时间连续且相邻片段存在重叠的音频时间;所述整合片段为所述目标音频中以第一时间点为起始时间点,以第二时间点为终止时间点的音频片段,所述第一时间点为各个目标片段的起始时间点的最小值,所述第二时间点为各个目标片段的终止时间点的最大值;
对所述整合片段以及其他待分析音频片段,分别进行语音识别,得到识别结果;其中,其他待分析音频片段为除各个目标片段以外的待分析音频片段。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所得到的识别结果,生成所述目标音频的歌词内容,包括:
对所识别得到的识别结果进行纠错处理;
利用纠错处理后的识别结果,构成所述目标音频的歌词内容。
8.一种歌词识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别歌词的目标音频;
选取模块,用于从所述目标音频中,选取待分析音频片段;其中,所述待分析音频片段为属于唱歌类型的片段;
识别模块,用于对所述待分析音频片段进行语音识别,得到识别结果;
生成模块,用于基于所得到的识别结果,生成所述目标音频的歌词内容。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202111465773.3A 2021-12-03 2021-12-03 歌词识别方法、装置、电子设备及可读存储介质 Pending CN114141250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111465773.3A CN114141250A (zh) 2021-12-03 2021-12-03 歌词识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111465773.3A CN114141250A (zh) 2021-12-03 2021-12-03 歌词识别方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114141250A true CN114141250A (zh) 2022-03-04

Family

ID=80387544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111465773.3A Pending CN114141250A (zh) 2021-12-03 2021-12-03 歌词识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114141250A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666653A (zh) * 2022-03-23 2022-06-24 腾讯音乐娱乐科技(深圳)有限公司 一种音乐片段的字幕显示方法、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666653A (zh) * 2022-03-23 2022-06-24 腾讯音乐娱乐科技(深圳)有限公司 一种音乐片段的字幕显示方法、设备及可读存储介质
CN114666653B (zh) * 2022-03-23 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 一种音乐片段的字幕显示方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
CN108509619B (zh) 一种语音交互方法及设备
CN109800407B (zh) 意图识别方法、装置、计算机设备和存储介质
CN105931644B (zh) 一种语音识别方法及移动终端
CN109410664B (zh) 一种发音纠正方法及电子设备
CN109065031A (zh) 语音标注方法、装置及设备
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN109036471B (zh) 语音端点检测方法及设备
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
CN110765270B (zh) 用于口语交互的文本分类模型的训练方法及系统
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN109615009B (zh) 一种学习内容推荐方法及电子设备
CN109300474B (zh) 一种语音信号处理方法及装置
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
CN110503941B (zh) 语言能力评测方法、装置、系统、计算机设备及存储介质
CN109448717B (zh) 一种语音单词拼写识别方法、设备及存储介质
CN114141250A (zh) 歌词识别方法、装置、电子设备及可读存储介质
CN105895079A (zh) 语音数据的处理方法和装置
CN108777804B (zh) 媒体播放方法及装置
US10402492B1 (en) Processing natural language grammar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination