CN104252872B

CN104252872B - 歌词生成方法和智能终端

Info

Publication number: CN104252872B
Application number: CN201410491918.0A
Authority: CN
Inventors: 夏小聪; 张圣杰; 吴琦
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2017-05-24
Anticipated expiration: 2034-09-23
Also published as: CN104252872A

Abstract

本发明公开了一种歌词生成方法，该方法包括以下步骤：开始录音；播放背景音乐；采集演唱者和背景音乐的语音数据，通过相关度比较的方法检测背景音乐的回声；当检测到背景音乐的回声时，标记录音文件中背景音乐的开始时间点；过滤录音文件中背景音乐的回声，生成只包含演唱者的声音信号的录音文件；识别录音文件中的歌词，生成带有时间标识的歌词文件；将歌词文件与背景音乐相关联。本发明还公开了一种智能终端。本发明避免了由于通过麦克风录音与背景音乐存在时间差，而导致歌词文件与背景音乐时间不同步的问题，从而提升了智能移动终端的智能化，并且给用户带来了更好的体验。

Description

歌词生成方法和智能终端

技术领域

本发明涉及智能终端领域，尤其涉及歌词生成方法和智能终端。

背景技术

随着智能移动终端发展的日新月异，智能移动终端的功能越来越强大，给用户带来的使用体验也越来越好。例如可通过移动终端启动一些K歌软件，用户可通过这些K歌软件录歌，也可以将录下的歌曲文件分享至网络。然而，现有的移动终端还是使用传统的模式，在用户通过K歌软件录歌时，如果用户在演唱过程中即兴改了歌词，这些篡改的歌词就不能以文字的方式记录下来，当用户下一次演唱该歌曲时，显示的还是原来的歌词。这样，使得智能移动终端的智能化得不到充分的发挥，并且不能给用户很好的体验。

发明内容

本发明的主要目的在于提升智能移动终端的智能化，并且给用户带来更好的体验。

为实现上述目的，本发明提供一种歌词生成方法，适于移动终端，所述歌词生成方法包括以下步骤：

开始录音；

播放背景音乐；

采集演唱者和背景音乐的语音数据，通过相关度比较的方法检测背景音乐的回声；

当检测到背景音乐的回声时，标记录音文件中背景音乐的开始时间点；

过滤录音文件中背景音乐的回声，生成只包含演唱者的声音信号的录音文件；

识别所述录音文件中的歌词，生成带有时间标识的歌词文件；

将所述歌词文件与所述背景音乐相关联。

优选地，当检测到背景音乐的回声时，即开始过滤录音文件中背景音乐的回声。

优选地，所述识别所述录音文件中的歌词，生成带有时间标识的歌词文件的步骤包括：

通过语音识别的方法识别所述录音文件中的歌词，生成对应的歌词文件，所述歌词文件中的每一句歌词带有时间标识。

优选地，所述识别所述录音文件中的歌词，生成带有时间标识的歌词文件的步骤之后，所述歌词生成方法还包括：

以预设的时间间隔或以所述歌词文件中每一句歌词的停顿，将所述歌词文件分为若干段带有时间属性的歌词文件。

优选地，所述将歌词文件与所述背景音乐相关联的步骤包括：

根据所述开始时间点，将带有时间标识的所述歌词文件替换所述背景音乐中的原始歌词文本；

将所述歌词文件与所述背景音乐相关联，生成所述背景音乐对应的歌词。

此外，为实现上述目的，本发明还提供一种智能终端，所述智能终端包括：

录音模块，用于开始录音；

播放模块，用于播放背景音乐；

采集模块，用于采集演唱者和背景音乐的语音数据，通过相关度比较的方法检测背景音乐的回声；

标记模块，用于当检测到背景音乐的回声时，标记录音文件中背景音乐的开始时间点；

过滤模块，用于过滤录音文件中背景音乐的回声，生成只包含演唱者的声音信号的录音文件；

识别模块，用于识别所述录音文件中的歌词，生成带有时间标识的歌词文件；

关联模块，用于将所述歌词文件与所述背景音乐相关联。

优选地，所述识别模块用于：

优选地，所述智能终端还包括：

分段模块，用于以预设的时间间隔或以所述歌词文件中每一句歌词的停顿，将所述歌词文件分为若干段带有时间属性的歌词文件。

优选地，所述关联模块用于：

本发明在启动录音功能时采集语音数据，在检测到背景音乐的回声时，标记背景音乐的开始时间点，过滤背景音乐的回声，根据采集的语音数据，生成只包含演唱者的声音信号的录音文件；识别录音文件中的歌词，生成带有时间标识的歌词文件，将歌词文件与背景音乐相关联，从而生成背景音乐对应的歌词。通过在检测到背景音乐的回声时标记开始时间点并消除背景音乐的声音信号，只录取演唱者的声音信号以生成录音文件，在将该录音文件与背景音乐相关联时，根据开始时间点进行关联，避免了由于通过麦克风录音与背景音乐存在时间差，而导致歌词文件与背景音乐时间不同步的问题，从而提升了智能移动终端的智能化，并且给用户带来了更好的体验。

附图说明

图1为本发明歌词生成方法第一实施例的流程示意图；

图2为本发明歌词生成方法第二实施例的流程示意图；

图3为图1中将歌词文件与背景音乐相关联的步骤的细化流程示意图；

图4为本发明智能终端第一实施例的功能模块示意图；

图5为本发明智能终端第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种歌词生成方法。

参照图1，图1为本发明歌词生成方法第一实施例的流程示意图。

在一实施例中，歌词生成方法包括：

步骤S10，开始录音；

步骤S20，播放背景音乐；

步骤S30，采集演唱者和背景音乐的语音数据，通过相关度比较的方法检测背景音乐的回声；

步骤S40，当检测到背景音乐的回声时，标记录音文件中背景音乐的开始时间点；

在启动智能终端中K歌或录音软件并开启录音功能后，开始播放背景音乐，并通过麦克风等语音信号采集装置采集输入的语音数据，同时检测背景音乐的回声，本实施例可通过相关度比较的方法检测背景音乐的回声，即通过智能终端的检测模块，在播放背景音乐时开始进行相关度比较，而通过相关度比较的方法检测背景音乐回声的方法是本领域中较为成熟的技术方案，在此不做赘述。当检测到背景音乐的回声时，表明背景音乐开始播放，此时，标记背景音乐在录音文件中的开始时间点，该开始时间点即为背景音乐在录音生成的录音文件中的切入时间点，背景音乐具有时间轴。

步骤S50，过滤录音文件中背景音乐的回声，生成只包含演唱者的声音信号的录音文件；

在通过语音信号采集装置采集输入的语音数据时，除了背景音乐的声音信号和演唱者的声音信号外，还会采集到环境中的其他杂音，本实施例中，在检测到背景音乐的回声时，即开始过滤录音文件中背景音乐的回声，并且在录音的过程中，将采集到的语音数据中的背景音乐的回声以及杂音进行过滤，只保留演唱者的声音，从而生成只包含演唱者的声音信号的录音文件，也就是说，在该录音文件中只能听到演唱者的声音，而听不到背景音乐及其他杂音。本实施例中，可通过带通滤波器、相关度比较器等模块滤除背景音乐的声音信号。

步骤S60，识别录音文件中的歌词，生成带有时间标识的歌词文件；

步骤S70，将歌词文件与背景音乐相关联。

在生成录音文件后，通过语音识别的方法，识别录音文件中的歌词，即将录音文件中的声音信号转换为歌词对应的歌词文件，歌词文件以文本的形式保存，并且该歌词文件带有时间标识，也具有时间轴。然后将生成的歌词文件与背景音乐相关联，具体为根据所标记的开始时间点，将歌词文件的时间轴与背景音乐的时间轴相匹配，即将生成的歌词文件替换背景音乐中相应的歌词，从而生成背景音乐对应的歌词。

本实施例在启动录音功能时采集语音数据，在检测到背景音乐的回声时，标记背景音乐的开始时间点，过滤背景音乐的回声，根据采集的语音数据，生成只包含演唱者的声音信号的录音文件；识别录音文件中的歌词，生成带有时间标识的歌词文件，将歌词文件与背景音乐相关联，从而生成背景音乐对应的歌词。通过在检测到背景音乐的回声时标记开始时间点并消除背景音乐的声音信号，只录取演唱者的声音信号以生成录音文件，在将该录音文件与背景音乐相关联时，根据开始时间点进行关联，避免了由于通过麦克风录音与背景音乐存在时间差，而导致歌词文件与背景音乐时间不同步的问题，从而提升了智能移动终端的智能化，并且给用户带来了更好的体验。

基于上述实施例，步骤S60具体包括：

通过语音识别的方法识别录音文件中的歌词，生成对应的歌词文件，歌词文件中的每一句歌词带有时间标识。

在生成录音文件后，通过语音识别的方法，识别录音文件中演唱者的声音信号中的歌词，并将声音信号进行转换，即将声音信号转换为歌词对应的文本文件，从而形成对应的歌词文件。本实施例中可以下述方法为例对录音文件中的声音信号进行文字识别，并根据识别出的歌词生成歌词文件：由于用户所输入的声音信号的每一个字都对应一个音节，音节包括声母和韵母，声母为辅音，韵母为元音开头，而每一个音节的开头为声母，在智能终端的存储单元中，可存储所有声母的频谱以及常用字对应的音节频谱等。在具体实施时，首先分析用户输入的声音信号得到该声音信号的频谱，然后将得到的声音信号的频谱与存储的声母的频谱进行比较，当声母频谱与声音信号的频谱中某一段相同时，则用对应的声母标示该段声音信号的频谱，标示该段声音信号的频谱为某一个音节中的声母部分。当比较完整个声音信号的频谱后，该声音信号的频谱便被标示有多个声母，其中，从每一个声母标示到下一个声母标示之前的频谱为一个音节频谱，通过所标示的多个声母，将整段声音信号的频谱分成了多个音节频谱。

在智能终端中还可存储有每一个声母的标准频率，在将声音信号的频谱标示为多个音节频谱后，根据声母的标准频率比较标示后的声音信号的频谱中第一声母的频率，获得该第一声母的频率与声母的标准频率的比值，并根据该比值调整第一个声母对应的音节的频率，并依此方法调整整个声音信号的频谱中每个音节的频率。进一步地，将调整后的每个音节的频谱与存储的音节频谱进行比较，当判断出某一音节频谱与存储的音节频谱一致时，则确定该语音频谱对应的字为该所存储的音节频谱对应的字。按照上述方法，对所录取的演唱过程中演唱者的声音信号中的每一个字对应的音节进行分析，便可得到该段声音信号所对应的歌词文本。本实施例中，在得到该段声音信号所对应的歌词文本后，可将该歌词文本显示在智能终端的显示屏上，用户可对歌词文本进行编辑，为保证词曲同步，在关联背景音乐时，用户也可对歌词文本进行时间前移或后移等操作。

参照图2，图2为本发明歌词生成方法第二实施例的流程示意图。

在本发明歌词生成方法第一实施例的基础上，在执行步骤S60之后，该方法还包括：

步骤S80，以预设的时间间隔或以歌词文件中每一句歌词的停顿，将歌词文件分为若干段带有时间属性的歌词文件。

在对录音文件进行语音识别生成歌词对应的歌词文件后，可以以预设的时间间隔为分段依据分段，也可以以歌词文件中每一句歌词的停顿为分段依据，将歌词文件分为若干段带有时间属性的歌词文件。该预设的时间间隔可根据实际需求灵活设置，如设置为1分钟，在对歌词文件进行分段时，第一段语音内容的时间属性为0-1分钟，第二段语音内容的时间属性为1-2分钟，依次类推，直至分段完成；还可以以歌词文件中每一句歌词的停顿来进行分段，在演唱歌曲的过程中，前一句歌词和后一句歌词之间会有停顿，此时将停顿点作为分段点，对歌词文件进行分段，每一段语音内容的时间属性为两个相邻停顿之间的时间。

在生成歌词对应的歌词文件后，以预设的时间间隔或以歌词文件中每一句歌词的停顿，将歌词文件分为若干段带有时间属性的歌词文件，以分别对每段歌词文件中的歌词文本与背景音乐进行关联，从而进一步保证了歌词文件与背景音乐时间的同步。

参照图3，图3为图1中将歌词文件与背景音乐相关联的步骤的细化流程示意图。

基于本发明上述第一、二实施例，步骤S70进一步包括：

步骤S71，根据开始时间点，将带有时间标识的歌词文件替换背景音乐中的原始歌词文本；

步骤S72，将歌词文件与背景音乐相关联，生成背景音乐对应的歌词。

在将歌词文件与背景音乐相关联时，根据所标记的开始时间点，将歌词文件的时间标识与背景音乐的时间轴相对应，替换背景音乐中相应的原始歌词文本。本实施例中，在播放背景音乐时，当播放至标记的开始时间点时，将该时间点对应的歌词文件的第一句歌词以英文半角空格字符相连接，之后按照每一句歌词的时间标识，将歌词文本写入至该背景音乐中，替换背景音乐中对应的原始歌词文本，替换时可按照每一句歌词对应的字数，以字为单位进行替换，也可以每一句歌词所占用的时间轴，将歌词文件中的歌词替换为背景音乐中对应的原始歌词文本。在歌词文本写入操作时，每写完一句歌词会新起一行，在新行的行首执行下一句歌词的写入操作，直至写完最后一句歌词，当背景音乐播放完毕后，将每一段歌词文件中的歌词文本与背景音乐相关联，并将所写入的歌词文本整体保存，便形成与该背景音乐对应的歌词。在将若干段带有时间属性的歌词文件与背景音乐相关联时，可以根据所标记的开始时间点，将每一段文本文件中的歌词替换背景音乐中相应的原始歌词文本。

本发明还提供一种智能终端。

参照图4，图4为本发明智能终端第一实施例的功能模块示意图。

在一实施例中，智能终端包括：

录音模块10，用于开始录音；

播放模块20，用于播放背景音乐；

采集模块30，用于采集演唱者和背景音乐的语音数据，通过相关度比较的方法检测背景音乐的回声；

标记模块40，用于当检测到背景音乐的回声时，标记录音文件中背景音乐的开始时间点；

过滤模块50，用于过滤录音文件中背景音乐的回声，生成只包含演唱者的声音信号的录音文件；

识别模块60，用于识别录音文件中的歌词，生成带有时间标识的歌词文件；

关联模块70，用于将歌词文件与背景音乐相关联。

在启动智能终端中K歌或录音软件并开启录音功能后，录音模块10开始录音，播放模块20开始播放背景音乐，采集模块30通过麦克风等语音信号采集装置采集输入的语音数据，同时检测背景音乐的回声，本实施例可通过相关度比较的方法检测背景音乐的回声，即通过智能终端的检测模块，在播放背景音乐时开始进行相关度比较，而通过相关度比较的方法检测背景音乐回声的方法是本领域中较为成熟的技术方案，在此不做赘述。当检测到背景音乐的回声时，表明背景音乐开始播放，此时，标记模块40标记背景音乐在录音文件中的开始时间点，该开始时间点即为背景音乐在录音生成的录音文件中的切入时间点，背景音乐具有时间轴。

在通过语音信号采集装置采集输入的语音数据时，除了背景音乐的声音信号和演唱者的声音信号外，还会采集到环境中的其他杂音，本实施例中，在检测到背景音乐的回声时，即开始过滤录音文件中背景音乐的回声，并且在标记了背景音乐的开始时间点后，在录音的过程中，过滤模块50将采集到的语音数据中的背景音乐的回声以及杂音进行过滤，只保留演唱者的声音，从而生成只包含演唱者的声音信号的录音文件，也就是说，在该录音文件中只能听到演唱者的声音，而听不到背景音乐及其他杂音。本实施例中，可通过带通滤波器、相关度比较器等模块滤除背景音乐的声音信号。

在生成录音文件后，识别模块60通过语音识别的方法，识别录音文件中的歌词，即将录音文件中的声音信号转换为歌词对应的歌词文件，歌词文件以文本的形式保存，并且该歌词文件带有时间标识，也具有时间轴。然后，关联模块70将生成的歌词文件与背景音乐相关联，具体为根据所标记的开始时间点，将歌词文件的时间轴与背景音乐的时间轴相匹配，即将生成的歌词文件替换背景音乐中相应的歌词，从而生成背景音乐对应的歌词。

基于上述实施例，识别模块60具体用于：

参照图5，图5为本发明智能终端第二实施例的功能模块示意图。

基于本发明智能终端第一实施例，在第二实施例中，智能终端还包括：

分段模块80，用于以预设的时间间隔或以歌词文件中每一句歌词的停顿，将歌词文件分为若干段带有时间属性的歌词文件。

在对录音文件进行语音识别生成歌词对应的歌词文件后，分段模块50可以以预设的时间间隔为分段依据分段，也可以以歌词文件中每一句歌词的停顿为分段依据，将歌词文件分为若干段带有时间属性的歌词文件。该预设的时间间隔可根据实际需求灵活设置，如设置为1分钟，在对歌词文件进行分段时，第一段语音内容的时间属性为0-1分钟，第二段语音内容的时间属性为1-2分钟，依次类推，直至分段完成；还可以以歌词文件中每一句歌词的停顿来进行分段，在演唱歌曲的过程中，前一句歌词和后一句歌词之间会有停顿，此时将停顿点作为分段点，对歌词文件进行分段，每一段语音内容的时间属性为两个相邻停顿之间的时间。

基于上述本发明智能终端第一、第二实施例，关联模块70具体用于：

根据开始时间点，将带有时间标识的歌词文件替换背景音乐中的原始歌词文本；

将歌词文件与背景音乐相关联，生成背景音乐对应的歌词。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种歌词生成方法，适于移动终端，其特征在于，所述歌词生成方法包括以下步骤：

开始录音；

播放背景音乐；

根据频谱分析识别所述录音文件中的歌词，生成带有时间标识的已编辑或待编辑的歌词文件；

对歌词文件进行移动以将所述歌词文件与所述背景音乐相关联，以保证词曲同步。

2.如权利要求1所述的歌词生成方法，其特征在于，当检测到背景音乐的回声时，即开始过滤录音文件中背景音乐的回声。

3.如权利要求2所述的歌词生成方法，其特征在于，所述识别所述录音文件中的歌词，生成带有时间标识的歌词文件的步骤包括：

4.如权利要求3所述的歌词生成方法，其特征在于，所述识别所述录音文件中的歌词，生成带有时间标识的歌词文件的步骤之后，所述歌词生成方法还包括：

5.如权利要求1至4中任一项所述的歌词生成方法，其特征在于，所述将歌词文件与所述背景音乐相关联的步骤包括：

6.一种智能终端，其特征在于，所述智能终端包括：

录音模块，用于开始录音；

播放模块，用于播放背景音乐；

识别模块，用于根据频谱分析识别所述录音文件中的歌词，生成带有时间标识的已编辑或待编辑的歌词文件；

关联模块，用于对歌词文件进行移动以将所述歌词文件与所述背景音乐相关联，以保证词曲同步。

7.如权利要求6所述的智能终端，其特征在于，当检测到背景音乐的回声时，即开始过滤录音文件中背景音乐的回声。

8.如权利要求7所述的智能终端，其特征在于，所述识别模块用于：

9.如权利要求8所述的智能终端，其特征在于，所述智能终端还包括：

10.如权利要求6至9中任一项所述的智能终端，其特征在于，所述关联模块用于：