CN109102800A - 一种确定歌词显示数据的方法和装置 - Google Patents

一种确定歌词显示数据的方法和装置 Download PDF

Info

Publication number
CN109102800A
CN109102800A CN201810838032.7A CN201810838032A CN109102800A CN 109102800 A CN109102800 A CN 109102800A CN 201810838032 A CN201810838032 A CN 201810838032A CN 109102800 A CN109102800 A CN 109102800A
Authority
CN
China
Prior art keywords
audio data
data
sample
pronunciation
voice audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810838032.7A
Other languages
English (en)
Inventor
张超钢
陈传艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201810838032.7A priority Critical patent/CN109102800A/zh
Publication of CN109102800A publication Critical patent/CN109102800A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种确定歌词显示数据的方法和装置,属于音频处理技术领域。所述方法包括:提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。采用本发明,可以提高歌词显示数据的制作效率。

Description

一种确定歌词显示数据的方法和装置
技术领域
本发明涉及音频处理技术领域,特别涉及一种确定歌词显示数据的方法和装置。
背景技术
音频播放应用程序是一种很常用的应用程序,在音频播放应用程序中,为了方便用户在听歌、跟唱的过程中观看歌词,一般音频播放应用程序中都设置有歌词显示的功能,随着歌曲的音频数据的播放,歌词中与当前播放时间点相对应的字会发生颜色变化,能够很好的方便用户跟唱。为了达到这种显示效果,就要求对于每个音频数据,需要记录歌词显示数据,歌词显示数据包括歌词文本数据及其中的每个歌词文本单元(如字或词等)对应的时间信息,时间信息可以包括开始时间点和结束时间点。
现有技术中,制作歌词显示数据主要采用人工方式,对于每首不同的歌曲都要由工作人员,一边播放歌曲的音频数据,一边基于自己听到的声音,对歌词中每个字或词标注相应的时间信息,进而得到歌词显示数据。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中由人工制作歌词显示数据,制作效率较为低下。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定歌词显示数据的方法和装置。所述技术方案如下:
第一方面,提供了一种确定歌词显示数据的方法,所述方法包括:
提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;
获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;
将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;
基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。
可选的,所述方法还包括:
获取样本人声音频数据,提取所述样本人声音频数据的样本音频特征;
获取所述样本人声音频数据对应的样本歌词文本数据,确定所述样本歌词文本数据对应的样本发音文本数据;
获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息;
将所述样本音频特征和所述样本发音文本数据,作为样本输入数据,所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到所述发音时间信息识别模型。
可选的,所述获取样本人声音频数据,包括:
获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
可选的,所述获取样本人声音频数据,包括:
获取初始人声音频数据,将所述初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
可选的,所述提取目标音频数据中的人声音频数据,包括:
将所述目标音频数据转换为预设采样率的音频数据,提取所述预设采样率的音频数据中的人声音频数据。
可选的,所述歌词文本单元为字,所述发音文本单元为字对应的拼音;或者,
所述歌词文本单元为单词,所述发音文本单元为单词对应的音标。
第二方面,提供了一种确定歌词显示数据的装置,所述装置包括:
提取模块,用于提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;
获取模块,用于获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;
识别模块,用于将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;
确定模块,用于基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。
可选的,所述装置还包括训练模块,用于:
获取样本人声音频数据,提取所述样本人声音频数据的样本音频特征;
获取所述样本人声音频数据对应的样本歌词文本数据,确定所述样本歌词文本数据对应的样本发音文本数据;
获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息;
将所述样本音频特征和所述样本发音文本数据,作为样本输入数据,所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到所述发音时间信息识别模型。
可选的,所述训练模块,用于:
获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
可选的,所述训练模块,用于:
获取初始人声音频数据,将所述初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
可选的,所述提取模块,用于:
将所述目标音频数据转换为预设采样率的音频数据,提取所述预设采样率的音频数据中的人声音频数据。
可选的,所述歌词文本单元为字,所述发音文本单元为字对应的拼音;或者,
所述歌词文本单元为单词,所述发音文本单元为单词对应的音标。
第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。
第四方面,提供了一种一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,基于目标音频数据的人声音频数据、目标音频数据的歌词文本数据的发音文本数据和发音时间信息识别模型,就可以得到所需的歌词显示数据,省去了大量的人工操作流程,能有效的提高歌词显示数据的制作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定歌词显示数据的方法的流程图;
图2是本发明实施例提供的一种确定歌词显示数据的方法的流程图;
图3是本发明实施例提供的一种确定歌词显示数据的装置的结构示意图;
图4是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种确定歌词显示数据的方法,该方法可以由服务器或终端实现。本发明实施例中以执行主体为服务器为例进行方案的详细说明,其它情况与之类似,不在累述。
服务器可以包括处理器、存储器、收发器等部件。处理器,可以为CPU(CentralProcessing Unit,中央处理单元)等,可以用于对获取的音频数据进行处理等。存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如目标音频数据、歌词文本数据等。收发器,可以用于与终端或其它服务器进行数据传输。
如图1所示,该方法的处理流程可以包括如下的步骤:
在步骤101中,提取目标音频数据的人声音频数据,提取所述人声音频数据的音频特征。
其中,目标音频数据是需要制作歌词显示数据的音频数据,其格式可以是MP3、WMV等。人声音频数据是从音频数据中得到的不含伴奏及其它内容的纯净人声。
在实施中,技术人员可以在音频库中选择需要制作歌词显示数据的音频数据,可以选择数据库中部分音频数据或所有未制作歌词显示数据的音频数据。对于选取的每个音频数据(即目标音频数据),服务器都可以按照本实施例的流程进行处理,制作歌词显示数据。服务器利用预先训练好的人声音频数据提取模型,对目标音频数据进行人声提取,以得到与其对应的人声音频数据。人声音频数据提取模型的训练由工作人员在服务器中进行,该模型可以采用多种方案构建,例如,盲源分离方案、监督学习方案等,而监督学习方案所得到的模型,对于人声音频数据的提取效果更优。其中监督学习方案可以采用CNN(Convolutional Neural Network,卷积神经网络)架构、或RNN(Recurrent NeuralNetwork,循环神经网络)构架,也可以采用其他变种的神经网络架构。
在得到人声音频数据后,将该人声音频数据进行音频特征提取,首先对该人声音频数据按照预设的帧率进行重分帧处理,例如一首时长4分钟的音频数据,可以将其分为每25ms或50ms为一个音频帧,然后再提取每一个音频帧的MFCC(Mel-frequency CepstralCoefficients,梅尔频率倒谱系数)、一阶MFCC导数、二阶MFCC导数,并将MFCC、一阶MFCC导数和二阶MFCC导数串在一起构成相应的音频帧的音频特征,音频特征以向量的形式表示,一般将MFCC个数设置为13,那么最后构成的音频特征就是39维的向量,再将每一个音频帧的音频特征串在一起,即可得到整个人声音频数据的音频特征。可以再对该音频特征进行CMVN(Cepstral Mean and Variance Normalization,倒谱均值与方差归一化)处理,以提高模型的稳健性。
可选的,如果样本人声音频数据时长较长,可以将其分段处理,相应的,步骤101的处理可以如下:获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
在实施中,技术人员所获得的大量的音频数据中,可能会有时长较长的,例如一个音频数据要8分钟,甚至更长,那么其对应的样本人声音频数据也就相对较长,为了保证模型训练的效果,可以将音频数据进行分段,可以把一句或者几句歌词所对应的音频数据作为一个样本音频数据,再将该样本音频数据输入到训练好的人声音频数据提取模型中,就可以得到样本人声音频数据。
在步骤102中,获取目标音频数据的歌词文本数据,确定歌词文本数据对应的发音文本数据。
在实施中,技术人员可以通过互联网等资源,获得需要得到歌词显示数据的目标音频数据对应的歌词文本数据,该过程,可以是技术人员搜索了大量歌词文本资源,并将其与音频数据相对应,存储在服务器中。服务器再根据预先存储的歌词文本单元与发音文本单元的对应关系(通常称作发音字典),确定歌词文本数据中的每个歌词文本单元对应的发音文本单元,组成发音文本数据。
在步骤103中,将音频特征和发音文本数据,输入预先训练的发音时间信息识别模型,得到发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息。
其中,歌词文本单元可以为字,相应的,发音文本单元为字对应的拼音,或歌词文本单元可以为单词,相应的,发音文本单元为单词对应的音标,对于其他语种歌词文本单元与发音文本单元的对应关系,这里不做累述。时间信息可以包括该发音文本单元所对应的开始时间点和结束时间点。
在实施中,服务器将目标音频数据的音频特征和发音文本数据输入到预先训练好的发音时间识别模型中,便可以得到发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息。对于时间信息的存储,可以,将每个发音文本单元所对应的开始时间和结束时间都进行存储。还可以,将位于歌词句首的歌词文本单元对应的发音文本单元所对应的开始时间和结束时间进行存储,并将不位于歌词句首的其它歌词文本单元对应的发音文本单元的结束时间进行存储。
可选的,在进行歌词显示数据的制作之前,要预先训练发音时间信息识别模型,相应的,处理可以如下:获取样本人声音频数据,提取样本人声音频数据的样本音频特征;获取样本人声音频数据对应的样本歌词文本数据,确定样本歌词文本数据对应的样本发音文本数据;获取样本发音文本数据中每个发音文本单元在样本人声音频数据中对应的时间信息;将样本音频特征和该样本发音文本数据,作为样本输入数据,样本发音文本数据中每个发音文本单元在该样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到发音时间信息识别模型。
在实施中,技术人员可以通过互联网资源或者购买音源版权等方式获得大量的样本音频数据、与其对应的人声音频数据和样本歌词文本数据等,为了保证人声音频数据提取效果,样本音频数据会尽可能多的覆盖到各种风格,累计时长也会尽可能的多。其中,样本类型可以是流行音乐,摇滚音乐,民谣,还可以是,戏曲等。由于训练过程的数据量较大,可以在服务器进行进行。技术人员将获得的大量样本音频数据输入到人声音频数据提取模型中得到样本人声音频数据。根据预先存储的歌词文本单元与发音文本单元的对应关系,确定样本歌词文本数据中的每个歌词文本单元对应的发音文本单元,组成样本发音文本数据。其中,样本发音文本数据可以是整首歌曲的歌词文本对应的发音文本数据,也可以是部分歌曲的歌词文本对应的发音文本数据,部分歌曲可以是一段歌曲,也可以是一句歌曲。再对该样本人声音频数据按照预设的帧率进行重分帧处理(样本人声音频数据和目标音频数据的人声音频数据进行重分帧处理的帧率相同),然后再对其进行音频特征提取,具体音频特征提取方法见步骤101的说明内容,这里不做累述。然后将得到的样本音频特征和该样本发音文本数据,作为样本输入数据。
然后再获取样本发音文本数据中每个发音文本单元在样本人声音频数据中对应的时间信息,作为样本输出数据。具体获取方式可以多种多样,以下对其中两种方式进行介绍:一种是,在向音频版权方获取样本音频数据的同时向其获取对应的歌词显示数据,再基于该歌词显示数据中每个样本歌词文本单元所对应的时间信息,确定发音文本单元所对应的时间信息;另一种是,音频版权方没有提供歌词显示数据,则由技术人员对样本人声音频数据中的每个发音文本单元所对应的时间信息进行人工获取。
将样本输入数据输入到初始发音时间信息识别模型中,得到输出数据,再由服务器基于输出数据、样本输出数据和预设的训练算法,确定模型中每个待调整参数的调整值,对相应的待调整参数进行调整。
对于每个训练样本,都按照上述流程进行处理,得到最终的发音时间信息识别模型。其中该模型可以采用HMM-GMM(Hidden Markov Model-Gaussian Mixed Model,隐马尔科夫模型-高斯混合模型),训练包括monophone model(单音素模型)训练、triphone model(三音素模型)训练、speaker-adapted model(说话人自适应模型)训练等几个步骤,在数据量较大的情况下,也可以采用deep nueral network(深度神经网络)来替换HMM-GMM架构。
可选的,可以把不同采样率的样本人声音频数据转换为相同采样率的样本人声音频数据,相应的,处理可以如下:获取初始人声音频数据,将初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
其中,预设采样率是为了提高模型训练效果而预先设置的统一的采样频率。
在实施中,技术人员可以预先将样本人声音频数据的采样率设置到一个合理值,例如44100Hz,然后将样本人声数据的不同的采样率转换为该预设采样率,这样就可以对相同采样率的样本人声数据进行后续处理,可以在一定程度上提高模型训练的效果。
可选的,还可以把目标音频数据转换为与训练时的样本人声音频数据相同的采样率,相应的,上述步骤101的处理可以如下:将目标音频数据转换为预设采样率的音频数据,提取预设采样率的音频数据中的人声音频数据。
在实施中,为了提高制作歌词显示数据的准确度,可以在提取人声音频数据之前,将目标音频数据的采样率转换为预设的采样率,这样就可以通过人声音频数据提取模型,得到该相同采样率的人声音频数据,在后续的发音时间信息识别过程中,能得到更加准确的发音时间信息。
在步骤104中,基于发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息,确定歌词文本数据中每个歌词文本单元在人声音频数据中对应的时间信息,得到目标音频数据的歌词显示数据。
其中,歌词显示数据包括歌词文本数据及其中的每个歌词文本单元(如字或词等)对应的时间信息。
在实施中,根据预先存储的歌词文本单元与发音文本单元的对应关系,确定每个发音文本单元所对应的歌词文本单元,将每个发音文本单元对应的时间信息,确定为发音文本单元对应的歌词文本单元所对应的时间信息,这样就得到了歌词文本数据中每个歌词文本单元在人声音频数据中对应的时间信息,即为目标音频数据的歌词显示数据。对于实际的显示效果,可以有多种情况,下面举两个例子进行说明:一种情况,将每句的第一个字的开始时间和每个字的结束时间进行记录,那么,在歌词显示时,可以表现在,当每句开始时,这句第一个字的颜色就会改变,当这个字结束时,下一个字会立刻改变颜色,直到最后一个字结束。另一种情况,可以是,将每个字的开始时间和结束时间都进行记录,那么,在歌词显示时,可以表现在,每个字开始时颜色都会改变,但是前一个字结束时,下一个字的颜色不会立刻改变,要到下一个字的开始时间,这个字颜色才会改变,当然,下一个字的开始时间和前一个字的结束时间也可以相同。
如图2所示,结合本发明实施例使用的模型以及模型的输入输出,对方案的执行过程进行了示意说明。
基于相同的技术构思,本发明实施例还提供了一种确定歌词显示数据的装置,该装置可以为上述实施例中的服务器,如图3所示,该装置包括:提取模块301,获取模块302、识别模块303、确定模块304、训练模块305。
提取模块301,用于提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;
获取模块302,用于获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;
识别模块303,用于将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;
确定模块304,用于基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。
可选的,所述装置还包括训练模块305,用于:
获取样本人声音频数据,提取所述样本人声音频数据的样本音频特征;
获取所述样本人声音频数据对应的样本歌词文本数据,确定所述样本歌词文本数据对应的样本发音文本数据;
获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息;
将所述样本音频特征和所述样本发音文本数据,作为样本输入数据,所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到所述发音时间信息识别模型。
可选的,所述训练模块305,用于:
获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
可选的,所述训练模块305,用于:
获取初始人声音频数据,将所述初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
可选的,所述训练模块305,用于:
将所述目标音频数据转换为预设采样率的音频数据,提取所述预设采样率的音频数据中的人声音频数据。
可选的,所述歌词文本单元为字,所述发音文本单元为字对应的拼音;或者,
所述歌词文本单元为单词,所述发音文本单元为单词对应的音标。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是:上述实施例提供的确定歌词显示数据的装置在确定歌词显示数据时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定歌词显示数据的装置与确定歌词显示数据的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中的识别动作类别的方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述确定歌词显示数据的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种确定歌词显示数据的方法,其特征在于,所述方法包括:
提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;
获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;
将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;
基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本人声音频数据,提取所述样本人声音频数据的样本音频特征;
获取所述样本人声音频数据对应的样本歌词文本数据,确定所述样本歌词文本数据对应的样本发音文本数据;
获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息;
将所述样本音频特征和所述样本发音文本数据,作为样本输入数据,所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到所述发音时间信息识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取样本人声音频数据,包括:
获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
4.根据权利要求2所述的方法,其特征在于,所述获取样本人声音频数据,包括:
获取初始人声音频数据,将所述初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
5.根据权利要求4所述的方法,其特征在于,所述提取目标音频数据中的人声音频数据,包括:
将所述目标音频数据转换为预设采样率的音频数据,提取所述预设采样率的音频数据中的人声音频数据。
6.根据权利要求1所述的方法,其特征在于,所述歌词文本单元为字,所述发音文本单元为字对应的拼音;或者,
所述歌词文本单元为单词,所述发音文本单元为单词对应的音标。
7.一种确定歌词显示数据的装置,其特征在于,所述装置包括:
提取模块,用于提取目标音频数据中的人声音频数据,提取所述人声音频数据的音频特征;
获取模块,用于获取所述目标音频数据的歌词文本数据,确定所述歌词文本数据对应的发音文本数据;
识别模块,用于将所述音频特征和所述发音文本数据,输入预先训练的发音时间信息识别模型,得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息;
确定模块,用于基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息,确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息,得到所述目标音频数据的歌词显示数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括训练模块,用于:
获取样本人声音频数据,提取所述样本人声音频数据的样本音频特征;
获取所述样本人声音频数据对应的样本歌词文本数据,确定所述样本歌词文本数据对应的样本发音文本数据;
获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息;
将所述样本音频特征和所述样本发音文本数据,作为样本输入数据,所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息,作为样本输出数据,组成训练样本,对初始发音时间信息识别模型进行训练,得到所述发音时间信息识别模型。
9.根据权利要求8所述的装置,其特征在于,所述训练模块,用于:
获取歌曲音频数据中单句歌词对应的人声音频数据,作为样本人声音频数据。
10.根据权利要求8所述的装置,其特征在于,所述训练模块,用于:
获取初始人声音频数据,将所述初始人声音频数据转换为预设采样率的人声音频数据,作为样本人声音频数据。
11.根据权利要求10所述的装置,其特征在于,所述提取模块,用于:
将所述目标音频数据转换为预设采样率的音频数据,提取所述预设采样率的音频数据中的人声音频数据。
12.根据权利要求7所述的装置,其特征在于,所述歌词文本单元为字,所述发音文本单元为字对应的拼音;或者,
所述歌词文本单元为单词,所述发音文本单元为单词对应的音标。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。
CN201810838032.7A 2018-07-26 2018-07-26 一种确定歌词显示数据的方法和装置 Pending CN109102800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810838032.7A CN109102800A (zh) 2018-07-26 2018-07-26 一种确定歌词显示数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810838032.7A CN109102800A (zh) 2018-07-26 2018-07-26 一种确定歌词显示数据的方法和装置

Publications (1)

Publication Number Publication Date
CN109102800A true CN109102800A (zh) 2018-12-28

Family

ID=64847543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810838032.7A Pending CN109102800A (zh) 2018-07-26 2018-07-26 一种确定歌词显示数据的方法和装置

Country Status (1)

Country Link
CN (1) CN109102800A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782917A (zh) * 2019-11-01 2020-02-11 广州美读信息技术有限公司 一种诗词吟诵风格的分类方法与系统
CN111475672A (zh) * 2020-03-27 2020-07-31 咪咕音乐有限公司 一种歌词分配方法、电子设备及存储介质
CN112257407A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112380380A (zh) * 2020-12-09 2021-02-19 腾讯音乐娱乐科技(深圳)有限公司 显示歌词的方法、装置、设备及计算机可读存储介质
CN112786020A (zh) * 2021-01-21 2021-05-11 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质
WO2022022395A1 (zh) * 2020-07-30 2022-02-03 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
EP4362007A1 (en) * 2022-10-24 2024-05-01 Spotify AB Systems and methods for lyrics alignment

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651788A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种在线语音文本对齐系统及方法
CN102801925A (zh) * 2012-08-08 2012-11-28 无锡天脉聚源传媒科技有限公司 一种字幕加配的方法及装置
CN103003875A (zh) * 2010-05-18 2013-03-27 沙扎姆娱乐有限公司 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
US20160014438A1 (en) * 2014-07-14 2016-01-14 Hulu, LLC Caption and Speech Alignment for a Video Delivery System
CN105741835A (zh) * 2016-03-18 2016-07-06 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651788A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种在线语音文本对齐系统及方法
CN103003875A (zh) * 2010-05-18 2013-03-27 沙扎姆娱乐有限公司 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
CN102801925A (zh) * 2012-08-08 2012-11-28 无锡天脉聚源传媒科技有限公司 一种字幕加配的方法及装置
CN103559214A (zh) * 2013-10-11 2014-02-05 中国农业大学 视频自动生成方法及装置
US20160014438A1 (en) * 2014-07-14 2016-01-14 Hulu, LLC Caption and Speech Alignment for a Video Delivery System
CN105741835A (zh) * 2016-03-18 2016-07-06 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782917A (zh) * 2019-11-01 2020-02-11 广州美读信息技术有限公司 一种诗词吟诵风格的分类方法与系统
CN110782917B (zh) * 2019-11-01 2022-07-12 广州美读信息技术有限公司 一种诗词吟诵风格的分类方法与系统
CN111475672A (zh) * 2020-03-27 2020-07-31 咪咕音乐有限公司 一种歌词分配方法、电子设备及存储介质
CN111475672B (zh) * 2020-03-27 2023-12-08 咪咕音乐有限公司 一种歌词分配方法、电子设备及存储介质
WO2022022395A1 (zh) * 2020-07-30 2022-02-03 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN114064964A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN112257407A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112257407B (zh) * 2020-10-20 2024-05-14 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112380380A (zh) * 2020-12-09 2021-02-19 腾讯音乐娱乐科技(深圳)有限公司 显示歌词的方法、装置、设备及计算机可读存储介质
CN112786020A (zh) * 2021-01-21 2021-05-11 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质
CN112786020B (zh) * 2021-01-21 2024-02-23 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质
EP4362007A1 (en) * 2022-10-24 2024-05-01 Spotify AB Systems and methods for lyrics alignment

Similar Documents

Publication Publication Date Title
CN109102800A (zh) 一种确定歌词显示数据的方法和装置
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
CN106548775B (zh) 一种语音识别方法和系统
CN111862954A (zh) 一种语音识别模型的获取方法及装置
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
JP2006285254A (ja) 音声速度測定方法及び装置並びに録音装置
WO2023114064A1 (en) Adaptation and training of neural speech synthesis
JP2955297B2 (ja) 音声認識システム
CN113393830B (zh) 混合声学模型训练及歌词时间戳生成方法、设备、介质
CN114927122A (zh) 一种情感语音的合成方法及合成装置
Kruspe et al. Retrieval of Textual Song Lyrics from Sung Inputs.
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
EP4275203B1 (en) Self-learning end-to-end automatic speech recognition
CN114446268B (zh) 一种音频数据处理方法、装置、电子设备、介质和程序产品
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
CN112820281B (zh) 一种语音识别方法、装置及设备
CN112420022B (zh) 一种噪声提取方法、装置、设备和存储介质
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228

RJ01 Rejection of invention patent application after publication