CN109979422A - 基频处理方法、装置、设备及计算机可读存储介质 - Google Patents
基频处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109979422A CN109979422A CN201910130728.9A CN201910130728A CN109979422A CN 109979422 A CN109979422 A CN 109979422A CN 201910130728 A CN201910130728 A CN 201910130728A CN 109979422 A CN109979422 A CN 109979422A
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- preset
- sound
- training
- present frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 112
- 239000000284 extract Substances 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000009415 formwork Methods 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供一种基频处理方法、装置、设备及计算机可读存储介质,方法包括:接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基频处理方法、装置、设备及计算机可读存储介质。
背景技术
现今的语音合成技术已经可以生成流畅、逼真的语音。而歌唱合成技术作为其延伸,可以进一步拓展AI语音的能力和效果,其娱乐性和社交性也可以带来市场价值。
现有的歌唱合成基频建模一般采用基于传统的语音合成中隐马尔可夫模型(Hidden Markov Model,简称HMM)的统计建模的方式进行建模,同时为了解决数据稀疏的问题,对歌手基频值和乐谱音符换算基频值的差值而不是基频本身进行建模,为了增强表现力,在统计建模的基础上加入规则,以增加诸如颤音等表现方式、解决音符和音位的对应关系问题等等。
但是由于真实的歌声中,类似的技巧种类、变化繁多,单一的方法只能解决特定的问题,因此,采用上述方法只能够解决部分问题,从而导致基频表现力不高。
发明内容
本发明提供一种基频处理方法、装置、设备及计算机可读存储介质,用于解决现有歌唱合成基频建模方法只能够解决部分问题,从而导致基频表现力不高的技术问题。
本发明的第一个方面是提供一种基频处理方法,包括:
接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
根据预设的提取规则从所述待处理文件中提取待训练数据;
通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
本发明的另一个方面是提供一种基频处理装置,包括:
基频接收模块,用于接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
对齐模块,用于根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
提取模块,用于根据预设的提取规则从所述待处理文件中提取待训练数据;
训练模块,用于通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
本发明的又一个方面是提供一种基频处理设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的基频处理方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的基频处理方法。
本发明提供的基频处理方法、装置、设备及计算机可读存储介质,通过接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的基频处理方法的流程示意图;
图2为本发明实施例二提供的基频处理方法的流程示意图;
图3为本发明实施例三提供的基频处理方法的流程示意图;
图4为本发明实施例四提供的基频处理方法的流程示意图;
图5为本发明实施例提供的使用两层长短期记忆网络的神经网络模型的结构示意图;
图6为本发明实施例提供的使用扩张卷积的神经网络模型的结构示意图;
图7为本发明实施例提供的使用扩张卷积以及自回归方式的神经网络模型的结构示意图;
图8为本发明实施例五提供的基频处理装置的结构示意图;
图9为本发明实施例六提供的基频处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
现有的歌唱合成基频建模一般采用基于传统的语音合成中隐马尔可夫模型的统计建模的方式进行建模,同时为了解决数据稀疏的问题,对歌手基频值和乐谱音符换算基频值的差值而不是基频本身进行建模,为了增强表现力,在统计建模的基础上加入规则,以增加诸如颤音等表现方式、解决音符和音位的对应关系问题等等。但是由于真实的歌声中,类似的技巧种类、变化繁多,单一的方法只能解决特定的问题,因此,采用上述方法只能够解决部分问题,从而导致基频表现力不高。为了解决上述技术问题本发明提供了一种基频处理方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供基频处理方法、装置、设备及计算机可读存储介质可运用在任意一种基频建立的场景中。
图1为本发明实施例一提供的基频处理方法的流程示意图,如图1所示,所述方法包括:
步骤101、接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
步骤102、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
步骤103、根据预设的提取规则从所述待处理文件中提取待训练数据;
步骤104、通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
在本实施例中,为了实现对基频的建立,首先需要对歌唱音频以及音符音频进行基频的提取,具体地,可以通过第一基频提取工具提取歌唱音频的第一基频,可以通过第二基频提取工具提取音符音频的第二基频,其中,改第一基频提取工具与第二基频提取工具可以是任意一种能够实现基频提取的工具,本发明在此不做限制,举例来说,该第二基频提取工具可以为MIDI提取工具。可以理解的是,由于第一基频与第二基频分别采用不同的基频提取工具提取,因此,二者可能存在出入,为了提高建模的精准度,需要根据预设的对齐规则对第一基频与第二基频进行对齐操作,获得待处理文件。为了实现对基频建立神经网络模型的建立,首先需要确定该基频建立神经网络模型的输入特征与输出特征。具体地,可以根据预设的提取规则从待处理文件中获取待训练数据,其中,待处理数据中包括输入特征与输出特征。进而可以根据该待训练数据对预先建立的待训练模型进行训练,直至待训练模型收敛,获得基频建立模型。从而后续可以通过该基频实现对基频的建立。
本实施例提供的基频处理方法,通过接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
图2为本发明实施例二提供的基频处理方法的流程示意图,在上述任一实施例的基础上,所述方法包括:
步骤201、接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
步骤202、按照预设的时间间隔,分别将所述第一基频与所述第二基频分割为至少一段基频片段;
步骤203、针对第一基频与所述第二基频中位置相对应的各基频片段,根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件;
步骤204、根据预设的提取规则从所述待处理文件中提取待训练数据;
步骤205、通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
在本实施例中,由于第一基频与第二基频分别采用不同的基频提取工具提取,因此,二者可能存在出入,为了提高建模的精准度,需要根据预设的对齐规则对第一基频与第二基频进行对齐操作。具体地,可以首先按照预设的时间间隔,分别将第一基频与第二基频分割为至少一段基频片段。通过将第一基频与第二基频分割为至少一段基频片段再进行第一基频与第二基频的对齐操作,从而能够提高基频对齐的精准性,此外,对每一段基频片段进行对齐操作,还能够提高对齐操作的效率。进一步地,对第一基频与第二基频进行分割之后,可以分别确定第一基频与第二基频中位置相对应的基频片段,针对各基频片段,可以根据其音高的接近程度进行对齐操作。可以理解的是,若第一基频的基频片段与第二基频的基频片段相似度超过预设的阈值,则可以表征二者为同一位置,从而根据音高相似度进行对齐操作能够精准地使第一基频与第二基频保持对齐,进而能够提高建模的精准度。作为一种可以实施的方式,还可以根据预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件。可选第,上述两个实施方式可以单独实施,也可以结合实施,本发明在此不做限制。
本实施例提供的基频处理方法,通过按照预设的时间间隔,分别将所述第一基频与所述第二基频分割为至少一段基频片段,针对第一基频与所述第二基频中位置相对应的各基频片段,根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件,从而能够精准地使第一基频与第二基频保持对齐,进而能够提高建模的精准度。
图3为本发明实施例三提供的基频处理方法的流程示意图,在上述任一实施例的基础上,所述待处理数据中包括输入特征与输出特征;如图3所示,所述方法包括:
步骤301、接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
步骤302、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
步骤303、根据预设的经验知识从所述待处理文件中提取输入特征;
步骤304、将所述第一基频与第二基频的差值作为所述输出特征;
步骤305、通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
在本实施例中,对第一基频与第二基频进行对齐操作之后,可以从待处理文件中提取待处理数据。该待处理数据具体包括输入特征以及输出特征。其中,可以根据预设的经验知识从待处理文件中提取输入特征。可以根据历史经验总结出对基频影响较大的特征,并将对基频影响较大的特征作为该预设的经验知识,从而能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题。此外,可以将第一基频与第二基频的差值作为输出特征,需要说明的是,由于现代音律都采用十二平均律,音符对应的基频在log域下是等差排列的,因此如果输入的特征不采用音符转换的基频值,而是采用他们之间的相对差值,则进一步降低了对数据量的要求,部分解决了基频建模数据稀疏的问题,进一步地提高模型的精度。确定输入特征以及输出特征之后,可以根据该输入特征以及输出特征实现对待训练模型的训练,从而在训练过程中,待训练模型能够对输入特征以及输出特征之间的关联关系进行学习,以便后续根据该训练后的基频建立模型实现基频的建立。
本实施例提供的基频处理方法,通过根据预设的经验知识从所述待处理文件中提取输入特征,将所述第一基频与第二基频的差值作为所述输出特征,从而能够在有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题的基础上,解决了基频建模数据稀疏的问题,进一步地提高模型的精度。
进一步地,在上述任一实施例的基础上,所述预设的经验知识包括以下至少一项:
当前帧所属保持音和前一个保持音之间的基频差值;当前帧所属保持音与下一个保持音之间的基频差值;与当前帧所属保持音距离小于预设阈值的保持音的时长;与当前帧所属保持音距离小预设的阈值的无声音节的时长;当前帧所属保持音的时长;当前帧所属保持音在当前乐句中的前向位置;当前帧在所属保持音中的粗码;当前帧所属音位在当前乐句中的前向位置;当前帧在所属音位中的粗码。
在本实施例中,通过历史经验对基频中的特征进行整理,能够确定多个对基频多样化影响较大的特征,因此,获取到第一基频以及第二基频,并对第一基频与第二基频进行对齐操作之后,可以确定第一基频与第二基频中当前帧所属保持音和前一个保持音之间的基频差值;当前帧所属保持音与下一个保持音之间的基频差值;与当前帧所属保持音距离小于预设阈值的保持音的时长;与当前帧所属保持音距离小预设的阈值的无声音节的时长;当前帧所属保持音的时长;当前帧所属保持音在当前乐句中的前向位置;当前帧在所属保持音中的粗码;当前帧所属音位在当前乐句中的前向位置;当前帧在所属音位中的粗码。
本实施例提供的基频处理方法,通过根据预设的经验知识从所述待处理文件中提取输入特征,从而能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题。
进一步地,在上述任一实施例的基础上,所述方法包括:
接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
根据预设的提取规则从所述待处理文件中提取待训练数据;
将所述待训练数据输入至所述待训练模型,以使所述待训练模型根据所述待训练数据进行迭代训练;
直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值,获得所述基频建立模型。
在本实施例中,获取第一基频以及第二基频,并对第一基频与第二基频进行对齐操作,从第一基频与第二基频中提取出待训练文件之后,可以根据该待训练数据对预设的待训练模型进行训练,实现基频建立模型的生成。具体地,可以将待训练数据输入至待训练模型中,以使待训练模型根据该待训练数据进行迭代训练,并不断调整待训练模型的参数,直至待训练模型的输出结果与输出特征的差值小于预设的阈值,获得基频建立模型。
本实施例提供的基频处理方法,通过将所述待训练数据输入至所述待训练模型,以使所述待训练模型根据所述待训练数据进行迭代训练;直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值,获得所述基频建立模型,从而能够实现对基频建立模型的生成,为后续基频的建立提供了基础。
图4为本发明实施例四提供的基频处理方法的流程示意图,在上述任一实施例的基础上,所述方法还包括:
步骤401、接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
步骤402、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
步骤403、根据预设的提取规则从所述待处理文件中提取待训练数据;
步骤404、通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型;
步骤405、获取待建立基频数据,将所述待建立基频数据输入至所述基频建立模型中,获得处理结果;
步骤406、根据所述处理结果对所述待建立基频数据进行调整,获得调整后的基频数据。
在本实施例中,获得基频建立模型之后,可以根据该基频建立模型实现对基频的建立。具体地,可以获取待建立基频数据,并将待建立基频数据输入至基频建立模型中,获得基频建立模型输出的处理结果。可以理解的是,基频建立模型输出的处理结果为基频的差值,从而得到处理结果之后,可以根据该处理结果对输入的待建立基频数据进行调整,获得调整后的基频数据。由于基频建立模型是通过历史总结的对基频多样化影响较大的多个特征获得的待训练数据训练获得的,因此能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题,从而通过该基频建立模型输出的处理结果调整获得的调整后的基频数据表现力较强。
本实施例提供的基频处理方法,通过获取待建立基频数据,将所述待建立基频数据输入至所述基频建立模型中,获得处理结果,根据所述处理结果对所述待建立基频数据进行调整,获得调整后的基频数据。由于基频建立模型是通过历史总结的对基频多样化影响较大的多个特征获得的待训练数据训练获得的,因此能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题,从而通过该基频建立模型输出的处理结果调整获得的调整后的基频数据表现力较强。
进一步地,在上述任一实施例的基础上,图5为本发明实施例提供的使用两层长短期记忆网络的神经网络模型的结构示意图,图6为本发明实施例提供的使用扩张卷积的神经网络模型的结构示意图,图7为本发明实施例提供的使用扩张卷积以及自回归方式的神经网络模型的结构示意图,如图5-7所示,所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。
在本实施例中,如图5所示,待训练模型具体可以为使用两层长短期记忆网络(Long-Short Term Memory,简称LSTM)神经网络模型,其中,T为tanh激活函数,通过使用两层长短期记忆网络的神经网络模型能够比较好地建模特征序列到目标序列的映射关系。可选地,如图6所示,待训练模型具体可以为使用扩张卷积的神经网络模型,扩张卷积可以增加神经网络的感受域,并且不会因历史时序过长而导致的梯度消失问题。同时,可利用残差机制增加网络深度,以进一步增加对历史信息的累积,从而能够使模型的视野域更广,同时可以增加训练速度和生成速度。可选地,如图7所示,待训练模型具体可以为使用扩张卷积以及自回归方式的神经网络模型,建立了从目标序列到目标序列自身的映射关系,并叠加了特征信息。从而能够使模型的视野域更广,同时考虑了目标序列自身的历史信息,建模更准确,此外还能够提高模型训练速度。
本实施例提供的基频处理方法,通过待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种,从而能够提高模型训练速度以及精度。
图8为本发明实施例五提供的基频处理装置的结构示意图,在上述任一实施例的基础上,所述基频处理装置包括:
基频接收模块51,用于接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
对齐模块52,用于根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
提取模块53,用于根据预设的提取规则从所述待处理文件中提取待训练数据;
训练模块54,用于通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
本实施例提供的基频处理装置,通过接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
进一步地,在上述任一实施例的基础上,所述对齐模块包括:
分割单元,用于按照预设的时间间隔,分别将所述第一基频与所述第二基频分割为至少一段基频片段;
对齐单元,用于针对第一基频与所述第二基频中位置相对应的各基频片段,根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件。
进一步地,在上述任一实施例的基础上,所述待处理数据中包括输入特征与输出特征;
相应地,所述提取模块包括:
第一提取单元,用于根据预设的经验知识从所述待处理文件中提取输入特征;
第二提取单元,用于将所述第一基频与第二基频的差值作为所述输出特征。
进一步地,在上述任一实施例的基础上,所述预设的经验知识包括以下至少一项:
当前帧所属保持音和前一个保持音之间的基频差值;当前帧所属保持音与下一个保持音之间的基频差值;与当前帧所属保持音距离小于预设阈值的保持音的时长;与当前帧所属保持音距离小预设的阈值的无声音节的时长;当前帧所属保持音的时长;当前帧所属保持音在当前乐句中的前向位置;当前帧在所属保持音中的粗码;当前帧所属音位在当前乐句中的前向位置;当前帧在所属音位中的粗码。
进一步地,在上述任一实施例的基础上,所述训练模块包括:
训练单元,用于将所述待训练数据输入至所述待训练模型,以使所述待训练模型根据所述待训练数据进行迭代训练,直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值,获得所述基频建立模型。
进一步地,在上述任一实施例的基础上,所述装置还包括:
处理模块,用于获取待建立基频数据,将所述待建立基频数据输入至所述基频建立模型中,获得处理结果;
调整模块,用于根据所述处理结果对所述待建立基频数据进行调整,获得调整后的基频数据。
进一步地,在上述任一实施例的基础上,所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。
图9为本发明实施例六提供的基频处理设备的结构示意图,如图9所示,所述基频处理设备,包括:存储器61,处理器62;
存储器61;用于存储所述处理器62可执行指令的存储器61;
其中,所述处理器62被配置为由所述处理器62执行如上述任一实施例所述的基频处理方法。
本发明又一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基频处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (16)
1.一种基频处理方法,其特征在于,包括:
接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
根据预设的提取规则从所述待处理文件中提取待训练数据;
通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件,包括:
按照预设的时间间隔,分别将所述第一基频与所述第二基频分割为至少一段基频片段;
针对第一基频与所述第二基频中位置相对应的各基频片段,根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件。
3.根据权利要求1所述的方法,其特征在于,所述待处理数据中包括输入特征与输出特征;
相应地,所述根据预设的提取规则从所述待处理文件中提取待训练数据,包括:
根据预设的经验知识从所述待处理文件中提取输入特征;
将所述第一基频与第二基频的差值作为所述输出特征。
4.根据权利要求3所述的方法,其特征在于,所述预设的经验知识包括以下至少一项:
当前帧所属保持音和前一个保持音之间的基频差值;当前帧所属保持音与下一个保持音之间的基频差值;与当前帧所属保持音距离小于预设阈值的保持音的时长;与当前帧所属保持音距离小预设的阈值的无声音节的时长;当前帧所属保持音的时长;当前帧所属保持音在当前乐句中的前向位置;当前帧在所属保持音中的粗码;当前帧所属音位在当前乐句中的前向位置;当前帧在所属音位中的粗码。
5.根据权利要求1所述的方法,其特征在于,所述通过所述待训练数据对预设的待训练模型进行训练,包括:
将所述待训练数据输入至所述待训练模型,以使所述待训练模型根据所述待训练数据进行迭代训练,直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值,获得所述基频建立模型。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述通过所述待训练数据对预设的待训练模型进行训练,获得所述基频建立模型之后,还包括:
获取待建立基频数据,将所述待建立基频数据输入至所述基频建立模型中,获得处理结果;
根据所述处理结果对所述待建立基频数据进行调整,获得调整后的基频数据。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。
8.一种基频处理装置,其特征在于,包括:
基频接收模块,用于接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;
对齐模块,用于根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;
提取模块,用于根据预设的提取规则从所述待处理文件中提取待训练数据;
训练模块,用于通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。
9.根据权利要求8所述的装置,其特征在于,所述对齐模块包括:
分割单元,用于按照预设的时间间隔,分别将所述第一基频与所述第二基频分割为至少一段基频片段;
对齐单元,用于针对第一基频与所述第二基频中位置相对应的各基频片段,根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作,获得所述待处理文件。
10.根据权利要求8所述的装置,其特征在于,所述待处理数据中包括输入特征与输出特征;
相应地,所述提取模块包括:
第一提取单元,用于根据预设的经验知识从所述待处理文件中提取输入特征;
第二提取单元,用于将所述第一基频与第二基频的差值作为所述输出特征。
11.根据权利要求10所述的方法,其特征在于,所述预设的经验知识包括以下至少一项:
当前帧所属保持音和前一个保持音之间的基频差值;当前帧所属保持音与下一个保持音之间的基频差值;与当前帧所属保持音距离小于预设阈值的保持音的时长;与当前帧所属保持音距离小预设的阈值的无声音节的时长;当前帧所属保持音的时长;当前帧所属保持音在当前乐句中的前向位置;当前帧在所属保持音中的粗码;当前帧所属音位在当前乐句中的前向位置;当前帧在所属音位中的粗码。
12.根据权利要求8所述的装置,其特征在于,所述训练模块包括:
训练单元,用于将所述待训练数据输入至所述待训练模型,以使所述待训练模型根据所述待训练数据进行迭代训练,直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值,获得所述基频建立模型。
13.根据权利要求8-12任一项所述的装置,其特征在于,所述装置还包括:
处理模块,用于获取待建立基频数据,将所述待建立基频数据输入至所述基频建立模型中,获得处理结果;
调整模块,用于根据所述处理结果对所述待建立基频数据进行调整,获得调整后的基频数据。
14.根据权利要求8-12任一项所述的装置,其特征在于,所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。
15.一种基频处理设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-7任一项所述的基频处理方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的基频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130728.9A CN109979422B (zh) | 2019-02-21 | 2019-02-21 | 基频处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130728.9A CN109979422B (zh) | 2019-02-21 | 2019-02-21 | 基频处理方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109979422A true CN109979422A (zh) | 2019-07-05 |
CN109979422B CN109979422B (zh) | 2021-09-28 |
Family
ID=67077173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130728.9A Active CN109979422B (zh) | 2019-02-21 | 2019-02-21 | 基频处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979422B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN113096623A (zh) * | 2021-03-26 | 2021-07-09 | 北京儒博科技有限公司 | 语音处理方法、装置、电子设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227429A (ja) * | 2005-02-18 | 2006-08-31 | Doshisha | 楽譜情報抽出方法、及び、楽譜情報抽出装置 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN101504834A (zh) * | 2009-03-25 | 2009-08-12 | 深圳大学 | 一种基于隐马尔可夫模型的哼唱式旋律识别方法 |
CN102522083A (zh) * | 2011-11-29 | 2012-06-27 | 北京百纳威尔科技有限公司 | 一种应用移动终端搜索哼唱歌曲的方法及其移动终端 |
CN102664016A (zh) * | 2012-04-23 | 2012-09-12 | 安徽科大讯飞信息科技股份有限公司 | 唱歌评测方法及系统 |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
CN108182936A (zh) * | 2018-03-14 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
-
2019
- 2019-02-21 CN CN201910130728.9A patent/CN109979422B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227429A (ja) * | 2005-02-18 | 2006-08-31 | Doshisha | 楽譜情報抽出方法、及び、楽譜情報抽出装置 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN101504834A (zh) * | 2009-03-25 | 2009-08-12 | 深圳大学 | 一种基于隐马尔可夫模型的哼唱式旋律识别方法 |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
CN102522083A (zh) * | 2011-11-29 | 2012-06-27 | 北京百纳威尔科技有限公司 | 一种应用移动终端搜索哼唱歌曲的方法及其移动终端 |
CN102664016A (zh) * | 2012-04-23 | 2012-09-12 | 安徽科大讯飞信息科技股份有限公司 | 唱歌评测方法及系统 |
CN108182936A (zh) * | 2018-03-14 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
Non-Patent Citations (3)
Title |
---|
吴晶晶等: "乐音音符基频识别", 《电子测量技术》 * |
李贤: "基于统计模型的汉语歌声合成研究", 《中国博士学位论文全文数据库信息科技辑》 * |
陈玉东: "《传媒有声语言实验研究》", 30 November 2006 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111583903B (zh) * | 2020-04-28 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN113096623A (zh) * | 2021-03-26 | 2021-07-09 | 北京儒博科技有限公司 | 语音处理方法、装置、电子设备及介质 |
CN113096623B (zh) * | 2021-03-26 | 2023-07-14 | 北京如布科技有限公司 | 语音处理方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109979422B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nishimura et al. | Singing Voice Synthesis Based on Deep Neural Networks. | |
US10255910B2 (en) | Centered, left- and right-shifted deep neural networks and their combinations | |
CN101369423A (zh) | 语音合成方法和装置 | |
CN102664016A (zh) | 唱歌评测方法及系统 | |
CN101004910A (zh) | 处理语音的装置和方法 | |
CN103915093B (zh) | 一种实现语音歌唱化的方法和装置 | |
Nakamura et al. | HMM-based singing voice synthesis and its application to Japanese and English | |
CN105023574B (zh) | 一种实现合成语音增强的方法及系统 | |
KR20190010135A (ko) | 인공지능을 이용한 음악 생성 장치 및 방법 | |
JP2020003536A (ja) | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム | |
CN109119067A (zh) | 语音合成方法及装置 | |
CN110415725A (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN109979422A (zh) | 基频处理方法、装置、设备及计算机可读存储介质 | |
CN103456295A (zh) | 歌唱合成中基频参数生成方法及系统 | |
CN109036376A (zh) | 一种闽南语语音合成方法 | |
CN106971743A (zh) | 用户演唱数据处理方法和装置 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Shirota et al. | Integration of speaker and pitch adaptive training for HMM-based singing voice synthesis | |
CN112712783B (zh) | 生成音乐的方法和装置、计算机设备和介质 | |
Prom-on et al. | Functional Modeling of Tone, Focus and Sentence Type in Mandarin Chinese. | |
Chang et al. | On the importance of modeling and robustness for deep neural network feature | |
Makhijani et al. | Isolated word speech recognition system using dynamic time warping | |
JP2015161927A (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
KR101727306B1 (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
Mase et al. | HMM-based singing voice synthesis system using pitch-shifted pseudo training data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |