CN103915093B - 一种实现语音歌唱化的方法和装置 - Google Patents

一种实现语音歌唱化的方法和装置 Download PDF

Info

Publication number
CN103915093B
CN103915093B CN201210591777.0A CN201210591777A CN103915093B CN 103915093 B CN103915093 B CN 103915093B CN 201210591777 A CN201210591777 A CN 201210591777A CN 103915093 B CN103915093 B CN 103915093B
Authority
CN
China
Prior art keywords
unit
basic
fundamental frequency
note
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210591777.0A
Other languages
English (en)
Other versions
CN103915093A (zh
Inventor
孙见青
凌震华
江源
何婷婷
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to PCT/CN2012/087999 priority Critical patent/WO2014101168A1/zh
Priority to CN201210591777.0A priority patent/CN103915093B/zh
Publication of CN103915093A publication Critical patent/CN103915093A/zh
Application granted granted Critical
Publication of CN103915093B publication Critical patent/CN103915093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明实施例公开了一种实现语音歌唱化的方法和装置,所述方法包括:接收用户输入的语音信号;将所述语音信号切分获得各基本考察单元的语音片断;根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失,实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

Description

一种实现语音歌唱化的方法和装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种实现语音歌唱化的方法和装置。
背景技术
近年来,歌唱合成系统,即将用户输入的文本数据转换为歌唱语音的方法以及得到了广泛的研究和应用。歌唱合成系统的实现首先要求录制大量的歌曲数据,包括语音数据和简谱数据等,以提供合成系统所需的语音片段或训练可靠的模型参数。然后,由于歌曲数据录制的代价较大,歌唱合成系统通常只能选择录制某个特定发音人的数据,相应的提供的歌唱合成效果限定为特定发音人的音色,不适合个性化定制,无法实现到特定音色的演绎,特别是用户自身音色的重现。
针对上述问题,现有技术中开发了一种歌唱合成方法,允许设备接收用户以说话风格方式输入的语音数据,系统按照预设的简谱对语音数据进行优化实现歌曲合成。这种方式保留了用户语音数据的音色,实现个性化合成。具体操作包括:(1)系统接收用户说话风格的歌词语音输入;(2)通过人工切分的方式将语音信号切分为各个独立的基于音素单元的语音片段;(3)并根据简谱标注确定各音素单元和简谱音符的对应关系;(4)系统从各音素单元的语音片段中提取声学频谱特征,基频特征等;(5)系统根据简谱标注信息确定目标歌曲的基频F0特征参数和时长特征,并据此调整各音素单元的基频特征和时长;(6)系统根据各音素单元的声学频谱特征,以及韵律特征(如:基频特征及时长特征等),合成歌唱语音输出。
该现有技术虽然实现了从说话风格语音信号到歌唱风格的转换,但具有如下问题:
一方面,该方案只能实现简谱对应的歌词的说话风格语音输入的转换。也就是说用户只能输入指定歌曲的歌词,无法实现对任意长度的,任意内容的歌曲合成效果转换,应用方法受限,同时也降低了娱乐效果;
进一步,该方案通过人工切分方式,实现了说话风格的连续语音信号的切分,以及简谱音符的对应。对人工要求较高,受到语种的限制,无法普适推广。
而且,该方案采用的是参数合成方式,即首先将语音信号转换为声学特征,随后在特征层面上按照歌唱标准进行优化,最后按照合成方式从优化特征中合成得到连续语音信号。显然从语音信号到特征参数的转换,以及特征参数到语音信号的合成中均存在信号的损失,音质有明显的下降。
发明内容
本发明实施例提供了一种实现语音歌唱化的方法和装置,能够自动对语音进行切分,而且可以将任意长度和任意内容的说话语音转换为用户需要的歌曲。
本发明实施例提供了一种实现语音歌唱化的方法,所述方法包括:
接收用户输入的语音信号;
将所述语音信号切分获得各基本考察单元的语音片断;
根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;
根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。
本发明实施例还提供了一种实现语音歌唱化的装置,该装置包括:接收单元,切分单元,获取对应关系单元,获取基频单元,获取时长单元,和调整单元;
所述接收单元,用于接收用户输入的语音信号;
所述切分单元,用于将所述语音信号切分获得各基本考察单元的语音片断;
所述获取对应关系单元,用于确定简谱中的各音符与所述各基本考察单元的对应关系;
所述获取基频单元,用于根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
所述获取时长单元,用于根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
所述调整单元,用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。
从以上技术方案可以看出,本发明实施例具有以下优点:可以将输入的语音信号波形直接进行调整,通过对波形的直接优化,避免了多次信号转换的损失;且本发明实施例提供的技术方案,可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种实现语音歌唱化的方法流程示意简图;
图2为本发明实施例提供的另一种实现语音歌唱化的方法流程示意简图;
图3为本发明实施例中将语音信号切分为基本考察单元的语音片段的流程示意简图;
图4为预先定义的搜索网络示例;
图5为本发明实施例中获取简谱中的音符与基本考察单元的对应关系流程示意简图;
图6为本发明实施例中实现可根据不同发音人的音域特点对获取的目标基频值进行优化的操作流程示意简图;
图7a为本发明实施例中获取每个基本考察单元的目标时长操作流程示意简图;
图7b所示获取音符的节拍数的举例;
图8为本发明实施例提供的一种实现语音歌唱化的装置示意简图;
图9为本发明实施例提供的切分单元示意简图;
图10为本发明实施例提供的获取对应关系单元示意简图;
图11为本发明实施例提供的调整基调单元示意简图;
图12为本发明实施例提供的获取时长单元示意简图。
具体实施方式
本发明实施例提供了一种实现语音歌唱化的方法和装置,可以对用户任意语音输入,通过对该语音输入自动切分为基本考察单元的语音片段,再对划分的各基本考察单元进行语音片断的歌唱化调整,实现将用户语音转换为歌唱语音输出。
实施例一
如图1所示本发明实施例提供的一种实现语音歌唱化的方法流程示意图。
步骤101,接收用户输入的语音信号;
步骤102,将所述语音信号切分获得各基本考察单元的语音片断;其中,所述基本考察单元为单个音符所对应的最小的发音单元,如中文歌曲的字符,英文歌曲的音节等。
步骤103,根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;
步骤104,根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
步骤105,根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
步骤106,根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。
本发明实施例提供的一种实现语音歌唱化的方法,在确定简谱中的音符与基本考察单元的对应关系后,可以根据简谱中各音符的音高,和简谱中各音符的节拍数,确定每个基本考察单元的目标基频值,和每个基本考察单元的目标时长;随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值,调整后的语音的时长为确定的目标时长。因此,该方法通过对输入的语音信号波形直接进行调整,避免了多次信号转换的损失;且本发明实施例提供的技术方案,可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换;也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。
实施例二
如图2所示,本发明实施例提供的一种实现语音歌唱化的方法流程示意图。
步骤S10,接收用户输入的语音信号。
步骤S11,将语音信号切分为基本考察单元的语音片断。
在本发明实施例中将语音信号切分为基本考察单元的语音片断,具体的操作如图3所示,包括:
步骤S111,对语音信号进行预处理,该预处理操作具体可以是对语音信号进行降噪处理;具体可以是通过维纳滤波等技术对语音片断进行语音增强,提高后续系统对该信号的处理能力。
步骤S112,从语音信号中逐帧提取语音声学特征矢量,生成声学特征矢量序列;
其中,语音信号中逐帧提取语音声学特征矢量具体可以:是提取语音的Mel频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)特征,对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分,共计39维度。因此,在设备的缓冲区的语音段表征为一39维特征序列。
步骤S113,对所述声学特征矢量序列执行语音识别,确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段。
其中,基本语音识别模型,可以包括:静音识别模型,浊音识别模型和清音识别模型三种。
需要理解的是,人的发音过程可以看作是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和语言需要(不可观测的状态)发出的音素的参数流。现有技术中,通过隐马尔可夫模型(HMM,Hidden Markov Model)可以合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是一种理想的语音信号模型。在本发明实施例采用HMM来模拟静音片段,浊音片段以及清音片段的发音特点。对每个模型分别定义从左到右不可跳转的N(本方案中可以采用N=3)状态HMM模型,且可以确定每个状态的高斯分量为确定的K个(K=8)。
为了准确模拟静音片断,浊音片段以及清音片段的发音特点,系统预先收集语音数据并对模型参数进行训练。具体可以是:通过对训练语音数据集的人工切分和标注,确定静音(silence)、浊音(voiced)和清音(unvoiced)的训练数据集;随后从所述各对应训练数据集中提取声学特征,如MFCC特征;接着系统在预设的如最大似然估计(MLE,MaximumLikelihood Estimation)训练准则下训练得到静音片断,浊音片断以及清音片断的模型参数。
当在步骤S112中从语音信号中提取声学特征矢量之后,具体可以是MFCC参数,根据所述MFCC参数和预设HMM模型可以识别得到静音片段段,浊音片段以及清音片段的模型序列,并且,将所述语音信号切片为:静音片段,浊音片段,和清音片段。
如图4所示预先定义的搜索网络示例,其中,每条路径都表示一种可能的静音片段,浊音片断,清音片断的组合方式。
优选的,为了得到更好的切分效果,本发明实施例中可以采用对语音信号切分两遍,即:将上述步骤S113中切分确定的语音片段作为自适应数据,更新其相应的模型参数得到新的模型;根据新的模型再次执行步骤S113,从而将语音信号切分为语音片段。
步骤S114,合并基本语音识别单元对应的语音片段得到基本考察单元的语音片段。当基本语音识别模型包括:静音识别模型,浊音识别模型和清音识别模型三种;则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,具体包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。
由于步骤S113中确定的语音片段的单元相应于音符往往过小,因而不能和简谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并,构成基本考察单元。具体操作可以是:将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。
例如:“本”的发音“ben”,可以划分为清音片段“b”和浊音片段“en”,“本”字可以作为基本考察单元。
或者,基本语音识别模型,包括:各音素识别模型或音节识别模型;
因此,合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。
通过执行上述步骤S111~S114实现了将语音信号切分为基本考察单元的一种具体操作。
步骤S12,根据预置的简谱,确定简谱中的音符与基本考察单元的对应关系。
其中,对步骤S12一种具体实现方式,如图5所示:
步骤S121,获取用户输入的语音信号所对应的基本考察单元的个数K;
步骤S122,获得简谱子片断序列;
系统预先在歌曲库制作时根据原歌曲的歌词将简谱划分为多个简谱子片段,每个子片段可以表达完整歌词意义,例如,将《爱你一万年》这首歌中的每句歌词,作为子片段。该子片段可以是划分好存储在设备中。
步骤S123,依次统计每个子片段中音符的个数M;
步骤S124,判断当前子片段中音符的个数M是否大于基本考察单元的个数K,
步骤S125,如果M大于K,具体可以是根据如下式子(1)获得参数r,即对M与K的比值下取整,即
步骤S126,将基本考察单元序列复制r遍顺序拼接,其中,复制后的总的基本考察单元个数为rK,满足rK<=M;
步骤S127,将复制后的rK个基本考察单元,与简谱子片段中的M个音符的线性对齐方法可以参考如下式子(2),
NotIdxj=[j*rK/M] (2)
其中,NotIdxj表示简谱子片段组合中第j个音符所对应基本考察单元的序号,即j*rK/M四舍五入取整。
若步骤S124中判断出当前音符子片段中音符个数M是小于基本考察单元个数K,即M<K时,执行步骤S128,判断该简谱是否结束,如果该简谱还未结束,则执行步骤S129,将简谱中后一个子片段与当前的子片段联合,与基本考察单元序列进行对应。具体的对应的方法与上述步骤S124~S127相同。
通过执行步骤S128与S129,使得当简谱子片段中的音符个数小于基本考察单元的个数时,考虑将下一个子片段中音符合并,使得合并后的子片段中音符个数大于基本考察单元的个数,进行对应。
若步骤S128中判断出该简谱结束,且此时子片段中的音符的个数小于基本考察单元的个数,执行步骤S130,将当前音符子片段中的音符与基本考察单元一一对应后,删除未对应上的基本考察单元。
对于一整首歌,设备可以以简谱中的子片段为单位,重复上述步骤S121~S130将整首歌中的简谱音符与基本考察单元进行对齐。
步骤S13,根据简谱中音符的音高,和步骤S12中确定的简谱中的音符与基本考察单元的对应关系,确定每个基本考察单元的目标基频值。
其中,确定每个基本考察单元的目标基频值的具体操作可以是参考如下式(1):
F0_rule=440*2(p-69)/12 (1)
其中,F0_rule为目标基频值,440表示中央C上A音符发出的频率(单位为HZ),p为基本考察单元所对应的音符的音高与中央C上A音符的距离,单位为半音。
优选的,考虑到不同发音人音域上存在差异,在演唱相同歌曲时选择的基调也往往并不一致,如果直接根据目标基频值对基本考察单元进行优化,容易导致发音变声等现象,影响合成效果。因此,本发明实施例还提供如下操作,可以根据不同发音人的音域特点对确定的目标基频值进行优化,使其自适应于发音人的发音特点。
步骤S14,根据发音人的音域特点,对所述基本考察单元的目标基频值进行调整。
其中,对步骤S14一种具体实现方式,如图6所示:
步骤S141,对确定的每个基本考察单元的目标基频值进行升降调处理,获取在不同基调下的对应基频值;
其中,步骤S141中对确定的每个基本考察单元的目标基频值进行升降调处理,是为了获取更广音域的基频序列。具体的升降调处理可以包括:遍历-N~+N(单位为半音)基调,结合之前生成的F0_rule,参考如下式(2),得到新的基频F0_newbt
F0_newbt=F0_rule*2bt/12 (2)
因此,进行升降调处理后的每个基本考察单元都得到了2N+1个调整基频值,其中,bt的取值为(-N~+N)。
考虑计算量和计算效果,本实施例中优选的设置参数N为15,但是不应该理解为对本发明实施例的限制。
步骤S142,获取不同基调下的基本考察单元序列的调整基频值序列;
步骤S143,提取每个基本考察单元的语音片断的基频特征序列,并计算平均,生成基频特征值F0_nat。
步骤S144,获取基本考察单元序列的语音片段的基频特征值序列;
步骤S145,计算不同基调下的基本考察单元序列的调整基频值序列,与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值;即参考式(3)所示,
RMSEbt表示在确定基调bt下的调整基频值序列和基频特征值序列的差值,其中K表示基本考察单元的个数,F0_newbt,i是第i个基本考察单元的调整基频值,F0_nat i是第i个基本考察单元的语音片段的基频特征值。bt的取值为(-N~+N)。
步骤S146,根据步骤S145中计算出的差值,选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值,记为F0_use。
通过执行上述步骤S141至步骤S146,使得本发明实施例提供的方法可以根据不同发音人的音域特点对确定的目标基频值进行优化,使其自适应于发音人的发音特点,从而提供更好的用户体验。
步骤S15,根据简谱中音符的节拍数,和步骤S12中确定的简谱中的音符与基本考察单元的对应关系,确定每个基本考察单元的目标时长。
其中,步骤S15的具体操作参考图7a所示,可以包括:
步骤S151,根据简谱中音符的节拍数,和步骤S12中获取的简谱中的音符与基本考察单元的对应关系,获得每个基本考察单元对应的节拍数。
需要理解的是,计算每个基本考察单元对应的节拍数,可以是根据基本考察单元和简谱中音符的对应关系,和简谱中音符的节拍数,统计获得每个基本考察单元对应的节拍数。如图7b所示,例如:假设“雪”音节对应音符“3”,则“雪”对应的节拍数为1/2拍。
步骤S152,根据确定的每个基本考察单元对应的节拍数,和简谱中描述的节奏,获取每个基本考察单元的目标时长。
其中,获取每个基本考察单元的目标时长的具体操作,可以参考式(4)所示,计算获得。
d_use=60/tempo*d_note (4)
其中,d_use为基本考察单元的目标时长,单位为秒,tempo为简谱中描述的节奏,即每分钟含有的拍数,d_note为步一统计得到的所述基本考察单元对应的节拍数。
步骤S16,对输入的语音进行调整,使得调整后的语音的基频为获取的目标基频,调整后的语音的时长为目标时长。
其中,步骤S16的具体操作可以是采用PSOLA算法对输入的语音进行时长和基频的调整,使各基本考察单元的语音片段均满足各自对应的所述的目标时长d_use和目标基频F0_use的调整目标。若未对获取的目标基频值进行优化,也可将未优化的目标基频值作为调整的标准。
本发明实施例提供的一种实现语音歌唱化的方法,在确定简谱中的音符与基本考察单元的对应关系后,可以根据简谱中各音符的音高,和简谱中各音符的节拍数,确定每个基本考察单元的目标基频值,和每个基本考察单元的目标时长;随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值,调整后的语音的时长为确定的目标时长。因此,该方法通过对输入的语音信号波形直接进行调整,避免了多次信号转换的损失;且本发明实施例提供的技术方案,可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换;也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。
进一步,本发明实施例提供的技术方案,可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。
再次,本发明实施例提供的技术方案,可以实现自动语音切分,避免了传统人工切分的负担,不受语种的限制,具有更普遍的娱乐效果。
实施例三
如图8所示,一种实现语音歌唱化的装置示意简图,该装置可以包括:接收单元801,切分单元802,获取对应关系单元803,获取基频单元804,获取时长单元805,和调整单元806;
接收单元801,用于接收用户输入的语音信号;
所述切分单元802,用于将所述语音信号切分获得各基本考察单元的语音片断;
所述获取对应关系单元803,用于确定简谱中的各音符与所述各基本考察单元的对应关系;
所述获取基频单元804,用于根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
所述获取时长单元805,用于根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
所述调整单元806,用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。
本发明实施例提供的一种实现语音歌唱化的装置,在确定简谱中的音符与基本考察单元的对应关系后,可以根据简谱中各音符的音高,和简谱中各音符的节拍数,确定每个基本考察单元的目标基频值,和每个基本考察单元的目标时长;随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值,调整后的语音的时长为确定的目标时长。因此,该方法通过对输入的语音信号波形直接进行调整,避免了多次信号转换的损失;且本发明实施例提供的技术方案,可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换;也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。
进一步,如图9所示,所述切分单元802还可以包括:
提取单元8021,确定单元8022,和合并单元8023;
所述提取单元8021,用于从语音信号中逐帧提取语音声学特征矢量,生成声学特征矢量序列;
其中,语音信号中逐帧提取语音声学特征矢量具体可以:是提取语音的Mel频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)特征,对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分,共计39维度。因此,在设备的缓冲区的语音段表征为一39维特征序列。
所述确定单元8022,用于对所述声学特征矢量序列执行语音识别,确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段;
需要理解的是,人的发音过程可以看作是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和语言需要(不可观测的状态)发出的音素的参数流。现有技术中,通过隐马尔可夫模型(HMM,Hidden Markov Model)可以合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是一种理想的语音信号模型。在本发明实施例采用HMM来模拟静音片段,浊音片段以及清音片段的发音特点。对每个模型分别定义从左到右不可跳转的N(本方案中可以采用N=3)状态HMM模型,且可以确定每个状态的高斯分量为确定的K个(K=8)。
为了准确模拟静音片断,浊音片段以及清音片段的发音特点,系统预先收集语音数据并对模型参数进行训练。具体可以是:通过对训练语音数据集的人工切分和标注,确定静音(silence)、浊音(voiced)和清音(unvoiced)的训练数据集;随后从所述各对应训练数据集中提取声学特征,如MFCC特征;接着系统在预设的如最大似然估计(MLE,MaximumLikelihood Estimation)训练准则下训练得到静音片断,浊音片断以及清音片断的模型参数。
当在从语音信号中提取声学特征矢量之后,具体可以是MFCC参数,根据所述MFCC参数和预设HMM模型可以识别得到静音片段段,浊音片段以及清音片段的模型序列,并且,将所述语音信号切片为:静音片段,浊音片段,和清音片段。
如图4所示预先定义的搜索网络示例,其中,每条路径都表示一种可能的静音片段,浊音片断,清音片断的组合方式。
所述合并单元8023;用于合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。
当基本语音识别模型包括:静音识别模型,浊音识别模型和清音识别模型三种;则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,具体包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。
由于确定的语音片段的单元相应于音符往往过小,因而不能和简谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并,构成基本考察单元。具体操作可以是:将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。
例如:“本”的发音“ben”,可以划分为清音片段“b”和浊音片段“en”,“本”字可以作为基本考察单元。
或者,基本语音识别模型,包括:各音素识别模型或音节识别模型;
因此,合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。
进一步,如图10所示,所述获取对应关系单元803具体包括:第一统计单元8031,第一获取单元8032,第二统计单元8033,第一判断单元8034,第二获取单元8035,复制单元8036,对齐单元8037;
所述第一统计单元8031,用于获取用户输入的语音信号所对应的基本考察单元的个数K;
所述第一获取单元8032,用于获得简谱子片断序列;
所述第二统计单元8033,用于依次统计每个子片段中音符的个数M;
所述第一判断单元8034,用于判断当前子片段中音符的个数M是否大于所述基本考察单元个数K;
所述第二获取单元8035,用于如果M大于K,根据如下式子获取参数r,
所述复制单元8036,用于将基本考察单元序列复制r遍顺序拼接,其中,复制后的总的基本考察单元个数为rK,满足rK<=M;
所述对齐单元8037,用于将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符进行线性对齐。
优选的,所述对齐单元8037,具体用于根据公式:NotIdxj=[j*rK/M],将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐;
所述NotIdxj表示简谱子片段中第j个音符所对应基本考察单元的序号。
优选的,所述装置还包括:第二判断单元,
所述第二判断单元,用于判断所述简谱是否结束;
所述对齐单元8037,具体用于若所述简谱未结束,将所示简谱中后一个子片段与当前的子片段联合,与基本考察单元进行对应;若判断所述简谱结束,将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。
优选的,所述获取基频单元:具体用于根据公式F0_rule=440*2(p-69)/12,计算所述音符音高对应的目标基频值,作为对应的基本考察单元的目标基频值;其中F0_rule为目标基频值,440表示中央C上A音符发出的频率,p为当前简谱中标注的音高与中央C上A音符的距离。
优选的,如图11所示,所述装置还包括:调整基调单元807,用于根据发音人的音域特点,对所述获取的目标基频值进行调整;
所述调整基调单元807具体包括:第三获取单元8071,第四获取单元8072,生成单元8073,第五获取单元8074,第六获取单元8075,选择单元8076;
第三获取单元8071,用于对每个基本考察单元的目标基频值进行升降调处理,获取在不同基调下的调整基频值;
第四获取单元8072,用于获取在不同基调下的基本考察单元序列的调整基频值序列;
生成单元8073,用于提取每个基本考察单元的语音片断的基频特征序列,并计算平均,生成基频特征值;
第五获取单元8074,用于获取基本考察单元序列的语音片段的基频特征值序列;
第六获取单元8075,用于计算不同基调下的基本考察单元序列的调整基频值序列,与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值;
选择单元8076,用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。
优选的,如图12所示,所述获取时长单元805具体包括:获取节拍数单元8051,和获取目标单元8052,
所述获取节拍数单元8051,用于根据简谱中音符的节拍数,和所述简谱中的音符与基本考察单元的对应关系,获得每个基本考察单元对应的节拍数,
所述获取目标单元8052,用于根据获取的每个基本考察单元对应的节拍数,和所述简谱中描述的节奏,获取每个基本考察单元的目标时长。
再次,本发明实施例提供的技术方案,可以实现自动语音切分,避免了传统人工切分的负担,不受语种的限制,具有更普遍的娱乐效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种实现语音歌唱化的方法和装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种实现语音歌唱化的方法,其特征在于,所述方法包括:
接收用户输入的语音信号;
将所述语音信号切分获得各基本考察单元的语音片断;
根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;
根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长,以得到所述语音信号向唱歌语音的转换结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号切分获得各基本考察单元的语音片断,具体包括:
从语音信号中逐帧提取语音声学特征矢量,生成声学特征矢量序列;
对所述声学特征矢量序列执行语音识别,确定基本语音识别单元模型序列及各基本语音识别单元模型对应的语音片段;
合并所述基本语音识别单元模型对应的语音片段得到基本考察单元的语音片段。
3.根据权利要求2所述的方法,其特征在于,
所述基本语音识别单元模型,包括:静音识别模型,浊音识别模型和清音识别模型三种;
所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断,包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。
4.根据权利要求2所述的方法,其特征在于,
所述基本语音识别单元模型,包括:各音素识别模型或音节识别模型;
所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断,包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。
5.根据权利要求1所述的方法,其特征在于,所述根据预置的简谱,确定简谱中的音符与基本考察单元的对应关系,具体包括:
获取用户输入的语音信号所对应的基本考察单元的个数K;
获得简谱子片断序列;
依次统计每个子片段中音符的个数M;
判断当前子片段中音符的个数M是否大于所述基本考察单元个数K,如果M大于K,根据如下式子获取参数r,
将基本考察单元序列复制r遍顺序拼接,其中,复制后的总的基本考察单元个数为rK,满足rK<=M;
将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符进行线性对齐。
6.根据权利要求5所述的方法,其特征在于,所述将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐,具体包括:
根据公式:NotIdxj=[j*rK/M],将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐;
所述NotIdxj表示简谱子片段中第j个音符所对应基本考察单元的序号,[j*rK/M]表示对j*rK/M四舍五入取整。
7.根据权利要求5所述的方法,其特征在于,当判断当前音符子片段中音符总个数M小于基本考察单元个数K,即M<K时,所述方法还包括:
判断所述简谱是否结束,如果未结束,将所示简谱中后一个子片段与当前的子片段联合,与基本考察单元进行对应;
若判断所述简谱结束,将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。
8.根据权利要求1所述的方法,其特征在于,所述根据简谱中各音符的音高,和所述对应关系,确定其所对应的基本考察单元的目标基频值,包括:
根据公式F0_rule=440*2(p-69)/12,计算所述音符音高对应的目标基频值,作为对应的基本考察单元的目标基频值;其中F0_rule为目标基频值,440表示中央C上A音符发出的频率,p为当前简谱中标注的音高与中央C上A 音符的距离。
9.根据权利要求8所述的方法,其特征在于,在获取基本考察单元的目标基频值后,还包括:
根据发音人的音域特点,对所述基本考察单元的目标基频值进行调整;
在获取基本考察单元的目标基频值后,还根据发音人的音域特点,对所述基本考察单元的目标基频值进行优化,具体包括:
对每个基本考察单元的目标基频值进行升降调处理,获取在不同基调下的调整基频值;
获取在不同基调下的基本考察单元序列的调整基频值序列;
提取每个基本考察单元的语音片断的基频特征序列,并计算平均,生成基频特征值;
获取基本考察单元序列的语音片段的基频特征值序列;
计算不同基调下的基本考察单元序列的调整基频值序列,与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值;
选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。
10.根据权利要求1所述的方法,其特征在于,所述根据简谱中音符的节拍数,和所述对应关系,确定其所对应的基本考察单元的目标时长,具体包括:
根据简谱中音符的节拍数,和所述简谱中的音符与基本考察单元的对应关系,获得每个基本考察单元对应的节拍数,
根据获取的每个基本考察单元对应的节拍数,和所述简谱中描述的节奏,获取每个基本考察单元的目标时长。
11.一种实现语音歌唱化的装置,其特征在于,该装置包括:接收单元,切分单元,获取对应关系单元,获取基频单元,获取时长单元,和调整单元;
所述接收单元,用于接收用户输入的语音信号;
所述切分单元,用于将所述语音信号切分获得各基本考察单元的语音片断;
所述获取对应关系单元,用于确定简谱中的各音符与所述各基本考察单元的对应关系;
所述获取基频单元,用于根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;
所述获取时长单元,用于根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;
所述调整单元,用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长,以得到所述语音信号向唱歌语音的转换结果。
12.根据权利要求11所述的装置,其特征在于,所述切分单元包括:
提取单元,确定单元,和合并单元;
所述提取单元,用于从语音信号中逐帧提取语音声学特征矢量,生成声学特征矢量序列;
所述确定单元,用于对所述声学特征矢量序列执行语音识别,确定基本语音识别单元模型序列及各基本语音识别单元模型对应的语音片段;
所述合并单元;用于合并所述基本语音识别单元模型对应的语音片段得到基本考察单元的语音片段。
13.根据权利要求12所述装置,其特征在于,
所述基本语音识别单元模型,包括:静音识别模型,浊音识别模型和清音识别模型三种;
所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断,包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。
14.根据权利要求12所述装置,其特征在于,
所述基本语音识别单元模型,包括:各音素识别模型或音节识别模型;
所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断,包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。
15.根据权利要求11所述的装置,其特征在于,所述获取对应关系单元具体包括:第一统计单元,第一获取单元,第二统计单元,第一判断单元,第二获取单元,复制单元,对齐单元;
所述第一统计单元,用于获取用户输入的语音信号所对应的基本考察单元的个数K;
所述第一获取单元,用于获得简谱子片断序列;
所述第二统计单元,用于依次统计每个子片段中音符的个数M;
所述第一判断单元,用于判断当前子片段中音符的个数M是否大于所述基本考察单元个数K;
所述第二获取单元,用于如果M大于K,根据如下式子获取参数r,
所述复制单元,用于将基本考察单元序列复制r遍顺序拼接,其中,复制后的总的基本考察单元个数为rK,满足rK<=M;
所述对齐单元,用于将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符进行线性对齐。
16.根据权利要求15所述装置,其特征在于,所述对齐单元,具体用于根据公式:NotIdxj=[j*rK/M],将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐;
所述NotIdxj表示简谱子片段中第j个音符所对应基本考察单元的序号,[j*rK/M]表示对j*rK/M四舍五入取整。
17.根据权利要求15所述装置,其特征在于,所述装置还包括:第二判断单元,
所述第二判断单元,用于判断所述简谱是否结束;
所述对齐单元,具体用于若所述简谱未结束,将所示简谱中后一个子片段与当前的子片段联合,与基本考察单元进行对应;若判断所述简谱结束,将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。
18.根据权利要求11所述装置,其特征在于,
所述获取基频单元:具体用于根据公式F0_rule=440*2(p-69)/12,计算所述音符音高对应的目标基频值,作为对应的基本考察单元的目标基频值;其中F0_rule为目标基频值,440表示中央C上A音符发出的频率,p为当前简谱中标注的音高与中央C上A音符的距离。
19.根据权利要求18所述装置,其特征在于,所述装置还包括:调整基调单元,用于根据发音人的音域特点,对所述获取的目标基频值进行调整;
所述调整基调单元具体包括:第三获取单元,第四获取单元,生成单元,第五获取单元,第六获取单元,选择单元;
第三获取单元,用于对每个基本考察单元的目标基频值进行升降调处理,获取在不同基调下的调整基频值;
第四获取单元,用于获取在不同基调下的基本考察单元序列的调整基频值序列;
生成单元,用于提取每个基本考察单元的语音片断的基频特征序列,并计算平均,生成基频特征值;
第五获取单元,用于获取基本考察单元序列的语音片段的基频特征值序列;
第六获取单元,用于计算不同基调下的基本考察单元序列的调整基频值序列,与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值;
选择单元,用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。
20.根据权利要求11所述的装置,其特征在于,所述获取时长单元具体包括:获取节拍数单元,和获取目标单元,
所述获取节拍数单元,用于根据简谱中音符的节拍数,和所述简谱中的音符与基本考察单元的对应关系,获得每个基本考察单元对应的节拍数,
所述获取目标单元,用于根据获取的每个基本考察单元对应的节拍数,和所述简谱中描述的节奏,获取每个基本考察单元的目标时长。
CN201210591777.0A 2012-12-31 2012-12-31 一种实现语音歌唱化的方法和装置 Active CN103915093B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2012/087999 WO2014101168A1 (zh) 2012-12-31 2012-12-31 一种实现语音歌唱化的方法和装置
CN201210591777.0A CN103915093B (zh) 2012-12-31 2012-12-31 一种实现语音歌唱化的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210591777.0A CN103915093B (zh) 2012-12-31 2012-12-31 一种实现语音歌唱化的方法和装置

Publications (2)

Publication Number Publication Date
CN103915093A CN103915093A (zh) 2014-07-09
CN103915093B true CN103915093B (zh) 2019-07-30

Family

ID=51019775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210591777.0A Active CN103915093B (zh) 2012-12-31 2012-12-31 一种实现语音歌唱化的方法和装置

Country Status (2)

Country Link
CN (1) CN103915093B (zh)
WO (1) WO2014101168A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248406B (zh) * 2017-06-29 2020-11-13 义乌市美杰包装制品有限公司 一种自动生成鬼畜类歌曲的方法
CN107749301B (zh) * 2017-09-18 2021-03-09 得理电子(上海)有限公司 一种音色样本重构方法及系统、存储介质及终端设备
CN107818792A (zh) * 2017-10-25 2018-03-20 北京奇虎科技有限公司 音频转换方法及装置
CN108053814B (zh) * 2017-11-06 2023-10-13 芋头科技(杭州)有限公司 一种模拟用户歌声的语音合成系统及方法
CN112420008A (zh) * 2019-08-22 2021-02-26 北京峰趣互联网信息服务有限公司 录制歌曲的方法、装置、电子设备及存储介质
CN110838286B (zh) * 2019-11-19 2024-05-03 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN112951198A (zh) * 2019-11-22 2021-06-11 微软技术许可有限责任公司 歌声合成
US11430431B2 (en) 2020-02-06 2022-08-30 Tencent America LLC Learning singing from speech
CN111429877B (zh) * 2020-03-03 2023-04-07 云知声智能科技股份有限公司 歌曲处理方法及装置
CN111445892B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1761992A (zh) * 2003-03-20 2006-04-19 索尼株式会社 歌声合成方法和设备、程序、记录介质以及机器人设备
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN101923861A (zh) * 2009-06-12 2010-12-22 傅可庭 可转换语音为歌曲的音频合成装置
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1246825C (zh) * 2003-08-04 2006-03-22 扬智科技股份有限公司 预估语音信号的语调估测值的方法和装置
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
CN102568457A (zh) * 2011-12-23 2012-07-11 深圳市万兴软件有限公司 一种基于哼唱输入的乐曲合成方法及装置
CN102664016B (zh) * 2012-04-23 2014-05-14 安徽科大讯飞信息科技股份有限公司 唱歌评测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761992A (zh) * 2003-03-20 2006-04-19 索尼株式会社 歌声合成方法和设备、程序、记录介质以及机器人设备
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN101923861A (zh) * 2009-06-12 2010-12-22 傅可庭 可转换语音为歌曲的音频合成装置
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN102682760A (zh) * 2011-03-07 2012-09-19 株式会社理光 重叠语音检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Speak-to-Singing Synthesis: Converting Speaking Voice to Singing Voices by Controlling Acoustic Features Unique to Singing Voices";Saitou T. , et al.;《IEEE Workshop on Applications of Signal Processing to Audio and Acoustics 》;20071024;正文第1-4页

Also Published As

Publication number Publication date
WO2014101168A1 (zh) 2014-07-03
CN103915093A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103915093B (zh) 一种实现语音歌唱化的方法和装置
CN101894552B (zh) 基于语谱切分的唱歌评测系统
US8005666B2 (en) Automatic system for temporal alignment of music audio signal with lyrics
CN103928023B (zh) 一种语音评分方法及系统
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN110600055B (zh) 一种使用旋律提取与语音合成技术的歌声分离方法
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
US20060004567A1 (en) Method, system and software for teaching pronunciation
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN104081453A (zh) 用于声学变换的系统和方法
Zhang et al. Improved modeling for F0 generation and V/U decision in HMM-based TTS
Mesaros Singing voice identification and lyrics transcription for music information retrieval invited paper
Mamiya et al. Lightly supervised GMM VAD to use audiobook for speech synthesiser
CN108172211B (zh) 可调节的波形拼接系统及方法
Narayanan et al. Speech rate estimation via temporal correlation and selected sub-band correlation
JP6487650B2 (ja) 音声認識装置及びプログラム
CN109903778A (zh) 实时演唱评分的方法与系统
CN105895079A (zh) 语音数据的处理方法和装置
Ryynänen Singing transcription
JP5131904B2 (ja) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
Jha et al. Assessing vowel quality for singing evaluation
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
Lulich et al. Analysis and automatic estimation of children's subglottal resonances
US20050246172A1 (en) Acoustic model training method and system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Applicant after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

GR01 Patent grant
GR01 Patent grant