CN108573694B - 基于人工智能的语料扩充及语音合成系统构建方法及装置 - Google Patents
基于人工智能的语料扩充及语音合成系统构建方法及装置 Download PDFInfo
- Publication number
- CN108573694B CN108573694B CN201810102381.2A CN201810102381A CN108573694B CN 108573694 B CN108573694 B CN 108573694B CN 201810102381 A CN201810102381 A CN 201810102381A CN 108573694 B CN108573694 B CN 108573694B
- Authority
- CN
- China
- Prior art keywords
- sound library
- sample sound
- fundamental frequency
- given text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 41
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 41
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000001502 supplementing effect Effects 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 9
- 239000000463 material Substances 0.000 abstract description 3
- 230000003287 optical effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于人工智能的语料扩充及语音合成系统构建方法及装置,如可包括:根据小样本音库中的语料,训练得到WaveNet模型;利用WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到小样本音库中,得到大样本音库;利用大样本音库中的语料,构建出统计参数语音合成系统。应用本发明所述方案,能够提升语音合成效果,并节省人力物力及时间成本等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的语料扩充及语音合成系统构建方法及装置。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在语音合成技术中,需要针对发音人进行语料的录制,录制过程需要在专业的录音环境中进行,以保证语音的音质,并要保证发音人的发音平稳性,同时对应的文本需要具有较高的文本覆盖率,这样才能较为准确和优质地合成出训练集外的语音。
为构建出质量较好的统计参数语音合成系统,需要先构建出大样本音库(或称为大规模音库),大样本音库中往往会录制上万句语料,时长达到十小时以上的规模。对于一些特定发音人如明星来说,邀请其进行如此大规模的语料录制显然是不切实际的。
现有技术中,基于精心设计的含有一小时左右时长、千余句语料的小样本音库,已经可以训练出一个小型的统计参数语音合成系统,但这种方式下,合成的效果音质相对较差,音色还原度同原始发音人相比差异较大。
综合上述问题,现有技术中又提出了如下解决方式:针对小样本音库,可首先挑选出一个发音条件相对接近的大样本音库训练出一个基础模型,然后利用基础模型的参数初始化新模型,再利用小样本音库对新模型进行优化等,或者,聘请一些与相应明星音色较为接近的声替来录制一定规模的语料等。
但是,上述两种方式在实际应用中均会存在一定的问题,如:对于前一种方式,虽然有一定效果,但毕竟基础发音人与目标发音人的频谱、基频等声学特征具有较大的差别,而且一些口音较重的发音人很难在现有的大样本音库中找到比较匹配的发音人,因此实际使用的效果并不理想,语音合成效果较差;聘请声替的方式虽然可以弥补语料数量不足的问题,但聘请声替的成本往往比普通发音人要高昂得多,而且一些音色辨识度较高的明星的声替也是较难寻找的,寻找声替的过程是一个相当耗时耗力的过程。
【发明内容】
有鉴于此,本发明提供了基于人工智能的语料扩充及语音合成系统构建方法及装置。
具体技术方案如下:
一种基于人工智能的语料扩充方法,包括:
根据音库中的语料,训练得到WaveNet模型;
利用所述WaveNet模型,生成给定文本对应的语音波形;
将生成的语音波形对应的语料补充到所述音库中。
根据本发明一优选实施例,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:
根据音库中的语料,训练得到时长预测模型以及基频预测模型;
利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;
所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:
根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
根据本发明一优选实施例,所述音库为小样本音库;
所述给定文本为:满足预定文本覆盖率要求的文本;
当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。
根据本发明一优选实施例,该方法进一步包括:
利用所述大样本音库中的语料,构建出统计参数语音合成系统。
一种基于人工智能的统计参数语音合成系统构建方法,包括:
根据小样本音库中的语料,训练得到WaveNet模型;
利用所述WaveNet模型,生成给定文本对应的语音波形;
将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;
利用所述大样本音库中的语料,构建出统计参数语音合成系统。
根据本发明一优选实施例,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:
根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;
利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;
所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:
根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
一种基于人工智能的语料扩充装置,包括:第一训练单元、第一生成单元以及第一扩充单元;
所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型;
所述第一生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形;
所述第一扩充单元,用于将生成的语音波形对应的语料补充到所述音库中。
根据本发明一优选实施例,所述第一训练单元进一步用于,根据音库中的语料,训练得到时长预测模型以及基频预测模型;
所述第一生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
根据本发明一优选实施例,所述音库为小样本音库;
所述给定文本为:满足预定文本覆盖率要求的文本;
当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。
根据本发明一优选实施例,所述装置中进一步包括:第一构建单元;
所述第一构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。
一种基于人工智能的统计参数语音合成系统构建装置,包括:第二训练单元、第二生成单元、第二扩充单元以及第二构建单元;
所述第二训练单元,用于根据小样本音库中的语料,训练得到WaveNet模型;
所述第二生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形;
所述第二扩充单元,用于将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;
所述第二构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。
根据本发明一优选实施例,所述第二训练单元进一步用于,根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;
所述第二生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可首先根据音库中的语料,训练得到WaveNet模型,之后,可利用WaveNet模型,生成给定文本对应的语音波形,进而可将生成的语音波形对应的语料补充到音库中,从而实现了对于音库中的语料的扩充,相比于现有技术,本发明所述方案中可在已有相对少量的语料的情况下,基于这些语料,通过WaveNet模型扩充给出更多的语料,从而将小样本音库扩充为大样本音库,进而可基于大样本音库来构建所需的统计参数语音合成系统,从而提升了语音合成效果,而且,节省了寻找声替所需耗费的人力物力以及时间成本等。
【附图说明】
图1为本发明基于人工智能的语料扩充方法实施例的流程图。
图2为本发明基于人工智能的统计参数语音合成系统构建方法实施例的流程图。
图3为本发明基于人工智能的语料扩充装置实施例的组成结构示意图。
图4为本发明基于人工智能的统计参数语音合成系统构建装置实施例的组成结构示意图。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
自具有波形建模能力的WaveNet模型于2016年被提出以来,WaveNet模型已经受到了工业界和学术界的广泛关注。其中,基于百度自主改进和搭建的中文WaveNet模型,已经能够利用几十分钟的小规模语料快速构建出一个性能更优的语音合成系统,能够较好的还原发音人的音色,并且音质与基于大样本音库得到的音质相近,同时不会出现不连贯、不自然等问题。
但是,由于WaveNet模型是逐个样本点进行预测的,因此实时性较差,运行时间无法达到实时性要求,无法直接应用于线上系统。
但鉴于WaveNet模型具有较高的还原度、音质以及自然度等优点,完全可以胜任对小样本音库进行语料扩充的需求,因此,本发明所述方案中提出一种基于WaveNet模型扩充语料的方法,可将小样本音库扩充为大样本音库,并相应的提出一种统计参数语音合成系统构建方法,可基于扩充后的大样本音库来构建统计参数语音合成系统。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明基于人工智能的语料扩充方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,根据音库中的语料,训练得到WaveNet模型。
在102中,利用WaveNet模型,生成给定文本对应的语音波形。
在103中,将生成的语音波形对应的语料补充到音库中。
在实际应用中,可首先根据音库中的语料,训练得到时长预测模型以及基频预测模型。
时长预测模型以及基频预测模型均可为深度神经网络模型,如何基于音库中的语料训练得到时长预测模型以及基频预测模型为现有技术。
比如,可首先利用切分模型来对音库中的各语料进行切分,从而得到各个音的起始边界等,进而可根据各语料及切分结果以及对应的文本等训练得到时长预测模型以及基频预测模型。切分模型可为常用的隐马尔可夫模型。
时长反映发音的长短,基频反映发音的高低等。
另外,还可按照现有技术,根据音库中的语料等,训练得到WaveNet模型。
之后,可利用时长预测模型以及基频预测模型,分别预测出给定文本对应的时长信息以及基频信息,进而可根据预测出的时长信息、基频信息以及WaveNet模型,生成给定文本对应的语音波形。
比如,针对给定文本中的每句话,可分别利用时长预测模型以及基频预测模型预测出对应的时长信息以及基频信息,进而可根据预测出的时长信息、基频信息以及WaveNet模型,生成这句话对应的语音波形。具体地,可将预测出的时长信息及基频信息等作为WaveNet模型的输入,从而得到WaveNet模型输出的语音波形。
之后,可将生成的语音波形对应的语料补充到音库中,从而实现对于音库中的语料的扩充。
上述音库可为小样本音库。给定文本可为:满足预定文本覆盖率要求的文本。当生成的语音波形对应的语料补充到小样本音库中后,小样本音库将扩充为大样本音库。
比如,给定文本可为文本覆盖率极高、对应的语音总时长为20小时左右的文本,而小样本音库中的语音总时长通常为一小时左右,可以看出,通过这种方式,实现了对于小样本音库中的语料的极大扩充,从而可得到所需的大样本音库。
后续,可利用大样本音库中的语料,按照现有统计参数语音合成系统的构建方式,构建出统计参数语音合成系统。
图2为本发明基于人工智能的统计参数语音合成系统构建方法实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,根据小样本音库中的语料,分别训练得到时长预测模型、基频预测模型以及WaveNet模型。
小样本音库中的语音总时长通常为一小时左右。
在202中,利用时长预测模型以及基频预测模型,分别预测出给定文本对应的时长信息以及基频信息。
比如,给定文本可为文本覆盖率极高、对应的语音总时长为20小时左右的文本。
在203中,根据预测出的时长信息、基频信息以及WaveNet模型,生成给定文本对应的语音波形。
比如,可将预测出的时长信息以及基频信息等作为WaveNet模型的输入,从而得到WaveNet模型输出的给定文本对应的语音波形。
在204中,将生成的语音波形对应的语料补充到小样本音库中,得到大样本音库。
通过向小样本音库中补充语料,实现了对于小样本音库的扩充,从而可得到扩充后的大样本音库。
在205中,利用大样本音库中的语料,构建出统计参数语音合成系统。
可按照现有技术中针对大样本音库的处理方式,构建出所需的统计参数语音合成系统。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可在已有相对少量的语料的情况下,基于这些语料,通过WaveNet模型扩充给出更多的语料,从而将小样本音库扩充为大样本音库,进而可基于大样本音库来构建所需的统计参数语音合成系统,从而提升了语音合成效果,而且,节省了寻找声替所需耗费的人力物力以及时间成本等。
以发音人为明星为例,采用上述各方法实施例所述方案后,可在录制少量明星真人发音的语料后,通过WaveNet模型扩充出更多的语料,后续合成的语音的音色还原度、自然度和音质等均能得到很好的保证,并可大幅减少邀请明星录制语料的劳务成本等。
另外,上述各方法实施例所述方案中,充分发挥了WaveNet模型的优势,同时也巧妙地规避了WaveNet模型无法满足线上实时性要求的问题,采用了一种离线应用的策略,并达到了较为理想的效果。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明基于人工智能的语料扩充装置实施例的组成结构示意图。如图3所示,包括:第一训练单元301、第一生成单元302以及第一扩充单元303。
第一训练单元301,用于根据音库中的语料,训练得到WaveNet模型。
第一生成单元302,用于利用WaveNet模型,生成给定文本对应的语音波形。
第一扩充单元303,用于将生成的语音波形对应的语料补充到音库中。
在实际应用中,第一训练单元301可首先根据音库中的语料,训练得到时长预测模型以及基频预测模型。时长预测模型以及基频预测模型均可为深度神经网络模型。另外,第一训练单元301还可按照现有技术,根据音库中的语料等,训练得到WaveNet模型。
之后,第一生成单元302可利用时长预测模型以及基频预测模型,分别预测出给定文本对应的时长信息以及基频信息,进而根据预测出的时长信息、基频信息以及WaveNet模型,生成给定文本对应的语音波形。
之后,第一扩充单元303可将生成的语音波形对应的语料补充到音库中,从而实现对于音库中的语料的扩充。
上述音库可为小样本音库。给定文本可为:满足预定文本覆盖率要求的文本。当生成的语音波形对应的语料补充到小样本音库中后,小样本音库将扩充为大样本音库。
比如,给定文本可为文本覆盖率极高、对应的语音总时长为20小时左右的文本,而小样本音库中的语音总时长通常为一小时左右,可以看出,通过这种方式,实现了对于小样本音库中的语料的极大扩充,从而可得到所需的大样本音库。
如图3所示,图3所示装置实施例中还可进一步包括:第一构建单元304。
第一构建单元304可利用大样本音库中的语料,按照现有统计参数语音合成系统的构建方式,构建出统计参数语音合成系统。
图4为本发明基于人工智能的统计参数语音合成系统构建装置实施例的组成结构示意图。如图4所示,包括:第二训练单元401、第二生成单元402、第二扩充单元403以及第二构建单元404。
第二训练单元401,用于根据小样本音库中的语料,训练得到WaveNet模型。
第二生成单元402,用于利用WaveNet模型,生成给定文本对应的语音波形。
第二扩充单元403,用于将生成的语音波形对应的语料补充到小样本音库中,得到大样本音库。
第二构建单元404,用于利用大样本音库中的语料,构建出统计参数语音合成系统。
其中,第二训练单元401可进一步根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;相应地,第二生成单元402可利用时长预测模型以及基频预测模型,分别预测出给定文本对应的时长信息以及基频信息,并根据预测出的时长信息、基频信息以及WaveNet模型,生成给定文本对应的语音波形。
图3和图4所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
总之,采用上述各装置实施例所述方案,可在已有相对少量的语料的情况下,基于这些语料,通过WaveNet模型扩充给出更多的语料,从而将小样本音库扩充为大样本音库,进而可基于大样本音库来构建所需的统计参数语音合成系统,从而提升了语音合成效果,而且,节省了寻找声替所需耗费的人力物力以及时间成本等。
以发音人为明星为例,采用上述各装置实施例所述方案后,可在录制少量明星真人发音的语料后,通过WaveNet模型扩充出更多的语料,后续合成的语音的音色还原度、自然度和音质等均能得到很好的保证,并可大幅减少邀请明星录制语料的劳务成本等。
另外,上述各装置实施例所述方案中,充分发挥了WaveNet模型的优势,同时也巧妙地规避了WaveNet模型无法满足线上实时性要求的问题,采用了一种离线应用的策略,并达到了较为理想的效果。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种基于人工智能的语料扩充方法,其特征在于,包括:
根据音库中的语料,训练得到WaveNet模型,所述音库为小样本音库;
利用所述WaveNet模型,生成给定文本对应的语音波形,所述给定文本为:满足预定文本覆盖率要求的文本;
将生成的语音波形对应的语料补充到所述音库中,将所述小样本音库扩充为大样本音库。
2.根据权利要求1所述的方法,其特征在于,
所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:
根据音库中的语料,训练得到时长预测模型以及基频预测模型;
利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;
所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:
根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
3.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
利用所述大样本音库中的语料,构建出统计参数语音合成系统。
4.一种基于人工智能的统计参数语音合成系统构建方法,其特征在于,包括:
根据小样本音库中的语料,训练得到WaveNet模型;
利用所述WaveNet模型,生成给定文本对应的语音波形,所述给定文本为:满足预定文本覆盖率要求的文本;
将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;
利用所述大样本音库中的语料,构建出统计参数语音合成系统。
5.根据权利要求4所述的方法,其特征在于,
所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:
根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;
利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;
所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:
根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
6.一种基于人工智能的语料扩充装置,其特征在于,包括:第一训练单元、第一生成单元以及第一扩充单元;
所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型,所述音库为小样本音库;
所述第一生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形,所述给定文本为:满足预定文本覆盖率要求的文本;
所述第一扩充单元,用于将生成的语音波形对应的语料补充到所述音库中,将所述小样本音库扩充为大样本音库。
7.根据权利要求6所述的装置,其特征在于,
所述第一训练单元进一步用于,根据音库中的语料,训练得到时长预测模型以及基频预测模型;
所述第一生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
8.根据权利要求6所述的装置,其特征在于,
所述装置中进一步包括:第一构建单元;
所述第一构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。
9.一种基于人工智能的统计参数语音合成系统构建装置,其特征在于,包括:第二训练单元、第二生成单元、第二扩充单元以及第二构建单元;
所述第二训练单元,用于根据小样本音库中的语料,训练得到WaveNet模型;
所述第二生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形,所述给定文本为:满足预定文本覆盖率要求的文本;
所述第二扩充单元,用于将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;
所述第二构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。
10.根据权利要求9所述的装置,其特征在于,
所述第二训练单元进一步用于,根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;
所述第二生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810102381.2A CN108573694B (zh) | 2018-02-01 | 2018-02-01 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810102381.2A CN108573694B (zh) | 2018-02-01 | 2018-02-01 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573694A CN108573694A (zh) | 2018-09-25 |
CN108573694B true CN108573694B (zh) | 2022-01-28 |
Family
ID=63576541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810102381.2A Active CN108573694B (zh) | 2018-02-01 | 2018-02-01 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573694B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147799A (zh) * | 2018-10-18 | 2019-01-04 | 广州势必可赢网络科技有限公司 | 一种语音识别的方法、装置、设备及计算机存储介质 |
CN109584895B (zh) * | 2018-12-24 | 2019-10-25 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN109817239A (zh) * | 2018-12-24 | 2019-05-28 | 龙马智芯(珠海横琴)科技有限公司 | 语音的降噪方法及装置 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN110390928B (zh) * | 2019-08-07 | 2022-01-11 | 广州多益网络股份有限公司 | 一种自动拓增语料的语音合成模型训练方法和系统 |
CN111009233A (zh) * | 2019-11-20 | 2020-04-14 | 泰康保险集团股份有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112863539B (zh) * | 2019-11-28 | 2024-04-16 | 科大讯飞股份有限公司 | 一种高采样率语音波形生成方法、装置、设备及存储介质 |
CN113299271B (zh) * | 2020-02-06 | 2023-12-15 | 菜鸟智能物流控股有限公司 | 语音合成方法、语音交互方法、装置及设备 |
CN112767957B (zh) * | 2020-12-31 | 2024-05-31 | 中国科学技术大学 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN113488020B (zh) * | 2021-07-02 | 2024-04-12 | 科大讯飞股份有限公司 | 语音合成方法和相关设备、装置、介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040210439A1 (en) * | 2003-04-18 | 2004-10-21 | Schrocter Horst Juergen | System and method for text-to-speech processing in a portable device |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN106297766A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107393556A (zh) * | 2017-07-17 | 2017-11-24 | 京东方科技集团股份有限公司 | 一种实现音频处理的方法及装置 |
CN107464554A (zh) * | 2017-09-28 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350195B (zh) * | 2007-07-19 | 2012-08-22 | 财团法人工业技术研究院 | 语音合成器产生系统与方法 |
CN101593516B (zh) * | 2008-05-28 | 2011-08-24 | 国际商业机器公司 | 语音合成的方法和系统 |
CN101872614A (zh) * | 2009-04-24 | 2010-10-27 | 韩松 | 混合型语音合成系统 |
CN102568471A (zh) * | 2011-12-16 | 2012-07-11 | 安徽科大讯飞信息科技股份有限公司 | 语音合成方法、装置和系统 |
CN104050160B (zh) * | 2014-03-12 | 2017-04-05 | 北京紫冬锐意语音科技有限公司 | 一种机器与人工翻译相融合的口语翻译方法和装置 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN104573009B (zh) * | 2015-01-08 | 2018-08-24 | 南通大学 | 一种领域知识库属性扩展的方法 |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
WO2018232581A1 (en) * | 2017-06-20 | 2018-12-27 | Accenture Global Solutions Limited | AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS |
CN107688630B (zh) * | 2017-08-21 | 2020-05-22 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
-
2018
- 2018-02-01 CN CN201810102381.2A patent/CN108573694B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040210439A1 (en) * | 2003-04-18 | 2004-10-21 | Schrocter Horst Juergen | System and method for text-to-speech processing in a portable device |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN106297766A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107393556A (zh) * | 2017-07-17 | 2017-11-24 | 京东方科技集团股份有限公司 | 一种实现音频处理的方法及装置 |
CN107464554A (zh) * | 2017-09-28 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
Non-Patent Citations (2)
Title |
---|
《WAVENET: A GENERATIVE MODEL FOR RAW AUDIO》;A¨aron van den Oord等;《arXiv preprint arXiv:1609.03499》;20160919;全文 * |
《基于深度卷积神经网络的语音参数合成器》;伍宏传等;《清华信息科学与技术国家实验室(筹)会议论文集》;20171031;正文第1页第1段-第5页第2段,图4 * |
Also Published As
Publication number | Publication date |
---|---|
CN108573694A (zh) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573694B (zh) | 基于人工智能的语料扩充及语音合成系统构建方法及装置 | |
CN107481717B (zh) | 一种声学模型训练方法及系统 | |
CN107103903B (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
JP6752872B2 (ja) | 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US10410621B2 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
US20230197057A1 (en) | Speech Recognition Using Unspoken Text and Speech Synthesis | |
US10803851B2 (en) | Method and apparatus for processing speech splicing and synthesis, computer device and readable medium | |
CN109523989B (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN109389968B (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
US10521945B2 (en) | Text-to-articulatory movement | |
CN114207706A (zh) | 使用组合的韵律信息经由神经网络生成声学序列 | |
CN112216284B (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
US11990117B2 (en) | Using speech recognition to improve cross-language speech synthesis | |
CN109657127B (zh) | 一种答案获取方法、装置、服务器及存储介质 | |
CN117063228A (zh) | 用于灵活流式和非流式自动语音识别的混合模型注意力 | |
WO2023082831A1 (en) | Global neural transducer models leveraging sub-task networks | |
CN116129859A (zh) | 韵律标注方法、声学模型训练方法、语音合成方法及装置 | |
CN111696517A (zh) | 语音合成方法、装置、计算机设备及计算机可读存储介质 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN112837688A (zh) | 语音转写方法、装置、相关系统及设备 | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
US11915702B1 (en) | Automated systems and methods that generate affect-annotated timelines | |
US11996083B2 (en) | Global prosody style transfer without text transcriptions | |
US20240185839A1 (en) | Modular Training for Flexible Attention Based End-to-End ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |