CN112151008A - 一种语音合成方法、系统及计算机设备 - Google Patents
一种语音合成方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN112151008A CN112151008A CN202011001647.8A CN202011001647A CN112151008A CN 112151008 A CN112151008 A CN 112151008A CN 202011001647 A CN202011001647 A CN 202011001647A CN 112151008 A CN112151008 A CN 112151008A
- Authority
- CN
- China
- Prior art keywords
- voice
- file
- text
- pinyin sequence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音合成方法,所述方法步骤如下:采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
Description
技术领域
本发明涉及语音合成领域,具体涉及一种语音合成方法、系统及计算机设备。
背景技术
语音合成是通过机械或者电子的方法产生人造语音的技术。
文语转换技术隶属于语音合成的范畴,它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语进行输出。
现有的语音合成方法中,需要前期录制大量的音频,尽可能全的覆盖所有的音节音素,合成的声音机械感强、生硬,不够自然。
发明内容
为解决上述技术问题,本发明提供一种语音合成方法、系统及计算机设备。
为解决上述技术问题,本发明采用如下技术方案:
一种语音合成方法,所述方法步骤如下:
步骤一:采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;
步骤二:获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;
步骤三:使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;
步骤四:将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
具体地,步骤二中,通过文本输入的方式获取文本,并在文本输入时检测文本的正确性。
具体地,步骤三中,对语音文件进行标注时,通过隐马尔可夫模型标注语音文件的声母、韵母和语调。
具体地,进行步骤三之前,先将拼音序列以TF-IDF方式进行编码,生成拼音序列向量,继而使拼音序列向量具有固定长度:拼音序列向量超过该固定长度的,对其进行截取并舍弃其末尾;拼音序列向量短于该固定长度的,在其末尾补零填充;将具有固定长度的拼音序列向量作为拼音序列的特征向量。
具体地,进行步骤三之前,提取语音文件的MFCC向量作为语音文件的特征向量。
具体地,步骤三中,使语音文件与拼音序列之间产生映射关联时,计算拼音序列的特征向量和语音文件的特征向量,计算上述两种特征向量之间的欧式距离,两种特征向量之间的欧式距离小于阈值时,使所述拼音序列和语音文件产生一一对应关系。
具体地,步骤三中,语音文件的物理参数包括语音持续时间和语音音高。
一种语音合成系统,包括:
语音采集模块,用于采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;
文本采集模块,用于获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;
模型生成模块,其使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;
语音合成模块,其将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的语音合成方法。
与现有技术相比,本发明的有益技术效果是:
本发明通过预先对文本分块,增强语义的完成度,避免输出声音的不自然,输出模型基于DCNN深度卷积神经网络,训练过程简单,花费时间少,训练速度快,卷积神经网络的算法模型泛化能力较强,对于各种场景采集的音频数据的拟合效果都很好,使本发明的技术方案拥有更广泛的应用范围。
附图说明
图1为本发明语音合成方法的流程示意图;
图2为本发明DCNN深度卷积网络模型结构图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
如图1所示,一种语音合成方法,所述方法步骤如下:
S1:采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合。
语音数据库是由语音文件组成的,同一汉字有不同的语调,将这些具有不同语调的语音文件与该汉字产生对应关系后进行存储;词组与语音文件的对应关系与上述原理相同。
S2:获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列。
步骤二中,通过文本输入的方式获取文本,并在文本输入时检测文本的正确性;例如在网页中进行文本输入,可以利用JavaScript技术对输入内容进行验证,避免输入内容不符合要求。
采用split函数对文本进行分割,得到文本块;split函数是编程语言中使用的一种函数名称,它返回一个下标从零开始的一维数组,split函数包含指定数目的子字符串;基于Python编程环境下使用,Python split()通过指定分隔符对字符串进行切片,如果参数num有指定值,则分隔num+1个子字符串。
split()方法语法如下:str.split(str=″″,hum=string.count(str));其中str为分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等;num为分割次数,默认为1,即分隔所有;其返回值为分割后的字符串列表。
进行步骤三之前,先将拼音序列以TF-IDF方式进行编码,生成拼音序列向量,继而使拼音序列向量具有固定长度:拼音序列向量超过该固定长度的,对其进行截取并舍弃其末尾;拼音序列向量短于该固定长度的,在其末尾补零填充;将具有固定长度的拼音序列向量作为拼音序列的特征向量。
上述过程即为提取拼音序列的特征向量的过程,其中TF-IDF是信息检索中常用的一种文本表示方法,TF-IDF由两部分组成,即TF和IDF;IDF(x)=logN/N(x);N代表语料库中文本的总数,而N(x)代表语料库中包含词x的文本总数;TF-IDF(x)=TF(x)*IDF(x);其中TF(x)指词x在当前文本中的词频,TF-IDF向量计算方法:TF-IDF(q,d)=sum{i=1..k|TF(w[i],d)*IDF(w[i])};拼音序列向量长度不一,不利于后续计算,需要截取较长的拼音序列向量,保留其前部,需要在较短拼音序列向量的末尾补零,其目的在于使各拼音序列向量具有统一的长度,能够加快处理速度。
进行步骤三之前,提取语音文件的MFCC向量作为语音文件的特征向量。
声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量;目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法,在提取MFCC前,需要对语音文件做预处理,包括预加重、加窗、分帧、快速傅里叶变换、Mel滤波器组处理、离散余弦变换进行倒谱处理、能量和差分处理,进而将提取出的MFCC向量作为语音文件的特征向量。
S3:使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练。
物理参数的确定过程如下。
将语音文件通过一个高通滤波器,H(Z)=1-μz-1,其中μ取0.97;再对音频文件进行分帧;对每一帧乘以汉明窗加窗,以增加帧左端和右端的连续性;汉明窗函数为:W(n,α)=(1-α)-αcos(2*PI*n/(N-1)),0≤n≤N-1;再进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,滤波器的个数和临界带的个数相近,采用的滤波器为三角滤波器,M通常取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
三角滤波器的频率响应定义为
式中,计算每个滤波器组输出的对数能量为: 经离散余弦变换即得到MFCC系数:将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数;L阶指MFCC系数阶数,通常取12-16,M是三角滤波器个数。
步骤三中,对语音文件进行标注时,通过隐马尔可夫模型标注语音文件的声母、韵母和语调。
隐马尔可夫模型λ=(S,W,A,B,π),S为句子中所有词汇语义的集合;W为所有词汇的集合,A是状态转移概率矩阵,B是观测概率矩阵,π为初始状态概率,具体规程如下:
定义一个用来建模的L声音类的集合。例如词组,定义声音类V={v1,v2,..,v3};
对于每一个类,积累一定量的已知的标记语音集合;
在训练集合的基础上,解决估计问题,为每个类Vi获取一个最好的模型λi;
在认识的过程中,对每个未知观察序列O估计Pr(O|λi)(i=1,2,...,L)),并为每个类Vi确定产生O的语音,使其满足:Pr(O|λi)=Pr(O|λi)。
步骤三中,使语音文件与拼音序列之间产生映射关联时,计算拼音序列的特征向量和语音文件的特征向量,计算上述两种特征向量之间的欧式距离,两种特征向量之间的欧式距离小于阈值时,使所述拼音序列和语音文件产生一一对应关系。
欧式距离是评价个体相似性或者类别相似性的指标,其用于衡量个体在空间上存在的距离,距离越小说明个体间差别越小;本实施例中通过计算两种特征向量之间的欧式距离,建立拼音序列和语音文件之间的关联关系。
步骤三中,语音文件的物理参数包括语音持续时间和语音音高;语音持续时间和语音音高可以从语音文件中直接获得。
S4:将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
如图2所示,本实施例中,所述DCNN深度卷积网络模型采用三个卷积层、两个池化层和一个全连接层,并采用softmax激活函数和交叉熵函数作为损失函数对深度卷积模型进行调优。
一种语音合成系统,包括:
语音采集模块,用于采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;
文本采集模块,用于获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;
模型生成模块,其使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;
语音合成模块,其将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的语音合成方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种语音合成方法,其特征在于:所述方法步骤如下:
步骤一:采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;
步骤二:获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;
步骤三:使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;
步骤四:将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
2.根据权利要求1所述的语音合成方法,其特征在于:步骤二中,通过文本输入的方式获取文本,并在文本输入时检测文本的正确性。
3.根据权利要求1所述的语音合成方法,其特征在于:步骤三中,对语音文件进行标注时,通过隐马尔可夫模型标注语音文件的声母、韵母和语调。
4.根据权利要求1所述的语音合成方法,其特征在于,进行步骤三之前,先将拼音序列以TF-IDF方式进行编码,生成拼音序列向量,继而使拼音序列向量具有固定长度:拼音序列向量超过该固定长度的,对其进行截取并舍弃其末尾;拼音序列向量短于该固定长度的,在其末尾补零填充;将具有固定长度的拼音序列向量作为拼音序列的特征向量。
5.根据权利要求1所述的语音合成方法,其特征在于,进行步骤三之前,提取语音文件的MFCC向量作为语音文件的特征向量。
6.根据权利要求1所述的语音合成方法,其特征在于,步骤三中,使语音文件与拼音序列之间产生映射关联时,计算拼音序列的特征向量和语音文件的特征向量,计算上述两种特征向量之间的欧式距离,两种特征向量之间的欧式距离小于阈值时,使所述拼音序列和语音文件产生一一对应关系。
7.根据权利要求1所述的语音合成方法,其特征在于,步骤三中,语音文件的物理参数包括语音持续时间和语音音高。
8.一种语音合成系统,其特征在于,包括:
语音采集模块,用于采集语音文件,构建语音数据库,语音数据库为同一汉字或词组不同语调的语音文件的集合;
文本采集模块,用于获取文本,将文本分割为若干个具有独立语义和语调的文本块,并将文本块转化为拼音序列;
模型生成模块,其使语音文件与拼音序列之间产生映射关联,对语音文件进行预处理后确定语音文件的物理参数,对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练;
语音合成模块,其将需要转化为语音的文本输入到DCNN深度卷积网络模型中,输出相应的声波文件。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001647.8A CN112151008B (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001647.8A CN112151008B (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151008A true CN112151008A (zh) | 2020-12-29 |
CN112151008B CN112151008B (zh) | 2022-07-15 |
Family
ID=73893615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011001647.8A Active CN112151008B (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151008B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120072224A1 (en) * | 2009-08-07 | 2012-03-22 | Khitrov Mikhail Vasilievich | Method of speech synthesis |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
CN107103900A (zh) * | 2017-06-06 | 2017-08-29 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
US20180254034A1 (en) * | 2015-10-20 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN109461435A (zh) * | 2018-11-19 | 2019-03-12 | 北京光年无限科技有限公司 | 一种面向智能机器人的语音合成方法及装置 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN110321557A (zh) * | 2019-06-14 | 2019-10-11 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
US20200058288A1 (en) * | 2018-08-16 | 2020-02-20 | National Taiwan University Of Science And Technology | Timbre-selectable human voice playback system, playback method thereof and computer-readable recording medium |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
-
2020
- 2020-09-22 CN CN202011001647.8A patent/CN112151008B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120072224A1 (en) * | 2009-08-07 | 2012-03-22 | Khitrov Mikhail Vasilievich | Method of speech synthesis |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
US20180254034A1 (en) * | 2015-10-20 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN107103900A (zh) * | 2017-06-06 | 2017-08-29 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
US20200058288A1 (en) * | 2018-08-16 | 2020-02-20 | National Taiwan University Of Science And Technology | Timbre-selectable human voice playback system, playback method thereof and computer-readable recording medium |
CN109461435A (zh) * | 2018-11-19 | 2019-03-12 | 北京光年无限科技有限公司 | 一种面向智能机器人的语音合成方法及装置 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN110321557A (zh) * | 2019-06-14 | 2019-10-11 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
Non-Patent Citations (5)
Title |
---|
PAN, JUNJIE, ET AL.: "A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis", 《ICASSP》 * |
任萍萍: "《智能客服机器人》", 31 August 2017, 成都时代出版社 * |
杨金翠 等: "《物联网环境下控制安全技术》", 30 September 2018, 中央民族大学出版社 * |
颜世江 等: "端到端闽南语合成系统的设计与实现", 《厦门大学学报(自然科学版)》 * |
黄孝建: "《多媒体技术》", 28 February 2010, 北京邮电大学出版社 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151008B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534089B (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110211565B (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN109523989B (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN1169115C (zh) | 语音合成系统及方法 | |
CN110674339A (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Liu et al. | Mongolian text-to-speech system based on deep neural network | |
Ahmed et al. | End-to-end lexicon free arabic speech recognition using recurrent neural networks | |
CN115358212A (zh) | 一种基于文本和语音置信度的多模态情绪识别模型与方法 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
Levy et al. | The effect of pitch, intensity and pause duration in punctuation detection | |
CN113506586A (zh) | 用户情绪识别的方法和系统 | |
Carofilis et al. | Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping | |
CN116682463A (zh) | 一种多模态情感识别方法及系统 | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
CN112151008B (zh) | 一种语音合成方法、系统及计算机设备 | |
Noriy et al. | Clara: Multilingual contrastive learning for audio representation acquisition | |
Lekshmi et al. | An acoustic model and linguistic analysis for Malayalam disyllabic words: a low resource language | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |