CN110782871A - 一种韵律停顿预测方法、装置以及电子设备 - Google Patents
一种韵律停顿预测方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN110782871A CN110782871A CN201911046827.5A CN201911046827A CN110782871A CN 110782871 A CN110782871 A CN 110782871A CN 201911046827 A CN201911046827 A CN 201911046827A CN 110782871 A CN110782871 A CN 110782871A
- Authority
- CN
- China
- Prior art keywords
- trained
- model
- output
- text
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000033764 rhythmic process Effects 0.000 title description 4
- 239000011159 matrix material Substances 0.000 claims abstract description 144
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 147
- 230000015654 memory Effects 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种韵律停顿预测方法、装置以及电子设备,涉及机器学习技术领域。具体实现方案为:基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,待测文本序列包括待测输入文本以及待测发音人的身份标识;将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;基于所述语义表示矩阵进行韵律停顿预测,输出所述待测文本序列中每个文字的韵律停顿预测结果。
Description
技术领域
本申请涉及计算机技术中的机器学习技术领域,尤其涉及一种韵律停顿预测方法、装置以及电子设备。
背景技术
在语音合成系统中,韵律停顿预测是不可或缺的重要部分。在实际语音信号中,不同的停顿级别对应不同长度的停顿。不同的发音人具有不同的韵律停顿特性。
目前,一个韵律停顿预测模型是针对一个发音人,即每个发音人对应一个预测模型(即单人预测模型),多发音人多预测模型(即多个发音人,有多个预测模型),每个发音人的预测模块相互独立,受发音人的限制,预测模型的泛化能力较低,不易对文本进行准确的语义解析获得准确的文本语义信息,即容易导致韵律停顿预测准确性不高。
发明内容
本申请提供一种韵律停顿预测方法、装置和电子设备,以解决韵律停顿预测结果准确性不高的问题。
第一方面,本申请一个实施例提供一种韵律停顿预测方法,包括:
基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,所述待测文本序列包括待测输入文本以及待测发音人的身份标识;
将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;
基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果。
上述申请中的一个实施例具有如下优点或有益效果:提高韵律停顿预测准确性。因为在预测过程中,在待测输入文本的基础上增加了所需预测的待测发音人的身份标识,通过已训练的嵌入层是对包括待测输入文本以及待测发音人的身份标识的待测文本序列进行映射,得到的第一矩阵,即得到的第一矩阵中考虑了待测发音人的身份标识,在利用第一矩阵通过已训练的注意力模型确定语义表示矩阵过程中考虑了待测发音人。可以理解,结合发音人的身份标识,通过统一的已训练的注意力模型可应对文本对于不同发音人的语义表示矩阵的确定,以避免受发音人的限制,提高其泛化能力,能适用于不同发音人的文本语义解析,提高语义表示矩阵的准确性,即提高文本语义信息的准确性,进而可提高韵律停顿预测的准确性。所以可克服韵律停顿预测准确性不高的技术问题,进而达到提高韵律停顿预测的准确性。也就是说,在本实施例中,可采用统一的已训练的模型可应对文本对于不同发音人的韵律停顿预测,泛化能力提高,且能提高语义解析能力,提高预测准确性。
可选的,基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
得到的已训练的预测模型能适用于不同的发音人,可提高以训练的预测模型的准确性。
可选的,所述基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型,包括:
根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
通过第二预设训练文本和有第一训练发音人的身份标识的第一预设训练文本序列进行训练得到已训练的预测模型,提高预测模型的性能,使其在预测得到韵律停顿预测结果过程中提高预测准确性。
所述基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果,包括:
基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括已训练的全连接层和已训练的输出层,所述已训练的全连接层的输入包括所述语义表示矩阵,所述已训练的输出层的输入包括所述已训练的全连接层的输出,所述已训练的输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
基于语义表示矩阵,通过全连接层和输出层输出韵律停顿预测结果,以提高韵律停顿预测结果的准确性。
可选的,所述将所述第一矩阵输入已训练的注意力模型中之前,还包括:
基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
将所述第一矩阵与所述位置矩阵相加,更新所述第一矩阵。
即不但在待测输入文本的基础上增加了待测发音人的身份标识,而且还增加了待测文本序列的位置信息,也就是说,既考虑了发音人又考虑了位置,从而在预测过程中,可提高预测准确性。
第二方面,本申请一个实施例提供一种韵律停顿预测装置,所述装置包括:
映射模块,用于基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,所述待测文本序列包括待测输入文本以及待测发音人的身份标识;
语义确定模块,用于将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;
输出模块,用于基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果。
可选的,所述装置,还包括:
训练模块,用于基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
可选的,所述训练模块,还包括:
第一训练子模块,用于根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
第二训练子模块,用于基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
可选的,所述输出模块,用于基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括已训练的全连接层和已训练的输出层,所述已训练的全连接层的输入包括所述语义表示矩阵,所述已训练的输出层的输入包括所述已训练的全连接层的输出,所述已训练的输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
可选的,所述装置,还包括:
位置获取模块,用于在所述语义确定模块执行将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵之前,基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
更新模块,用于将所述第一矩阵与所述位置矩阵相加,更新所述第一矩阵。
第三方面,本申请一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的方法。
第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请提供的一个实施例的韵律停顿预测方法的流程示意图;
图2是本申请提供的一个实施例的韵律停顿预测的示意图;
图3是本申请提供的一个实施例的韵律停顿预测装置的结构图之一;
图4是本申请提供的一个实施例的韵律停顿预测装置的结构图之二;
图5是本申请提供的一个实施例的韵律停顿预测装置的结构图之三;
图6是本申请提供的一个实施例的韵律停顿预测装置的结构图之四;
图7是用来实现本申请实施例的韵律停顿预测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,根据本申请的实施例,本申请提供一种韵律停顿预测方法,包括:
步骤S101:基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵。
其中,待测文本序列包括待测输入文本以及待测发音人的身份标识。嵌入层即embedding层,可用于降维,即是通过一个映射表可将目标映射为一个低维的输出,嵌入层进行映射的过程可以理解为编码过程,能够将目标编码为一个低维向量,且能保留其含义。在本实施例中,可通过嵌入层对包括待测输入文本和待测发音人的身份标识的待测文本序列进行编码得到第一矩阵。第一矩阵中包括待测输入文本的文本编码矩阵和待测发音人的身份标识的编码向量,其中,文本编码矩阵即为待测输入文本通过嵌入层映射后得到的矩阵,待测发音人的身份标识的编码向量即为待测发音人的身份标识通过嵌入层映射后的向量。在一个示例中,待测输入文本中可包括T个文字,T可以为大于零的整数,每个文字通过嵌入层可映射得到一个对应的编码向量,从而待测输入文本的T个文字的编码向量组合形成上述文本编码矩阵。在一个示例中,待测文本序列中的待测发音人的身份标识的数量可以为2个,且相同,待测输入文本可位于2个待测发音人的身份标识之间,则第一矩阵中待测发音人的身份标识的编码向量的数量对应有2个,且编码向量相同,即第一矩阵中包括待测发音人的2个相同的编码向量,且在第一矩阵中,文本编码矩阵可位于待测发音人的2个编码向量之间,即待测发音人的2个编码向量分别在第一矩阵中的首尾。
在一个示例中,上述待测输入文本可以为用户输入的文本,即通过用户输入需要预测韵律停顿的文本,上述待测发音人的身份标识也可以为用户输入的发音人身份标识,即通过用户输入需要进行文本的韵律停顿预测的发音人,即预测待测输入文本在该发音人下的韵律停顿。也就是说,上述待测文本序列可以为用户输入的文本序列,即通过用户输入需要预测韵律停顿的待测输入文本以及对应的待测发音人的身份标识。在接收到输入的文本序列后,即可对输入的文本序列中待测输入文本在输入的发音人身份标识下的韵律停顿进行预测,则首先基于嵌入层对待测文本序列进行映射,得到第一矩阵。
步骤S102:将第一矩阵输入已训练的注意力模型中,基于已训练的注意力模型确定语义表示矩阵。
通过已训练的注意力模型可解析文本的语义信息,即通过已训练的注意力模型进行语义解析即可确定语义表示矩阵,语义表示矩阵可以理解为文本语义信息。在一个示例中,注意力模型为Transformer模型,可进行文本语义解析得到语义表示矩阵,即文本语义信息。Transformer模型具有强大的语义建模能力,能够双向建模文本序列,即能实现双向编码,其能够参考第一矩阵的上下文信息,进而得到能准确表达待测文本序列的语义特征的语义表示矩阵。而且Transformer模型且不受文本序列长度和位置的限制。
S103:基于语义表示矩阵进行韵律停顿预测,输出待测输入文本中每个文字的韵律停顿预测结果。
在得到待测文本序列的语义表示矩阵之后即可基于语义表示矩阵进行韵律停顿预测,以得到待测输入文本中每个文字的韵律停顿预测结果,实现文本韵律停顿预测。在一个示例中,可基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果,即预先已训练输出模型,已训练的输出模型的输入包括已训练的自注意力模型的输出,已训练的自注意力模型确定语义表示矩阵后可将其输出至已训练的输出模型,通过已训练的输出模型输出待测输入文本中每个文字的韵律停顿预测结果。上述在确定第一矩阵过程中考虑了待测发音人,语义表示矩阵是待测文本序列对于待测发音人的文本语义信息,从而,输出的韵律停顿预测结果是与该待测发音人对应的,即韵律停顿结果为待测文本序列对于待测发音人的韵律停顿预测结果。
上述申请中的一个实施例的韵律停顿预测过程中,在待测输入文本的基础上增加了所需预测的待测发音人的身份标识,通过已训练的嵌入层是对包括待测输入文本以及待测发音人的身份标识的待测文本序列进行映射,得到的第一矩阵,即得到的第一矩阵中考虑了待测发音人的身份标识,在利用第一矩阵通过已训练的注意力模型确定语义表示矩阵以及基于语义表示矩阵进行预测得到韵律停顿预测结果的过程中考虑了待测发音人。可以理解,结合发音人的身份标识,通过统一的已训练的注意力模型可应对文本对于不同发音人的语义表示矩阵的确定,以避免受发音人的限制,提高其泛化能力,能适用于不同发音人的文本语义解析,提高语义表示矩阵的准确性,即提高文本语义信息的准确性,进而提高韵律停顿预测的准确性。
在一个实施例中,所述基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵之前,还包括:
基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
即在本实施例中对预测模型进行训练过程中,即是对嵌入层、注意力模型以及输出模型的训练,预测模型训练完成得到已训练的预测模型,则表示嵌入层、注意力模型以及输出模型训练完成,得到已训练的嵌入层、已训练的注意力模型和已训练的输出模型。进行训练的过程中,采用了包括N个第一预设训练文本以及M个第一预设训练文本的第一训练发音人的身份标识的第一预设训练文本序列,N和M的取值可以根据应用的场景或者实际需求进行选择,对此不作限定。每个第一预设训练文本中可包括多个文字,每个第一预设训练文本有对应的一个第一训练发音人的身份标识,即第一预设训练文本序列包括第一预设训练文本及其对应的第一训练发音人的身份标识,即在N个第一预设训练文本序列中,第一预设训练文本和第一训练发音人的身份标识一一对应,在本实施例中,采用N个第一预设训练文本序列,则有N个第一预设训练文本。可以理解,采用多个第一预设训练文本用于训练,第一训练发音人的身份标识可对应有多个,则利用多发音人的第一预设训练文本序列进行注意力模型训练,即采用了较多的有标注的数据(即带有训练发音人的身份标识的N个第一预设训练文本序列)进行训练,从而可使得到的已训练的预测模型能适用于不同的发音人,使已训练的预测模型对不同发音人的文本的韵律停顿预测准确性提高,即可提高已训练的预测模型的预测准确性。而且不再是一个发音人一个预测模型进行预测(即多发音人多预测模型,在实际应用中,需要同时加载多个预测模型应对不同发音人的韵律停顿预测,需要占用较多的计算资源,造成资源浪费,且不易于维护),而是采用统一的已训练的预测模型可进行多发音人的韵律停顿预测,不但可减小计算资源,而且有利于维护。
例如,N为10,可以每个第一预设训练文本对应的第一训练发音人的身份标识不同,例如,10个第一预设训练文本对应的训练发音人的身份标识分别为A1、A2、A3、A4、A5、A6、A7、A8、A9、A10,身份标识均不尽相同,如此,即可对上述10个训练发音人的身份标识对应的发音人的第一预设训练文本序列进行训练。
另外,在本实施例的训练过程中,不仅采用了包括第一预设训练文本序列和第一训练发音人的身份标识的第一预设训练文本序列进行训练,可以理解为有标注(即带有发音人的身份标识)的数据进行训练。而且还采用了没有发音人的身份标识的第二预设训练文本进行训练,即采用纯文本的无监督训练。如此,通过第二预设训练文本和第一预设训练文本序列进行多次训练得到已训练的预测模型,可提高预测模型的性能,使其在预测得到韵律停顿预测结果过程中提高预测准确性。
在一个实施例中,基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型,包括:
根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
即首先利用M个第二预设训练文本进行无监督训练得到初始语言模型,初始语言模型可实现文本语义解析,可以理解,根据所述M个第二预设训练文本对待训练语言模型进行训练,以得到初始语言模型,待训练语言模型包括待训练嵌入层和待训练注意力模型,待训练嵌入层的输入包括M个第二预设训练文本,所述待训练注意力的输入包括所述待训练嵌入层的输出。
然后再利用N个第一预设训练文本序列对待训练预测模型进行训练,即是对待训练输出模型的训练以及对初始语言模型的调整,以提高预测模型的性能。具体地,初始语言模型的输入包括N个第一预设训练文本序列,将N个第一预设训练文本序列输入初始语言模型开始待训练预测模型的训练。如此,通过第二预设训练文本序列和第一预设训练文本序列进行多次训练得到已训练的预测模型,提高预测模型的性能,使其在预测得到韵律停顿预测结果过程中提高预测准确性。
在一个实施例中,所述基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果,包括:
基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括全连接层和输出层,所述全连接层的输入包括所述语义表示矩阵,所述输出层的输入包括所述全连接层的输出,所述输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
全连接层的每一个节点都与上一层(在本实施中为已训练的注意力模型)的所有节点相连,用来把上一层提取到的特征综合起来,给出输出。在本实施例中,全连接层的输入包括已训练的注意力模型的输出,即语义表示矩阵,全连接层基于语义表示矩阵进行处理后输出至输出层,输出层基于全连接层的输出进行处理输出韵律停顿预测结果,即待测文本序列中待测输入文本的每个文字的韵律停顿预测结果。也就是说通过全连接层和输出层对语义表示矩阵进行处理,输出待测输入文本的韵律停顿预测结果,由于待测输入文本中可以包括多个文字,则通过全连接层和输出层可得到每个文字的韵律停顿预测结果。基于语义表示矩阵,通过全连接层和输出层输出韵律停顿预测结果,以提高韵律停顿预测结果的准确性。
在一个示例中,全连接层的数量可以有多个,每一个全连接层可预先训练得到,最前一个全连接层的输入包括已训练的注意力模型的输出,即最前一个全连接层用来接收已训练的注意力模型的输出,输出层的输入包括最后一个全连接层的输出,若全连接层的数量超过2个,则其余全连接层是在最前一个全连接层和最后一个全连接层之间。语义表示矩阵通过多个全连接层以及输出层,最终输出韵律停顿预测结果。在一个示例中,全连接层中的激励函数可采用ReLU激活函数。
在一个实施例中,将第一矩阵输入已训练的注意力模型中之前,还包括:
基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
将第一矩阵与位置矩阵相加,更新第一矩阵。
利用已训练的嵌入层得到第一矩阵后,可通过已训练的注意力模型对第一矩阵进行语义解析,以得到能表示待测文本序列的文本语义信息的语义表示矩阵。在对待测文本序列进行映射得到第一矩阵过程中,待测发音人的身份标识也可以看成文本,测文本序列中的文字包括待测输入文本中的文字和待测发音人的身份标识,待测发音人与待测输入文本一起进行映射得到第一矩阵。在本实施例中,在通过已训练的嵌入层得到的第一矩阵上,考虑待测文本序列的位置矩阵,即考虑待测文本序列中每个文字在待测文本序列中的位置,待测文本序列中的文字有对应的位置,为了区分待测文本序列中文字的位置,在本实施例中,还可添加与第一矩阵相同维度的位置矩阵,然后将第一矩阵与位置矩阵相加,从而实现第一矩阵的更新,后续基于已训练的注意力模型进行语义解析过程中,基于更新后的第一矩阵。
在本实施例中,不但在待测输入文本的基础上考虑了待测发音人的身份标识,而且还考虑了待测文本序列的位置信息,也就是说,既考虑了发音人又考虑了待测文本序列的位置,从而在预测过程中,可提高预测准确性。
下面以一个具体实施例对上述韵律停顿预测方法的过程加以具体说明,例如,以注意力模型为Transformer模型为例进行说明。上述韵律停顿预测方法可应用于语音合成系统,具体可应用于电子设备,该电子设备可以是可进行语音合成的电子设备,例如,计算机、移动终端、服务器、穿戴设备、汽车等。在输出待测输入文本中每个文字的韵律停顿预测结果之后,可基于待测输入文本以及待测输入文本中每个文字的韵律停顿预测结果,进行语音合成,得到与待测发音人匹配的语音,即得到的语音与待测发音人的身份标识对应,即可以理解输出的语音与待测发音人匹配。
如图2所示,首先可利用已训练的嵌入层(embedding层)对包括待测输入文本和待测发音人的身份标识(SPK)的待测文本序列进行映射得到第一矩阵。在待测文本序列中待测发音人的身份标识的数量为2个,且相同,如图2所示的SPK。待测输入文本位于该待测发音人的2个身份标识之间。然后将第一矩阵输入到已训练的注意力模型(Transformer模型)进行语义解析,得到语义表示矩阵。再将语义表示矩阵输入已训练的输出模型中的全连接层(dense layer)。如2所示,全连接层的数量为2个,即有2层全连接层。全连接层基于语义表示矩阵的输出输入至输出层(Output layer),通过输出层输出韵律停顿预测结果。其中,可先通过第二预设训练文本序列进行无监督训练,得到初始嵌入层和初始注意力模型,然后再通过第一预设训练文本序列对待训练输出模型、初始嵌入层和初始注意力模型进行训练,可实现对初始嵌入层和初始注意力模型的调整,可提高得到的预测模型的准确性。
其中,已训练的注意力模型的输入包括已训练的嵌入层的输出(即第一矩阵),全连接层的输入包括已训练的注意力模型的输出。其中,注意力模型可以包括P个子注意力模型,P可以是大于0的整数,P的取值可以根据应用的场景或者实际需求进行选择,对此不作限定。每个子注意力模型包括自注意力层(self-attention layer)和前馈网络(feed-forward network,FFN),前馈网络的输入包括与其属于同一个子注意力模型的自注意力层的输出,注意力模型中第1个子注意力模型的输入包括嵌入层的输出,可以理解,第1个子注意力模型中的自注意力层的输入包括嵌入层的输出,全连接层的输入包括第P个子注意力模型的输出,第P个子注意力模型的输出即为注意力模型的输出。全连接层对注意力模型的输出进行处理后输出至输出层,通过输出层输出待测文本序列中每个文字的韵律停顿预测结果。韵律停顿级别可以包括4个级别,例如,分别为图2中的#0(无韵律停顿)、#1(韵律词)、#2(韵律短语)和#3(语调韵律),分别表示不同的级别。待测输入文本中一个文字的韵律停顿预测结果可以为上述4个级别中的一种。
而且已训练的注意力模型在对第一矩阵进行解析确定语义表示矩阵之前,还可在第一矩阵的基础上增加待测文本序列的位置矩阵,从而可区分序列的位置,以提高预测准确性。
通过上述实施例的韵律停顿预测方法,通过包括已训练的嵌入层、注意力模型和输出模型的预测模型对待测文本序列进行韵律停顿进行预测,其在预测过程中,充分考虑了发音人的身份标识,而且考虑了待测文本序列的位置信息,以提高韵律停顿预测的准确性。
请参考图3,本申请提供一种实施例的韵律停顿预测装置300,装置包括:
映射模块301,用于基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,所述待测文本序列包括待测输入文本以及待测发音人的身份标识;
语义确定模块302,用于将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;
输出模块303,用于基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果。
请参考图4,在一个实施例中,所述装置,还包括:
训练模块304,用于基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
请参考图5,在一个实施例中,所述训练模块304,包括:
第一训练子模块3041,用于根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
第二训练子模块3042,用于基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
在一个实施例中,所述输出模块303,用于基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括已训练的全连接层和已训练的输出层,所述已训练的全连接层的输入包括所述语义表示矩阵,所述已训练的输出层的输入包括所述已训练的全连接层的输出,所述已训练的输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
请参考图6,在一个实施例中,装置,还包括:
位置获取模块305,用于在语义确定模块302执行将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵之前,基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
更新模块306,用于将所述第一矩阵与所述位置矩阵相加,更新所述第一矩阵。
上述各实施例的韵律停顿预测装置为实现上述各实施例的韵律停顿预测方法的装置,技术特征对应,技术效果对应,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请实施例的韵律停顿预测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的韵律停顿预测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的韵律停顿预测方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的韵律停顿预测方法对应的程序指令/模块(例如,附图3所示的映射模块301、语义确定模块302、输出模块303)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的韵律停顿预测方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
韵律停顿预测方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,能够在电子设备的宽度大于第一预设宽度的情况下,生成第一子键盘和第二子键盘,并间隔显示所述第一子键盘以及所述第二子键盘,即第一子键盘以及所述第二子键盘之间存在间隔,则用户无需在间隔中进行按键操作,使用户在操作过程中容易触达键盘中的按键,可缩短用户对键盘的操作路径,进而提高输入效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种韵律停顿预测方法,其特征在于,所述方法包括:
基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,所述待测文本序列包括待测输入文本以及待测发音人的身份标识;
将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;
基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵之前,还包括:
基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
3.根据权利要求2所述的方法,其特征在于,所述基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型,包括:
根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
4.根据权利要求1所述的方法,其特征在于,所述基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果,包括:
基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括已训练的全连接层和已训练的输出层,所述已训练的全连接层的输入包括所述语义表示矩阵,所述已训练的输出层的输入包括所述已训练的全连接层的输出,所述已训练的输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一矩阵输入已训练的注意力模型中之前,还包括:
基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
将所述第一矩阵与所述位置矩阵相加,更新所述第一矩阵。
6.一种韵律停顿预测装置,其特征在于,所述装置包括:
映射模块,用于基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,所述待测文本序列包括待测输入文本以及待测发音人的身份标识;
语义确定模块,用于将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;
输出模块,用于基于所述语义表示矩阵进行韵律停顿预测,输出所述待测输入文本中每个文字的韵律停顿预测结果。
7.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
训练模块,用于基于N个第一预设训练文本序列以及M个第二预设训练文本进行模型训练,得到已训练的预测模型;
其中,所述N、M为大于1的整数,所述第一预设训练文本序列包括第一预设训练文本以及第一训练发音人的身份标识,所述已训练的预测模型包括所述已训练的嵌入层、所述已训练的注意力模型和已训练的输出模型,所述已训练的嵌入层的输入包括所述待测文本序列,所述已训练的注意力模型的输入包括所述已训练的嵌入层的输出,所述已训练的输出模型的输入包括所述注意力模型的输出,所述已训练的输出模型的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,包括:
第一训练子模块,用于根据所述M个第二预设训练文本进行模型训练,得到初始语言模型,所述初始语言模型包括初始嵌入层和初始注意力模型,所述初始注意力的输入包括所述初始嵌入层的输出;
第二训练子模块,用于基于所述N个第一预设训练文本序列对待训练预测模型进行训练,得到所述已训练的预测模型,其中,所述待训练预测模型包括待训练输出模型和所述初始语言模型,所述待训练输出模型的输入包括所述初始语言模型的输出。
9.根据权利要求6所述的装置,其特征在于,所述输出模块,用于基于所述语义表示矩阵,通过已训练的输出模型输出所述待测输入文本中每个文字的韵律停顿预测结果;
其中,所述已训练的输出模型包括已训练的全连接层和已训练的输出层,所述已训练的全连接层的输入包括所述语义表示矩阵,所述已训练的输出层的输入包括所述已训练的全连接层的输出,所述已训练的输出层的输出包括所述待测输入文本中每个文字的韵律停顿预测结果。
10.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
位置获取模块,用于在所述语义确定模块执行将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵之前,基于所述待测文本序列中每个文字在所述待测文本序列中的位置,确定所述待测文本序列的位置矩阵;
更新模块,用于将所述第一矩阵与所述位置矩阵相加,更新所述第一矩阵。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046827.5A CN110782871B (zh) | 2019-10-30 | 2019-10-30 | 一种韵律停顿预测方法、装置以及电子设备 |
US16/870,053 US11200382B2 (en) | 2019-10-30 | 2020-05-08 | Prosodic pause prediction method, prosodic pause prediction device and electronic device |
JP2020083945A JP6986592B2 (ja) | 2019-10-30 | 2020-05-12 | リズム一時停止予測方法、装置および電子機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046827.5A CN110782871B (zh) | 2019-10-30 | 2019-10-30 | 一种韵律停顿预测方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782871A true CN110782871A (zh) | 2020-02-11 |
CN110782871B CN110782871B (zh) | 2020-10-30 |
Family
ID=69387842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911046827.5A Active CN110782871B (zh) | 2019-10-30 | 2019-10-30 | 一种韵律停顿预测方法、装置以及电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11200382B2 (zh) |
JP (1) | JP6986592B2 (zh) |
CN (1) | CN110782871B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696519A (zh) * | 2020-06-10 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 藏语声学特征模型的构建方法及系统 |
CN112349274A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112365880A (zh) * | 2020-11-05 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238683B (zh) * | 2022-08-09 | 2023-06-20 | 平安科技(深圳)有限公司 | 循环自注意力的停用词识别方法、装置、设备及介质 |
CN116070629A (zh) * | 2023-04-06 | 2023-05-05 | 北京蜜度信息技术有限公司 | 中文文本词序校对方法、系统、存储介质及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056786A (ja) * | 1998-08-10 | 2000-02-25 | Fujitsu Ltd | 音声合成装置 |
CN1938756A (zh) * | 2004-03-05 | 2007-03-28 | 莱塞克技术公司 | 韵律语音文本代码以及它们在计算机化语音系统中的使用 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
US20070203703A1 (en) * | 2004-03-29 | 2007-08-30 | Ai, Inc. | Speech Synthesizing Apparatus |
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
US20170004825A1 (en) * | 2014-05-13 | 2017-01-05 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109844741A (zh) * | 2017-06-29 | 2019-06-04 | 微软技术许可有限责任公司 | 在自动聊天中生成响应 |
CN110265028A (zh) * | 2019-06-20 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成语料库的构建方法、装置及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
EP0841624A1 (en) * | 1996-11-08 | 1998-05-13 | Softmark Limited | Input and output communication in a data processing system |
JP4584511B2 (ja) | 2001-09-10 | 2010-11-24 | Okiセミコンダクタ株式会社 | 規則音声合成装置 |
US7542903B2 (en) * | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
JP2005345846A (ja) | 2004-06-04 | 2005-12-15 | Advanced Telecommunication Research Institute International | 入力テキストのポーズ位置予測装置 |
US9070363B2 (en) * | 2007-10-26 | 2015-06-30 | Facebook, Inc. | Speech translation with back-channeling cues |
US20150254238A1 (en) * | 2007-10-26 | 2015-09-10 | Facebook, Inc. | System and Methods for Maintaining Speech-To-Speech Translation in the Field |
CN104021784B (zh) | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
CN107451115B (zh) | 2017-07-11 | 2020-03-06 | 中国科学院自动化研究所 | 端到端的汉语韵律层级结构预测模型的构建方法及系统 |
JP7112075B2 (ja) | 2017-08-07 | 2022-08-03 | 国立研究開発法人情報通信研究機構 | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 |
US10832003B2 (en) * | 2018-08-26 | 2020-11-10 | CloudMinds Technology, Inc. | Method and system for intent classification |
CN110223671B (zh) | 2019-06-06 | 2021-08-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、系统和存储介质 |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
-
2019
- 2019-10-30 CN CN201911046827.5A patent/CN110782871B/zh active Active
-
2020
- 2020-05-08 US US16/870,053 patent/US11200382B2/en active Active
- 2020-05-12 JP JP2020083945A patent/JP6986592B2/ja active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056786A (ja) * | 1998-08-10 | 2000-02-25 | Fujitsu Ltd | 音声合成装置 |
CN1938756A (zh) * | 2004-03-05 | 2007-03-28 | 莱塞克技术公司 | 韵律语音文本代码以及它们在计算机化语音系统中的使用 |
US20070203703A1 (en) * | 2004-03-29 | 2007-08-30 | Ai, Inc. | Speech Synthesizing Apparatus |
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
US20170004825A1 (en) * | 2014-05-13 | 2017-01-05 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
CN109844741A (zh) * | 2017-06-29 | 2019-06-04 | 微软技术许可有限责任公司 | 在自动聊天中生成响应 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110265028A (zh) * | 2019-06-20 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成语料库的构建方法、装置及设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696519A (zh) * | 2020-06-10 | 2020-09-22 | 苏州思必驰信息科技有限公司 | 藏语声学特征模型的构建方法及系统 |
CN112349274A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112349274B (zh) * | 2020-09-28 | 2024-06-07 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112365880A (zh) * | 2020-11-05 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112365880B (zh) * | 2020-11-05 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11200382B2 (en) | 2021-12-14 |
CN110782871B (zh) | 2020-10-30 |
JP2021071709A (ja) | 2021-05-06 |
US20210133396A1 (en) | 2021-05-06 |
JP6986592B2 (ja) | 2021-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782871B (zh) | 一种韵律停顿预测方法、装置以及电子设备 | |
CN110619867B (zh) | 语音合成模型的训练方法、装置、电子设备及存储介质 | |
CN110473516B (zh) | 语音合成方法、装置以及电子设备 | |
EP3916611A1 (en) | Method, apparatus, computer program, and storage medium for training text generation model | |
CN110807331B (zh) | 一种多音字读音预测方法、装置和电子设备 | |
CN111061868B (zh) | 读法预测模型获取及读法预测方法、装置及存储介质 | |
CN110767212B (zh) | 一种语音处理方法、装置和电子设备 | |
CN110797005B (zh) | 韵律预测方法、装置、设备和介质 | |
CN112365880A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN112530437A (zh) | 语义识别方法、装置、设备以及存储介质 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
CN112270198B (zh) | 角色确定方法、装置、电子设备及存储介质 | |
CN111950291A (zh) | 语义表示模型的生成方法、装置、电子设备及存储介质 | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
CN112509552A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN112541342B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN112560499B (zh) | 语义表示模型的预训练方法、装置、电子设备及存储介质 | |
CN112528669A (zh) | 多语言模型的训练方法、装置、电子设备和可读存储介质 | |
CN111611808A (zh) | 用于生成自然语言模型的方法和装置 | |
CN112232089B (zh) | 语义表示模型的预训练方法、设备和存储介质 | |
CN111667828B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN113468857A (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
CN112309368A (zh) | 韵律预测方法、装置、设备以及存储介质 | |
CN112650844A (zh) | 对话状态的追踪方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |