CN110782880A - 一种韵律生成模型的训练方法及装置 - Google Patents
一种韵律生成模型的训练方法及装置 Download PDFInfo
- Publication number
- CN110782880A CN110782880A CN201911007202.8A CN201911007202A CN110782880A CN 110782880 A CN110782880 A CN 110782880A CN 201911007202 A CN201911007202 A CN 201911007202A CN 110782880 A CN110782880 A CN 110782880A
- Authority
- CN
- China
- Prior art keywords
- sample text
- model
- pause
- rereading
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 title claims abstract description 68
- 230000033764 rhythmic process Effects 0.000 title description 6
- 230000006870 function Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 80
- 239000013598 vector Substances 0.000 claims description 64
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 21
- 238000003066 decision tree Methods 0.000 claims description 17
- 239000000470 constituent Substances 0.000 claims description 11
- 230000001902 propagating effect Effects 0.000 claims description 10
- 230000000644 propagated effect Effects 0.000 claims description 8
- 238000003909 pattern recognition Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 239000011295 pitch Substances 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 8
- 230000001174 ascending effect Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 229940035289 tobi Drugs 0.000 description 2
- NLVFBUXFDBBNBW-PBSUHMDJSA-N tobramycin Chemical compound N[C@@H]1C[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N NLVFBUXFDBBNBW-PBSUHMDJSA-N 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L2013/083—Special characters, e.g. punctuation marks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种韵律生成模型的训练方法及装置;所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,方法包括:通过停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应样本文本的停顿位置;通过重读判断模型,对样本文本进行重读位置预测处理,得到对应样本文本的重读位置;通过边界调判断模型,对样本文本进行边界调类型预测处理,得到对应样本文本的边界调类型;基于所述停顿位置、所述重读位置及所述边界调类型,确定韵律生成模型的损失函数的值;基于所述损失函数的值,更新韵律生成模型的模型参数。通过本发明,能够实现用于生成通用的韵律标准的韵律生成模型的训练。
Description
技术领域
本发明涉及人工智能的语音处理技术,尤其涉及一种韵律生成模型的训练方法及装置。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
韵律标准的生成是人工智能技术的一个重要应用领域,其目的在于对输入的文本数据生成一种通用的韵律标准,为用户提供韵律指导。相关技术往往通过设计复杂的规则去生成韵律标准或通过简单的机器学习模型去预测韵律标准,然而使用此类方法训练得到的韵律生成模型得到的韵律标准的多样性有待提高。
发明内容
本发明实施例提供一种韵律生成模型的训练方法及装置,能够实现用于生成通用的韵律标准的韵律生成模型的训练。
本发明实施例提供一种韵律生成模型的训练方法,所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,所述方法包括:
通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置;
通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置;
通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型;
基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值;
基于所述损失函数的值,更新所述韵律生成模型的模型参数。
本发明实施例提供一种韵律生成模型的训练装置,所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,装置包括:
第一处理模块,用于通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置;
第二处理模块,用于通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置;
第三处理模块,用于通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型;
损失确定模块,用于基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值;
参数更新模块,用于基于所述损失函数的值,更新所述韵律生成模型的模型参数。
上述方案中,所述第一处理模块,还用于通过所述停顿判断模型,对所述样本文本进行成分句法分析处理,得到对应所述样本文本的成分句法分析架构;
基于所述成分句法分析架构,确定用于判断所述样本文本句内停顿的句法结构特征;
基于所述句法结构特征,确定对应所述样本文本的停顿位置。
上述方案中,所述成分句法分析架构为决策树结构,所述决策树结构包括:根节点、决策节点及叶子节点;
其中,所述根节点和所述决策节点,用于对所述样本文本进行单位标注;所述叶子节点对应所述样本文本所包含的单词;
所述第一处理模块,还用于对所述样本文本进行解析,得到组成所述样本文本的各个单词的词性特征;
基于各个所述单词的词性特征,构建所述样本文本的成分句法分析架构。
上述方案中,所述第二处理模块,还用于确定组成所述样本文本的各个单词对应的字符向量及词性特征;
通过所述重读判断模型,对所述字符向量进行关联处理,得到对应的单词向量;
将所述单词向量及对应的所述词性特征进行拼接,得到拼接后的单词向量;
基于所述拼接后的单词向量,得到对应所述样本文本的重读位置。
上述方案中,所述第二处理模块,还用于对所述拼接后的单词向量进行关联处理,得到对应的单词级别的隐向量;
对所述单词级别的隐向量进行重读分类判断,得到对应所述样本文本的单词级别的重读位置。
上述方案中,所述第三处理模块,还用于通过所述边界调判断模型,对所述样本文本进行句式识别,得到所述样本文本的句式;
基于得到的所述样本文本的句式,确定对应所述样本文本的边界调类型。
上述方案中,所述损失确定模块,还用于基于所述停顿标记指示的停顿位置、及得到的所述停顿位置,确定所述停顿判断模型的第一损失函数的值;
基于所述重读标记指示的重读位置,及得到的所述重读位置,确定所述重读判断模型的第二损失函数的值;
基于所述边界调标记指示的边界调类型,及得到的所述边界调类型,确定所述边界调判断模型的第三损失函数的值;
基于所述第一损失函数的值、所述第二损失函数的值及所述第三损失函数的值,确定所述韵律生成模型的损失函数的值。
上述方案中,所述参数更新模块,还用于当所述第一损失函数的值超过第一阈值时,基于所述第一损失函数确定相应的第一误差信号;
将所述第一误差信号在所述停顿判断模型中反向传播,并在传播的过程中更新所述停顿判断模型的各个层的模型参数;
当所述第二损失函数的值超过第二阈值时,基于所述第二损失函数确定相应的第二误差信号;
将所述第二误差信号在所述重读判断模型中反向传播,并在传播的过程中更新所述重读判断模型的各个层的模型参数;
当所述第三损失函数的值超过第三阈值时,基于所述第三损失函数确定相应的第三误差信号;
将所述第三误差信号在所述边界调判断模型中反向传播,并在传播的过程中更新所述边界调判断模型的各个层的模型参数。
上述方案中,所述参数更新模块,还用于当所述韵律生成模型的损失函数的值超出预设阈值时,基于所述损失函数确定相应的误差信号;
将所述误差信号在所述韵律生成模型中反向传播,并在传播的过程中更新所述韵律生成模型的各个层的模型参数。
本发明实施例提供一种韵律生成模型的训练设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的韵律生成模型的训练方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的韵律生成模型的训练方法。
本发明实施例具有以下有益效果:
本发明实施例通过将训练样本分别经过韵律生成模型包含的停顿判断模型、重读判断模型及边界调判断模型,进行停顿位置预测处理、重读位置预测处理及边界调类型预测处理,得到对应的停顿位置、重读位置及边界调类型,并基于得到的停顿位置、重读位置及边界调类型,确定韵律生成模型的损失函数的值,并基于损失函数的值,更新韵律生成模型的模型参数;如此,基于大量的标注有停顿标记、重读标记及边界调标记的文本韵律标注样本,完成韵律生成模型的训练,进而实现基于训练好的韵律生成模型生成多样性的通用韵律标准。
附图说明
图1为本发明实施例提供的韵律生成模型的训练系统的一个可选的架构示意图;
图2为本发明实施例提供的服务器200的结构示意图;
图3为本发明实施例提供的韵律生成模型的训练方法的一个可选的流程示意图;
图4为本发明实施例提供的决策树的结构示意图;
图5为本发明实施例提供的停顿判断模型的结构示意图;
图6为本发明实施例提供的重读判断模型的训练方法示意图;
图7为本发明实施例提供的重读判断模型的结构示意图;
图8为本发明实施例提供的韵律标准的生成方法的一个可选的流程示意图;
图9为本发明实施例提供的待生成韵律标准的文本数据的输入界面示意图;
图10为本发明实施例提供的韵律标准生成结果的界面示意图;
图11为本发明实施例提供的韵律标准的生成方法的一个可选的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)重读:句中重读的单词,与轻读单词对应。
2)句停顿:句中语调短语之间的停顿。
3)边界调:句尾的音调曲线,指最后一个重读音节到句末的音调变化趋势,分为上扬、下降等。
发明人在实施本发明实施例的过程中发现,在进行文本韵律标准的生成时,主要从以下角度出发:1),通过文本生成标准的发音音频的生成方式,即通过规则、自然语言处理技术分析文本结构和特征,从重读、停顿、边界调等生成韵律标记,例如,通过条件随机场模型(CRF,Conditional Random Field)将句子重读判别转化为序列标注任务,然而该方法需要人工构造一些有效特征,不能自学文本相关特征;或者,基于结合音素和词的向量嵌入,搭建双向长短期记忆网络(Bi-LSTM,Bidirectional Long short-term memory)预测句子序列重读标签,由于词的发音不同,其对应的音素也不相同,因此网络构建时基于音素的向量嵌入限制了句子重读的多样性;或者,基于多种方式对韵律单元进行划分,如基于规则的方式在标点符号处添加停顿,基于隐马尔可夫模型(HMM,Hidden Markov Model)的统计方法对句子进行韵律单元的划分,但该类方法整体灵活性不够。另外,由于上述通过文本生成标准的发音音频的生成方式,不仅仅生成韵律,同时也生成其他发音特征,比较复杂,同时训练数据是否海量与多样决定了生成韵律的多样性。
2),通过文本生成韵律标准的方式,即基于大量标准发音数据训练文本到音频的模型,输出文本预测标准韵律,例如,通过不断迭代韵律预测与韵律检测两个步骤,首先从文本和音频识别该音频的韵律,得到该文本对应的韵律标签,如重读和发音时长标签;其次用上一步生成的韵律标签,训练文本到韵律的韵律预测模型,不断迭代两个步骤,直至收敛;然而该模型训练需要配合较优的策略,否则不能收敛。
3),结合以上两种方式,首先通过传统的分块算法并结合词性生成韵律的符号,其次通过该符号到语音库中匹配最相似的韵律符号,用最相似的韵律符号对应的音频的最低频率F0作为该文本的F0,同时通过训练回归分类树预测输出音素时长,但该方法依赖于语音库的多样性,由于只通过简单的机器学习模型去预测标准,因此生成的韵律多样性不够。
鉴于此,本发明在文本生成韵律标准的基础上,基于大量的母语者文本韵律标注样本数据,提供一种韵律生成模型的训练方法,其中,韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,在实际实施时,通过停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应样本文本的停顿位置;通过重读判断模型,对样本文本进行重读位置预测处理,得到对应样本文本的重读位置;通过边界调判断模型,对样本文本进行边界调类型预测处理,得到对应样本文本的边界调类型;并基于得到的停顿位置、重读位置及边界调类型,确定韵律生成模型的损失函数的值;基于损失函数的值,更新韵律生成模型的模型参数,进而实现用于生成通用的韵律标准的韵律生成模型的训练。
参见图1,图1为本发明实施例提供的韵律生成模型的训练系统100的一个可选的架构示意图,用户终端400(示例性示出了用户终端400-1和用户终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
如图1所示,用户打开用户终端400-1上的韵律生成模型的训练客户端410,输入标注有停顿标记、重读标记及边界调标记的样本文本;随后韵律生成模型的训练客户端410将用户输入的样本文本通过网络300发送给服务器200。服务器200在接收到韵律生成模型的训练客户端410-1上报的样本文本后,通过韵律生成模型包括的停顿判断模型对样本文本进行停顿位置预测处理,得到对应样本文本的停顿位置;通过重读判断模型,对样本文本进行重读位置预测处理,得到对应样本文本的重读位置;通过边界调判断模型,对样本文本进行边界调类型预测处理,得到对应样本文本的边界调类型;并基于得到的停顿位置、重读位置及边界调类型,确定韵律生成模型的损失函数的值;基于损失函数的值,更新韵律生成模型的模型参数,进而训练得到用于生成韵律标准的韵律生成模型。
在实际应用中,当用户利用训练好的韵律生成模型生成文本的韵律标准时,用户打开用户终端400-2上的韵律标准生成客户端410-2输入一句或一段待朗读的文本,并点击韵律标准生成客户端410-2中的韵律指导,韵律标准生成客户端410-2将输入的文本通过网络300发送给服务器200。服务器200将文本发送给韵律生成模型,生成对应文本的停顿位置、重读位置、边界调类型等韵律标准;最后,服务器200将韵律生成模型生成的韵律标准通过网络300返回给韵律标准生成客户端410-2,给用户提供韵律指导。
下面说明本发明实施例提供的韵律生成模型的训练设备的示例性应用,本发明实施例提供的韵律生成模型的训练设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器或服务器集群,还可以采用由用户终端和服务器协同的方式实施。下面,将说明电子设备实施为服务器时的示例性应用。
参见图2,图2为本发明实施例提供的服务器200的结构示意图,以韵律生成模型的训练设备实施为服务器200为例,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的韵律生成模型的训练装置可以采用软件方式实现,图2示出了存储在存储器250中的韵律生成模型的训练装置255,其可以是程序和插件等形式的软件,包括以下软件模块:第一处理模块2551、第二处理模块2552、第三处理模块2553、损失确定模块2554和参数更新模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的韵律生成模型的训练装置可以采用硬件方式实现,作为示例,本发明实施例提供的韵律生成模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的韵律生成模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面将结合本发明实施例提供的韵律生成模型的训练设备实施为服务器时的示例性应用,说明本发明实施例提供的韵律生成模型的训练方法。
首先,需要说明的是,本发明实施例提供的韵律生成模型包括停顿判断模型、重读判断模型及边界调判断模型。参见图3,图3为本发明实施例提供的韵律生成模型的训练方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
步骤301:服务器通过停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应样本文本的停顿位置。
在一些实施例中,在对韵律生成模型进行训练之前,可先基于母语者语音文本构建训练样本库,其中,训练样本库中包括多个样本文本,样本文本标注有母语者对应样本文本的停顿标记、重读标记及边界调标记。
示例性的,假设本发明实施例提供的韵律生成模型的训练方法针对用户英语发音的文本的韵律生成模型进行训练,则此时母语者是指英国、美国等使用英语作为母语的人群,样本文本的标记指示英国、美国等使用英语作为母语的人群对样本文本发音时所停顿的位置、重读的位置及边界调的类型。
在一些实施例中,服务器可通过如下方式得到对应样本文本的停顿位置:
通过停顿判断模型,对样本文本进行成分句法分析处理,得到对应样本文本的成分句法分析架构;基于所述成分句法分析架构,确定用于判断样本文本句内停顿的句法结构特征;基于句法结构特征,确定对应样本文本的停顿位置。
在实际应用中,服务器可通过如下方式对样本文本进行成分句法分析处理,得到对应样本文本的成分句法分析架构:对样本文本进行解析,得到组成样本文本的各个单词的词性特征;基于各个单词的词性特征,构建样本文本的成分句法分析架构。
在一些实施例中,所述成分句法分析架构为决策树结构,所述决策树结构包括:根节点、决策节点及叶子节点;其中,根节点表示样本文本,可以进一步划分成两个或多个子集;决策节点,当子节点进一步被拆分成多个子节点时,这个子节点就叫做决策节点;叶子节点,无法再拆分的节点被称为叶子节点。这里,根节点和决策节点用于对样本文本进行单位标注;叶子节点对应样本文本所包含的单词。
示例性的,服务器将对样本文本进行停顿位置判断与成分语法分析架构(如决策树结构)进行结合,也即基于成分句法分析算法,将输入的文本解析成决策树,如对于样本文本(一个句子):she enjoys playing tennis.,解析成如图4所示的决策树,参见图4,图4为本发明实施例提供的决策树的结构示意图,在图4中,每个叶子节点对应组成该句子的各个单词,除了叶子节点之外,其他根节点和决策节点是对该句子不同单位的标注,如,根节点S代表句子,决策节点NP代表名词短语,决策节点VP代表动词短语,叶子节点PRP代表主语代词,叶子节点VBZ代表谓语动词,叶子节点VBG代表及物动词,叶子节点NN代表宾语。
为了提取用于判断句内停顿的有效特征,服务器基于成分句法分析架构(如决策树结构),计算两个相邻叶子节点的节点距离,在实际实施时,结合以下两种方式计算叶子节点之间的距离:两个叶子节点的最短距离,及两个叶子节点的公共父节点位于决策树中的高度占比。
其中,两个叶子节点的最短距离即由一个叶子节点到达另一个叶子节点经历的最短距离,如图4所示,playing到tennis的距离即为3,包括VBG-VP-NP-NN,经历三条边;两个叶子节点的最近公共父节点位于决策树的高度占比由最近公共父节点的高度除以根节点的高度计算得到,其中,树的高度定义为从根节点到叶子节点的最大层数,如图4所示,playing与tennis的最近公共父节点为VP,VP的高度为2,S为整棵树的根节点,S的高度为5,则高度占比为0.4。两个叶子节点的最短距离越短,说明两个叶子节点的词语之间越不可能停顿,两个叶子节点的最近公共父节点高度占比越小,说明两者之间的约束关系越强,越不可能停顿。
上述成分语法分析架构(如决策树结构),利用两个叶子节点的最短距离及两个叶子节点的公共父节点位于决策树中的高度占比等两个句法结构特征,以及词语的词性特征如名词、动词等属性等,基于大量母语者停顿标注样本文本,训练判断句子内部单词级别是否停顿的停顿判断模型,基于该停顿判断模型输出句子内部停顿标记。
参见图5,图5为本发明实施例提供的停顿判断模型的结构示意图,如图5所示,将待检测文本中代表单词的叶子节点的最短距离、叶子节点的公共父节点的高度占比、词语的词性共同输入停顿判断模型中,以得到所示待检测文本的实际停顿位置。
步骤302:通过重读判断模型,对样本文本进行重读位置预测处理,得到对应样本文本的重读位置。
在一些实施例中,服务器可通过如下方式得到对应样本文本的重读位置:
确定组成样本文本的各个单词对应的字符向量及词性特征;通过重读判断模型,对所述字符向量进行关联处理,得到对应的单词向量;将得到的单词向量及对应的词性特征进行拼接,得到拼接后的单词向量;基于拼接后的单词向量,得到对应样本文本的重读位置。
在一些实施例中,服务器可通过如下方式基于拼接后的单词向量,得到对应样本文本的重读位置:
对拼接后的单词向量进行关联处理,得到对应的单词级别的隐向量;对单词级别的隐向量进行重读分类判断,得到对应样本文本的单词级别的重读位置。
在实际实施时,在构建用于进行句重读位置预测时,可以基于大量的文本样本以及大量母语者发音下该文本样本的重读方式标签,构建句子重读序列标注模型,即重读判断模型,其中,由于句中词语是否重读与相邻上下文的词语有一定的关联,因此在构建重读判断模型时需要考虑上下文关系,同时,句中某个词语的重读与否也会影响相邻词语重读的预测。因此,可采用Bi-LSTM算法构建重读上下文信息,同时加入条件随机场模型(CRF,Conditional Random Field),构建序列重读标签局部的依赖关系。
在一些实施例中,服务器将文本样本中的单词表示成字符向量与词向量,作为网络的输入,训练字符向量和词向量,通过网络提取有效文本特征,输入到重读判断模型中并训练该重读判断模型,进而可以利用训练好的重读判断模型将所接收的文本数据对应的标准重读位置标注出来。
示例性地,参见图6,图6为本发明实施例提供的重读判断模型的训练方法示意图,假设采用样本文本:I am tall.,进行重读判断模型的训练,以组成样本文本中的单词的字符向量(char embed):I、a、m、t、a、l、l为输入,将其输入到Bi-LSTM中,形成对应的单词向量(word embed),即分别为I,am,tall对应的单词向量,并将得到的单词向量分别与单词的词性(pos tag)进行拼接,得到拼接后的单词向量,这里,单词的词性为代词、动词、形容词,将拼接后的单词向量输入到单词Bi-LSTM中,以输出单词级别的隐向量,并将得到阴向量输入到CRF中,进行单词级别的重读分类判断,从而得到单词级别的重读分类,即得到了对应样本文本的重读位置。
在一些实施例中,在训练重读判断模型时,还可从音节的角度进行特征提取,这是由于英语是一种重读等时性语言,即重读音节之间的时长相等,而中文是一种音节等时性语言,即每个音节的发音时长几乎相同,每个音节的发音强弱几乎相同,可见,两者的差别主要体现在音节发音上,音节重读与否主要与音节音高、音强、音高变化、音强变化、音节时长等相关。因此,可提取每个音节的相关特征如:最大音高、最小音高、最大音强、最小音强、平均音强、平均音高、音强上升或下降幅度、音高上升或下降幅度、音节时长等。同时,考虑到不同用户的音高和音强不在同一个范围内,因此首先需要对上述特征进行归一化处理。此外,由于音节重读与否还与音节所在的词中的其他音节相关,因此也可以将该词的其他音节特征与该词的当前音节特征进行对比,将对比结果作为音节是否重读的特征。基于上述因素,同时结合当前单词的前一个单词特征与后一个单词特征,最终生成多维特征,共同作为句重读树模型的特征输入。
参见图7,图7为本发明实施例提供的重读判断模型的结构示意图,如图7所示,将待测语音数据的音节音高、音调特征、归一化音强及音高、音节音高、音强变化趋势共同输入重读判断模型中,以得到所述待测语音数据的实际重读位置。
步骤303:通过边界调判断模型,对样本文本进行边界调类型预测处理,得到对应样本文本的边界调类型。
在一些实施例中,服务器可通过如下方式得到对应样本的边界调类型:
通过边界调判断模型,对样本文本进行句式识别,得到样本文本的句式;基于得到的样本文本的句式,确定对应样本文本的边界调类型。
这里,在实际实施时,在训练边界调判断模型时,由于句子的边界调类型主要由句式决定,例如:特殊疑问句即wh特殊疑问句的边界调一般为下降,普通疑问句的边界调一般为上扬,一般陈述句的边界调为下降等等,因此,可以通过关键词匹配的方式识别输入样本文本的句式,结合规则输出所接收的样本文本对应的标准边界调类型,包含上扬调和下降调两种音调。
步骤304:基于停顿位置、重读位置及边界调类型,确定韵律生成模型的损失函数的值。
这里,在实际实施时,考虑到韵律生成模型包括停顿判断模型、重读判断模型及边界调判断模型等三部分,因此,在一些实施例中,服务器通过如下方式确定韵律生成模型的损失函数的值:
基于停顿标记指示的停顿位置、及得到的所述停顿位置,确停顿判断模型的第一损失函数的值;基于重读标记指示的重读位置,及得到的重读位置,确定重读判断模型的第二损失函数的值;基于边界调标记指示的边界调类型,及得到的边界调类型,确定边界调判断模型的第三损失函数的值;基于确定的第一损失函数的值、第二损失函数的值及第三损失函数的值,确定韵律生成模型的损失函数的值。
这里,服务器结合了停顿判断模型、重读判断模型及边界调判断模型中对应的损失函数的值,如对得到的第一损失函数的值、第二损失函数的值及第三损失函数的值进行加权,得到韵律生成模型的损失函数的值。
步骤305:基于损失函数的值,更新韵律生成模型的模型参数。
在一些实施例中,服务器可通过如下方式更新韵律生成模型的模型参数:
当第一损失函数的值超过第一阈值时,基于第一损失函数确定相应的第一误差信号;将所述第一误差信号在停顿判断模型中反向传播,并在传播的过程中更新停顿判断模型的各个层的模型参数;
当第二损失函数的值超过第二阈值时,基于第二损失函数确定相应的第二误差信号;将第二误差信号在重读判断模型中反向传播,并在传播的过程中更新重读判断模型的各个层的模型参数;
当第三损失函数的值超过第三阈值时,基于第三损失函数确定相应的第三误差信号;将第三误差信号在边界调判断模型中反向传播,并在传播的过程中更新边界调判断模型的各个层的模型参数。
在一些实施例中,服务器还可通过如下方式更新韵律生成模型的模型参数:
当韵律生成模型的损失函数的值超出预设阈值时,基于损失函数确定相应的误差信号;将误差信号在韵律生成模型中反向传播,并在传播的过程中更新韵律生成模型的各个层的模型参数。
这里对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
本发明实施例通过将训练样本分别经过韵律生成模型包含的停顿判断模型、重读判断模型及边界调判断模型,进行停顿位置预测处理、重读位置预测处理及边界调类型预测处理,得到对应的停顿位置、重读位置及边界调类型,并基于得到的停顿位置、重读位置及边界调类型,确定韵律生成模型的损失函数的值,并基于损失函数的值,更新韵律生成模型的模型参数;如此,基于大量的标注有停顿标记、重读标记及边界调标记的文本韵律标注样本,完成韵律生成模型的训练,进而实现基于训练好的韵律生成模型生成多样性的通用韵律标准。
接下来继续对本发明实施例提供的利用训练好的韵律生成模型生成韵律标准的方法进行说明,参见图8,图8为本发明实施例提供的韵律标准的生成方法的一个可选的流程示意图,由客户端、服务器协调实施,这里客户端为韵律生成标准客户端,服务器上设置有训练好的韵律生成模型,将结合图1及图8进行说明。
步骤801:客户端接收待生成韵律标准的文本数据。
步骤802:响应于用户的点击操作,客户端发送待生成韵律标准的文本数据给服务器。
这里,在实际应用中,所述文本数据可以是韵律标准生成客户端将采集到的用户朗读的语音数据转换成的文本数据,也可以是用户在韵律标准生成客户端上的应用界面中输入任意一句或一段待朗读的文本。
示例性地,参见图9,图9为本发明实施例提供的待生成韵律标准的文本数据的输入界面示意图,在图9所示的界面中输入待生成韵律标准的文本“Can you tell me thereason why he is angry?”这一文本数据,点击完成按键,客户端接收到该文本数据,并将用户输入的文本数据“Can you tell me the reason why he is angry?”发送给服务器。
步骤803:服务器接收客户端发送的待生成韵律标准的文本数据。
步骤804:服务器中的韵律生成模块对接收到的文本数据进行韵律标准生成处理,生成对应文本数据的包含停顿位置、重读位置、边界调类型等韵律标记的韵律标准。
这里,在实际实施时,服务器接收到的待生成韵律标准的文本数据经本发明实施例训练好的韵律生成模型中的停顿判断模型、重读判断模型、边界调判断模型的处理,得到对应的停顿位置、重读位置及边界调类型。
步骤805:服务器将生成的包含韵律标记的韵律标准返回给客户端。
步骤806:客户端呈现包含韵律标记的韵律标准。
这里,客户端呈现的对应文本数据的韵律标准,能够给用户提供韵律指导,参见图10,图10为本发明实施例提供的韵律标准生成结果的界面示意图,如图10所示,在“Can youtell me the reason why he is angry?”这一文本数据中,tell、reason、why、angry为需要重读的单词,对于angry单词,该单词需要重读,其中ang音节是重读音节,ry是非重读音节,angry需要下降调,me、reason后需要停顿,如can you tell me后需要停顿,reason后需要停顿。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
相关技术在生成韵律标准时,通常从以下角度出发:1)通过文本生成标准的发音音频的方式,但由于此类文本到音频的生成方式,生成的不仅仅是韵律,同时还生成其他发音特征,比较复杂,同时训练数据是否海量与多样决定了生成韵律的多样性;2)通过文本生成韵律标准的方式,但相关技术采用此种方式往往通过设计复杂的规则去生成韵律标准或通过简单的机器学习模型去预测韵律标准,生成的韵律多样性不够。
基于此,本发明实施例从通过文本生成韵律标准的角度出发,采用自然语言处理技术,基于大量的母语者文本韵律标注样本数据,并分别从句重读位置、句停顿位置、边界调类型等三个角度阐述韵律标准,提供一种韵律生成模型的训练方法,其中,韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,在训练停顿判断模型时,融合成分语法分析树,提取有效特征;在训练重读判断模型时,将重读判断转化为序列标注建模问题,结合上下文信息,通过网络自动提取有效特征,提高文本重读位置判断精度。通过本发明实施例提供的韵律生成模型的训练方法训练出的韵律生成模型,能够实现生成多样性的通用韵律标准。
仍然参见图9和图10,用户在图9所示的文本生成韵律标准的应用界面中输入待生成韵律标准的文本,如“Can you tell me the reason why he is angry?”,点击完成按键,在图10所示界面中呈现对应文本数据的韵律标准生成结果,以提供给用户韵律指导,示例性地,可以使用不同的颜色来反应韵律标记,例如,红色标记为需要重读的单词或音节,浅红色标记为一个重读单词中的轻读音节,绿色标记为句子需要停顿的地方,橙色标记句尾边界调的上升、下降变化趋势,如图10所示,句中can you tell me the reason why heis angry?其中tell、reason、why、angry为需要重读的单词,对于angry单词,该单词需要重读,其中ang音节是重读音节,ry是非重读音节,angry需要下降调,绿色竖线为需个的要停顿的地方,如can you tell me后需要停顿,reason后需要停顿。
参见图11,图11为本发明实施例提供的韵律标准的生成方法的一个可选的流程示意图,如图11所示,所述方法包括以下步骤:
1)用户打开应用(APP,Application),输入一句或一段待朗读的英文;
2)点击APP中的韵律指导;
3)APP将文本发送给服务器端;
4)服务器端将文本发送给韵律生成模块;
5)韵律生成模块对输入的文本进行处理,生成文本对应的包含停顿位置、重读位置、边界调类型等韵律标记;
6)服务器接收韵律生成模块生成的韵律标记后,将包含该韵律标记的韵律标准返回给APP端,展示给用户。
在一些实施例中,上述韵律生成模块有三部分构成:停顿判断模型、重读判断模型及边界调判断模型,输入文本经韵律生成模型处理后,最终输出三种韵律标准:停顿位置、重读位置、以及边界调类型。
1)停顿位置预测
在实际实施时,将文本停顿位置判断与成分语法分析树结合,基于成分句法分析算法,将输入的文本解析成成分句法分析树(即决策树结构),如,对于文本“she enjoysplaying tennis.”,解析成如图4所示的成分句法分析树,其中,处叶子节点之外,其余是这句话不同单位的标注,如根节点S代表句子,NP代表名词短语,VP代表动词短语等。
为了提取用于判断句内停顿的有效特征,服务器基于成分句法分析树,计算两个相邻叶子节点的节点距离,在实际实施时,结合以下两种方式计算叶子节点之间的距离:两个叶子节点的最短距离,及两个叶子节点的公共父节点位于决策树中的高度占比。
其中,两个叶子节点的最短距离即由一个叶子节点到达另一个叶子节点经历的最短距离,如图4所示,playing到tennis的距离即为3,包括VBG-VP-NP-NN,经历三条边;两个叶子节点的最近公共父节点位于成分句法分析树中的高度占比由最近公共父节点的高度除以根节点的高度计算得到,其中,树的高度定义为从根节点到叶子节点的最大层数,如图4所示,playing与tennis的最近公共父节点为VP,VP的高度为2,S为整棵树的根节点,S的高度为5,则高度占比为0.4。两个叶子节点的最短距离越短,说明两个叶子节点的词语之间越不可能停顿,两个叶子节点的最近公共父节点高度占比越小,说明两者之间的约束关系越强,越不可能停顿。
上述成分句法分析树,利用两个叶子节点的最短距离及两个叶子节点的公共父节点位于成分句法分析树中的高度占比等两个句法结构特征,以及词语的词性特征如名词、动词等属性等,基于大量母语者停顿标注样本文本,训练判断句子内部单词级别是否停顿的停顿判断模型,基于该停顿判断模型输出句子内部停顿标记。
继续参见图5,如图5所示,将待检测文本中代表单词的叶子节点的最短距离、叶子节点的公共父节点的高度占比、词语的词性共同输入停顿判断模型中,以得到所示待检测文本的实际停顿位置。
2)重音位置预测
在实际实施时,在构建用于进行句重读位置预测时,可以基于大量的文本样本以及大量母语者发音下该文本样本的重读方式标签,构建句子重读序列标注模型,即重读判断模型,其中,由于句中词语是否重读与相邻上下文的词语有一定的关联,因此在构建重读判断模型时需要考虑上下文关系,同时,句中某个词语的重读与否也会影响相邻词语重读的预测。因此,可采用Bi-LSTM算法构建重读上下文信息,同时加入条件随机场模型(CRF,Conditional Random Field),构建序列重读标签局部的依赖关系。
在一些实施例中,为了减少人工构造特征的繁琐性和对专业知识的高要求性,采用深度神经网络进行特征的自动提取,即服务器将文本样本中的单词表示成字符向量与词向量,作为网络的输入,训练字符向量和词向量,通过网络提取有效文本特征,输入到重读判断模型中并训练该重读判断模型,进而可以利用训练好的重读判断模型将所接收的文本数据对应的标准重读位置标注出来。
继续参见图6,假设采用样本文本:I am tall.,进行重读判断模型的训练,以组成样本文本中的单词的字符向量(char embed):I、a、m、t、a、l、l为输入,将其输入到Bi-LSTM中,形成对应的单词向量(word embed),即分别为I,am,tall对应的单词向量,并将得到的单词向量分别与单词的词性(pos tag)进行拼接,得到拼接后的单词向量,这里,单词的词性为代词、动词、形容词,将拼接后的单词向量输入到单词Bi-LSTM中,以输出单词级别的隐向量,并将得到阴向量输入到CRF中,进行单词级别的重读分类判断,从而得到单词级别的重读分类,即得到了对应样本文本的重读位置。
3)边界调类型判断
这里,在实际实施时,在训练边界调判断模型时,由于句子的边界调类型主要由句式决定,例如:特殊疑问句即wh特殊疑问句的边界调一般为下降,普通疑问句的边界调一般为上扬,一般陈述句的边界调为下降等等,因此,可以通过关键词匹配的方式识别输入样本文本的句式,结合规则输出所接收的样本文本对应的标准边界调类型,包含上扬调和下降调两种音调。
本发明实施例采用的测试集来源于Boston University Radio Speech Corpus,该数据是一个TOBI标注形式的语料库,主要包含单词发音音调(高音、低音、上升音、下降音等)、句内停顿(1,2,3,4),其中1代表词之间的停顿,3代表语调次短语的停顿,4代表语调短语的停顿,2的停顿略低于3和4。
由于TOBI标注包含句中单词的重读音调标签,将所有的重读单词音调标签如高音、低音、上升音等归一为重读标签,将大于2的停顿归为停顿标签,小于等于2的停顿归为非停顿标签。
通过本发明实施例提供的韵律生成模型的训练方法训练得到的韵律生成模型对从上述测试集中随机选择1000条样本进行测试后的测试结果如下:表1是重读分类结果,表2是停顿分类结果。
表1
表2
下面继续说明本发明实施例提供的韵律生成模型的训练装置255实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的韵律生成模型的训练装置255中的软件模块可以包括:第一处理模块2551、第二处理模块2552、第三处理模块2553、损失确定模块2554和参数更新模块2555。
第一处理模块2551,用于通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置;
第二处理模块2552,用于通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置;
第三处理模块2553,用于通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型;
损失确定模块2554,用于基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值;
参数更新模块2555,用于基于所述损失函数的值,更新所述韵律生成模型的模型参数。
在一些实施例中,所述第一处理模块,还用于通过所述停顿判断模型,对所述样本文本进行成分句法分析处理,得到对应所述样本文本的成分句法分析架构;
基于所述成分句法分析架构,确定用于判断所述样本文本句内停顿的句法结构特征;
基于所述句法结构特征,确定对应所述样本文本的停顿位置。
在一些实施例中,所述成分句法分析架构为决策树结构,所述决策树结构包括:根节点、决策节点及叶子节点;
其中,所述根节点和所述决策节点,用于对所述样本文本进行单位标注;所述叶子节点对应所述样本文本所包含的单词;
所述第一处理模块,还用于对所述样本文本进行解析,得到组成所述样本文本的各个单词的词性特征;
基于各个所述单词的词性特征,构建所述样本文本的成分句法分析架构。
在一些实施例中,所述第二处理模块,还用于确定组成所述样本文本的各个单词对应的字符向量及词性特征;
通过所述重读判断模型,对所述字符向量进行关联处理,得到对应的单词向量;
将所述单词向量及对应的所述词性特征进行拼接,得到拼接后的单词向量;
基于所述拼接后的单词向量,得到对应所述样本文本的重读位置。
在一些实施例中,所述第二处理模块,还用于对所述拼接后的单词向量进行关联处理,得到对应的单词级别的隐向量;
对所述单词级别的隐向量进行重读分类判断,得到对应所述样本文本的单词级别的重读位置。
在一些实施例中,所述第三处理模块,还用于通过所述边界调判断模型,对所述样本文本进行句式识别,得到所述样本文本的句式;
基于得到的所述样本文本的句式,确定对应所述样本文本的边界调类型。
在一些实施例中,所述损失确定模块,还用于基于所述停顿标记指示的停顿位置、及得到的所述停顿位置,确定所述停顿判断模型的第一损失函数的值;
基于所述重读标记指示的重读位置,及得到的所述重读位置,确定所述重读判断模型的第二损失函数的值;
基于所述边界调标记指示的边界调类型,及得到的所述边界调类型,确定所述边界调判断模型的第三损失函数的值;
基于所述第一损失函数的值、所述第二损失函数的值及所述第三损失函数的值,确定所述韵律生成模型的损失函数的值。
在一些实施例中,所述参数更新模块,还用于当所述第一损失函数的值超过第一阈值时,基于所述第一损失函数确定相应的第一误差信号;
将所述第一误差信号在所述停顿判断模型中反向传播,并在传播的过程中更新所述停顿判断模型的各个层的模型参数;
当所述第二损失函数的值超过第二阈值时,基于所述第二损失函数确定相应的第二误差信号;
将所述第二误差信号在所述重读判断模型中反向传播,并在传播的过程中更新所述重读判断模型的各个层的模型参数;
当所述第三损失函数的值超过第三阈值时,基于所述第三损失函数确定相应的第三误差信号;
将所述第三误差信号在所述边界调判断模型中反向传播,并在传播的过程中更新所述边界调判断模型的各个层的模型参数。
在一些实施例中,所述参数更新模块,还用于当所述韵律生成模型的损失函数的值超出预设阈值时,基于所述损失函数确定相应的误差信号;
将所述误差信号在所述韵律生成模型中反向传播,并在传播的过程中更新所述韵律生成模型的各个层的模型参数。
需要说明的是,本发明实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明实施例提供的韵律生成模型的训练装置中未尽的技术细节,可以根据图3-10任一附图的说明而理解。
本发明实施例提供一种韵律生成模型的训练设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的韵律生成模型的训练方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的韵律生成模型的训练方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (10)
1.一种韵律生成模型的训练方法,其特征在于,所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,所述方法包括:
通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置;
通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置;
通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型;
基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值;
基于所述损失函数的值,更新所述韵律生成模型的模型参数。
2.如权利要求1所述的方法,其特征在于,所述通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置,包括:
通过所述停顿判断模型,对所述样本文本进行成分句法分析处理,得到对应所述样本文本的成分句法分析架构;
基于所述成分句法分析架构,确定用于判断所述样本文本句内停顿的句法结构特征;
基于所述句法结构特征,确定对应所述样本文本的停顿位置。
3.如权利要求2所述的方法,其特征在于,所述成分句法分析架构为决策树结构,所述决策树结构包括:根节点、决策节点及叶子节点;
其中,所述根节点和所述决策节点,用于对所述样本文本进行单位标注;所述叶子节点对应所述样本文本所包含的单词;
所述对所述样本文本进行成分句法分析处理,得到对应所述样本文本的成分句法分析架构,包括:
对所述样本文本进行解析,得到组成所述样本文本的各个单词的词性特征;
基于各个所述单词的词性特征,构建所述样本文本的成分句法分析架构。
4.如权利要求1所述的方法,其特征在于,所述通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置,包括:
确定组成所述样本文本的各个单词对应的字符向量及词性特征;
通过所述重读判断模型,对所述字符向量进行关联处理,得到对应的单词向量;
将所述单词向量及对应的所述词性特征进行拼接,得到拼接后的单词向量;
基于所述拼接后的单词向量,得到对应所述样本文本的重读位置。
5.如权利要求4所述的方法,其特征在于,所述基于所述拼接后的单词向量,得到对应所述样本文本的重读位置,包括:
对所述拼接后的单词向量进行关联处理,得到对应的单词级别的隐向量;
对所述单词级别的隐向量进行重读分类判断,得到对应所述样本文本的单词级别的重读位置。
6.如权利要求1所述的方法,其特征在于,所述通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型,包括:
通过所述边界调判断模型,对所述样本文本进行句式识别,得到所述样本文本的句式;
基于得到的所述样本文本的句式,确定对应所述样本文本的边界调类型。
7.如权利要求1所述的方法,其特征在于,所述基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值,包括:
基于所述停顿标记指示的停顿位置、及得到的所述停顿位置,确定所述停顿判断模型的第一损失函数的值;
基于所述重读标记指示的重读位置,及得到的所述重读位置,确定所述重读判断模型的第二损失函数的值;
基于所述边界调标记指示的边界调类型,及得到的所述边界调类型,确定所述边界调判断模型的第三损失函数的值;
基于所述第一损失函数的值、所述第二损失函数的值及所述第三损失函数的值,确定所述韵律生成模型的损失函数的值。
8.如权利要求7所述的方法,其特征在于,所述基于所述损失函数的值,更新所述韵律生成模型的模型参数,包括:
当所述第一损失函数的值超过第一阈值时,基于所述第一损失函数确定相应的第一误差信号;
将所述第一误差信号在所述停顿判断模型中反向传播,并在传播的过程中更新所述停顿判断模型的各个层的模型参数;
当所述第二损失函数的值超过第二阈值时,基于所述第二损失函数确定相应的第二误差信号;
将所述第二误差信号在所述重读判断模型中反向传播,并在传播的过程中更新所述重读判断模型的各个层的模型参数;
当所述第三损失函数的值超过第三阈值时,基于所述第三损失函数确定相应的第三误差信号;
将所述第三误差信号在所述边界调判断模型中反向传播,并在传播的过程中更新所述边界调判断模型的各个层的模型参数。
9.如权利要求1所述的方法,其特征在于,所述基于所述损失函数的值,更新所述韵律生成模型的模型参数,包括:
当所述韵律生成模型的损失函数的值超出预设阈值时,基于所述损失函数确定相应的误差信号;
将所述误差信号在所述韵律生成模型中反向传播,并在传播的过程中更新所述韵律生成模型的各个层的模型参数。
10.一种韵律生成模型的训练装置,其特征在于,所述韵律生成模型包括:停顿判断模型、重读判断模型及边界调判断模型,所述装置包括:
第一处理模块,用于通过所述停顿判断模型,对标注有停顿标记、重读标记及边界调标记的样本文本进行停顿位置预测处理,得到对应所述样本文本的停顿位置;
第二处理模块,用于通过所述重读判断模型,对所述样本文本进行重读位置预测处理,得到对应所述样本文本的重读位置;
第三处理模块,用于通过所述边界调判断模型,对所述样本文本进行边界调类型预测处理,得到对应所述样本文本的边界调类型;
损失确定模块,用于基于所述停顿位置、所述重读位置及所述边界调类型,确定所述韵律生成模型的损失函数的值;
参数更新模块,用于基于所述损失函数的值,更新所述韵律生成模型的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911007202.8A CN110782880B (zh) | 2019-10-22 | 2019-10-22 | 一种韵律生成模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911007202.8A CN110782880B (zh) | 2019-10-22 | 2019-10-22 | 一种韵律生成模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782880A true CN110782880A (zh) | 2020-02-11 |
CN110782880B CN110782880B (zh) | 2024-04-09 |
Family
ID=69384483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911007202.8A Active CN110782880B (zh) | 2019-10-22 | 2019-10-22 | 一种韵律生成模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782880B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002302A (zh) * | 2020-07-27 | 2020-11-27 | 北京捷通华声科技股份有限公司 | 一种语音合成方法和装置 |
CN112131878A (zh) * | 2020-09-29 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置以及计算机设备 |
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN114783407A (zh) * | 2022-06-21 | 2022-07-22 | 平安科技(深圳)有限公司 | 语音合成模型训练方法、装置、计算机设备及存储介质 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017251A1 (en) * | 2001-08-14 | 2003-02-27 | Vox Generation Limited | Prosodic boundary markup mechanism |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN102237081A (zh) * | 2010-04-30 | 2011-11-09 | 国际商业机器公司 | 语音韵律评估方法与系统 |
CN105895076A (zh) * | 2015-01-26 | 2016-08-24 | 科大讯飞股份有限公司 | 一种语音合成方法及系统 |
CN108470024A (zh) * | 2018-03-12 | 2018-08-31 | 北京灵伴即时智能科技有限公司 | 一种融合句法语义语用信息的汉语韵律结构预测方法 |
-
2019
- 2019-10-22 CN CN201911007202.8A patent/CN110782880B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017251A1 (en) * | 2001-08-14 | 2003-02-27 | Vox Generation Limited | Prosodic boundary markup mechanism |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN102237081A (zh) * | 2010-04-30 | 2011-11-09 | 国际商业机器公司 | 语音韵律评估方法与系统 |
CN105895076A (zh) * | 2015-01-26 | 2016-08-24 | 科大讯飞股份有限公司 | 一种语音合成方法及系统 |
CN108470024A (zh) * | 2018-03-12 | 2018-08-31 | 北京灵伴即时智能科技有限公司 | 一种融合句法语义语用信息的汉语韵律结构预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002302A (zh) * | 2020-07-27 | 2020-11-27 | 北京捷通华声科技股份有限公司 | 一种语音合成方法和装置 |
CN112002302B (zh) * | 2020-07-27 | 2024-05-10 | 北京捷通华声科技股份有限公司 | 一种语音合成方法和装置 |
CN112131878A (zh) * | 2020-09-29 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置以及计算机设备 |
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN114783407A (zh) * | 2022-06-21 | 2022-07-22 | 平安科技(深圳)有限公司 | 语音合成模型训练方法、装置、计算机设备及存储介质 |
CN114783407B (zh) * | 2022-06-21 | 2022-10-21 | 平安科技(深圳)有限公司 | 语音合成模型训练方法、装置、计算机设备及存储介质 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110782880B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN110782880B (zh) | 一种韵律生成模型的训练方法及装置 | |
Kurdi | Natural language processing and computational linguistics: speech, morphology and syntax | |
Watts | Unsupervised learning for text-to-speech synthesis | |
CN110782875B (zh) | 一种基于人工智能的语音韵律处理方法及装置 | |
CN110782918B (zh) | 一种基于人工智能的语音韵律评估方法及装置 | |
El Amrani et al. | Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes | |
KR20140134653A (ko) | 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법 | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
KR102594081B1 (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
Seljan et al. | Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian | |
CN115116428B (zh) | 韵律边界标注方法、装置、设备、介质及程序产品 | |
CN113593520B (zh) | 歌声合成方法及装置、电子设备及存储介质 | |
CN112216267A (zh) | 一种韵律预测的方法、装置、设备及存储介质 | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
Kepuska et al. | Speech corpus generation from DVDs of movies and tv series | |
CN114254649A (zh) | 一种语言模型的训练方法、装置、存储介质及设备 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
Bowden | A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing | |
Hanane et al. | TTS-SA (A text-to-speech system based on standard arabic) | |
Domínguez Bajo | The Information structure-prosody interface: on the role of hierarchical thematicity in an empirically-grounded model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021700 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |