CN112863484B - 韵律短语边界预测模型训练方法和韵律短语边界预测方法 - Google Patents

韵律短语边界预测模型训练方法和韵律短语边界预测方法 Download PDF

Info

Publication number
CN112863484B
CN112863484B CN202110102518.6A CN202110102518A CN112863484B CN 112863484 B CN112863484 B CN 112863484B CN 202110102518 A CN202110102518 A CN 202110102518A CN 112863484 B CN112863484 B CN 112863484B
Authority
CN
China
Prior art keywords
training
text
word
prosodic phrase
phrase boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110102518.6A
Other languages
English (en)
Other versions
CN112863484A (zh
Inventor
江源
窦云峰
凌震华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110102518.6A priority Critical patent/CN112863484B/zh
Publication of CN112863484A publication Critical patent/CN112863484A/zh
Application granted granted Critical
Publication of CN112863484B publication Critical patent/CN112863484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种韵律短语边界预测模型训练方法和韵律短语边界预测方法。其中,韵律短语边界预测模型训练方法包括:获取训练文本集,其中,训练文本集中的每条训练文本包括至少两种相似语序语种的训练文本;获取每条训练文本的文本特征,其中文本特征包括训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;利用每条训练文木的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型。采用本发明提供的方法,可以增加了模型预测的准确率,进一步可提高后期语音合成的自然度。

Description

韵律短语边界预测模型训练方法和韵律短语边界预测方法
技术领域
本发明属于语音合成技术领域,主要涉及一种韵律短语边界预测模型训练方法、韵律短语边界预测方法、韵律短语边界预测模型训练装置、以及电子设备。
背景技术
在语音合成中,文本数据的韵律预测一直是前端文本处理的重要工作,预测位置的正确与否直接影响着合成语音的自然度和语义信息的理解。因此,正确的预测出文本数据的韵律边界有着重要的意义。现有的韵律短语预测方法一般都是针对单个语种来构建模型,这种模型一般为条件随机场模型(CRF)、最大熵模型(ME)等,通过模型训练后获得预测模型,通过预测模型得到韵律短语边界的预测结果。
由于是基于单个语种的文本来进行韵律预测,训练的模型也只是针对单个语种之间,样本数量少。某一个语种的韵律短语预测的模型对于和它相似语序的语种没有普适性,对于稀缺的语种文本,由于数据过少难以建立有效的模型结构,此外由于对文本端提取的特征也过于简单,无法挖掘到语种文本的更深层信息,很难使用神经网络的模型训练,从而无法有效的预测文本的韵律短语边界,对后期语音合成的效果影响较大,对韵律短语的预测准确率较低,从而语音合成效果自然度低。
发明内容
(一)要解决的技术问题
有鉴于此,本发明提供了一种韵律短语边界预测模型训练方法、韵律短语边界预测方法、韵律短语边界预测模型训练装置、以及电子设备,可以至少部分解决现有技术中的问题。
(二)技术方案
一种韵律短语边界预测模型训练方法,包括:
获取训练文本集,其中,训练文本集中的每条训练文本包括至少两种相似语序语种的训练文本;
获取每条训练文本的文本特征,其中文本特征包括训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
利用每条训练文本的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型,其中训练文本的标签用于表征训练文本中每个单词的停顿状态。
根据本发明的实施例,韵律短语边界预测模型包括降维特征模型和DNN网络,其中降维特征模型用于对训练文本进行降维处理得到高阶特征向量,DNN网络用于输出训练文本中每个单词的停顿状态。
根据本发明的实施例,其中,利用训练文本的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型包括:
利用训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型;
将训练文本的文本特征输入降维特征模型,输出训练文本的高阶特征向量;
利用训练文本的高阶特征向量、以及训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络;
将降维特征模型和DNN网络结合,得到韵律短语边界预测模型。
根据本发明的实施例,其中,利用训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型包括:
将训练文本的文本特征输入初始降维特征模型;
通过误差反向传播算法调整初始降维特征模型的网络权值,使得初始降维特征模型的输出层节点值逼近输入层节点值,直到在输出层节点值和输入层节点值的差值满足预设条件的情况下,得到经训练得到的降维特征模型。
根据本发明的实施例,其中,利用训练文本的高阶特征向量、以及训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络包括:
将训练文本的高阶特征向量、以及训练文本的标签输入初始DNN网络,输出训练文本中每个单词的停顿状态;
计算训练文本的标签和训练文本中每个单词的停顿状态之间的交叉熵损失值,当交叉熵损失值满足预设条件时,得到经训练得到的DNN网络。
根据本发明的实施例,获取训练文本包括:
通过语音数据获取训练文本。
根据本发明的实施例,每个单词的停顿概率为:
其中,N代表训练文本中韵律短语的总数;N(x)表代表训练文本中、单词出现在韵律短语中的次数;TF(x)表示训练文本中、单词出现在韵律短语中的频率。
一种利用上述韵律短语边界预测模型进行韵律短语边界预测的方法,包括:
获取预测文本数据,其中预测文本数据包括至少两种相似语序语种的预测文本数据;
对预测文本数据进行处理,获取预测文本数据的文本特征,其中文本特征包括预测文本数据中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
将预测文本数据的文本特征输入韵律短语边界预测模型,输出预测文本数据中每个单词的停顿状态;
根据预测文本数据中每个单词的停顿状态获取韵律短语边界。
一种韵律短语边界预测模型训练装置,包括:
第一获取模块,用于获取训练文本,其中训练文本包括至少两种相似语序语种的训练文本;
第二获取模块,用于获取训练文本的文本特征,其中文本特征包括训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
训练模块,用于利用训练文本的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型,其中训练文本的标签用于表征训练文本中每个单词的停顿状态。
一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述韵律短语边界预测模型训练方法。
(三)有益效果
本发明实施例提供的韵律短语边界预测模型训练方法,通过增加样本的难度,即文本特征的多样化,尤其是增加了停顿概率的特征、以及语种的多样化(至少两种相似语序语种,现有技术中为单语种)来训练韵律短语边界预测模型,使得训练好的模型具有更好的预测能力。解决了现有的韵律短语边界预测模型训练方法只针对单个语种,对于稀缺的语种文本,由于数据过少难以建立有效的模型结构的问题,以及由于对文本端提取的特征也过于简单,无法挖掘到语种文本的更深层信息,从而无法有效的预测文本的韵律短语边界,对合成的效果影响较大的问题。进而,使用本发明实施例提供的韵律短语边界预测模型训练方法,多个语种混合训练有益于稀缺语种训练语料的收集,此外,多个特征的选取,有益于挖掘文本数据之间潜在的信息,更加适合神经网络的模型训练,增加了预测的准确率,从而能够提高韵律短语预测的正确率、韵律停顿的准确性以及后期语音合成的自然度。
附图说明
图1示意性示出了根据本发明实施例的韵律短语边界预测模型训练方法的流程图;
图2示意性示出了根据本发明实施例的韵律短语边界预测的方法的流程图;
图3示意性示出了根据本公开实施例的韵律短语边界预测模型训练装置的框图;以及
图4示意性示出了根据本公开实施例的用于实现韵律短语边界预测模型训练方法的电子设备的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示意性示出了根据本发明实施例的韵律短语边界预测模型训练方法的流程图。如图1所示,本发明实施例提供的韵律短语边界预测模型训练方法包括操作S201~S203。
在操作S201,获取训练文本集,其中,训练文本集中的每条训练文本包括至少两种相似语序语种的训练文本。其中,相似语序语种指的是具有相同的句型、句式和句类结构的语种,例如,哈萨克斯坦语和蒙语即为相似语序的两个语种,两者使用的文字都是西里尔字母,有着相似的语序,同时两者之间有着一些相同的词汇。
根据本发明的实施例,获取训练文本集可以直接获取文本格式的训练文本,也可以通过语音数据获取训练文本。
直接获取文本格式的训练文本时,首先确定待合成的有着相似语序的至少两个语种,然后对相应语种进行文本数据的收集获取训练文本,可以网上下载或者自己设计相关文本,其中文本要含有全部语种的字符,然后由人工标注出训练文本的韵律短语边界位置,即获得训练文本的标签,训练文本的标签用于表征训练文本中每个单词的停顿状态。
通过语音数据获取训练文本时,首先通过对音频的声学信号分析,利用Kaldi工具将语音数据识别为带有韵律短语边界的文本格式的训练文本,再通过人工对给出的韵律短语边界稍作修改得到标准的韵律短语边界,即获得训练文本的标签。
在操作S202,获取每条训练文本的文本特征,其中文本特征包括训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位。
在该操作中,主要对每条已经人工标注标签的训练文本的文本端,进行特征分析,得到文本特征。通过训练文本进行分词后,以词为最小单元,来提取相应的文本特征。其中停顿概率表示停顿的状态,比如必停顿表示这个单词前面或者后面在不同的句子当中都会有一个停顿的时长,不停顿一般出现组合词内,不需要停顿,可停顿表示停顿与否取决于是否满足整个句子的节律要求。此外由于是相似语序语种的混训,还需要设置语种标志位来区分不同的语种,语种标志位能够表示当前模型训练不同语种的训练文本的类别差异。对于黏着语的语种,提取语种的词缀信息作为文本特征,黏着语的所有词缀都只表达一种意思或只具有一种语法功能。词缀分为前缀、中缀、后缀,常见的有前缀、后缀,本发明的实施例中使用后缀信息作为文本特征。
其中,每个单词的停顿概率的计算方法为:
其中,N代表训练文本中韵律短语的总数;N(x)表代表训练文本中、单词出现在韵律短语中的次数;TF(x)表示训练文本中、单词出现在韵律短语中的频率。
根据本发明的实施例,在利用文本特征进行模型训练的过程中,分析预测错误的地方,可以得到一部分预测错误会在正确韵律短语边界前后词之间,通过对每个语种的文本韵律短语规则的了解,可以得出有些规则性的韵律短语的边界判断,比如:一部分词列表左侧需要(禁止)停顿,一部分词列表右侧需要(禁止)停顿,一部分词短语中不能有停顿,通过获取停顿概率作为文本特征,作为词与词之间紧密联系程度的特征,来减少韵律短语预测的错误率。
在操作S203,利用每条训练文本的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型。
根据本发明的实施例,韵律短语边界预测模型包括降维特征模型和DNN网络,其中降维特征模型用于对训练文本进行降维处理得到高阶特征向量,DNN网络用于输出训练文本中每个单词的停顿状态。
根据本发明的实施例,降维特征模型使用自编码器,作为韵律短语边界预测模型网络结构前端,使用自编码器对文本特征进行降维处理和信息融合得到高阶特征向量,然后后面接一个DNN网络。自编码器在数据降维方面具有稳定的表达能力,能够对输入数据进行分布式表示,具有强大的从数据中抽取本质特征的能力,从而能得到更加抽象的特征表达,同时使的不同语种之间的文本特征信息可以相互借鉴更加丰富。
具体的训练过程为:
1、利用训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型;
2、将训练文本的文本特征输入降维特征模型,输出训练文本的高阶特征向量;
3、利用训练文本的高阶特征向量、以及训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络;
将降维特征模型和DNN网络结合,得到韵律短语边界预测模型。
在上述训练过程中,其中,根据本发明的实施例,利用训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型的具体操作包括:
将训练文本的文本特征输入初始降维特征模型;
通过误差反向传播算法调整初始降维特征模型的网络权值,使得初始降维特征模型的输出层节点值逼近输入层节点值,直到在输出层节点值和输入层节点值的差值满足预设条件的情况下,得到经训练得到的降维特征模型,其中经训练得到的降维特征模型中包含自编码器中层数和每层的节点数的最优组合。
在上述训练过程中,其中,根据本发明的实施例,利用训练文本的高阶特征向量、以及训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络包括:
将训练文本的高阶特征向量、以及训练文本的标签输入初始DNN网络,输出训练文本中每个单词的停顿状态;
计算训练文本的标签和训练文本中每个单词的停顿状态之间的交叉熵损失值,当交叉熵损失值满足预设条件时,得到经训练得到的DNN网络。
本发明实施例提供的韵律短语边界预测模型训练方法,通过增加样本的难度,即文本特征的多样化,尤其是增加了停顿概率的特征、以及语种的多样化(至少两种相似语序语种,现有技术中为单语种)来训练韵律短语边界预测模型,使得训练好的模型具有更好的预测能力。解决了现有的韵律短语边界预测模型训练方法只针对单个语种,对于稀缺的语种文本,由于数据过少难以建立有效的模型结构的问题,以及由于对文本端提取的特征也过于简单,无法挖掘到语种文本的更深层信息,从而无法有效的预测文本的韵律短语边界,对合成的效果影响较大的问题。进而,使用本发明实施例提供的韵律短语边界预测模型训练方法,多个语种混合训练有益于稀缺语种训练语料的收集,此外,多个特征的选取,有益于挖掘文本数据之间潜在的信息,更加适合神经网络的模型训练,增加了预测的准确率,从而能够提高韵律短语预测的正确率、韵律停顿的准确性以及后期语音合成的自然度。
本发明的实施例还提供了一种利用上述训练好的韵律短语边界预测模型进行韵律短语边界预测的方法,图2示意性示出了根据本发明实施例的韵律短语边界预测的方法的流程图,如图2所示,该方法包括操作S201~S204。
在操作S201,获取预测文本数据,其中预测文本数据包括至少两种相似语序语种的预测文本数据。
在操作S202,对预测文本数据进行处理,获取预测文本数据的文本特征,其中文本特征包括预测文本数据中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位。
在操作S203,将预测文本数据的文本特征输入韵律短语边界预测模型,输出预测文本数据中每个单词的停顿状态。
在操作S204,根据预测文本数据中每个单词的停顿状态获取韵律短语边界。
以下示例性说明利用上述训练好的韵律短语边界预测模型进行韵律短语边界预测的方法,如下:
首先获取预测文本数据,其中预测文本数据包括至少两种相似语序语种的预测文本数据。可以从网上下载预测文本数据或者使用自己设计的预测文本数据,并由人工标注出预测文本数据的韵律短语边界位置,例如,文本数据中其中一种语种的文本采用蒙古语:
Aмралт тзргзн зогсоол та чигYYрззр очмоор байнуу утас авж YзхYY,
进行人工打标签后结果为:
Aмралт#тзргзн зогсоол#та чигYYрззр очмоор байнуу утас авж YзхYY,
其中“#”为韵律短语边界,此外还可以下载预测文本数据对应的音频,通过对音频的声学信号分析,根据Kaldi工具自动识别出相应的预测文本,然后对预测文本数据标注出韵律短语边界。其他相似语序语种的预测文本数据使用同样的方法来获取。
然后,对预测文本数据进行文本特征提取,以上述蒙古语作为其中一种语种的文本数据,文本特征提取结果如下:
其中,第一列为语种标志位,第二列为词面,第三列为后缀(没有后缀的单词为单词倒数最后一个元音后面的字母组合),第四列为词性,第五列为词长,第六列为单词停顿概率,0表示禁止停顿,1表示必须停顿,停顿概率树脂根据规则和整个文本数据统计计算出来,具体计算方法参见公式(一)。
之后,将获取的预测文本数据的文本特征输入韵律短语边界预测模型,输出预测文本数据中每个单词的停顿状态,输出结果为:
Aмралт/1 тзргзн/0 зогсоол/1 та/0 чигYYрззр/0 очмоор/0 байнуу/0утас авж/0 YзхYY/0,
其中,其中0表示无停顿,1表示有停顿。
最后,根据预测文本数据中每个单词的停顿状态获取韵律短语边界,结果为:
Aмралт#тзргзн зогсоол#та чигYYрззр очмоор байнуу утас авж YзхYY。
图3示意性示出了根据本公开实施例的韵律短语边界预测模型训练装置的框图。
该韵律短语边界预测模型训练装置300可以用来实现参考图1所示的方法。
如图3所示,韵律短语边界预测模型训练装置300包括:第一获取模块310、第二获取模块320、训练模块330。
第一获取模块310,用于获取训练文本,其中训练文本包括至少两种相似语序语种的训练文本。
第二获取模块320,用于获取训练文本的文本特征,其中文本特征包括训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位。
训练模块330,用于利用训练文本的文本特征、以及训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型,其中训练文本的标签用于表征训练文本中每个单词的停顿状态。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块310、第二获取模块320、训练模块330中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,第一获取模块310、第二获取模块320、训练模块330中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块310、第二获取模块320、训练模块330中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中韵律短语边界预测模型训练装置部分与本公开的实施例中韵律短语边界预测模型训练方法部分是相对应的,韵律短语边界预测模型训练装置部分的描述具体参考韵律短语边界预测模型训练方法部分,在此不再赘述。
本公开的实施例还提供了一种电子设备,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,其中,当该一个或多个程序被一个或多个处理器执行时,使得该一个或多个处理器实现上述韵律短语边界预测模型训练方法。
图4示意性示出了根据本公开实施例的用于实现韵律短语边界预测模型训练方法的电子设备的框图。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,根据本公开实施例的电子设备400包括处理器401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。处理器401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 403中,存储有电子设备400操作所需的各种程序和数据。处理器401、ROM402以及RAM 403通过总线404彼此相连。处理器401通过执行ROM 402和/或RAM 403中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 402和RAM 403以外的一个或多个存储器中。处理器401也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备400还可以包括输入/输出(I/O)接口404,输入/输出(I/O)接口404也连接至总线404。系统400还可以包括连接至I/O接口404的以下部件中的一项或多项:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口404。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被处理器401执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 402和/或RAM 403和/或ROM 402和RAM 403以外的一个或多个存储器。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种韵律短语边界预测模型训练方法,包括:
获取训练文本集,其中,所述训练文本集中的每条训练文本包括至少两种相似语序语种的训练文本;
获取每条所述训练文本的文本特征,其中所述文本特征包括所述训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
利用每条所述训练文本的文本特征、以及所述训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型,其中所述训练文本的标签用于表征所述训练文本中每个单词的停顿状态;
其中,所述韵律短语边界预测模型包括降维特征模型和DNN网络,其中所述降维特征模型用于对所述训练文本进行降维处理得到高阶特征向量,所述DNN网络用于输出所述训练文本中每个单词的停顿状态;
其中,利用所述训练文本的文本特征、以及所述训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型包括:
利用所述训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型;将所述训练文本的文本特征输入所述降维特征模型,输出所述训练文本的高阶特征向量;利用所述训练文本的高阶特征向量、以及所述训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络;将所述降维特征模型和所述DNN网络结合,得到所述韵律短语边界预测模型。
2.根据权利要求1所述的训练方法,其中,利用所述训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型包括:
将所述训练文本的文本特征输入所述初始降维特征模型;
通过误差反向传播算法调整所述初始降维特征模型的网络权值,使得所述初始降维特征模型的输出层节点值逼近输入层节点值,直到在所述输出层节点值和所述输入层节点值的差值满足预设条件的情况下,得到经训练得到的降维特征模型。
3.根据权利要求1所述的训练方法,其中,利用所述训练文本的高阶特征向量、以及所述训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络包括:
将所述训练文本的高阶特征向量、以及所述训练文本的标签输入所述初始DNN网络,输出所述训练文本中每个单词的停顿状态;
计算所述训练文本的标签和所述训练文本中每个单词的停顿状态之间的交叉熵损失值,当所述交叉熵损失值满足预设条件时,得到经训练得到的DNN网络。
4.根据权利要求1所述的训练方法,所述获取训练文本包括:
通过语音数据获取所述训练文本。
5.根据权利要求1所述的训练方法,所述每个单词的停顿概率为:
其中,N代表所述训练文本中韵律短语的总数;N(x)表代表所述训练文本中、所述单词出现在韵律短语中的次数;TF(x)表示所述训练文本中、所述单词出现在韵律短语中的频率。
6.一种利用韵律短语边界预测模型进行韵律短语边界预测的方法,包括:
获取预测文本数据,其中所述预测文本数据包括至少两种相似语序语种的预测文本数据;
对所述预测文本数据进行处理,获取所述预测文本数据的文本特征,其中所述文本特征包括所述预测文本数据中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
将所述预测文本数据的文本特征输入所述韵律短语边界预测模型,输出所述预测文本数据中每个单词的停顿状态;
根据所述预测文本数据中每个单词的停顿状态获取韵律短语边界;
其中,所述韵律短语边界预测模型利用权利要求1-5任一项所述的训练方法训练得。
7.一种韵律短语边界预测模型训练装置,包括:
第一获取模块,用于获取训练文本,其中所述训练文本包括至少两种相似语序语种的训练文本;
第二获取模块,用于获取所述训练文本的文本特征,其中所述文本特征包括所述训练文本中每个单词的词面、词性、词长、词缀、停顿概率、词向量、以及语种标志位;
训练模块,用于利用所述训练文本的文本特征、以及所述训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型,其中所述训练文本的标签用于表征所述训练文本中每个单词的停顿状态;
其中,所述韵律短语边界预测模型包括降维特征模型和DNN网络,其中所述降维特征模型用于对所述训练文本进行降维处理得到高阶特征向量,所述DNN网络用于输出所述训练文本中每个单词的停顿状态;
其中,训练模块中,利用所述训练文本的文本特征、以及所述训练文本的标签训练初始韵律短语边界预测模型,得到经训练得到的韵律短语边界预测模型包括:
利用所述训练文本的文本特征训练初始降维特征模型,得到经训练得到的降维特征模型;将所述训练文本的文本特征输入所述降维特征模型,输出所述训练文本的高阶特征向量;利用所述训练文本的高阶特征向量、以及所述训练文本的标签训练初始DNN网络,得到经训练得到的DNN网络;将所述降维特征模型和所述DNN网络结合,得到所述韵律短语边界预测模型。
8.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。
CN202110102518.6A 2021-01-25 2021-01-25 韵律短语边界预测模型训练方法和韵律短语边界预测方法 Active CN112863484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110102518.6A CN112863484B (zh) 2021-01-25 2021-01-25 韵律短语边界预测模型训练方法和韵律短语边界预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110102518.6A CN112863484B (zh) 2021-01-25 2021-01-25 韵律短语边界预测模型训练方法和韵律短语边界预测方法

Publications (2)

Publication Number Publication Date
CN112863484A CN112863484A (zh) 2021-05-28
CN112863484B true CN112863484B (zh) 2024-04-09

Family

ID=76009159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110102518.6A Active CN112863484B (zh) 2021-01-25 2021-01-25 韵律短语边界预测模型训练方法和韵律短语边界预测方法

Country Status (1)

Country Link
CN (1) CN112863484B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392645B (zh) * 2021-06-22 2023-12-15 云知声智能科技股份有限公司 一种韵律短语边界预测方法、装置、电子设备和存储介质
CN114333760B (zh) * 2021-12-31 2023-06-02 科大讯飞股份有限公司 一种信息预测模块的构建方法、信息预测方法及相关设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091474A (ja) * 2000-09-05 2002-03-27 Lucent Technol Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
WO2019118147A1 (en) * 2017-12-11 2019-06-20 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
CN110223671A (zh) * 2019-06-06 2019-09-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091474A (ja) * 2000-09-05 2002-03-27 Lucent Technol Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
KR20120117041A (ko) * 2011-04-14 2012-10-24 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
WO2019118147A1 (en) * 2017-12-11 2019-06-20 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
CN110223671A (zh) * 2019-06-06 2019-09-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质

Also Published As

Publication number Publication date
CN112863484A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN111369996B (zh) 一种特定领域的语音识别文本纠错方法
CN109635270B (zh) 双向概率性的自然语言重写和选择
US5930746A (en) Parsing and translating natural language sentences automatically
US6311152B1 (en) System for chinese tokenization and named entity recognition
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US8868431B2 (en) Recognition dictionary creation device and voice recognition device
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN112863484B (zh) 韵律短语边界预测模型训练方法和韵律短语边界预测方法
Said et al. A hybrid approach for Arabic diacritization
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
Kirchhoff et al. Novel speech recognition models for Arabic
CN112489655B (zh) 一种特定领域的语音识别文本纠错方法、系统和存储介质
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
Hifny Open vocabulary Arabic diacritics restoration
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Ananthakrishnan et al. Automatic diacritization of Arabic transcripts for automatic speech recognition
CN112071304B (zh) 一种语意分析方法及装置
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
Cherifi et al. Arabic grapheme-to-phoneme conversion based on joint multi-gram model
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
JP4769286B2 (ja) かな漢字変換装置およびかな漢字変換プログラム
KR101604553B1 (ko) 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
Raza et al. Automatic diacritization for urdu

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant