CN109697973B - 一种韵律层级标注的方法、模型训练的方法及装置 - Google Patents

一种韵律层级标注的方法、模型训练的方法及装置 Download PDF

Info

Publication number
CN109697973B
CN109697973B CN201910060152.3A CN201910060152A CN109697973B CN 109697973 B CN109697973 B CN 109697973B CN 201910060152 A CN201910060152 A CN 201910060152A CN 109697973 B CN109697973 B CN 109697973B
Authority
CN
China
Prior art keywords
word
trained
text
feature set
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910060152.3A
Other languages
English (en)
Other versions
CN109697973A (zh
Inventor
吴志勇
杜耀
康世胤
苏丹
俞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Tsinghua University
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen Graduate School Tsinghua University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910060152.3A priority Critical patent/CN109697973B/zh
Priority to CN201910751371.6A priority patent/CN110444191B/zh
Publication of CN109697973A publication Critical patent/CN109697973A/zh
Application granted granted Critical
Publication of CN109697973B publication Critical patent/CN109697973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种韵律层级标注的方法,包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本发明还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本发明联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

Description

一种韵律层级标注的方法、模型训练的方法及装置
技术领域
本发明涉及人工智能领域,尤其涉及一种韵律层级标注的方法、模型训练的方法以及相关装置。
背景技术
为了实现高质量的语音合成系统,海量准确标注好韵律层级结构的数据至关重要,韵律层级结构是对语音的节奏及其停顿进行建模,一个能够准确自动标注韵律层级结构的方法,对快速构建语音合成语料库、提升语音合成的自然度有着重要意义。
目前,对韵律层级结构自动标注需要用机器学习方法训练一个自动标注模型,在特征选择上主要有两种,一种是用文本特征,先分词,再提取词语的文本特征,通过机器学习方法判决该词的韵律层级结构类型,另一种是用声学特征,主要是依靠检测音频的停顿位置,依据停顿时长的大小来区分不同的韵律层级结构类型。
然而,实际情况下,标注任务仅利用文本数据,则没有考虑到韵律层级结构边界前一个音节的时长有延长以及语调短语边界处往往伴有短时停顿的现象,而仅利用声学特征,难以准确地同时标注三层韵律层级结构,而且忽略了文本特征与声学特征的内在联系,降低了韵律层级结构的标注效果,影响了语音合成所依赖的语料库的质量。
发明内容
本发明实施例提供了一种韵律层级标注的方法、模型训练的方法及装置,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,提升语音合成的效果。
有鉴于此,本发明第一方面提供一种韵律层级标注的方法,包括:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
本发明第二方面提供一种模型训练的方法,包括:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
本发明第三方面提供一种韵律层级标注装置,包括:
获取模块,用于获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
提取模块,用于根据所述获取模块获取的所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
所述提取模块,还用于根据所述获取模块获取的所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
预测模块,用于根据所述每个词语的词语标识、所述提取模块提取的所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
在一种可能的设计中,在本发明实施例的第三方面的第一种实现方式中,
所述预测模块,具体用于通过所述韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;
或,
通过所述韵律层级标注模型确定韵律词和/或韵律短语。
本发明第四方面提供一种模型训练装置,包括:
获取模块,用于获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
提取模块,用于根据所述获取模块获取的所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
所述提取模块,还用于根据所述获取模块获取的所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
训练模块,用于对所述每个词语对应的词语标识、所述提取模块提取的所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
在一种可能的设计中,在本发明实施例的第四方面的第一种实现方式中,所述模型训练装置还包括处理模块以及生成模块;
所述处理模块,用于在所述获取模块获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据进行分词处理,得到至少一个词语;
所述获取模块,还用于根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,所述预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,所述目标词语属于所述处理模块处理得到的所述至少一个词语中的任意一个词语;
所述生成模块,用于生成所述待训练文本数据中所述目标词语所对应的目标词向量;
所述训练模块,具体用于对所述获取模块获取的所述目标词语标识以及所述生成模块生成的所述目标词向量进行训练,得到第一模型参数,其中,所述第一模型参数用于生成所述韵律层级标注模型中的词嵌入层。
在一种可能的设计中,在本发明实施例的第四方面的第二种实现方式中,
所述提取模块,具体用于获取所述待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,所述词性表示词语的语法分类结果,所述词长表示词语的字数,所述词后标点类型用于表示在词语之后所对应的标点类型;
获取所述待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,所述关联词语为与所述目标词语具有关联关系的词语;
所述训练模块,具体用于对所述目标词语的词性、词长以及词后标点类型,和所述关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,所述第二模型参数用于生成所述韵律层级标注模型中的文本神经网络。
在一种可能的设计中,在本发明实施例的第四方面的第三种实现方式中,所述模型训练装置还包括对齐模块;
所述对齐模块,用于所述获取模块获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据以及所述待训练音频数据进行强制对齐,得到时间对齐的文本;
所述提取模块,具体用于根据所述时间对齐文本确定所述目标词语的词尾音节时长。
在一种可能的设计中,在本发明实施例的第四方面的第四种实现方式中,
所述提取模块,具体用于根据所述时间对齐文本确定所述目标词语的词后停顿时长。
在一种可能的设计中,在本发明实施例的第四方面的第五种实现方式中,
所述提取模块,具体用于根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号;
提取所述待训练音频数据的对数基频曲线以及对数能量曲线;
根据所述目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、所述对数基频曲线以及对数能量曲线,计算得到所述目标词语的词尾音节声学统计特征,其中,所述词尾音节声学统计特征包括所述对数基频曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项,所述词尾音节声学统计特征还包括所述对数能量曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项。
在一种可能的设计中,在本发明实施例的第四方面的第六种实现方式中,
所述提取模块,具体用于根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号;
根据所述目标词语最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号,以及从所述待训练音频数据中分帧提取的基频信息以及能量信息,确定所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值以及能量值;
根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值,计算得到基频值的对数差值,根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间能量值,计算得到能量值的对数差值,其中,所述基频值的对数差值以及所述能量值的对数差值属于所述词间声学特征变化值。
在一种可能的设计中,在本发明实施例的第四方面的第七种实现方式中,
所述训练模块,具体用于通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于所述至少一个词语中的任意一个词语,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
本发明第五方面提供一种韵律层级标注装置,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明第六方面提供一种模型训练装置,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种韵律层级标注的方法,首先,获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系,待标注文本数据包括至少一个词语,每个词语对应于一个词语标识,然后根据待标注文本数据提取每个词语的待标注文本特征集合,其中,待标注文本特征集合包括词性、词长以及词后标点类型,再根据音频数据提取每个词语的声学特征集合,其中,声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,最后根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。通过上述方式,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级结构标注提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,有利于提升语音合成音质的自然度。
附图说明
图1为本发明实施例中语音合成系统的一个架构示意图;
图2为本发明实施例中韵律层级的一个结构示意图;
图3为本发明实施例中韵律层级标注的方法一个实施例示意图;
图4为本发明实施例中韵律层级标注系统的一个应用演示示意图;
图5为本发明实施例中韵律层级标注的一个流程示意图;
图6为本发明实施例中模型训练的方法一个实施例示意图;
图7为本发明实施例中提取声学特征集合的一个流程示意图;
图8为本发明实施例中基频曲线的一个实施例示意图;
图9为本发明实施例中能量曲线的一个实施例示意图;
图10为本发明实施例中韵律层级标注模型的一个结构示意图;
图11为本发明实施例中韵律层级标注装置的一个实施例示意图;
图12为本发明实施例中模型训练装置的一个实施例示意图;
图13为本发明实施例中模型训练装置的另一个实施例示意图;
图14为本发明实施例中模型训练装置的另一个实施例示意图;
图15为本发明实施例中终端设备的一个结构示意图;
图16为本发明实施例中服务器的一个结构示意图。
具体实施方式
本发明实施例提供了一种韵律层级标注的方法、模型训练的方法及装置,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,提升语音合成的效果。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本发明主要应用于在构建语音合成语料库的数据准备过程中对文本数据进行韵律层级结构的自动标注。语音合成是将文本转换为语音的任务,而构建高质量的语音合成系统需要准备海量的数据,其中带韵律层级结构标注的数据对语音合成的自然度有着重要影响,传统标注方式往往是人工标注,对于对海量数据进行标注费时费力,而且不同标注人员在一些词语的标注上会存在不一致性,一个自动标注韵律层级结构的系统对快速构建语音合成系统的海量韵律层级数据标注任务以及解决不同标注人员的不一致性有着重要意义。
为了便于理解,本发明提出了一种韵律层级标注的方法以及模型训练的方法,该方法应用于图1所示的语音合成系统的,请参阅图1,图1为本发明实施例中语音合成系统的一个架构示意图,如图所示,终端设备或者服务器首先获取文本数据以及音频数据,其中,文本数据和音频数据是对应上的,比如文本数据是“今天是个好日子”,其音频数据则是“今天是个好日子”的音频,使用强制对齐工具将文本数据和音频数据对齐。接下来需要提取文本数据中每个词语所对应的文本特征集合,每个词语的文本特征集合中包括词性、词长和词后标点类型。与此同时,还需要对音频数据也进行特征提取,即得到每个词语的声学特征集合,每个词语的声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,其中,词间声学特征变化值表示为当前词语最后的浊音帧与下一词语词首的浊音帧在基频上的对数差值,以及在能量上的对数差值。此外,根据文本数据还可以提取每个词语的词语标识(identification,ID),将整个句子中每个词语的词语标识、每个词语的文本特征集合以及每个词语的声学特征集合都输入到已经训练好的韵律层级标注模型,由该模型输出韵律层标注结果。如果韵律层级标注模型部署在终端设备中,那么该终端设备通过韵律层级标注模型得到韵律层级结构之后,即可直接根据韵律层级结构播放相应的句子。如果韵律层级标注模型部署在服务器中,那么该服务器通过韵律层级标注模型得到韵律层级结构之后,需要将韵律层级结构反馈至终端设备,由终端设备根据韵律层级结构播放相应的句子。
需要说明的是,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。其中,语音交互设备包含但不仅限于智能音响以及智能家电。语音交互设备还具有如下特点:
1、网络化功能,各种语音交互设备可以通过局域网连接到一起,还可以通过家庭网关接口同制造商的服务站点相连,最终可以同互联网相连,实现信息的共享。
2、智能化,语音交互设备可以根据周围环境的不同自动做出响应,不需要人为干预。
3、开放性以及兼容性,由于用户的语音交互设备可能来自不同的厂商,语音交互设备需要具有开发性和兼容性。
4、节能化,智能家电可以根据周围环境自动调整工作时间以及工作状态,从而实现节能。
5、易用性,由于复杂的控制操作流程已由内嵌在语音交互设备中的控制器解决,因此用户只需了解非常简单的操作。语音交互设备并不是单指某一个设备,而应是一个技术系统,随着人类应用需求和语音交互设备智能化的不断发展,其内容将会更加丰富,根据实际应用环境的不同语音交互设备的功能也会有所差异,但一般应具备智能控制技术。
应理解,语音合成系统输出的韵律层级结构具体可以是汉语的韵律层级,汉语作为一种有调语言,其韵律特征非常复杂。韵律层级结构是对语音的停顿和节奏等韵律特征的建模,对语音合成系统合成音质的自然度有着重要的意义。一种典型的韵律层级结构划分如图2所示,请参阅图2,图2为本发明实施例中韵律层级的一个结构示意图,自底向上分为韵律词(prosodic word,PW)、韵律短语(prosodic phrase,PPH)以及语调短语(intonational phrase,IPH)。比如,句子“致以诚挚的问候和衷心的祝福”里,PW为“致以”,“诚挚的”,“问候”,“和衷心的”,“祝福”。PPH为“致以”,“诚挚的问候”,“和衷心的祝福”。IPH为“致以诚挚的问候”,“和衷心的祝福”。
结合上述介绍,下面将对本发明中韵律层级标注的方法进行介绍,请参阅图3,本发明实施例中韵律层级标注的方法一个实施例包括:
101、获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系,待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
本实施例中,首先获取待标注文本数据以及对应的音频数据,其中,待标注文本数据具体可以是一句话或者一段话,语言类型包含但不仅限于中文、日文、英文或者韩文。音频数据具体可以是一个音频文件。在待标注文本数据包含至少一个词语,由此可以进行分词,比如“致以诚挚的问候和衷心的祝福”,可以分为以下五个词语,分别为“致以”,“诚挚的”,“问候”,“和衷心的”,“祝福”,且不同的词语对应于不同的词语标识。
102、根据待标注文本数据提取每个词语的待标注文本特征集合,其中,待标注文本特征集合包括词性、词长以及词后标点类型;
本实施例中,然后分别对每个词语进行特征提取,特征提取包括两个方面,第一是文本特征的提取,第二是声学特征的提取。在提取文本特征的过程中,需要对待标注文本数据中每个词语都进行文本特征的提取,以待标注文本数据“致以诚挚的问候和衷心的祝福”为例,可以提取每个词语所对应的待标注文本特征集合,这里的待标注文本特征集合包含但不仅限于词性、词长以及词后标点类型。
其中,词性通常分为实词和虚词,实词是汉语词类中的一种,词语中含有实际意义的词,实词能单独充当句子成分,即有词汇意义和语法意义的词。把语法功能作为主要依据,认为能够单独充当句法成分,有词汇意义和语法意义的是实词。实词包括名词、动词、形容词、数词、量词和代词。虚词泛指没有完整意义的词汇,但有语法意义或功能的词。具有必须依附于实词或语句,表示语法意义,不能单独成句,不能单独作语法成分,且不能重叠的特点。虚词包括副词、介词、连词、助词、叹词、拟声词。
词长表示词语的长度,比如“问候”的词长为2,“和”词长为1。
词后标点类型表示在这个词语后面是否紧跟标点符号,如果紧跟标点符号还需确认该标点符号的类型。标点符号在口头语言中,表现出来就是停顿时间,还可以帮助人们确切地表达思想感情和理解书面语言。
103、根据音频数据提取每个词语的声学特征集合,其中,声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
本实施例中,在提取声学特征的过程中,需要对音频数据中每个词语都进行声学特征的提取,以待标注文本数据“致以诚挚的问候和衷心的祝福”为例,可以提取五组声学特征集合,这里的声学特征集合包含但不仅限于词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值。
其中,词尾音节时长是指词语最后一个音节的时间长度,该音节是指浊音的音节,比如“问候”的“候”字,发音为“hou”,其清音为“h”,浊音为“ou”,词尾音节时长就是指发“ou”这个音节的时间长度,该时长有专用的工具进行检测,此处不展开论述。
词后停顿时长是指这个词语说完后到下一个词语开始说之前的这段时间长度,比如“问候”和“和”之间间隔的时间长度。
词尾音节声学统计特征通常包括十个参数,其中的五个参数是与词尾音节对数基频曲线相关的参数,即包括基于对数基频曲线的最大值、基于对数基频曲线的最小值、基于对数基频曲线的范围、基于对数基频曲线的均值以及基于对数基频曲线的方差。其中的另外五个参数是与词尾音节对数能量曲线相关的参数,即包括基于对数能量曲线的最小值、基于对数能量曲线的最大值、基于基于对数能量曲线的范围、基于对数能量曲线的均值以及基于对数能量曲线的方差。
词间声学特征变化值表示词语尾部浊音与下一个词语的首个浊音之间的对数基频差值和对数能量差值。
104、根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
本实施例中,将待标注文本数据以及音频数据输入至韵律层级标注模型,该韵律层级标注模型根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,输出相应的韵律层级结构。
为了便于介绍,请参阅图4,图4为本发明实施例中韵律层级标注系统的一个应用演示示意图,如图所示,用户提供需要标注韵律层级结构的文本数据与音频数据,比如用户输入需要标注的待标注文本数据为“致以诚挚的问候和衷心的祝福”,那么将该待标注文本数据以及对应的音频数据提供给韵律层级标注模型。通过韵律层级标注模型提取特征。即分别提取每个词语的待标注文本特征集合以及每个词语的声学特征集合,再利用深度神经网络前向计算得到韵律层级结构,韵律层级标注模型将已经标注好韵律层级结构的文本提供给用户。
请参阅图5,图5为本发明实施例中韵律层级标注的一个流程示意图,如图所示,具体地,步骤S1中,首先获取待标注句子的文本数据与音频数信息。步骤S2中,对文本数据进行分词处理,将文本数据与音频数据进行强制对齐。步骤S3中,文本数据与音频数据进行强制对齐之后,可以提取相应的文本特征与声学特征。步骤S4中,将提取的文本特征与声学特征输入到韵律层级标注模型,该韵律层级标注模型包括前馈神经网络与双向长短时神经网络。步骤S5中,由韵律层级标注模型输出句子的韵律层级结构。
本发明实施例中,提供了一种韵律层级标注的方法,首先,获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系,待标注文本数据包括至少一个词语,每个词语对应于一个词语标识,然后根据待标注文本数据提取每个词语的待标注文本特征集合,其中,待标注文本特征集合包括词性、词长以及词后标点类型,再根据音频数据提取每个词语的声学特征集合,其中,声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,最后根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。通过上述方式,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,并且提升语音合成的效果。
可选地,在上述图3对应的实施例的基础上,本发明实施例提供韵律层级标注的方法第一个可选实施例中,通过韵律层级标注模型获取韵律层级结构,可以包括:
通过韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;
或,通过韵律层级标注模型确定韵律词和/或韵律短语。
本实施例中,将介绍两种常见的韵律层级结构。在第一种情况中,通过韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种,也就是说韵律层级标注模型训练了四种情形,分别为非韵律层级结构边界、韵律词边界、韵律短语边界以及语调短语边界。在第二种情况中,通过韵律层级标注模型确定韵律词和/或韵律短语,也就是说韵律层级标注模型训练了三种情形,分别为非韵律层级结构边界、韵律词边界以及韵律短语边界。
本发明在标注韵律层级时,采用训练阶段生成的韵律层级标注模型对文本处理后的输入文本数据进行韵律层级标注,从而得到已标注好韵律层级结构的文本,用以快速构建语音合成系统所需语料库。
其次,本发明实施例中,介绍了两种常见的韵律层级标注方法,一种为通过韵律层级标注模型确定韵律词、韵律短语以及语调短语,另一种为通过韵律层级标注模型确定韵律词和韵律短语。通过上述方式,用户可以选择更细致的韵律词、韵律短语以及语调短语的三层韵律层级结构的标注方案,也可以选择韵律词以及韵律短语的两层韵律层级结构标注方案。因此,本方案还可以根据需求选择输出的韵律层级,从而提升方案的灵活性。
结合上述介绍,下面将对本发明中模型训练的方法进行介绍,请参阅图6,本发明实施例中模型训练的方法一个实施例包括:
201、获取待训练文本数据以及待训练音频数据,其中,待训练文本数据与待训练音频数据之间具有对应关系,待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
本实施例中,首先获取待训练文本数据以及对应的待训练音频数据,其中,待训练文本数据具体可以是一句话或者一段话,语言类型包含但不仅限于中文、日文、英文或者韩文。待训练音频数据具体可以是一个音频文件。在待训练文本数据包含至少一个词语,由此可以进行分词,比如“致以诚挚的问候和衷心的祝福”,可以分为以下五个词语,分别为“致以”,“诚挚的”,“问候”,“和衷心的”,“祝福”,且不同的词语对应于不同的词语标识。
可以理解的是,训练的时候往往需要大量的样本,这里的待训练文本数据以及待训练音频数据即为样本,为了便于介绍,将待训练文本数据以及待训练音频数据作为一个样本进行说明,这不应理解为对本发明的限定。
202、根据待训练文本数据提取每个词语的待训练文本特征集合,其中,待训练文本特征集合包括词性、词长以及词后标点类型;
本实施例中,然后分别对每个词语进行特征提取,特征提取包括两个方面,第一是文本特征的提取,第二是声学特征的提取。在提取文本特征的过程中,需要对待训练文本数据中每个词语都进行文本特征的提取,以待训练文本数据“致以诚挚的问候和衷心的祝福”为例,可以提取每个词语所对应的待训练文本特征集合,这里的待训练文本特征集合包含但不仅限于词性、词长以及词后标点类型。
需要说明的是,词性、词长以及词后标点类型已在上述实施例中进行介绍,故此处不作赘述。
203、根据待训练音频数据提取每个词语的待训练声学特征集合,其中,待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
本实施例中,在提取声学特征的过程中,需要对待训练音频数据中每个词语都进行声学特征的提取,以待训练文本数据“致以诚挚的问候和衷心的祝福”为例,可以提取待训练词语的声学特征集合,这里的待训练声学特征集合包含但不仅限于词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值。
需要说明的是,词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值已在上述实施例中进行介绍,故此处不作赘述。
204、对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,韵律层级标注模型用于对韵律层级结构进行标注。
本实施例中,在介绍韵律层级标注模型的训练过程,训练数据为已标注好韵律层级结构的文本数据和对应的音频数据,采用深度神经网络对序列进行建模,每个句子中有多个词语,且一个句子就是一个词序列,将每个词语的特征以及标签,作为深度神经网络一个时间步的输入与输出,每个词语有对应的标签y,那么一个句子的标签可以表示为向量Y,从文本数据以及对应的音频数据中可以提取句子中每个词语的词语标识、文本特征以及声学特征,从而构成这个词语的特征x,一个句子多个词语,可以表示为的输入向量X,损失函数表示为L(Y,f(X)),通过大量的样本进行训练让损失函数尽可能变小,得到神经网路的训练参数,从而得到韵律层级结构自动标注的模型,即韵律层级标注模型。
本发明实施例中,提供了一种模型训练的方法,首先,获取待训练文本数据以及待训练音频数据,其中,待训练文本数据与待训练音频数据之间具有对应关系,每个词语对应于一个词语标识,然后根据待训练文本数据提取每个词语的待训练文本特征集合,其中,待训练文本特征集合包括词性、词长以及词后标点类型,并且根据待训练音频数据提取每个词语的待训练声学特征集合,其中,待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,最后对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型。通过上述方式,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,并且提升语音合成的效果。
可选地,在上述图6对应的实施例的基础上,本发明实施例提供模型训练的方法第一个可选实施例中,获取待训练文本数据以及待训练音频数据之后,还可以包括:
对待训练文本数据进行分词处理,得到至少一个词语;
根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,目标词语属于至少一个词语中的任意一个词语;
生成待训练文本数据中目标词语所对应的目标词向量;
对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,可以包括:
对目标词语标识以及目标词向量进行训练,得到第一模型参数,其中,第一模型参数用于生成韵律层级标注模型中的词嵌入层。
本实施例中,提供了一种训练韵律层级标注模型中词嵌入层的方法。首先,需要获取待训练文本数据,然后对该待训练文本数据进行分词处理,比如待训练文本数据为“成立合作社,借助电商平台,组成新模式”,分词后得到“成立”,“合作社”,“借助”,“电商”,“平台”,“组成”,“新模式”。此事需要根据预设词语标识关系确定每个词语所对应的词语标识。为了便于理解,请参阅表1,表1为预设词语标识关系的一个示意。
表1
词语标识 词语
0 成立
1 合作社
2 借助
3 电商
4 平台
5 组成
6 新模式
由表1可知,预设词语标识关系用于表示词语与词语标识之间的关系,相同的词语对应于同样的词语标识,假设目标词语为“成立”,那么该词语的词语标识为“0”,此时以“0”作为词嵌入层的输入。
按照上述生成目标词语标识和目标词向量的方法,生成其他的词语标识和词向量,根据词语标识和词向量之间的映射关系,对这些词语标识和词语向量进行训练,利用损失函数最小值可以得到第一模型参数,该第一模型参数用于生成韵律层级标注模型中的词嵌入层。在实际应用中,词嵌入层可以定时进行更新,从而提升词嵌入层的准确性。
其次,本发明实施例中,介绍了一种训练词嵌入层的方法,即先对待训练文本数据进行分词处理,然后根据预设词语标识关系获取目标词语所对应的目标词语标识,生成待训练文本数据中目标词语所对应的目标词向量,再对目标词语标识以及目标词向量进行训练,得到第一模型参数,其中,第一模型参数用于生成韵律层级标注模型中的词嵌入层。通过上述方式,可以直接训练得到韵律层级标注模型中的词嵌入层,且训练词嵌入层的时候也可以同时训练韵律层级标注模型中的其他神经网络,从而节省了额外用独立的神经网络训练词向量模型的过程,提升了训练效率。
可选地,在上述图6对应的实施例的基础上,本发明实施例提供模型训练的方法第二个可选实施例中,根据待训练文本数据提取每个词语的待训练文本特征集合,可以包括:
获取待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,词性表示词语的语法分类结果,词长表示词语的字数,词后标点类型用于表示在词语之后所对应的标点类型;
获取待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,关联词语为与目标词语具有关联关系的词语;
对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,可以包括:
对目标词语的词性、词长以及词后标点类型,和关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,第二模型参数用于生成韵律层级标注模型中的文本神经网络。
本实施例中,提供了一种训练韵律层级标注模型中文本神经网络的方法。为了便于理解,下面将继续以待训练文本数据中的目标词语为例进行介绍,可以理解的是,待训练文本数据中的其他词语处理方式与目标词语的处理方式相似,此处不作赘述。
具体地,首先对该待训练文本数据进行分词处理,比如待训练文本数据为“成立合作社,借助电商平台,组成新模式”,分词后得到“成立”,“合作社”,“借助”,“电商”,“平台”,“组成”,“新模式”。假设目标词语为“合作社”,则该目标词语的词性为名词,词长为3,词后标点类型为逗号。为了便于理解,下面将结合表2和表3说明词性和标识之间的关系,以及词后标点类型与标识之间的关系。在实际应用中,文本特征通常用数字来表示,因此,需要将文字概念转换为数字概念。
表2
词性标识 词性 举例
0 名词 "上海、黄瓜、白菜、上、拖拉机、质量、品德"
1 动词 "来、走、跑、重视、学习、起飞、肯、认识"
2 形容词 “多、瘦、高、丑恶、雪白、美丽、红色”
3 副词 “很、颇、极、十分、就、都、马上、立刻、曾经”
4 代词 “我、你、您、他、她、它、我们、你们”
5 介词 “把、从、向、朝、为、为了、往、于、比、被、在”
6 量词 “个、张、只、支、本、辆、颗、株、头、间”
7 连词 “那么、所以、并且、或者”
8 助词 “的、地、得、所、啊、吗、呢、吧、了”
9 数词 “一、二、两、三、七、十、百、千、万、亿”
10 叹词 “喂、哟、嗨、哼、哦、哎呀”
11 拟声词 "呜、汪汪、轰隆、咯咯、沙沙沙、呼啦啦"
表3
词后标点类型标识 词后标点类型 举例
0 句号
1 问号
2 感叹号
3 顿号
4 逗号
5 分号
6 冒号
7 无标点
由表2和表3可见,目标词语为“合作社”时,其对应的特征为“名词3逗号”,可以表示为“0 3 4”。为了丰富文本特征,还需要考虑目标词语周边的词语,即获取关联词语,关联词语可以是目标词语的前一个词语,或者后一个词语,或者前两个词语等,此处不做限定。假设关联词语为目标词语的前一个词语和后一个词语,且目标词语为“合作社”,那么关联词语为“成立”和“借助”。根据表2和表3的内容可知,“成立”对应的特征为“动词2无标点”。统计语料中的词性类别数、最大词长以及标点类别数,那么词性特征、词长特征以及词后标点特征均可以采用独热向量表示,三个独热向量拼接得到当前目标词语的文本特征,目标词语的文本特征与关联词语的文本特征进行拼接,得到目标词语的文本特征向量,即待训练文本特征集合。
按照上述提取待训练文本特征集合的方法,提取每个词语的待训练文本特征集合,对这些词语的待训练文本特征集合进行训练,利用损失函数最小值可以得到第二模型参数,该第二模型参数用于生成韵律层级标注模型中的文本神经网络。在实际应用中,文本神经网络可以定时进行更新,从而提升文本神经网络的准确性。
可以理解的是,文本神经网络可以是前馈神经网络或者卷积神经网络,还可以其他类型的神经网络,双向长短时记忆网络可以由其变种代替,如带门控循环单元的循环神经网络,此处仅为一个示意,并不应理解为对本发明的限定。且本发明也不限定文本神经网络的层数和神经元数目。
其次,本发明实施例中,介绍了一种训练文本神经网络的方法,即先获取待训练文本数据中目标词语的词性、词长以及词后标点类型,并且获取待训练文本数据中关联词语的词性、词长以及词后标点类型,然后对目标词语的词性、词长以及词后标点类型,和关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,第二模型参数用于生成韵律层级标注模型中的文本神经网络。通过上述方式,通过神经网络可以让系统自动学习有利于韵律层级结构标注的高层特征表达,自动从原始输入的文本特征集合中学习到有利于标注的高级特征,从而提升韵律层级结构自动标注的性能。
可选地,在上述图6对应的实施例的基础上,本发明实施例提供模型训练的方法第三个可选实施例中,获取待训练文本数据以及待训练音频数据之后,还可以包括:
对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐的文本;
根据待训练音频数据提取每个词语的待训练声学特征集合,可以包括:
根据时间对齐文本确定目标词语的词尾音节时长。
本实施例中,将介绍如何提取词语的声学特征集合,即对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐的文本,具体可以得到音素级的帧边界,那么词尾音节的帧边界也能得到,通过词尾音节的起始帧序号以及结束帧序号,计算得到目标词语的词尾音节时长。
为了便于介绍,请参阅图7,图7为本发明实施例中提取声学特征集合的一个流程示意图,如图所示,步骤A1中,先获取文本数据和音频数据,具体可以是待训练文本数据以及待训练音频数据。步骤A2中,对待训练文本数据进行分词处理,并且将文本数据与音频数据使用强制对齐工具得到时间对齐的文本,即得到音素级的帧边界信息。步骤A4中,确定词尾音节的边界所对应的起止帧序号,同样,词尾最后一个浊音帧以及下一词词首第一个浊音帧的帧序号也能确定。步骤A3中,对音频数据按帧提取对数基频曲线和对数能量曲线。步骤A5中,联合时间对齐的文本,那么就能得到词尾音节的对数基频曲线和对数能量曲线,以及词尾浊音帧序号与下一词词首的浊音帧的对数基频值和对数能量值。步骤A6中,计算得到词尾音节的对数基频统计特征、对数能量统计特征、词尾浊音帧与下一词词首浊音帧的对数基频差值以及对数能量差值。步骤A7中,将这些声学特征拼接形成的用于韵律层级结构自动标注任务的词的声学特征集合。
具体地,对待训练文本数据以及待训练音频数据进行强制对齐之后得到音素级的帧边界信息,假设待训练文本数据为“致以诚挚的问候和衷心的祝福”,目标词语为“问候”,词尾音节时长是指词语最后一个音节的时间长度,通过强制对齐的信息,可以计算得到词尾音节的帧边界,例如,目标词语“问候”的“候”发音为“hou”,词尾音节为“ou”,那么通过“ou”在音频上的起始帧序号为第101帧,结束帧序号为120帧,那么“ou”发音持续20帧,每帧5毫秒,则“ou”的发音时长为100毫秒,即“问候”的词尾音节时长为100毫秒。
其次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐的文本,再根据时间对齐文本确定目标词语的词尾音节时长。通过上述方式,能够得到时间对齐的文本,并且提取词尾音节时长,将词尾音节时长作为声学特征集合中一项,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图6对应的第三个实施例的基础上,本发明实施例提供模型训练的方法第四个可选实施例中,根据待训练音频数据提取每个词语的待训练声学特征集合,可以包括:
根据时间对齐文本确定目标词语的词后停顿时长。
本实施例中,将介绍如何获取词语的词后停顿时长。具体地,对待训练文本数据以及待训练音频数据进行强制对齐之后得到M个语音帧,假设待训练文本数据为“致以诚挚的问候和衷心的祝福”,目标词语为“问候”,那么目标词语的下一个相邻词语为“和”,目标词语“问候”的“候”字,根据时间对齐的文本数据,可以计算得到“候”与“和”之间的短时停顿时长,短时停顿为20帧,每帧5毫秒,则目标词语的词后停顿时长为100毫秒。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后可以根据时间对齐文本确定词后停顿时长。通过上述方式,能够在强制对齐文本数据和音频数据后确定每个词语的词后停顿时长,将词后停顿时长作为声学特征集合中一项,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图6对应的第三个实施例的基础上,本发明实施例提供模型训练的方法第五个可选实施例中,根据待训练音频数据提取每个词语的待训练声学特征集合,可以包括:
根据时间对齐文本以及从待训练音频数据里提取的基频信息,计算得到目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号;
提取待训练音频数据的对数基频曲线以及对数能量曲线;
根据目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、对数基频曲线以及对数能量曲线,计算得到目标词语的词尾音节声学统计特征,其中,词尾音节声学统计特征包括对数基频曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项,词尾音节声学统计特征还包括对数能量曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项。
本实施例中,将介绍如何获取词语的词尾音节声学统计特征。具体地,对待训练文本数据以及待训练音频数据进行强制对齐之后得到时间对齐文本,假设待训练文本数据为“致以诚挚的问候和衷心的祝福”,分帧提取对应音频的基频与能量,从而生成基频曲线和能量曲线,为了便于理解,请参阅图8和图9,图8为本发明实施例中基频曲线的一个实施例示意图,图9为本发明实施例中能量曲线的一个实施例示意图,为了规范数据,根据两个曲线取对数值得到对数基频曲线和对数能量曲线,在韵律层级结构边界附近,基频和能量都会减弱。假设目标词语为“问候”,则根据“问候”的浊音起始语音帧的帧序号以及浊音结束语音帧的帧序号,从音频的对数基频曲线和对数能量曲线中截取该目标词语词尾处对应的对数基频曲线和对数能量曲线,根据目标词语词尾处对应的对数基频曲线和对数能量曲线,分别计算出以下十个维度的词尾音节声学统计特征,即对数基频曲线的最大值、对数基频曲线的最小值、对数基频曲线的区间范围、对数基频曲线的平均值、对数基频曲线的方差、对数能量曲线的最大值、对数能量曲线的最小值、对数能量曲线的区间范围、对数能量曲线的平均值以及对数能量曲线的方差。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后根据时间对齐文本以及从待训练音频数据里提取的基频信息,计算得到目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号,提取待训练音频数据的对数基频曲线以及对数能量曲线,最后根据目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、对数基频曲线以及对数能量曲线,计算得到目标词语的词尾音节声学统计特征。通过上述方式,得到时间对齐的文本数据,再根据音频里提取的基频信息,便可得到词尾浊音段的起始帧以及结束帧的帧序号,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图6对应的第三个实施例的基础上,本发明实施例提供模型训练的方法第七个可选实施例中,根据待训练音频数据提取每个词语的待训练声学特征集合,可以包括:
根据时间对齐文本以及从待训练音频数据里提取的基频信息,计算得到目标词语的最后一个浊音帧的帧序号以及目标词语的下一个相邻词语词首的浊音帧的帧序号;
根据目标词语最后一个浊音帧的帧序号以及目标词语的下一个相邻词语词首的浊音帧的帧序号,以及从待训练音频数据中分帧提取的基频信息以及能量信息,确定目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值以及能量值;
根据目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值,计算得到基频值的对数差值,根据目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间能量值,计算得到能量值的对数差值,其中,基频值的对数差值以及能量值的对数差值属于词间声学特征变化值。
本实施例中,将介绍如何获取词间的声学特征变化值。具体地,对待训练文本数据以及待训练音频数据进行强制对齐之后得到时间对齐文本,假设待训练文本数据为“致以诚挚的问候和衷心的祝福”,分帧提取对应待训练音频数据的基频信息和能量信息,从而生成基频曲线和能量曲线,为了规范数据,根据两个曲线取对数值得到对数基频曲线和对数能量曲线。假设目标词语为“问候”,则根据时间对齐文本以及对音频分帧提取的基频信息,可以确定“候”的最后一个浊音帧,与下一词“和”的第一个浊音帧的帧序号,那么这两帧的基频值以及能量值就能得到,再计算这两帧的对数基频差以及对数能量差。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后可以根据目标词语最后一个浊音帧以及目标词语的下一个相邻词语的浊音帧的帧序号,以及从音频分帧提取的基频以及能量数据,确定目标词语词尾浊音帧的基频值和能量值,以及下一词词首浊音帧这两者的基频值和能量值,再进行计算得到两者基频值的对数差值,两者能量值的对数差值,由此作为词间声学特征的变化值。通过上述方式,能够自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图6以及图6对应的第一个至第七个实施例中任一项的基础上,本发明实施例提供模型训练的方法第八个可选实施例中,对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,可以包括:
通过韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,目标词语标识对应于目标词语,目标词语属于至少一个词语中的任意一个词语,词嵌入层为根据第一模型参数训练得到的;
通过韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,目标待训练文本特征集合对应于目标词语,文本神经网络为根据第二模型参数训练得到的;
对第一输出结果、第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,目标待训练声学特征集合对应于目标词语,第三模型参数用于生成韵律层级标注模型中的声学神经网络;
根据第一模型参数、第二模型参数以及第三模型参数,生成韵律层级标注模型。
本实施例中,将介绍训练得到韵律层级标注模型的方法,为了便于理解,请参阅图10,图10为本发明实施例中韵律层级标注模型的一个结构示意图,如图所示,以目标词语为例,即词语标识为目标词语标识,文本特征集合为目标词语所对应的目标待训练文本特征集合,声学特征集合为目标词语所对应的目标待训练声学特征集合。将目标词语标识作为词嵌入层的输入,由此输出第一输出结果,第一输出结果具体为目标词语标识映射得到的词向量,该词向量可以是200维的。将目标待训练文本特征集合(词性、词长以及词后标点类型)作为文本神经网络(如前馈神经网路)的输入,由此输出第二输出结果。将目标待训练声学特征集合、第一输出结果和第二输出结果共同作为声学神经网络(如双向长短时记忆网络)的输入,通过softmax层将输出该目标词语各个韵律层级结构类型的后验概率,比如,非韵律层级边界的概率为0.1,韵律词的概率为0.1,韵律短语的概率为0.2,语调短语的概率为0.6,取最大后验概率对应的韵律层级结构,即为标注结果,,那么目标词语的标注结果为语调短语。这个标注结果为训练得到的预测结果,需要与真实结果进行比较,即采用损失函数,取两者的最小值来确定声学神经网络的第三模型参数。结合第一模型参数、第二模型参数和第三模型参数,训练得到韵律层级标注模型。韵律层级标注模型采用前馈神经网络与双向长短时记忆网络的堆叠结构,可以同时标注韵律词、韵律短语和语调短语三种韵律层级结构。
损失函数是用来估量模型的预测值与真实值的不一致程度,它是一个非负实值函数。本发明所采用的损失函数可以采用交叉熵,也可使用带权重的交叉熵。
可以理解的是,词嵌入层、前馈神经网络和双向长短时记忆网络是一起训练的。词嵌入层用于训练词向量,前馈神经网络用以自动提取原始输入特征(词性、词长和词后标点类型)中对标注任务更为有利的高层特征表示。在双向长短时记忆网络输入处,将这些特征拼接起来,由此联合利用文本特征与声学特征。
双向长短时记忆网络能学习到上下文之间的依赖关系,因为标注任务也需要上下文信息,比如前一个词为语调短语边界,那么当前词就不太可能为语调短语边界,因此,联合利用前馈神经网络与双向长短时记忆网络的堆叠结构,采用可训练的词嵌入层,不仅可以利用文本与声学特征信息,还可以自动从文本特征提取高层特征,以及利用上下文特征,适用于韵律层级结构标注任务。
进一步地,本发明实施例中,介绍了一种训练得到韵律层级标注模型的方法,即需要训练得到三类模型参数,分别为第一模型参数、第二模型参数以及第三模型参数,第一模型参数、第二模型参数以及第三模型参数作为一个整体,同时训练生成韵律层级标注模型。通过上述方式,由三个部分的神经网络堆叠形成一个完整的韵律层级标注模型,并作为一个整体进行模型训练,训练的内容包括词语标识与词语向量之间的训练,词语文本和词语文本特征的训练,以及音频和声学特征的训练,由此,可以得到更加丰富的特征,有助于提升句子标注的准确性。
下面对本发明中的韵律层级标注装置进行详细描述,请参阅图11,图11为本发明实施例中韵律层级标注装置一个实施例示意图,韵律层级标注装置30包括:
获取模块301,用于获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
提取模块302,用于根据所述获取模块301获取的所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
所述提取模块302,还用于根据所述获取模块301获取的所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
预测模块303,用于根据所述每个词语的词语标识、所述提取模块302提取的所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
本实施例中,获取模块301获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识,提取模块302根据所述获取模块301获取的所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型,所述提取模块302根据所述获取模块301获取的所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,预测模块303根据所述每个词语的词语标识、所述提取模块302提取的所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
本发明实施例中,提供了一种韵律层级标注装置,首先,获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系,待标注文本数据包括至少一个词语,每个词语对应于一个词语标识,然后根据待标注文本数据提取每个词语的待标注文本特征集合,其中,待标注文本特征集合包括词性、词长以及词后标点类型,再根据音频数据提取每个词语的声学特征集合,其中,声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,最后根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。通过上述方式,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性。
可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的韵律层级标注装置30的另一实施例中
所述预测模块303,具体用于通过所述韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;
或,
通过所述韵律层级标注模型确定韵律词和/或韵律短语。
其次,本发明实施例中,介绍了两种常见的韵律层级标注方法,一种为通过韵律层级标注模型确定韵律词、韵律短语以及语调短语,另一种为通过韵律层级标注模型确定韵律词和韵律短语。通过上述方式,用户可以选择更细致的韵律词、韵律短语以及语调短语的三层韵律层级结构的标注方案,也可以选择韵律词以及韵律短语的两层韵律层级结构标注方案。因此,本方案还可以根据需求选择输出的韵律层级,从而提升方案的灵活性。
下面对本发明中的模型训练装置进行详细描述,请参阅图12,图12为本发明实施例中模型训练装置一个实施例示意图,模型训练装置40包括:
获取模块401,用于获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
提取模块402,用于根据所述获取模块401获取的所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
所述提取模块402,还用于根据所述获取模块401获取的所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
训练模块403,用于对所述每个词语对应的词语标识、所述提取模块402提取的所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
本实施例中,获取模块401获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识,提取模块402根据所述获取模块401获取的所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型,所述提取模块402根据所述获取模块401获取的所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,训练模块403对所述每个词语对应的词语标识、所述提取模块402提取的所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
本发明实施例中,提供了一种模型训练的方法,首先,获取待训练文本数据以及待训练音频数据,其中,待训练文本数据与待训练音频数据之间具有对应关系,每个词语对应于一个词语标识,然后根据待训练文本数据提取每个词语的待训练文本特征集合,其中,待训练文本特征集合包括词性、词长以及词后标点类型,并且根据待训练音频数据提取每个词语的待训练声学特征集合,其中,待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值,最后对每个词语对应的词语标识、每个词语的待训练文本特征集合以及每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型。通过上述方式,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级标注任务提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,并且提升语音合成的效果。
可选地,在上述图12所对应的实施例的基础上,请参阅图13,本发明实施例提供的模型训练装置40的另一实施例中,所述模型训练装置40还包括处理模块404以及生成模块405;
所述处理模块404,用于在所述获取模块401获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据进行分词处理,得到至少一个词语;
所述获取模块401,还用于根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,所述预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,所述目标词语属于所述处理模块处理得到的所述至少一个词语中的任意一个词语;
所述生成模块405,用于生成所述待训练文本数据中所述目标词语所对应的目标词向量;
所述训练模块403,具体用于对所述获取模块401获取的所述目标词语标识以及所述生成模块405生成的所述目标词向量进行训练,得到第一模型参数,其中,所述第一模型参数用于生成所述韵律层级标注模型中的词嵌入层。
其次,本发明实施例中,介绍了一种训练词嵌入层的方法,即先对待训练文本数据进行分词处理,然后根据预设词语标识关系获取目标词语所对应的目标词语标识,生成待训练文本数据中目标词语所对应的目标词向量,再对目标词语标识以及目标词向量进行训练,得到第一模型参数,其中,第一模型参数用于生成韵律层级标注模型中的词嵌入层。通过上述方式,可以直接训练得到韵律层级标注模型中的词嵌入层,且训练词嵌入层的时候也可以同时训练韵律层级标注模型中的其他神经网络,从而节省了额外用独立的神经网络训练词向量模型的过程,提升了训练效率。
可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的模型训练装置40的另一实施例中,
所述提取模块402,具体用于获取所述待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,所述词性表示词语的语法分类结果,所述词长表示词语的字数,所述词后标点类型用于表示在词语之后所对应的标点类型;
获取所述待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,所述关联词语为与所述目标词语具有关联关系的词语;
所述训练模块403,具体用于对所述目标词语的词性、词长以及词后标点类型,和所述关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,所述第二模型参数用于生成所述韵律层级标注模型中的文本神经网络。
其次,本发明实施例中,介绍了一种训练文本神经网络的方法,即先获取待训练文本数据中目标词语的词性、词长以及词后标点类型,并且获取待训练文本数据中关联词语的词性、词长以及词后标点类型,然后对目标词语的词性、词长以及词后标点类型,和关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,第二模型参数用于生成韵律层级标注模型中的文本神经网络。通过上述方式,通过神经网络可以让系统自动学习有利于韵律层级结构标注的高层特征表达,自动从原始输入的文本特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图12所对应的实施例的基础上,请参阅图14,本发明实施例提供的模型训练装置40的另一实施例中,所述模型训练装置40还包括对齐模块406;
所述对齐模块406,用于所述获取模块401获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据以及所述待训练音频数据进行强制对齐,得到时间对齐的文本;
所述提取模块402,具体用于根据所述时间对齐文本确定所述目标词语的词尾音节时长。
其次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐的文本,再根据时间对齐文本确定目标词语的词尾音节时长。通过上述方式,能够得到时间对齐的文本,并且提取词尾音节时长,将词尾音节时长作为声学特征集合中一项,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图14所对应的实施例的基础上,本发明实施例提供的模型训练装置40的另一实施例中,
所述提取模块402,具体用于根据所述时间对齐文本确定所述目标词语的词后停顿时长。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后可以根据时间对齐文本确定词后停顿时长。通过上述方式,能够在强制对齐文本数据和音频数据后确定每个词语的词后停顿时长,将词后停顿时长作为声学特征集合中一项,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图14所对应的实施例的基础上,本发明实施例提供的模型训练装置40的另一实施例中,
所述提取模块402,具体用于根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号;
提取所述待训练音频数据的对数基频曲线以及对数能量曲线;
根据所述目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、所述对数基频曲线以及对数能量曲线,计算得到所述目标词语的词尾音节声学统计特征,其中,所述词尾音节声学统计特征包括所述对数基频曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项,所述词尾音节声学统计特征还包括所述对数能量曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后根据时间对齐文本以及从待训练音频数据里提取的基频信息,计算得到目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号,提取待训练音频数据的对数基频曲线以及对数能量曲线,最后根据目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、对数基频曲线以及对数能量曲线,计算得到目标词语的词尾音节声学统计特征。通过上述方式,得到时间对齐的文本数据,再根据音频里提取的基频信息,便可得到词尾浊音段的起始帧以及结束帧的帧序号,自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图14所对应的实施例的基础上,本发明实施例提供的模型训练装置40的另一实施例中,
所述提取模块402,具体用于根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号;
根据所述目标词语最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号,以及从所述待训练音频数据中分帧提取的基频信息以及能量信息,确定所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值以及能量值;
根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值,计算得到基频值的对数差值,根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间能量值,计算得到能量值的对数差值,其中,所述基频值的对数差值以及所述能量值的对数差值属于所述词间声学特征变化值。
再次,本发明实施例中,在获取待训练文本数据以及待训练音频数据之后,对待训练文本数据以及待训练音频数据进行强制对齐,得到时间对齐文本,然后可以根据目标词语最后一个浊音帧以及目标词语的下一个相邻词语的浊音帧的帧序号,以及从音频分帧提取的基频以及能量数据,确定目标词语词尾浊音帧的基频值和能量值,以及下一词词首浊音帧这两者的基频值和能量值,再进行计算得到两者基频值的对数差值,两者能量值的对数差值,由此作为词间声学特征的变化值。通过上述方式,能够自动从原始输入的声学特征集合中学习到有利于标注的高级特征,从而提升韵律层级标注模型的准确度。
可选地,在上述图12、图13或图14所对应的实施例的基础上,本发明实施例提供的模型训练装置40的另一实施例中,
所述训练模块403,具体用于通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于所述至少一个词语中的任意一个词语,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
进一步地,本发明实施例中,介绍了一种训练得到韵律层级标注模型的方法,即需要训练得到三类模型参数,分别为第一模型参数、第二模型参数以及第三模型参数,第一模型参数、第二模型参数以及第三模型参数作为一个整体,同时训练生成韵律层级标注模型。通过上述方式,由三个部分的神经网络堆叠形成一个完整的韵律层级标注模型,并作为一个整体进行模型训练,训练的内容包括词语标识与词语向量之间的训练,词语文本和词语文本特征的训练,以及音频和声学特征的训练,由此,可以得到更加丰富的特征,有助于提升句子标注的准确性。
本发明实施例还提供了另一种韵律层级标注装置,如图15所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端设备(point of sales,POS)、车载电脑等任意终端设备设备,以终端设备为手机为例:
图15示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图15,手机包括:射频(radio frequency,RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity,WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图15对手机的各个构成部件进行具体的介绍:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中,触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一手机,或者将音频数据输出至存储器520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行手机的各种功能和处理数据。可选的,处理器580可包括一个或多个处理单元;可选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
手机还包括给各个部件供电的电源590(比如电池),可选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端设备所包括的处理器580还具有以下功能:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
在本发明实施例中,该终端设备所包括的处理器580还具有以下功能:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
图16是本发明实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。
在本发明实施例中,该服务器所包括的CPU 622还具有以下功能:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。
在本发明实施例中,该服务器所包括的CPU 622还具有以下功能:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种韵律层级标注的方法,其特征在于,包括:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构;
其中,所述韵律层级标注模型的训练过程包括:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于待训练文本数据中的至少一个词语中的任意一个词语,每个词语对应于一个词语标识,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
2.根据权利要求1所述的方法,其特征在于,所述通过韵律层级标注模型获取韵律层级结构,包括:
通过所述韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;所述韵律层级标注模型训练了非韵律层级结构边界、韵律词边界、韵律短语边界以及语调短语边界;
或,
通过所述韵律层级标注模型确定韵律词和/或韵律短语;所述韵律层级标注模型训练了非韵律层级结构边界、韵律词边界以及韵律短语边界。
3.一种模型训练的方法,其特征在于,包括:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注;
其中,所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于所述至少一个词语中的任意一个词语,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
4.根据权利要求3所述的方法,其特征在于,所述获取待训练文本数据以及待训练音频数据之后,所述方法还包括:
对所述待训练文本数据进行分词处理,得到至少一个词语;
根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,所述预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,所述目标词语属于所述至少一个词语中的任意一个词语;
生成所述待训练文本数据中所述目标词语所对应的目标词向量;
所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:
对所述目标词语标识以及所述目标词向量进行训练,得到第一模型参数,其中,所述第一模型参数用于生成所述韵律层级标注模型中的词嵌入层。
5.根据权利要求3所述的方法,其特征在于,所述根据所述待训练文本数据提取每个词语的待训练文本特征集合,包括:
获取所述待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,所述词性表示词语的语法分类结果,所述词长表示词语的字数,所述词后标点类型用于表示在词语之后所对应的标点类型;
获取所述待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,所述关联词语为与所述目标词语具有关联关系的词语;
所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:
对所述目标词语的词性、词长以及词后标点类型,和所述关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,所述第二模型参数用于生成所述韵律层级标注模型中的文本神经网络。
6.根据权利要求3所述的方法,其特征在于,所述获取待训练文本数据以及待训练音频数据之后,所述方法还包括:
对所述待训练文本数据以及所述待训练音频数据进行强制对齐,得到时间对齐的文本;
所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:
根据所述时间对齐文本确定所述目标词语的词尾音节时长。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:
根据所述时间对齐文本确定所述目标词语的词后停顿时长。
8.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:
根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号;
提取所述待训练音频数据的对数基频曲线以及对数能量曲线;
根据所述目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、所述对数基频曲线以及对数能量曲线,计算得到所述目标词语的词尾音节声学统计特征。
9.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:
根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号;
根据所述目标词语最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号,以及从所述待训练音频数据中分帧提取的基频信息以及能量信息,确定所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值以及能量值;
根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值,计算得到基频值的对数差值,根据所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间能量值,计算得到能量值的对数差值,其中,所述基频值的对数差值以及所述能量值的对数差值属于所述词间声学特征变化值。
10.一种韵律层级标注装置,其特征在于,包括:
获取模块,用于获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
提取模块,用于根据所述获取模块获取的所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
所述提取模块,还用于根据所述获取模块获取的所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
预测模块,用于根据所述每个词语的词语标识、所述提取模块提取的所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构;
其中,所述韵律层级标注模型的训练过程包括:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于待训练文本数据中的至少一个词语中的任意一个词语,每个词语对应于一个词语标识,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
11.一种模型训练装置,其特征在于,包括:
获取模块,用于获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
提取模块,用于根据所述获取模块获取的所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
所述提取模块,还用于根据所述获取模块获取的所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
训练模块,用于对所述每个词语对应的词语标识、所述提取模块提取的所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注;
其中,所述训练模块,具体用于:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于所述至少一个词语中的任意一个词语,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型。
12.一种韵律层级标注装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;
根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;
根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构;
其中,所述韵律层级标注模型的训练过程包括:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于待训练文本数据中的至少一个词语中的任意一个词语,每个词语对应于一个词语标识,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
13.一种模型训练装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;
根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;
根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;所述词尾音节声学统计特征包括:对数基频曲线的最大值、最小值、区间范围、平均值和方差中的至少一项,以及,对数能量曲线的最小值、最大值、区间范围、平均值和方差中的至少一项;
对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注;
其中,所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:
通过所述韵律层级标注模型中的词嵌入层获取目标词语标识的第一输出结果,其中,所述目标词语标识对应于目标词语,所述目标词语属于所述至少一个词语中的任意一个词语,所述词嵌入层为根据第一模型参数训练得到的;
通过所述韵律层级标注模型中的文本神经网络获取目标待训练文本特征集合的第二输出结果,其中,所述目标待训练文本特征集合对应于所述目标词语,所述文本神经网络为根据第二模型参数训练得到的;
对所述第一输出结果、所述第二输出结果以及目标待训练声学特征集合进行训练,得到第三模型参数,其中,所述目标待训练声学特征集合对应于所述目标词语,所述第三模型参数用于生成所述韵律层级标注模型中的声学神经网络;
根据所述第一模型参数、所述第二模型参数以及所述第三模型参数,生成所述韵律层级标注模型;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
14.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至2中任一项所述的方法,或执行如权利要求3至10中任一项所述的方法。
CN201910060152.3A 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置 Active CN109697973B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910060152.3A CN109697973B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置
CN201910751371.6A CN110444191B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910060152.3A CN109697973B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910751371.6A Division CN110444191B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置

Publications (2)

Publication Number Publication Date
CN109697973A CN109697973A (zh) 2019-04-30
CN109697973B true CN109697973B (zh) 2024-07-19

Family

ID=66234262

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910751371.6A Active CN110444191B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置
CN201910060152.3A Active CN109697973B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910751371.6A Active CN110444191B (zh) 2019-01-22 2019-01-22 一种韵律层级标注的方法、模型训练的方法及装置

Country Status (1)

Country Link
CN (2) CN110444191B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11417313B2 (en) * 2019-04-23 2022-08-16 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN110164413B (zh) * 2019-05-13 2021-06-04 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN110619035B (zh) * 2019-08-01 2023-07-25 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN112528014B (zh) * 2019-08-30 2023-04-18 成都启英泰伦科技有限公司 一种语言文本的分词、词性和韵律预测方法及装置
CN110556093B (zh) * 2019-09-17 2021-12-10 浙江同花顺智富软件有限公司 一种语音标注方法及其系统
CN110459202B (zh) * 2019-09-23 2022-03-15 浙江同花顺智能科技有限公司 一种韵律标注方法、装置、设备、介质
CN110675896B (zh) * 2019-09-30 2021-10-22 北京字节跳动网络技术有限公司 用于音频的文字时间对齐方法、装置、介质及电子设备
CN110797005B (zh) * 2019-11-05 2022-06-10 百度在线网络技术(北京)有限公司 韵律预测方法、装置、设备和介质
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN112863476B (zh) * 2019-11-27 2024-07-02 阿里巴巴集团控股有限公司 个性化语音合成模型构建、语音合成和测试方法及装置
CN111164674B (zh) * 2019-12-31 2024-05-03 深圳市优必选科技股份有限公司 语音合成方法、装置、终端及存储介质
WO2021134581A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 基于韵律特征预测的语音合成方法、装置、终端及介质
CN111128120B (zh) * 2019-12-31 2022-05-10 思必驰科技股份有限公司 文本转语音方法和装置
CN113129863B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音时长预测方法、装置、设备及可读存储介质
CN111261162B (zh) * 2020-03-09 2023-04-18 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质
CN111369971B (zh) * 2020-03-11 2023-08-04 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111681641B (zh) * 2020-05-26 2024-02-06 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN111710326B (zh) * 2020-06-12 2024-01-23 携程计算机技术(上海)有限公司 英文语音的合成方法及系统、电子设备及存储介质
CN111754978B (zh) * 2020-06-15 2023-04-18 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN111785247A (zh) * 2020-07-13 2020-10-16 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN114064964A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN112102847B (zh) * 2020-09-09 2022-08-09 四川大学 一种音频和幻灯片内容对齐方法
CN112216267B (zh) * 2020-09-15 2024-07-09 北京捷通华声科技股份有限公司 一种韵律预测的方法、装置、设备及存储介质
CN112466277B (zh) * 2020-10-28 2023-10-20 北京百度网讯科技有限公司 韵律模型训练方法、装置、电子设备及存储介质
CN112382270A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 语音合成方法、装置、设备以及存储介质
CN112863484B (zh) * 2021-01-25 2024-04-09 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN113178188B (zh) * 2021-04-26 2024-05-28 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113421550A (zh) * 2021-06-25 2021-09-21 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113421543B (zh) * 2021-06-30 2024-05-24 深圳追一科技有限公司 一种数据标注方法、装置、设备及可读存储介质
CN113327615B (zh) * 2021-08-02 2021-11-16 北京世纪好未来教育科技有限公司 语音评测方法、装置、设备及存储介质
CN114420089B (zh) * 2022-03-30 2022-06-21 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机可读存储介质
CN115116428B (zh) * 2022-05-19 2024-03-15 腾讯科技(深圳)有限公司 韵律边界标注方法、装置、设备、介质及程序产品
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置
CN115188365B (zh) * 2022-09-09 2022-12-27 中邮消费金融有限公司 一种停顿预测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
CN103035241A (zh) * 2012-12-07 2013-04-10 中国科学院自动化研究所 模型互补的汉语韵律间断识别系统及方法
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
CN105244020B (zh) * 2015-09-24 2017-03-22 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN105374350B (zh) * 2015-09-29 2017-05-17 百度在线网络技术(北京)有限公司 语音标注方法及装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105551481B (zh) * 2015-12-21 2019-05-31 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185373A (zh) * 2015-08-06 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置

Also Published As

Publication number Publication date
CN109697973A (zh) 2019-04-30
CN110444191A (zh) 2019-11-12
CN110444191B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN109697973B (zh) 一种韵律层级标注的方法、模型训练的方法及装置
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
CN108304846B (zh) 图像识别方法、装置及存储介质
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
WO2021036644A1 (zh) 一种基于人工智能的语音驱动动画方法和装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN109145303A (zh) 命名实体识别方法、装置、介质以及设备
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110162770A (zh) 一种词扩展方法、装置、设备及介质
CN107632980A (zh) 语音翻译方法和装置、用于语音翻译的装置
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN108763552B (zh) 一种基于家教机的学习方法及家教机
CN110634474B (zh) 一种基于人工智能的语音识别方法和装置
WO2014190732A1 (en) Method and apparatus for building a language model
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN110795538B (zh) 一种基于人工智能的文本评分方法和相关设备
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN112562723B (zh) 发音准确度确定方法、装置、存储介质和电子设备
CN111522592A (zh) 一种基于人工智能的智能终端唤醒方法和装置
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN114360510A (zh) 一种语音识别方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant