CN112017628B - 韵律预测模型训练方法、韵律预测方法及相关装置 - Google Patents

韵律预测模型训练方法、韵律预测方法及相关装置 Download PDF

Info

Publication number
CN112017628B
CN112017628B CN202011135972.3A CN202011135972A CN112017628B CN 112017628 B CN112017628 B CN 112017628B CN 202011135972 A CN202011135972 A CN 202011135972A CN 112017628 B CN112017628 B CN 112017628B
Authority
CN
China
Prior art keywords
prosody
prediction
text
vector
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011135972.3A
Other languages
English (en)
Other versions
CN112017628A (zh
Inventor
李成飞
袁军峰
杨嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202011135972.3A priority Critical patent/CN112017628B/zh
Publication of CN112017628A publication Critical patent/CN112017628A/zh
Application granted granted Critical
Publication of CN112017628B publication Critical patent/CN112017628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种韵律预测模型训练方法、韵律预测方法及相关装置,训练方法包括:利用待训练的韵律预测模型确定当前文本单元和前一文本单元;获取当前文本单元的训练当前文本预测向量,获取前一文本单元的前一韵律预测向量,对二者进行融合,得到训练韵律融合预测向量;根据训练当前文本预测向量获取第一训练预测韵律向量,根据训练韵律融合预测向量获取第二训练预测韵律向量;根据第一训练预测韵律向量、第二训练预测韵律向量和当前基准韵律向量获取当前文本单元预测损失,调整模型的参数,得到训练完成的韵律预测模型。本发明实施例所提供的韵律预测模型训练方法、韵律预测方法及相关装置,可以提高韵律预测的准确性。

Description

韵律预测模型训练方法、韵律预测方法及相关装置
技术领域
本发明实施例涉及计算机领域,尤其涉及一种韵律预测模型训练方法、韵律预测方法及相关装置。
背景技术
随着计算机技术和深度学习技术的发展,语音合成技术成为一个重要的研究方向,并得到广泛以用,比如:语音播报、语音导航以及智能音箱等。在语音合成中,需要对文本韵律进行预测,并且韵律预测质量的好坏直接影响合成语音的自然度和文本语义层面上意思表达的准确性。
在进行韵律预测时,需要从文本信息中提取特征信息,包括浅层特征信息和深层特征信息,其中浅层特征信息包括词长、词性、标点符号等特征信息,这类信息虽然经过文本分析后,能够直观地从文本分析结果中提取出来,但由于其涵盖的语言信息较表面化,不能体现句子中各文本之间的语义关系,容易造成所预测的韵律不准确,且不能保证韵律单元的语义完整性;而对于深层特征信息,每种深层特征信息所涵盖的信息都是单一的,导致使用任何一种深层特征信息进行韵律预测的能力有限,将多种深层特征信息进行组合时,不同的深层特征信息之间又会产生副作用,影响韵律预测的准确性。
为此,如何提高韵律预测的准确性,就成为亟需解决的技术问题。
发明内容
本发明实施例提供一种韵律预测模型训练方法、韵律预测方法及相关装置,以提高韵律预测的准确性评价。
为解决上述问题,本发明实施例提供一种韵律预测模型训练方法,包括:
利用待训练的韵律预测模型确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元为按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,或者用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
为解决上述问题,本发明实施例还提供一种韵律预测方法,包括:
利用如前述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量,其中,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元;
根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律,并按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,直至已完成所述待韵律预测文本的各个文本单元的预测韵律,利用各个所述当前单元预测韵律向量获取所述待韵律预测文本的韵律。
为解决上述问题,本发明实施例还提供一种韵律预测模型训练装置,包括:
文本单元确定单元,确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元包括按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
预测向量获取单元,适于获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的基准韵律的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
训练预测韵律向量获取单元,适于根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
参数调整单元,适于根据所述第一训练预测韵律向量和所述当前文本单元的基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前文本单元的基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
为解决上述问题,本发明实施例还提供一种韵律预测装置,包括
预测韵律向量获取单元,利用前述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量,其中,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元;
文本韵律获取单元,根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律,并按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,直至已完成所述待韵律预测文本的各个文本单元的预测韵律,利用各个所述当前单元预测韵律向量获取所述待韵律预测文本的韵律。
为解决上述问题,本发明实施例提供一种存储介质,所述存储介质存储有适于韵律预测模型训练的程序,以实现如前述的韵律预测模型训练方法,或者所述存储介质存储有适于韵律预测的程序,以实现如前述的韵律预测方法。
为解决上述问题,本发明实施例提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述的韵律预测模型训练方法或者如前述的韵律预测方法。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例所提供的韵律预测模型训练方法、韵律预测方法及相关装置,其中,韵律预测模型训练方法,在进行韵律预测模型训练时,首先确定要进行韵律预测的当前文本单元和为当前文本单元的韵律预测提供更多关联信息的前一文本单元,然后获取当前文本单元的训练当前文本预测向量和前一文本单元的基准韵律的前一韵律预测向量,并根据训练当前文本预测向量和前一韵律预测向量获取训练韵律融合预测向量,再分别根据训练当前文本预测向量和训练韵律融合预测向量获取第一训练预测韵律向量和第二训练预测韵律向量,并根据第一训练预测韵律向量、第二训练预测韵律向量与当前基准韵律向量的差别确定当前文本单元预测损失,并根据当前文本单元预测损失调整韵律预测模型的参数,得到训练完成的韵律预测模型。可以看出,本发明实施例所提供的韵律预测模型训练方法,在对待训练的韵律预测模型进行训练时,对当前文本单元进行韵律预测,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,并在调整所述韵律预测模型的参数时,利用结合了所述第一损失和所述第二损失的当前文本单元预测损失,实现了多任务的共同训练,可以使训练完成的韵律预测模型实现多任务的学习,从而可以实现在利用训练完成的韵律预测模型进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
可选方案中,本发明实施例所提供的韵律预测模型训练方法,所获取的前一韵律预测向量是通过前一文本单元的基准韵律获取。这样,在进行韵律预测模型多任务训练时,所采用的前一文本单元的信息是前一韵律预测向量的基准韵律,基准韵律的准确性更好,可以提高对于韵律预测模型训练的效果,从而可以提高后续利用训练完成的韵律预测模型训练进行韵律预测的准确性。
可选方案中,本发明实施例所提供的韵律预测模型训练方法、韵律预测方法及相关装置,韵律预测模型训练方法的文本单元包括单字单元,在进行韵律预测模型的训练时,只需要对各个单字进行韵律预测,可以避免对训练文本进行韵律词、韵律短语或者语调短语的文本单元划分、对于文本单元划分模型的应用以及对于文本单元划分模型性能的依赖,降低文本单元的获取难度,提高文本单元的划分准确性,从而可以提高韵律预测模型训练的准确性以及对文本韵律预测的准确性。可选方案中,当按照预定周期获取的所述第一差别数据量小于数据量阈值的连续次数达到预定次数时,调整所述第一差别数据和所述第一差别数据量的获取方式为待写入数据写入时获取,这样,可以在减少确定第一差别数据和第一差别数据量的次数,降低运算量的基础上,保证第一差别数据和第一差别数据量的获取,基于获取的准确性,保证数据的迁移以及数据迁移过程中的数据读写。
附图说明
图1为本发明实施例所提供的韵律预测模型训练方法的一流程示意图;
图2为本发明实施例所提供的韵律预测模型训练方法的获取训练当前文本预测向量步骤的一流程示意图;
图3为本发明实施例所提供的韵律预测模型训练方法的获取前一韵律预测向量步骤的一流程示意图;
图4为本发明实施例所提供的韵律预测模型训练方法的又一流程示意图;
图5为本发明实施例所提供的韵律预测模型训练方法的另一流程示意图;
图6为本发明实施例所提供的韵律预测方法的一流程示意图;
图7是本发明实施例所提供的韵律预测模型训练装置的一框图;
图8为本发明实施例所提供的韵律预测装置的一框图;
图9是本发明实施例提供的设备一种可选硬件设备架构。
具体实施方式
现有技术中,在对文本进行韵律预测时,准确性较低。
为了提高文本韵律预测的准确性,本发明实施例提供了一种韵律预测模型训练方法,包括:
确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元包括按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
可见,本发明实施例所提供的韵律预测模型训练方法,在进行韵律预测模型训练时,首先确定要进行韵律预测的当前文本单元和为当前文本单元的韵律预测提供更多关联信息的前一文本单元,然后获取当前文本单元的训练当前文本预测向量和前一文本单元的基准韵律的前一韵律预测向量,并根据训练当前文本预测向量和前一韵律预测向量获取训练韵律融合预测向量,再分别根据训练当前文本预测向量和训练韵律融合预测向量获取第一训练预测韵律向量和第二训练预测韵律向量,并根据第一训练预测韵律向量、第二训练预测韵律向量与当前基准韵律向量的差别确定当前文本单元预测损失,并根据当前文本单元预测损失调整韵律预测模型的参数,得到训练完成的韵律预测模型。
可以看出,本发明实施例所提供的韵律预测模型训练方法,在对待训练的韵律预测模型进行训练时,对当前文本单元进行韵律预测,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,并在调整所述韵律预测模型的参数时,利用结合了所述第一损失和所述第二损失的当前文本单元预测损失,实现了多任务的共同训练,可以使训练完成的韵律预测模型实现多任务的学习,从而可以实现在利用训练完成的韵律预测模型进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明实施例所提供的韵律预测模型训练方法的一流程示意图。
如图中所示,本发明实施例所提供的韵律预测模型训练方法,包括以下步骤:
步骤S10:利用待训练的韵律预测模型确定当前文本单元和前一文本单元。
本发明所提供的韵律预测模型训练方法,实现对待训练韵律预测模型的训练,且训练时以文本单元作为韵律预测的基本单位,因此可以首先确定进行韵律预测的当前文本单元。
由于当前文本单元的韵律不仅受到当前文本单元的影响,还受到与其相邻的前一文本单元的韵律的影响,因此,本发明实施例所提供的韵律预测方法需要确定当前文本单元的前一文本单元。
前一文本单元即为按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,由于当当前文本单元为当前训练文本的第一个文本单元时,仍需要确定前一文本单元,因此前一文本单元还可以为文本初始单元,文本初始单元是用于表示所述当前训练文本开始的单元,可以理解的是,在进行韵律预测时,无需对文本初始单元进行韵律预测,只是利用文本初始单元的信息,辅助对训练文本的第一个文本单元的韵律进行预测。
容易理解的是,文本单元即为根据单元的划分原则,对各个训练文本进行划分后的单元,并且在进行文本单元的韵律预测时,文本单元的划分可以提前完成,文本单元的划分可以通过利用文本单元划分模型进行划分的方式或者其他方式实现,在此不再赘述。
在一种具体实施方式中,当韵律预测模型训练方法的文本单元可以为单字单元。这样,在进行韵律预测模型的训练时,只需要对各个单字进行韵律预测,可以避免对训练文本进行韵律词、韵律短语或者语调短语的文本单元划分、对于文本单元划分模型的应用以及对于文本单元划分模型性能的依赖,降低文本单元的获取难度,提高文本单元的划分准确性,从而可以提高韵律预测模型训练的准确性以及对文本韵律预测的准确性。
在其他具体实施方式中,文本单元还可以为词单元,包括韵律词、韵律短语或者语调短语等。
在进行韵律预测模型训练时,为了保证训练效果,通常会用到大量的训练文本,因此在确定当前文本单元时,可以首先确定当前训练文本,然后再确定当前训练文本中的某个文本单元为当前文本单元。
另外,为了实现对韵律预测模型的训练,除了需要训练文本,还需要预先对训练文本的各个文本单元进行韵律标记,即各个所述文本单元均标注有基准韵律。
另外,本实施例中,单字单元的韵律可以为四种:特殊标记、韵律词、韵律短语和语调短语,为方便理解本发明实施例所述的单字单元的韵律,现以“致以诚挚的问候和良好的祝愿”进行说明,以理解基准韵律的具体内容:
其中“致”字的韵律为特殊标记,由于“致以”二字构成了一个韵律短语,“以”字的韵律标记为韵律短语,“诚”字和“挚”字的韵律为特殊标记,由于“诚挚的”三个字构成了一个韵律短语,因此,“的”字的韵律为韵律标记,“问”字的韵律为特殊标记,“问候”组成了一个语调短语,因此,“候”字的韵律标记为语调短语,“和”字的韵律标记为韵律词。
并且,在本实施例中,由于单字单元的韵律类型为4种,因此,基准韵律可以通过一个4维向量表示[特殊标记韵律词韵律短语语调短语],如果某个单字单元的基准韵律为特殊标记,则该单字单元的韵律为特殊标记的概率为1,为其他韵律类型的概率为0,可以表示为[1 0 0 0],如果某个单字单元的基准韵律为韵律词,则该单字单元的韵律为词韵律的概率为1,为其他韵律类型的概率为0,可以表示为[0 1 0 0];当然各个韵律类型的排列顺序可以改变,比如变成[韵律词特殊标记韵律短语语调短语],那么基准韵律为特殊标记的单字单元的表示则变为[0 1 0 0]。
当然,在其他实施例中,韵律类型根据需要进行设置,在此不做限定。
容易理解的是,在进行韵律预测模型训练时,经过待训练韵律预测模型得到的预测韵律的向量表示与基准韵律的向量表示的顺序是一致的,同一个位置表示该文本单元为该位置韵律类型的概率。
需要说明的是,本实施例中,所述的训练文本为句子,实现对每个句子的韵律进行预测,如果需要实现对段落的韵律预测,可以通过对段落中的各个文本的预测后,汇总获取。
步骤S11:获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量。
确定当前文本单元后,利用待训练韵律预测模型基于当前本文单元获取训练当前文本预测向量,为后续进行根据当前文本单元的文本信息进行韵律预测提供基础;同时确定前一文本单元后,进一步利用待训练韵律预测模型基于前一文本单元已经获取的韵律,获取前一韵律预测向量,为后续进行根据前一文本单元的韵律信息进行当前文本单元的韵律预测提供基础。
当然,获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量的顺序不做限制,可以同时获取,也可以分别获取,且可以先获取训练当前文本预测向量,也可以先获取前一韵律预测向量。
当然,如果仅仅根据前一韵律预测向量进行当前文本单元的韵律预测,缺少了当前文本单元的信息,因此,可以进一步将训练当前文本预测向量和前一韵律预测向量进行融合,获取当前文本单元的训练韵律融合预测向量,然后基于训练韵律融合预测向量实现对当前文本单元的第二种韵律预测,训练韵律融合预测向量中同时涵盖了当前文本单元的文本信息和前一文本单元的韵律信息,待训练的韵律预测模型通过上述方式实现第二种任务的韵律预测,当完成训练后,可以提高韵律预测的准确性。
进一步地,为了提高训练效率并保证训练完成后的韵律预测模型的韵律预测准确性,在一种本发明实施例所提供的韵律预测模型训练方法,所获取的前一韵律预测向量可以通过前一文本单元的基准韵律获取。
这样,在进行韵律预测模型多任务训练时,所采用的前一文本单元的信息是前一韵律预测向量的基准韵律,基准韵律的准确性更好,因此可以提高对于韵律预测模型训练的效果,从而可以提高后续利用训练完成的韵律预测模型训练进行韵律预测的准确性。
在其他实施例中,还可以通过前一时刻预测所得的前一文本单元的预测基准韵律,获取前一韵律预测向量。
具体地,为了进一步提高训练所得到韵律预测模型在韵律预测时的准确性,可以使训练当前文本预测向量具有更多地有助于韵律预测的信息,请参考图2,图2为本发明实施例所提供的韵律预测模型训练方法的获取训练当前文本预测向量步骤的一流程示意图。
如图中所示,本发明实施例所提供的韵律预测模型训练方法的训练当前文本预测向量可以通过以下步骤获取:
步骤S110:获取所述当前文本单元的当前文本向量。
具体地,可以通过embedding方式获取当前文本单元的当前文本向量。
步骤S111:根据所述当前文本向量和所述当前文本在所述当前文本数据的位置,获取当前文本位置向量。
由于当前文本的位置信息也可以作为韵律预测的信息,为了提高韵律预测的准确性,还可以获取当前文本位置向量,待训练韵律预测模型需要获取当前文本位置向量,因此在训练过程中,得到当前文本向量后,根据所述当前文本向量和所述当前文本在所述当前文本数据的位置,获取当前文本位置向量。
具体地,所述当前文本位置向量可以通过以下公式获取:
Figure 933274DEST_PATH_IMAGE001
其中:
Figure 874642DEST_PATH_IMAGE002
--当前文本位置向量;
Figure 190217DEST_PATH_IMAGE003
--所述当前文本单元在所述当前训练文本中的位置;
Figure 56542DEST_PATH_IMAGE004
--所述当前文本向量的维数;
Figure 191988DEST_PATH_IMAGE005
--所述当前文本向量的第i维的数值。
步骤S112:根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量。
得到当前文本位置向量后,可以结合当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量。
这样,在利用当前文本单元的文本信息进行韵律预测,进而对待训练韵律预测模型的训练时,还同时考虑了当前文本单元在当前训练文本中的位置信息,从而可以提高训练完成的韵律预测模型进行韵律预测的准确性。
具体地,为了进一步提高训练完成的待训练韵律预测模型韵律预测的准确性,在一种具体实施方式中,请继续参考图2,步骤S112:根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量,可以包括:
步骤S1120:将所述当前文本向量和所述当前文本位置向量进行融合,得到当前文本位置融合向量。
在获取训练当前文本预测向量时,首先将当前文本向量和所述当前文本位置向量进行融合,使得当前文本单元的文本信息和位置信息通过一个向量表示。
具体地,可以通过将当前文本向量和当前文本位置向量相加的方式,实现二者的融合。
步骤S1121:对所述当前文本位置融合向量进行编码,得到所述训练当前文本预测向量。
进一步对当前文本位置融合向量进行编码,以使得到的训练当前文本预测向量中的韵律预测的信息更突出。
在一种具体实施方式中,可以通过以下步骤对当前文本位置融合向量进行编码:
首先,利用多头-自注意力机制模块对所述当前文本位置融合向量进行特征提取,得到文本自注意力向量;然后对所述文本自注意力向量和所述当前文本位置融合向量进行融合和归一化处理,得到文本归一化向量;再对所述文本归一化向量进行非线性变换,得到所述训练当前文本预测向量。
多头-自注意力机制模块的特征提取,可以突出所向量中所需要的信息,对所述文本自注意力向量和所述当前文本位置融合向量的融合可以降低提取过程中部分信息的丢失概率,归一化处理则可以提高后续运算的方便性,加速训练的速度,对本归一化向量进行非线性变换则可以进一步提高预测的准确性。
当然,容易理解的是,多头-自注意力机制模块为待训练韵律预测模型的一部分。
具体地,所述文本自注意力向量可以通过以下公式获取:
Figure 942907DEST_PATH_IMAGE006
其中:
Figure 972043DEST_PATH_IMAGE007
Figure 150214DEST_PATH_IMAGE008
Figure 632011DEST_PATH_IMAGE009
--多头文本自注意力向量
Figure 186620DEST_PATH_IMAGE010
--单头自注意力机制运算;
Figure 211208DEST_PATH_IMAGE011
--向量的拼接运算;
Figure 684915DEST_PATH_IMAGE012
--利用单头自注意力机制计算得到的向量
Figure 529374DEST_PATH_IMAGE013
--参数矩阵,通过对多头-自注意力机制模块的训练获取;
Figure 746729DEST_PATH_IMAGE014
--qury向量,利用当前文本位置融合向量各个维度的向量运算参数
Figure 625823DEST_PATH_IMAGE015
与当前文本位置融合向量进行运算获取,其中,
Figure 270431DEST_PATH_IMAGE015
为所述当前文本位置融合向量第i维的向量运算参数,通过对多头-自注意力机制模块的训练获取;
Figure 602186DEST_PATH_IMAGE016
--key向量,利用当前文本位置融合向量各个维度的向量运算参数
Figure 357653DEST_PATH_IMAGE018
与当前文本位置融合向量进行运算获取,其中,
Figure 825674DEST_PATH_IMAGE019
为所述当前文本位置融合向量第i维的向量运算参数,通过对多头-自注意力机制模块的训练获取;
Figure 782129DEST_PATH_IMAGE020
--value向量,利用当前文本位置融合向量各个维度的向量运算参数
Figure 991393DEST_PATH_IMAGE022
与当前文本位置融合向量进行运算获取,其中,
Figure 425917DEST_PATH_IMAGE022
为所述当前文本位置融合向量第i维的向量运算参数,通过对多头-自注意力机制模块的训练获取;
Figure 138658DEST_PATH_IMAGE023
--所述当前文本位置融合向量的维数;
Figure 734856DEST_PATH_IMAGE024
--矩阵
Figure 306782DEST_PATH_IMAGE026
的转置。
对所述文本自注意力向量和所述当前文本位置融合向量进行融合可以通过二者的相加实现,不仅运算方式简单,而且可以保证融合后的向量涵盖更多的信息,对本归一化向量的非线性变换,则可以利用前向计算网络实现,当然,前向计算网络也是待训练韵律预测模型的一部分。
相应地,在一种具体实施方式中,为了进一步提高训练所得到韵律预测模型在韵律预测时的准确性,可以使前一韵律预测向量具有更多地有助于韵律预测的信息,请参考图3,图3为本发明实施例所提供的韵律预测模型训练方法的获取前一韵律预测向量步骤的一流程示意图。
如图中所示,本发明实施例所提供的韵律预测模型训练方法的前一韵律预测向量可以通过以下步骤获取:
步骤S110‘:获取所述前一文本单元的基准韵律的前一基准韵律向量。
步骤S111‘:根据所述前一基准韵律向量和所述前一文本单元在所述当前文本数据的位置,获取所述前一文本单元的韵律位置向量。
步骤S112‘:根据所述前一基准韵律向量和所述韵律位置向量,获取所述前一韵律预测向量,具体包括:
步骤S1120‘:将所述前一基准韵律向量和所述韵律位置向量进行融合,得到前一文本韵律位置融合向量;
步骤S1121‘:对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量。
具体地,所述对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量的步骤可以包括:
利用多头-自注意力机制模块对所述前一文本韵律位置融合向量进行特征提取,得到韵律自注意力向量;
对所述韵律自注意力向量和所述前一文本韵律位置融合向量进行融合和归一化处理,得到韵律归一化向量;
对所述韵律归一化向量进行非线性变换,得到所述前一韵律预测向量。
上述步骤S110‘-步骤S1121‘的具体内容可以参考前述步骤S110-步骤S1121的描述,仅需将对应的向量进行替换即可,在此不再赘述。
同时,所使用的多头-自注意力机制模块也是提前训练完成的模块。
步骤S12:根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量。
得到训练当前文本预测向量后,进一步根据训练当前文本预测向量,获取第一训练预测韵律向量,实现基于当前文本单元的文本信息的韵律预测,当然还基于训练韵律融合预测向量,获取第二训练预测韵律向量,实现基于同时结合了当前文本单元的文本信息和前一文本单元的韵律信息的韵律预测。
容易理解的是,第一训练预测韵律向量和第二训练预测韵律向量的获取可以分别进行,二者之间没有先后顺序,也可以同时进行。
具体地,第一训练预测韵律向量可以利用已经训练完成的CTC模块获取,CTC(Connectionist Temporal Classification )模块是一种适合不知道输入输出是否对齐的情况下使用的算法,从而可以满足本发明实施例所提供的韵律预测模型的输入输出的长度不完全对等的应用需要。
在进行CTC模块的训练时,以最大化以下公式的取值,进行CTC模块参数的调整:
Figure 404051DEST_PATH_IMAGE027
其中,
Figure 112244DEST_PATH_IMAGE028
--输入为X的条件下的输出为Y的概率
Figure 3977DEST_PATH_IMAGE029
--CTC模块训练过程中输入的训练文本,其中包括各个文本单元,可以表示为
Figure 791761DEST_PATH_IMAGE030
Figure 958300DEST_PATH_IMAGE031
--CTC模块训练过程中输出的各个第一训练预测韵律向量,与输入的文本单元的数量可能不同,可以表示为
Figure 255421DEST_PATH_IMAGE032
Figure 583634DEST_PATH_IMAGE033
--训练文本的文本单元总数;
Figure 598994DEST_PATH_IMAGE034
--训练文本的第
Figure 444591DEST_PATH_IMAGE034
个文本单元;
Figure 720851DEST_PATH_IMAGE035
--
Figure 219966DEST_PATH_IMAGE036
时刻对应的第一训练预测韵律向量所表示的韵律;
Figure 722622DEST_PATH_IMAGE037
--输入为X的条件下,t时刻的输出为
Figure 965385DEST_PATH_IMAGE038
的概率。
在一种具体实施方式中,第二训练预测韵律向量可以利用多头-自注意力机制模块获取,以保证获取的准确性,当然多头-自注意力机制模块也是提前经过训练得到的。
步骤S13:根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失。
得到第一训练预测韵律向量和第二训练预测韵律向量后,为了实现对于待训练韵律预测模型的训练,还需要获取预测结果的损失,为此分别获取第一训练预测韵律向量与当前基准韵律向量的差别,即第一损失,以及第二训练预测韵律向量与当前基准韵律向量的差别,即第二损失。
当然,第一损失和第二损失的获取顺序也没有前后顺序,只要在获取当前文本单元预测损失前获取即可。
同时,由于需要进行多任务的训练,得到第一损失和第二损失后,还要根据所述第一损失和所述第二损失获取当前文本单元预测损失。
具体地,当前文本单元预测损失可以通过以下公式获取:
Figure 502676DEST_PATH_IMAGE039
其中:
Figure 48058DEST_PATH_IMAGE040
--当前文本单元预测损失;
Figure 162645DEST_PATH_IMAGE041
--第一损失;
Figure 818885DEST_PATH_IMAGE042
--第二损失;
Figure 335317DEST_PATH_IMAGE043
--平衡因子。
步骤S14:判断所述当前文本单元预测损失是否满足文本单元损失阈值,若是,执行步骤S16,若否,执行步骤S15。
将当前文本单元预测损失与预定的文本单元损失阈值进行比较,如果满足,则说明已完成对待训练韵律预测模型的训练,则执行步骤S16,否则,则说明待训练韵律预测模型的预测准确性还不能满足要求,需要继续进行参数的调整以及参数调整后模型的训练,则执行步骤S15。
步骤S15:根据所述当前文本单元预测损失调整所述韵律预测模型的参数,转向执行步骤S10。
根据得到的当前文本单元预测损失,进行待训练的韵律预测模型的参数的调整,然后再次进行当前文本单元和前一文本单元的确定,即执行步骤S10,并进行新一循环的预测和调整,执行步骤S10时,所确定的当前文本单元和前一文本单元可以为新的文本单元,从而可以通过文本单元的更换提高韵律预测模型后续韵律预测的准确性。
步骤S16:得到训练完成的所述韵律预测模型。
可以看出,本发明实施例所提供的韵律预测模型训练方法,在对待训练的韵律预测模型进行训练时,通过对当前文本单元进行韵律预测进行,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,并在调整所述韵律预测模型的参数时,利用结合了所述第一损失和所述第二损失的当前文本单元预测损失,实现了多任务的共同训练,可以使训练完成的韵律预测模型实现多任务的学习,从而可以实现在利用训练完成的韵律预测模型进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
在另一种具体实施方式中,为了提高训练效率,本发明实施例还提供一种韵律预测模型训练方法,请参考图4,图4为本发明实施例所提供的韵律预测模型训练方法的又一流程示意图。
如图中所示,本发明实施例所提供的韵律预测模型训练方法包括:
步骤S20:利用待训练的韵律预测模型确定当前文本单元和前一文本单元。
步骤S20的具体内容请参考图1所示的步骤S10的描述,在此不再赘述。
步骤S21:获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本的训练韵律融合预测向量。
步骤S21的具体内容请参考图1所示的步骤S11的描述,在此不再赘述。
步骤S22:根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量。
步骤S22的具体内容请参考图1所示的步骤S12的描述,在此不再赘述。
步骤S23:根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失。
步骤S23的具体内容请参考图1所示的步骤S13的描述,在此不再赘述。
步骤S24:判断是否已完成所述当前训练文本的各个文本单元的韵律预测,若是,执行步骤S26,若否,执行步骤S25。
完成一个文本单元的韵律预测(即第一训练预测韵律向量和第二训练预测韵律向量)后,可以进一步判断是否已完成所述当前训练文本的各个文本单元的韵律预测。
在一种具体实施方式中,可以在获取了当前训练文本各个文本单元预测损失后,通过对当前训练文本各个文本单元预测损失是否获取,实现对当前训练文本各个文本单元是否已经经过韵律预测的判断,如果全部获取完成,则说明当前训练文本的各个文本单元已经完成训练,可以根据当前训练文本的各个文本单元预测损失,进一步进行后续的处理,执行步骤S26,如果还未完成,则执行步骤S25。
通过对当前训练文本各个文本单元预测损失的获取,可以实现对当前训练文本各个文本单元是否已经经过韵律预测的判断,并可以为后续的步骤提供数据基础。
当然,在其他实施方式中,为了确定是否已经完成当前训练文本的各个文本单元的韵律预测,还可以通过直接确定第一训练预测韵律向量和第二训练预测韵律向量的获取情况,或者确定第一损失和第二损失的获取情况实现,即在得到第一训练预测韵律向量和第二训练预测韵律向量后,或者在得到第一损失或第二损失后,进行确定,但为了实现后续的参数调整,仍需要进行各个文本单元预测损失的获取。
步骤S25:确定所述当前训练文本中未完成韵律预测的文本单元为新的当前文本单元,根据新的所述当前文本单元确定新的前一文本单元,转向执行步骤S21。
如果当前训练文本中还存在未完成韵律预测的文本单元,则可以确定其中的一个为新的当前文本单元,进而确定新的前一文本单元,基于新确定的当前文本单元和前一文本单元,获取新的当前文本单元的文本单元预测损失,直至步骤S24的判断为是。
步骤S26:根据各个所述文本单元预测损失获取文本预测损失。
如果当前训练文本中的各个文本单元均已完成文本单元预测损失的获取,则可以根据各个文本单元预测损失,获取当前训练文本的文本预测损失,当然,文本单元预测损失通过步骤S23获取。
具体地,可以通过计算各个文本单元预测损失的平均值的方式获取文本预测损失,在其他实施方式中,还可以根据需要利用其他的计算方法获取文本预测损失。
步骤S27:根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型,具体包括:
步骤S271:判断所述文本预测损失是否满足文本预测损失阈值,若是,执行步骤S273,若否,执行步骤S272。
步骤S271的具体内容可以参考图1所示的步骤S14,只需将步骤S14的当前文本单元预测损失与文本单元损失阈值的比较调整为文本预测损失与文本预测损失阈值的比较,在此不在赘述。
步骤S272:根据所述文本预测损失调整所述韵律预测模型的参数。
步骤S272的具体内容可以参考图1所示的步骤S15,只需将步骤S15的当前文本单元预测损失调整为文本预测损失,在此不在赘述。
步骤S273:得到训练完成的所述韵律预测模型。
这样,本发明实施例所提供的韵律预测模型训练方法,以训练文本为单位进行韵律预测模型的参数调整,可以均衡各个文本单元韵律预测的结果,降低由于单个文本单元的韵律预测的误差所导致的韵律预测模型的参数调整的偏差,提高参数调整的准确性,同时,还可以减小参数调整的次数,减小计算量,缩短参数调整的时间,提高韵律预测模型的训练效率。
为了进一步提高训练效率,并提高训练准确性,本发明实施例还提供一种韵律预测模型的训练方法,请参考图5,图5为本发明实施例所提供的韵律预测模型训练方法的另一流程示意图。
如图中所示本发明实施例所提供的韵律预测模型训练方法包括:
步骤S30:利用待训练的韵律预测模型确定当前文本单元和前一文本单元。
步骤S30的具体内容请参考图1所示的步骤S10的描述,在此不再赘述。
步骤S31:获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本的训练韵律融合预测向量。
步骤S31的具体内容请参考图1所示的步骤S11的描述,在此不再赘述。
步骤S32:根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量。
步骤S32的具体内容请参考图1所示的步骤S12的描述,在此不再赘述。
步骤S33:根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失。
步骤S33的具体内容请参考图1所示的步骤S13的描述,在此不再赘述。
步骤S34:判断是否已完成所述当前训练文本的各个文本单元的韵律预测,若是,执行步骤S36,若否,执行步骤S35。
步骤S34的具体内容请参考图4所示的步骤S24的描述,在此不再赘述。
步骤S35:确定所述当前训练文本中未完成韵律预测的文本单元为新的当前文本单元,根据新的所述当前文本单元确定新的前一文本单元,转向执行步骤S31。
步骤S35的具体内容请参考图4所示的步骤S25的描述,在此不再赘述。
步骤S36:根据各个所述文本单元预测损失获取文本预测损失。
步骤S36的具体内容请参考图4所示的步骤S26的描述,在此不再赘述。
步骤S37:判断已完成韵律预测的所述训练文本的数量是否达到文本数量阈值,若否,执行步骤S38,若是,执行步骤S39。
在完成一个训练文本的韵律预测后,可以进一步判断已完成韵律预测的训练文本的数量是否已经达到文本数量阈值,如果已经达到,则执行步骤S39,如果未达到,则可以执行步骤38。
可以理解的是,可以在确定一个训练文本的各个文本单元的韵律预测的完成后就进行判断,也可以在根据各个所述文本单元预测损失获取文本预测损失后,进一步判断,从而能够为后续的计算提供基础。
步骤S38:确定未完成韵律预测的训练文本为新的当前训练文本,并确定新的当前训练文本中的当前文本单元和前一文本单元,执行步骤S31。
当已完成韵律预测的所述训练文本的数量未达到文本数量阈值时,确定未完成韵律预测的训练文本为新的当前训练文本,并确定新的当前训练文本中的当前文本单元和前一文本单元,进而执行步骤S31。
步骤S39:根据各个所述文本预测损失获取阶段预测损失。
当已完成韵律预测的所述训练文本的数量达到文本数量阈值时,进一步根据各个所述文本预测损失获取阶段预测损失。
具体地,阶段预测损失可以通过获取各个文本预测损失的和获取,从而可以将更大范围的文本单元预测损失融合未一个阶段预测损失,使得所得到的损失更为准确。
步骤S310:根据所述文本预测损失调整所述韵律预测模型的参数,直至所述文本预测损失满足文本预测损失阈值,得到训练完成的所述韵律预测模型,具体包括:
步骤S3101:判断所述阶段预测损失是否满足阶段预测损失阈值,若是,执行步骤S3103,若否,执行步骤S3102。
步骤S3101的具体内容可以参考图1所示的步骤S14,只需将步骤S14的当前文本单元预测损失与文本单元损失阈值的比较调整为阶段预测损失与阶段预测损失阈值的比较,在此不在赘述。
步骤S3102:根据所述阶段预测损失调整所述韵律预测模型的参数。
步骤S3102的具体内容可以参考图1所示的步骤S15,只需将步骤S15的当前文本单元预测损失调整为阶段预测损失,在此不在赘述。
步骤S3103:得到训练完成的所述韵律预测模型。
这样,本发明实施例所提供的韵律预测模型训练方法,以文本数量阈值的训练文本为单位进行韵律预测模型的参数调整,可以均衡较大数量文本单元韵律预测的结果,降低由于单个文本单元的韵律预测的误差以及单个训练文本的韵律预测的误差所导致的韵律预测模型的参数调整的偏差,提高参数调整的准确性,同时,还可以减小参数调整的次数,减小计算量,缩短参数调整的时间,提高韵律预测模型的训练效率。
为了提高文本韵律预测的准确性,本发明实施例还提供一种韵律预测方法,请参考图6,图6为本发明实施例所提供的韵律预测方法的流程示意图。
如图中所示,本发明实施例所提供的韵律预测方法,包括:
步骤S40:利用如前述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量。
在利用前述的韵律预测模型训练方法对韵律预测模型训练完成后,利用训练完成的韵律预测模型进行待韵律预测文本的预测,即对各个文本单元进行韵律预测,获取各个文本单元的第一预测韵律向量和第二预测韵律向量。
根据前述的韵律预测模型训练方法可知,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,而所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元。
当然,当前文本单元也是利用训练完成的韵律预测模型确定的,在确定当前文本单元时,为了保证韵律预测,按照待韵律预测文本的各个文本单元的位置排列依次将其定为当前文本单元,当当前文本单元为待韵律预测文本的第一个文本单元时,前一文本单元即为用于表示所述待韵律预测文本开始的文本初始单元,当然,文本初始单元预先确定有文本初始单元韵律,以保证对第一个文本单元进行韵律预测。
步骤S41:根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律。
得到当前文本单元的第一预测韵律向量和第二预测韵律向量后,再基于第一预测韵律向量和第二预测韵律向量获取当前单元预测韵律向量。
具体地,当前单元预测韵律向量可以通过将第一预测韵律向量和第二预测韵律向量相加并进一步利用softmax模型进行运算的方式获取。
当然经过运算后获取的当前单元预测韵律向量是当前文本单元为哪一种韵律类型的概率,然后,将概率最大的韵律类型作为当前文本单元的韵律类型。
步骤S42:判断是否已完成所述待韵律预测文本的各个文本单元的预测,若是,执行步骤S44,若否,执行步骤S43。
得到当前单元预测韵律后,进一步判断是否待韵律预测文本的各个文本单元是否都已经获取了单元预测韵律,如果是,则需进一步获取待韵律预测文本的韵律,如果否,则进行下一个文本单元的单元预测韵律的获取。
步骤S43:按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,转向执行步骤S40。
为保证各个文本单元的韵律预测的获取,在按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,然后获取新的当前文本单元的韵律。
步骤S44:利用各个所述当前单元的预测韵律获取所述待韵律预测文本的韵律。
得到待韵律预测文本的全部文本单元的预测韵律后,利用各个所述当前单元的预测韵律就可以获取所述待韵律预测文本的韵律。
这样,本发明实施例所提供的韵律预测方法,在对待预测文本进行韵律预测时,通过对依次确定的当前文本单元进行韵律预测实现,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,使得在进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
当然,当文本单元为单字单元时,可以按照待韵律预测文本的文本单元的排列顺序对对应的预测韵律进行排列,如果存在前述“特殊符号”的韵律,则将其删除,就可以得到所述待韵律预测文本的韵律。
这种情况下,在进行韵律预测时,只需要对各个单字进行韵律预测,可以避免对待韵律预测文本进行韵律词、韵律短语或者语调短语的文本单元划分、还可以避免对于文本单元划分模型的应用以及对于文本单元划分模型性能的依赖,降低文本单元的获取难度,提高文本单元的划分准确性,从而可以提高文本韵律预测的准确性。
下面对本发明实施例提供的韵律预测模型训练装置和韵律预测装置进行介绍,下文描述的韵律预测模型训练装置和韵律预测装置可以认为是,电子设备(如:PC)为分别实现本发明实施例提供的韵律预测模型训练方法和韵律预测方法所需设置的功能模块架构。下文描述的韵律预测模型训练装置和韵律预测装置的内容,可分别与上文描述的韵律预测模型训练方法和韵律预测方法的内容相互对应参照。
图7是本发明实施例所提供的韵律预测模型训练装置的一框图,该韵律预测模型训练装置即可应用于客户端,也可应用于服务器端,参考图7,该韵律预测模型训练装置包括:
文本单元确定单元100,确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元包括按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
预测向量获取单元110,适于获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的基准韵律的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
训练预测韵律向量获取单元120,适于根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
参数调整单元130,适于根据所述第一训练预测韵律向量和所述当前文本单元的基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前文本单元的基准韵律向量获取第二损失,根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
本发明所提供的韵律预测模型训练装置,以文本单元作为韵律预测的基本单位对韵律预测模型进行训练,因此首先利用文本单元确定单元100确定进行韵律预测的当前文本单元。
由于当前文本单元的韵律不仅受到当前文本单元的影响,还受到与其相邻的前一文本单元的韵律的影响,因此,本发明实施例所提供的韵律预测装置的文本单元确定单元100还确定当前文本单元的前一文本单元。
前一文本单元即为按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,由于当当前文本单元为当前训练文本的第一个文本单元时,仍需要确定前一文本单元,因此前一文本单元还可以为文本初始单元,文本初始单元是用于表示所述当前训练文本开始的单元,可以理解的是,在进行韵律预测时,无需对文本初始单元进行韵律预测,只是利用文本初始单元的信息,辅助对训练文本的第一个文本单元的韵律进行预测。
容易理解的是,文本单元即为根据单元的划分原则,对各个训练文本进行划分后的单元,并且在进行文本单元的韵律预测时,文本单元的划分可以提前完成,文本单元的划分可以通过利用文本单元划分模型进行划分的方式或者其他方式实现,在此不再赘述。
在一种具体实施方式中,文本单元可以为单字单元。这样,在进行韵律预测模型的训练时,只需要对各个单字进行韵律预测,可以避免对训练文本进行韵律词、韵律短语或者语调短语的文本单元划分、对于文本单元划分模型的应用以及对于文本单元划分模型性能的依赖,降低文本单元的获取难度,提高文本单元的划分准确性,从而可以提高韵律预测模型训练的准确性以及对文本韵律预测的准确性。
在其他具体实施方式中,文本单元还可以为词单元,包括韵律词、韵律短语或者语调短语等。
在进行韵律预测模型训练时,为了保证训练效果,通常会用到大量的训练文本,因此在确定当前文本单元时,文本单元确定单元100可以首先确定当前训练文本,然后再确定当前训练文本中的某个文本单元为当前文本单元以及前一文本单元。
另外,为了实现对韵律预测模型的训练,除了需要训练文本,还需要预先对训练文本的各个文本单元进行韵律标记,即各个所述文本单元均标注有基准韵律,即韵律类型中的一种,其中韵律类型可以根据需要确定。
容易理解的是,在进行韵律预测模型训练时,经过待训练韵律预测模型得到的预测韵律的向量表示与基准韵律的向量表示的顺序是一致的,同一个位置表示该文本单元为该位置韵律类型的概率。
需要说明的是,本实施例中,所述的训练文本为句子,实现对每个句子的韵律进行预测,如果需要实现对段落的韵律预测,可以通过对段落中的各个文本的预测后,汇总获取。
文本单元确定单元100确定当前文本单元后,预测向量获取单元110利用待训练韵律预测模型基于当前本文单元获取训练当前文本预测向量,为后续进行根据当前文本单元的文本信息进行韵律预测提供基础;同时确定前一文本单元后,进一步利用待训练韵律预测模型基于前一文本单元已经获取的韵律,获取前一韵律预测向量,为后续进行根据前一文本单元的韵律信息进行当前文本单元的韵律预测提供基础。
当然,如果仅仅根据前一韵律预测向量进行当前文本单元的韵律预测,缺少了当前文本单元的信息,因此,预测向量获取单元110可以进一步将训练当前文本预测向量和前一韵律预测向量进行融合,获取当前文本单元的训练韵律融合预测向量,然后基于训练韵律融合预测向量实现对当前文本单元的第二种韵律预测,训练韵律融合预测向量中同时涵盖了当前文本单元的文本信息和前一文本单元的韵律信息,待训练的韵律预测模型通过上述方式实现第二种任务的韵律预测,当完成训练后,可以提高韵律预测的准确性。
进一步地,为了提高训练效率并保证训练完成后的韵律预测模型的韵律预测准确性,在一种本发明实施例所提供的韵律预测模型训练方法,所获取的前一韵律预测向量可以通过前一文本单元的基准韵律获取。
这样,在进行韵律预测模型多任务训练时,所采用的前一文本单元的信息是前一韵律预测向量的基准韵律,基准韵律的准确性更好,因此可以提高对于韵律预测模型训练的效果,从而可以提高后续利用训练完成的韵律预测模型训练进行韵律预测的准确性。
在其他实施例中,还可以通过前一时刻预测所得的前一文本单元的预测基准韵律,获取前一韵律预测向量。
具体地,为了进一步提高训练所得到韵律预测模型在韵律预测时的准确性,可以使训练当前文本预测向量具有更多地有助于韵律预测的信息,预测向量获取单元110,适于韵律预测模型训练方法的训练当前文本预测向量可以包括:
获取所述当前文本单元的当前文本向量;
根据所述当前文本向量和所述当前文本在所述当前文本数据的位置,获取当前文本位置向量;
根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量。
具体地,当前文本单元的当前文本向量可以通过embedding方式获取。
由于当前文本的位置信息也可以作为韵律预测的信息,为了提高韵律预测的准确性,还可以获取当前文本位置向量,待训练韵律预测模型需要获取当前文本位置向量,因此在训练过程中,得到当前文本向量后,根据所述当前文本向量和所述当前文本在所述当前文本数据的位置,获取当前文本位置向量。
得到当前文本位置向量后,可以结合当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量。
这样,在利用当前文本单元的文本信息进行韵律预测,进而对待训练韵律预测模型的训练时,还同时考虑了当前文本单元在当前训练文本中的位置信息,从而可以提高训练完成的韵律预测模型进行韵律预测的准确性。
具体地,为了进一步提高训练完成的待训练韵律预测模型韵律预测的准确性,在一种具体实施方式中,预测向量获取单元110,适于根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量包括:
将所述当前文本向量和所述当前文本位置向量进行融合,得到当前文本位置融合向量;
对所述当前文本位置融合向量进行编码,得到所述训练当前文本预测向量。
在获取训练当前文本预测向量时,首先将当前文本向量和所述当前文本位置向量进行融合,使得当前文本单元的文本信息和位置信息通过一个向量表示。
具体地,可以通过将当前文本向量和当前文本位置向量相加的方式,实现二者的融合。
进一步对当前文本位置融合向量进行编码,以使得到的训练当前文本预测向量中的韵律预测的信息更突出。
在一种具体实施方式中,可以通过以下方式对当前文本位置融合向量进行编码:
首先,利用多头-自注意力机制模块对所述当前文本位置融合向量进行特征提取,得到文本自注意力向量;然后对所述文本自注意力向量和所述当前文本位置融合向量进行融合和归一化处理,得到文本归一化向量;再对所述文本归一化向量进行非线性变换,得到所述训练当前文本预测向量。
多头-自注意力机制模块的特征提取,可以突出所向量中所需要的信息,对所述文本自注意力向量和所述当前文本位置融合向量的融合可以降低提取过程中部分信息的丢失概率,归一化处理则可以提高后续运算的方便性,加速训练的速度,对本归一化向量进行非线性变换则可以进一步提高预测的准确性。
当然,容易理解的是,多头-自注意力机制模块为待训练韵律预测模型的一部分。
对所述文本自注意力向量和所述当前文本位置融合向量进行融合可以通过二者的相加实现,不仅运算方式简单,而且可以保证融合后的向量涵盖更多的信息,对本归一化向量的非线性变换,则可以利用前向计算网络实现,当然,前向计算网络也是待训练韵律预测模型的一部分。
相应地,在一种具体实施方式中,为了进一步提高训练所得到韵律预测模型在韵律预测时的准确性,可以使前一韵律预测向量具有更多地有助于韵律预测的信息,预测向量获取单元110,适于获取所述前一文本单元的基准韵律的前一韵律预测向量,可以包括:
获取所述前一文本单元的基准韵律的前一基准韵律向量。
根据所述前一基准韵律向量和所述前一文本单元在所述当前文本数据的位置,获取所述前一文本单元的韵律位置向量。
根据所述前一基准韵律向量和所述韵律位置向量,获取所述前一韵律预测向量。
预测向量获取单元110,适于根据所述前一基准韵律向量和所述韵律位置向量,获取所述前一韵律预测向量具体可以包括:
将所述前一基准韵律向量和所述韵律位置向量进行融合,得到前一文本韵律位置融合向量;
对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量。
具体地,预测向量获取单元110,适于对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量可以包括:
利用多头-自注意力机制模块对所述前一文本韵律位置融合向量进行特征提取,得到韵律自注意力向量;
对所述韵律自注意力向量和所述前一文本韵律位置融合向量进行融合和归一化处理,得到韵律归一化向量;
对所述韵律归一化向量进行非线性变换,得到所述前一韵律预测向量。
上述预测向量获取单元110获取前一韵律预测向量的具体内容可以参考前述预测向量获取单元110获取当前文本预测向量的具体内容,仅需将对应的向量进行替换即可,在此不再赘述。
同时,所使用的多头-自注意力机制模块也是提前训练完成的模块。
得到训练当前文本预测向量后,训练预测韵律向量获取单元120,进一步根据训练当前文本预测向量,获取第一训练预测韵律向量,实现基于当前文本单元的文本信息的韵律预测,当然还基于训练韵律融合预测向量,获取第二训练预测韵律向量,实现基于同时结合了当前文本单元的文本信息和前一文本单元的韵律信息的韵律预测。
容易理解的是,第一训练预测韵律向量和第二训练预测韵律向量的获取可以分别进行,二者之间没有先后顺序。
具体地,第一训练预测韵律向量可以利用已经训练完成的CTC模块获取,CTC(Connectionist Temporal Classification )模块是一种适合不知道输入输出是否对齐的情况下使用的算法,从而可以满足本发明实施例所提供的韵律预测模型的输入输出的长度不完全对等的应用需要。
在一种具体实施方式中,第二训练预测韵律向量可以利用多头-自注意力机制模块获取,以保证获取的准确性,当然多头-自注意力机制模块也是提前经过训练得到的。
得到第一训练预测韵律向量和第二训练预测韵律向量后,为了实现对于待训练韵律预测模型的训练,还需要获取预测结果的损失,为此参数调整单元130分别获取第一训练预测韵律向量与当前基准韵律向量的差别,即第一损失,以及第二训练预测韵律向量与当前基准韵律向量的差别,即第二损失。
同时,由于需要进行多任务的训练,得到第一损失和第二损失后,还要根据所述第一损失和所述第二损失获取当前文本单元预测损失。
然后,参数调整单元130,判断所述当前文本单元预测损失是否满足文本单元损失阈值,即将当前文本单元预测损失与预定的文本单元损失阈值进行比较,如果满足,则说明已完成对待训练韵律预测模型的训练,得到训练完成的所述韵律预测模型;否则,则说明待训练韵律预测模型的预测准确性还不能满足要求,需要继续进行参数的调整以及参数调整后模型的训练,进一步根据所述当前文本单元预测损失调整所述韵律预测模型的参数。
根据得到的当前文本单元预测损失,进行待训练的韵律预测模型的参数的调整,然后再次进行当前文本单元和前一文本单元的确定。
所确定的当前文本单元和前一文本单元可以为新的文本单元,从而可以通过文本单元的更换提高韵律预测模型后续韵律预测的准确性。
可以看出,本发明实施例所提供的韵律预测模型训练装置,在对待训练的韵律预测模型进行训练时,通过对当前文本单元进行韵律预测进行,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,并在调整所述韵律预测模型的参数时,利用结合了所述第一损失和所述第二损失的当前文本单元预测损失,实现了多任务的共同训练,可以使训练完成的韵律预测模型实现多任务的学习,从而可以实现在利用训练完成的韵律预测模型进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
在另一种具体实施方式中,为了提高训练效率,本发明实施例还提供一种韵律预测模型训练装置,还包括:文本预测损失获取单元(图中未示出),适于确定所述当前训练文本中未完成韵律预测的文本单元为新的当前文本单元,根据新的所述当前文本单元确定新的前一文本单元,直至已完成所述当前训练文本的各个文本单元的韵律预测时,根据各个所述文本单元预测损失获取文本预测损失
文本预测损失获取单元,判断是否已完成所述当前训练文本的各个文本单元的韵律预测,若是,则根据各个所述文本单元预测损失获取文本预测损失,若否,则确定所述当前训练文本中未完成韵律预测的文本单元为新的当前文本单元,根据新的所述当前文本单元确定新的前一文本单元。
完成一个文本单元的韵律预测(即第一训练预测韵律向量和第二训练预测韵律向量)后,可以进一步判断是否已完成所述当前训练文本的各个文本单元的韵律预测。
在一种具体实施方式中,可以在获取了当前训练文本各个文本单元预测损失后,通过对当前训练文本各个文本单元预测损失是否获取,实现对当前训练文本各个文本单元是否已经经过韵律预测的判断,。
通过对当前训练文本各个文本单元预测损失的获取,可以实现对当前训练文本各个文本单元是否已经经过韵律预测的判断,并可以为后续的步骤提供数据基础。
当然,在其他实施方式中,为了确定是否已经完成当前训练文本的各个文本单元的韵律预测,还可以通过直接确定第一训练预测韵律向量和第二训练预测韵律向量的获取情况,或者确定第一损失和第二损失的获取情况实现,但为了实现后续的参数调整,仍需要进行各个文本单元预测损失的获取
如果当前训练文本中还存在未完成韵律预测的文本单元,则可以确定其中的一个为新的当前文本单元,进而确定新的前一文本单元,基于新确定的当前文本单元和前一文本单元,获取新的当前文本单元的文本单元预测损失;如果当前训练文本中的各个文本单元均已完成文本单元预测损失的获取,则可以根据各个文本单元预测损失,获取当前训练文本的文本预测损失。
具体地,可以通过计算各个文本单元预测损失的平均值的方式获取文本预测损失,在其他实施方式中,还可以根据需要利用其他的计算方法获取文本预测损失。
参数调整单元130,适于根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型,具体包括:
根据所述文本预测损失调整所述韵律预测模型的参数,直至所述文本预测损失满足文本预测损失阈值,得到训练完成的所述韵律预测模型。
这样,本发明实施例所提供的韵律预测模型训练装置,以训练文本为单位进行韵律预测模型的参数调整,可以均衡各个文本单元韵律预测的结果,降低由于单个文本单元的韵律预测的误差所导致的韵律预测模型的参数调整的偏差,提高参数调整的准确性,同时,还可以减小参数调整的次数,减小计算量,缩短参数调整的时间,提高韵律预测模型的训练效率。
为了进一步提高训练效率,并提高训练准确性,本发明实施例还提供一种韵律预测模型的训练装置,还包括:阶段预测损失获取单元(图中未示出),适于确定未完成韵律预测的训练文本为新的当前训练文本,直至已完成韵律预测的所述训练文本的数量达到文本数量阈值,根据各个所述文本预测损失获取阶段预测损失。
在完成一个训练文本的韵律预测后,可以进一步判断已完成韵律预测的训练文本的数量是否已经达到文本数量阈值,如果已经达到,则根据各个所述文本预测损失获取阶段预测损失,如果未达到,则确定未完成韵律预测的训练文本为新的当前训练文本,并确定新的当前训练文本中的当前文本单元和前一文本单元。
可以理解的是,可以在确定一个训练文本的各个文本单元的韵律预测的完成后就进行判断,也可以在根据各个所述文本单元预测损失获取文本预测损失后,进一步判断,从而能够为后续的计算提供基础。
当已完成韵律预测的所述训练文本的数量未达到文本数量阈值时,确定未完成韵律预测的训练文本为新的当前训练文本,并确定新的当前训练文本中的当前文本单元和前一文本单元;当已完成韵律预测的所述训练文本的数量达到文本数量阈值时,进一步根据各个所述文本预测损失获取阶段预测损失。
具体地,阶段预测损失可以通过获取各个文本预测损失的和获取,从而可以将更大范围的文本单元预测损失融合未一个阶段预测损失,使得所得到的损失更为准确。
参数调整单元130,适于根据所述文本预测损失调整所述韵律预测模型的参数,直至所述文本预测损失满足文本预测损失阈值,得到训练完成的所述韵律预测模型,具体包括:
根据所述阶段预测损失调整所述韵律预测模型的参数,直至所述阶段预测损失满足阶段预测损失阈值,得到训练完成的所述韵律预测模型。
这样,本发明实施例所提供的韵律预测模型训练装置,以文本数量阈值的训练文本为单位进行韵律预测模型的参数调整,可以均衡较大数量文本单元韵律预测的结果,降低由于单个文本单元的韵律预测的误差以及单个训练文本的韵律预测的误差所导致的韵律预测模型的参数调整的偏差,提高参数调整的准确性,同时,还可以减小参数调整的次数,减小计算量,缩短参数调整的时间,提高韵律预测模型的训练效率。
为了提高文本韵律预测的准确性,本发明实施例还提供一种韵律预测装置,请参考图8,图8为本发明实施例所提供的韵律预测装置的一框图。
如图中所示,本发明实施例所提供的韵律预测装置,包括:
预测韵律向量获取单元200,利用如前述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量,其中,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元;
文本韵律获取单元210,根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律,并按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,直至已完成所述待韵律预测文本的各个文本单元的预测韵律,利用各个所述当前单元预测韵律向量获取所述待韵律预测文本的韵律。
在利用前述的韵律预测模型训练方法对韵律预测模型训练完成后,本发明实施例所提供的韵律预测装置的预测韵律向量获取单元200,利用训练完成的韵律预测模型进行待韵律预测文本的预测,即对各个文本单元进行韵律预测,获取各个文本单元的第一预测韵律向量和第二预测韵律向量。
所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,而所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元。
当然,当前文本单元也是利用训练完成的韵律预测模型确定的,在确定当前文本单元时,为了保证韵律预测,按照待韵律预测文本的各个文本单元的位置排列依次将其定为当前文本单元,当当前文本单元为待韵律预测文本的第一个文本单元时,前一文本单元即为用于表示所述待韵律预测文本开始的文本初始单元,当然,文本初始单元预先确定有文本初始单元韵律,以保证对第一个文本单元进行韵律预测。
得到当前文本单元的第一预测韵律向量和第二预测韵律向量后,文本韵律获取单元210再基于第一预测韵律向量和第二预测韵律向量获取当前单元预测韵律向量。
具体地,当前单元预测韵律向量可以通过将第一预测韵律向量和第二预测韵律向量相加并进一步利用softmax模型进行运算的方式获取。
当然经过运算后获取的当前单元预测韵律向量是当前文本单元为哪一种韵律类型的概率,然后,将概率最大的韵律类型作为当前文本单元的韵律类型。
得到当前单元预测韵律后,文本韵律获取单元210进一步判断是否待韵律预测文本的各个文本单元是否都已经获取了单元预测韵律,如果是,则需进一步获取待韵律预测文本的韵律,如果否,则进行下一个文本单元的单元预测韵律的获取。
为保证各个文本单元的韵律预测的获取,在按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,然后获取新的当前文本单元的韵律。
得到待韵律预测文本的全部文本单元的预测韵律后,文本韵律获取单元210利用各个所述当前单元的预测韵律就可以获取所述待韵律预测文本的韵律。
这样,本发明实施例所提供的韵律预测装置,在对待预测文本进行韵律预测时,通过对依次确定的当前文本单元进行韵律预测实现,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,使得在进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
当然,当文本单元为单字单元时,可以按照待韵律预测文本的文本单元的排列顺序对对应的预测韵律进行排列,如果存在前述“特殊符号”的韵律,则将其删除,就可以得到所述待韵律预测文本的韵律。
这种情况下,在进行韵律预测时,只需要对各个单字进行韵律预测,可以避免对待韵律预测文本进行韵律词、韵律短语或者语调短语的文本单元划分、还可以避免对于文本单元划分模型的应用以及对于文本单元划分模型性能的依赖,降低文本单元的获取难度,提高文本单元的划分准确性,从而可以提高文本韵律预测的准确性。
当然,本发明实施例还提供一种设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的韵律预测模型训练方法或韵律预测方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。
可选的,图9示出了本发明实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的韵律预测模型训练方法或韵律预测方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。
作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的韵律预测模型训练方法。或韵律预测方法
本发明实施例中,电子设备可以是能够进行韵律预测模型训练或韵律预测的平板电脑、笔记本电脑等设备。
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图9所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述韵律预测模型训练方法或韵律预测方法。
本发明实施例所提供的存储介质所存储的计算机可执行指令,在对待训练的韵律预测模型进行训练时,通过对当前文本单元进行韵律预测进行,一方面利用了当前文本单元的文本信息进行预测,另一方面利用了当前文本单元的文本信息和前一文本单元的韵律信息的融合信息进行预测,同时考虑了当前文本单元的文本信息以及前一文本单元的韵律信息对于当前文本单元的韵律的影响,并在调整所述韵律预测模型的参数时,利用结合了所述第一损失和所述第二损失的当前文本单元预测损失,实现了多任务的共同训练,可以使训练完成的韵律预测模型实现多任务的学习,从而可以实现在利用训练完成的韵律预测模型进行文本的韵律预测时,对文本单元的深层特征信息进行有效的结合,进而可以提高对于文本的韵律预测的准确性。
上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (16)

1.一种韵律预测模型训练方法,其特征在于,包括:
利用待训练的韵律预测模型确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元为按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,或者用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
根据所述第一训练预测韵律向量和所述当前文本单元的当前基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前基准韵律向量获取第二损失,利用平衡因子根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
2.如权利要求1所述的韵律预测模型训练方法,其特征在于,所述获取所述当前文本单元的训练当前文本预测向量的步骤包括:
获取所述当前文本单元的当前文本向量;
根据所述当前文本向量和所述当前文本在所述当前文本数据的位置,获取当前文本位置向量;
根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量。
3.如权利要求2所述的韵律预测模型训练方法,其特征在于,所述根据所述当前文本向量和所述当前文本位置向量,获取所述训练当前文本预测向量的步骤包括:
将所述当前文本向量和所述当前文本位置向量进行融合,得到当前文本位置融合向量;
对所述当前文本位置融合向量进行编码,得到所述训练当前文本预测向量。
4.如权利要求3所述的韵律预测模型训练方法,其特征在于,所述对所述当前文本位置融合向量进行编码,得到所述训练当前文本预测向量的步骤包括:
利用多头-自注意力机制模块对所述当前文本位置融合向量进行特征提取,得到文本自注意力向量;
对所述文本自注意力向量和所述当前文本位置融合向量进行融合和归一化处理,得到文本归一化向量;
对所述文本归一化向量进行非线性变换,得到所述训练当前文本预测向量。
5.如权利要求1所述的韵律预测模型训练方法,其特征在于,所述获取所述前一文本单元的前一韵律预测向量的步骤包括:获取所述前一文本单元的基准韵律的前一韵律预测向量。
6.如权利要求5所述的韵律预测模型训练方法,其特征在于,所述获取所述前一文本单元的基准韵律的前一韵律预测向量的步骤包括:
获取所述前一文本单元的基准韵律的前一基准韵律向量;
根据所述前一基准韵律向量和所述前一文本单元在所述当前文本数据的位置,获取所述前一文本单元的韵律位置向量;
根据所述前一基准韵律向量和所述韵律位置向量,获取所述前一韵律预测向量。
7.如权利要求6所述的韵律预测模型训练方法,其特征在于,所述根据所述前一基准韵律向量和所述韵律位置向量,获取所述前一韵律预测向量的步骤包括:
将所述前一基准韵律向量和所述韵律位置向量进行融合,得到前一文本韵律位置融合向量;
对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量。
8.如权利要求7所述的韵律预测模型训练方法,其特征在于,所述对所述前一文本韵律位置融合向量进行解码,得到所述前一韵律预测向量的步骤包括:
利用多头-自注意力机制模块对所述前一文本韵律位置融合向量进行特征提取,得到韵律自注意力向量;
对所述韵律自注意力向量和所述前一文本韵律位置融合向量进行融合和归一化处理,得到韵律归一化向量;
对所述韵律归一化向量进行非线性变换,得到所述前一韵律预测向量。
9.如权利要求1-8任一项所述的韵律预测模型训练方法,其特征在于,所述根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型的步骤之前还包括:
确定所述当前训练文本中未完成韵律预测的文本单元为新的当前文本单元,根据新的所述当前文本单元确定新的前一文本单元,直至已完成所述当前训练文本的各个文本单元的韵律预测时,根据各个所述文本单元预测损失获取文本预测损失;
所述根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型的步骤包括:
根据所述文本预测损失调整所述韵律预测模型的参数,直至所述文本预测损失满足文本预测损失阈值,得到训练完成的所述韵律预测模型。
10.如权利要求9所述的韵律预测模型训练方法,其特征在于,所述根据各个所述文本单元预测损失获取文本预测损失的步骤之后还包括:
确定未完成韵律预测的训练文本为新的当前训练文本,直至已完成韵律预测的所述训练文本的数量达到文本数量阈值,根据各个所述文本预测损失获取阶段预测损失;
所述根据所述文本预测损失调整所述韵律预测模型的参数,直至所述文本预测损失满足文本预测损失阈值,得到训练完成的所述韵律预测模型的步骤包括:
根据所述阶段预测损失调整所述韵律预测模型的参数,直至所述阶段预测损失满足阶段预测损失阈值,得到训练完成的所述韵律预测模型。
11.如权利要求1-8任一项所述的韵律预测模型训练方法,其特征在于,所述文本单元包括单字单元。
12.一种韵律预测方法,其特征在于,包括:
利用如权利要求1-11任一项所述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量,其中,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元;
根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律,并按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,直至已完成所述待韵律预测文本的各个文本单元的预测韵律,利用各个所述当前单元预测韵律向量获取所述待韵律预测文本的韵律。
13.一种韵律预测模型训练装置,其特征在于,包括:
文本单元确定单元,确定当前文本单元和前一文本单元,其中,所述当前文本单元为当前训练文本的文本单元,所述前一文本单元包括按照当前训练文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述当前训练文本开始的文本初始单元,各个所述文本单元均标注有基准韵律;
预测向量获取单元,适于获取所述当前文本单元的训练当前文本预测向量,获取所述前一文本单元的基准韵律的前一韵律预测向量,对所述训练当前文本预测向量和所述前一韵律预测向量进行融合,得到所述当前文本单元的训练韵律融合预测向量;
训练预测韵律向量获取单元,适于根据所述训练当前文本预测向量对所述当前文本单元的韵律进行预测,得到第一训练预测韵律向量,根据所述训练韵律融合预测向量对所述当前文本单元的韵律进行预测,得到第二训练预测韵律向量;
参数调整单元,适于根据所述第一训练预测韵律向量和所述当前文本单元的基准韵律向量获取第一损失,根据所述第二训练预测韵律向量和所述当前文本单元的基准韵律向量获取第二损失,利用平衡因子根据所述第一损失和所述第二损失获取当前文本单元预测损失,根据所述当前文本单元预测损失调整所述韵律预测模型的参数,直至所述当前文本单元预测损失满足文本单元损失阈值,得到训练完成的所述韵律预测模型。
14.一种韵律预测装置,其特征在于,包括:
预测韵律向量获取单元,利用如权利要求1-11任一项所述的韵律预测模型训练方法所获取的韵律预测模型,获取待韵律预测文本的当前文本单元的第一预测韵律向量和第二预测韵律向量,其中,所述第一预测韵律向量根据所确定的待韵律预测文本的当前文本单元的当前文本预测向量获取,所述第二预测韵律向量根据当前文本的韵律融合预测向量获取,所述韵律融合预测向量通过所述当前文本预测向量和已获取的前一文本单元的前一韵律预测向量的融合获取,所述前一文本单元包括按照待韵律预测文本的各个文本单元的位置排列,邻近且位于所述当前文本单元前的文本单元,以及用于表示所述待韵律预测文本开始的文本初始单元;
文本韵律获取单元,根据所述第一预测韵律向量和所述第二预测韵律向量获取当前单元预测韵律,并按照待韵律预测文本的文本单元的排列顺序确定所述当前文本单元后的文本单元为新的当前文本单元,直至已完成所述待韵律预测文本的各个文本单元的预测韵律,利用各个所述当前单元预测韵律向量获取所述待韵律预测文本的韵律。
15.一种存储介质,其特征在于,所述存储介质存储有适于韵律预测模型训练的程序,以实现如权利要求1-11任一项所述的韵律预测模型训练方法,或者所述存储介质存储有适于韵律预测的程序,以实现如权利要求12所述的韵律预测方法。
16.一种适于韵律预测模型训练或者适于韵律预测的电子设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-11任一项所述的韵律预测模型训练方法或者如权利要求12所述的韵律预测方法。
CN202011135972.3A 2020-10-22 2020-10-22 韵律预测模型训练方法、韵律预测方法及相关装置 Active CN112017628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135972.3A CN112017628B (zh) 2020-10-22 2020-10-22 韵律预测模型训练方法、韵律预测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135972.3A CN112017628B (zh) 2020-10-22 2020-10-22 韵律预测模型训练方法、韵律预测方法及相关装置

Publications (2)

Publication Number Publication Date
CN112017628A CN112017628A (zh) 2020-12-01
CN112017628B true CN112017628B (zh) 2021-01-29

Family

ID=73527985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135972.3A Active CN112017628B (zh) 2020-10-22 2020-10-22 韵律预测模型训练方法、韵律预测方法及相关装置

Country Status (1)

Country Link
CN (1) CN112017628B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381057A (zh) * 2020-12-03 2021-02-19 上海芯翌智能科技有限公司 手写文字识别方法及装置、存储介质、终端
CN116842616B (zh) * 2023-06-30 2024-01-26 同济大学 基于地下道路侧壁频率的速度感知增强韵律曲线设计方法

Also Published As

Publication number Publication date
CN112017628A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
US20230081659A1 (en) Cross-speaker style transfer speech synthesis
US20220261557A1 (en) Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
CN111798868B (zh) 语音强制对齐模型评价方法、装置、电子设备及存储介质
CN112017628B (zh) 韵律预测模型训练方法、韵律预测方法及相关装置
CN116629235B (zh) 大规模预训练语言模型微调方法、装置、电子设备及介质
CN112133287B (zh) 语音识别模型训练方法、语音识别方法及相关装置
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN108710704A (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN111243571B (zh) 文本的处理方法、装置、设备及计算机可读存储介质
CN109815486A (zh) 自然语言生成方法、装置、设备及可读存储介质
WO2021238337A1 (zh) 用于实体标注的方法和装置
CN110457719A (zh) 一种翻译模型结果重排序的方法及装置
CN112579760A (zh) 人机对话方法、装置、计算机设备及可读存储介质
CN111950295A (zh) 一种训练自然语言处理模型的方法和系统
CN112530405B (zh) 一种端到端语音合成纠错方法、系统及装置
CN113435180B (zh) 文本纠错方法、装置、电子设备及存储介质
CN118350572A (zh) 一种需求交付方法及装置
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
CN105302336A (zh) 一种输入纠错方法和装置
CN112784611A (zh) 数据处理方法、装置及计算机存储介质
CN116092494A (zh) 语音交互方法、服务器和计算机可读存储介质
CN114333760B (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN110245331A (zh) 一种语句转换方法、装置、服务器及计算机存储介质
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant