CN114333760B - 一种信息预测模块的构建方法、信息预测方法及相关设备 - Google Patents

一种信息预测模块的构建方法、信息预测方法及相关设备 Download PDF

Info

Publication number
CN114333760B
CN114333760B CN202111679120.5A CN202111679120A CN114333760B CN 114333760 B CN114333760 B CN 114333760B CN 202111679120 A CN202111679120 A CN 202111679120A CN 114333760 B CN114333760 B CN 114333760B
Authority
CN
China
Prior art keywords
training
information
prediction
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111679120.5A
Other languages
English (en)
Other versions
CN114333760A (zh
Inventor
高丽
王瑾薇
刘庆峰
胡国平
刘聪
胡亚军
江源
祖漪清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111679120.5A priority Critical patent/CN114333760B/zh
Publication of CN114333760A publication Critical patent/CN114333760A/zh
Priority to PCT/CN2022/099124 priority patent/WO2023123892A1/zh
Application granted granted Critical
Publication of CN114333760B publication Critical patent/CN114333760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。

Description

一种信息预测模块的构建方法、信息预测方法及相关设备
技术领域
本申请涉及语音合成技术领域,尤其涉及一种信息预测模块的构建方法、信息预测方法及相关设备。
背景技术
语音合成前端信息的预测是自然语言处理领域的分支之一。语音合成前端的信息预测任务往往不止一个,比如,韵律预测、多音字预测、符号读法预测等。
目前的语音合成前端预测方案一般需要针对不同的预测任务分别设计和构建不同的预测模型,比如,针对韵律预测任务设计和构建韵律预测模型、针对多音字预测任务设计和构建多音字预测模型、针对符号读法预测设计和构建符号读法预测模型。
由于目前的语音合成前端预测方案涉及较多的模型,因此,实现起来较为复杂,此外,基于较多的模型进行语音合成前端信息预测存在效率不高等问题。
发明内容
有鉴于此,本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,用以解决现有的语音合成前端预测方案实现起来较为复杂且效率不高的问题,其技术方案如下:
一种信息预测模块的构建方法,包括:
以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
可选的,所述以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,包括:
以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,作为构建的文本处理模块。
可选的,所述多种语音合成前端信息包括多音字信息;
所述以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。
可选的,所述以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一次训练后的语言模型;
结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型;
结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。
可选的,所述多音字训练语料为预先构建的多音字训练语料集中的训练语料,所述多音字训练语料集的构建过程包括:
从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料;
根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重,其中,一多音字对应的权重根据该多音字的易错率设定;
根据所述若干候选多音字训练语料分别对应的多音字权重,从所述若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。
可选的,所述基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,包括:
基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型,作为多任务处理模块;
其中,所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块,所述编码模块采用所述预训练语言模型,每个任务处理模块用于预测一种语音合成前端信息;
所述对所述多任务处理模块进行处理,包括:
对所述多任务联合模型进行训练,训练后的多任务联合模型作为构建的信息预测模块。
可选的,所述多个任务处理模块包括:多音字预测模块、韵律预测模块和符号读法预测模块;
所述对所述多任务联合模型进行训练,包括:
对所述多音字预测模块和所述韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块;
固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块,对所述符号读法预测模块进行训练。
可选的,对所述多音字预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,所述候选读音集中包括对应多音字的所有读音;
根据所述多音字预测结果和训练语料中多音字标注的读音,对所述多音字预测模块进行参数更新。
可选的,对所述韵律预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率,作为韵律预测结果;
根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。
可选的,对所述符号读法预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果,其中,所述候选读法集包括对应符号的所有读法;
根据所述符号读法预测结果和训练语料中符号标注的读法,对所述符号读法预测模块进行参数更新。
可选的,所述利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,包括:
针对训练语料中的每个符号:
利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果中,该符号的语义信息以及与该符号相关的数字的语义信息为依据,预测该符号的读法为该符号对应的候选读法集中各候选读法的概率。
一种信息预测方法,包括:采用上述任一项所述的信息预测模块的构建方法构建的信息预测模型,针对待预测文本预测多种语音合成前端信息,其中,所述多种语音合成前端信息中包括与发音相关的信息。
一种信息预测方法,包括:
获取待预测调核位置的文本数据;
对所述文本数据进行分词,得到分词单元;
获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用上述的信息预测方法针对所述文本数据预测出的信息中与发音相关的信息;
根据所述分词单元以及所述分词单元的语言学特征,预测所述文本数据的韵律词边界和调核位置。
可选的,所述根据所述分词单元以及所述分词单元的语言学特征,预测所述文本数据的韵律词边界和调核位置,包括:
利用预先构建的调核位置预测模块,以所述分词单元以及所述分词单元的语言学特征为依据,预测所述文本数据的韵律词边界和调核位置。
可选的,调核位置预测模块为调核位置预测模型,所述调核位置预测模型采用标注有韵律词边界和调核位置的训练文本训练得到,所述调核位置预测模型的训练过程包括:
对无标注的第一训练文本进行分词,并获取所述第一训练文本的分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息;
基于所述第一训练文本的分词单元和所述第一训练文本的分词单元的语言学特征,对初始的语言模型进行预训练,得到预训练语言模型;
基于所述预训练语言模型,构建调核位置模型,其中,所述调核位置预测模型包括编码子模块和调核位置预测子模块,所述编码子模块采用所述预训练语言模型;
采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型。
可选的,所述采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型,包括:
利用所述调核位置预测模型的编码子模块,对所述第二训练文本的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到所述第二训练文本对应的融合有词性信息和发音信息的编码结果;
利用所述调核位置预测模型的调核位置预测子模块,以所述第二训练文本对应的融合有词性信息和发音信息的编码结果为依据,预测所述第二训练文本的每个分词单元所属的信息类别为设定的各信息类别的概率,作为调核位置预测结果,其中,一分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置;
根据所述调核位置预测结果和所述第二训练文本标注的韵律词边界和调核位置,对所述调核位置预测模型进行参数更新。
一种信息预测装置,所述信息预测装置采用上述第1~11中任一项所述的信息预测模块的构建方法构建出的信息预测模块,针对待预测文本预测两种以上的语音合成前端信息,其中,所述多种语音合成前端信息中包括与发音相关的信息。
一种信息预测装置,包括:文本数据获取模块、文本数据分词模块、语言学特征获取模块和信息预测模块;
所述文本数据获取模块,用于获取待预测调核位置的文本数据;
所述文本数据分词模块,用于对所述文本数据进行分词,得到分词单元;
所述语言学特征获取模块,用于获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用上述第12项所述的信息预测方法针对所述文本数据预测出的信息中与发音相关的信息;
所述信息预测模块,用于根据所述分词单元以及所述分词单元的语言学特征,预测所述文本数据的韵律词边界和调核位置。
一种处理设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述第1~11项中任一项所述的信息预测模块的构建方法的各个步骤,和/或,实现上述第12项所述的信息预测方法的各个步骤,和/或,实现上述第13~16中任一项所述的信息预测方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述第1~11项中任一项所述的信息预测模块的构建方法的各个步骤,和/或,实现上述第12项所述的信息预测方法的各个步骤,和/或,实现上述第13~16项中任一项所述的信息预测方法的各个步骤。
经由上述方案可知,本申请提供的信息预测模块的构建方法,首先以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,然后基于文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,最后对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为最终构建的信息预测模块。经由本申请提供的信息预测模块的构建方法,可构建出能够同时对多种语音合成前端信息进行预测的信息预测模块,由于本申请只需要构建一个模块,相比于构建多个模型和规则,实现复杂度大大降低。
在本申请提供的信息预测模块的构建方法的基础上,本申请还提供了一种信息预测方法,该信息预测方法采用本申请提供的信息预测模块的构建方法构建出的信息预测模块对待预测文本进行多种语音合成前端信息的预测,由于本申请通过一个模块即可同时预测出多种语音合成前端信息,因此,相比于通过多个模型和规则预测多种信息,预测效率大大提高。在本申请提供的信息预测方法的基础上,本申请还提供了另一种用于预测韵律词边界和调核位置的信息预测方法,由于该方法在预测的过程中引入了与调核位置和韵律词边界相关的语言学特征,因此,该方法可同时预测出较为准确的韵律词边界和调核位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的信息预测模块的构建方法的流程示意图;
图2为本申请实施例提供的信息预测模型的构建方法的流程示意图;
图3为本申请实施例提供的用于处理韵律预测任务、多音字预测任务和符号读法预测任务的信息预测模型的训练过程的流程示意图;
图4为本申请实施例提供的以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练的示意图;
图5为本申请实施例提供的结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练的示意图;
图6为本申请实施例提供的结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练的示意图;
图7为本申请实施例提供的包括编码模块和共享编码模块的韵律预测模块、多音字预测模块和符号读法预测模块的多任务联合模型的示意图;
图8为本申请实施例提供的4个音节的单词从0调到4调的四种调核形式的示意图;
图9为本申请实施例提供的信息预测方法的流程示意图;
图10为本申请实施例提供的调核位置预测模型的训练过程的流程示意图;
图11为本申请实施例提供的调核位置预测模型进行调核位置预测的示意图;
图12为本申请实施例提供的信息预测模块的构建装置的结构示意图;
图13为本申请实施例提供的信息预测装置的结构示意图;
图14为本申请实施例提供的处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人在实现本申请的过程中发现:目前的语音合成前端信息预测方案,一般针对不同的预测任务分别设计不同的模型或规则,以多音字预测任务、韵律预测任务和符号读法预测任务为例,多音字预测网络主要采用由Word2Vec和Glove等训练的固定字向量,然后利用LSTM网络来预测多音字的发音,韵律预测主要是通过LSTM网络与CRF算法的组合,来预测韵律边界位置,符号读法预测主要是通过规则匹配的方式去确定各种符号的读法,可见,实现语音合成前端信息预测的模型多规则多,且存在着准确度不高,处理效率不高等的问题。
鉴于目前的语音合成前端信息预测方案存在的问题,本申请人试图提出解决方案,为此,进行了深入研究,通过不断研究,最终提出了一种信息预测模块的构建方法,经由该方法可构建出能够同时处理多种语音合成前端信息的预测任务的信息预测模块。本申请提供的信息预测模块的构建方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),也可以为用户侧使用的终端,比如智能手机、PC、笔记本、PAD等,服务器或终端可按本申请提供的信息预测模块的构建方法构建出能够同时处理多种语音合成前端信息的预测任务的信息预测模块。接下来通过下述实施例对本申请提供的信息预测模块的构建方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的信息预测模块的构建方法的流程示意图,该方法可以包括:
步骤S101:以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块。
其中,文本处理模块为能够将文本单元编码为向量的模块,以能够获得文本单元在不同语境下的语义信息为目标构建的文本处理模块能够将文本单元编码为包含上下文信息的向量。
步骤S102:基于构建的文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块。
可选的,多任务处理模块可以包括编码模块和共享编码模块的多个任务处理模块,其中,编码模块采用构建的文本处理模块,多个任务处理模块中的每个任务处理模块用于预测一种语音合成前端信息,比如,多个任务处理模块可以包括用于预测多音字信息的多音字预测模块、用于预测韵律信息的韵律预测模块和用于预测符号读法信息的符号读法预测模块。需要说明的是,多任务处理模块的多个任务处理模块包括多音字预测模块、韵律预测模块和多音字预测模块仅为示例,除此之外,多任务处理模块的多个任务处理模块还可以包括除上述三个模块之外的其它模块(用于预测除多音字信息、韵律信息、符号读法信息之外的其它语音合成前端信息的模块),还可包括上述三个模块中的任意两个模块,也可以包括上述三个模块中的至少部分模块和除上述三个模块之外的其它模块。
步骤S103:对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
经由上述方式可构建出能够同时处理多种语音合成前端信息的预测任务的信息预测模块,即利用经由上述方式构建的信息预测模块能够针对待预测文本同时预测出多种语音合成前端信息。
本申请实施例提供的信息预测模块的构建方法,首先以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,然后基于文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,最后对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。经由本申请实施例提供的信息预测模块的构建方法可构建出能够同时对多种语音合成前端信息进行预测的信息预测模块,由于本申请实施例只需要构建一个模块,因此,相比于构建多个模型和规则,实现复杂度大大降低。
第二实施例
上述实施例中的信息预测模块可以为信息预测模型,当然,本实施例并不限定于此,信息预测模块除了可以为模型外,还可以为其它形式的能够实现多种语音合成前端信息预测的模块,比如基于规则实现多种语音合成前端信息预测的模块,本实施例不对信息预测模块的具体实现形式进行限定。
接下来以信息预测模块为信息预测模型为例,对信息预测模块的构建方法进一步进行介绍。
请参阅图2,示出了信息预测模型的构建方法的流程示意图,该方法可以包括:
步骤S201:以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。
获得的预训练语言模型作为上述实施例中的“文本处理模块”。
以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,使得语言模型能够更大限度的去学习不同语境中不同文本单元的语义信息。
可选的,本步骤中的语言模型可以为Bert语言模型,当然,本实施例并不限定于,本步骤中的语言模型可以为任何无监督语言模型。
可选的,语言模型可以采用Transformer编码器,即,语言模型包括N个相同的层,每个层中包含两个子层,即多头自注意力层和前馈神经网络层,其中,每个子层都附加残差连接和归一化,对于任一子层,若输入为x,则子层的输出可表示为:
suboutput=LayerNorm(x+sublayer(x)) (1)
其中,suboutput表示子层对输入x进行处理后的输出,LayerNorm表示归一化函数。
需要说明的是,注意力机制的数据表达式为:
attention_output=Attention(Q,K,V)
其中,Attention(Q,K,V)表示对Q,K,V进行注意力计算,attention_output表示注意力计算结果。
多头注意力机制则是通过h个不同的线性变换对Q,K,V进行投影,最后将不同的注意力计算结果拼接起来:
MultiHead(Q,K,V)=Concat(head1,head2..,headh)WO (2)
headi=Attention(QWi Q,KWi K,VWi V) (3)
其中,headi表示第i个注意力计算结果,其通过第i个线性变换对Q,K,V进行投影得到,MultiHead(Q,K,V)表示通过h个不同的线性变换对Q,K,V进行投影得到的h个注意力计算结果的拼接结果。
需要说明的是,由于是自注意力机制,因此,Q、K、V相同,均为多头自注意力层的输入。
另外需要说明的是,本实施例并不限定语言模型采用Transformer编码器,语言模型还可采用其它,比如,RNN、LSTM等。
步骤S202:基于预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型。
本步骤构建的多任务联合模型作为上述实施例中“多任务处理模块”。
可选的,多任务联合模型可以包括编码模块和共享编码模块的多个任务处理模块,其中,编码模块采用预训练语言模型,多个任务处理模块中的每个任务处理模块用于预测一种语音合成前端信息。
步骤S203:对多任务联合模型进行训练,以使训练后的信息预测模块具备处理多种语音合成前端信息的预测任务的能力,训练后的信息预测模块作为构建的信息预测模型。
经由上述方式可获得能够同时处理多种语音合成前端信息的预测任务的信息预测模型,即利用经由上述方式获得的信息预测模型能够针对待预测文本同时预测出多种语音合成前端信息。
本申请实施例提供的信息预测模型的构建方法,首先以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,然后基于预训练语言模型构建用于处理多种语音合成前端信息的预测任务的多任务联合模型,最后对多任务联合模型进行训练,训练后的多任务联合模型作为用于预测多种语音合成前端信息的信息预测模型。经由本申请实施例提供的信息预测模型的构建方法可构建出能够同时对多种语音合成前端信息进行预测的信息预测模型,由于本申请实施例只需要构建一个模型,因此,相比于构建多个模型和规则,实现复杂度大大降低,此外,以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,使得最终训练得到的信息预测模型能够具有更高的预测准确度。
第三实施例
多音字预测是语音合成前端预测中对效果要求最高的任务。多种语言中都有同字不同音的情况,尤其是中文,中文共有908个多音字,其中,常用的多音字多达150个左右。对于多音字而言,即使相同的词组搭配,在不同的语境中也会有不同的读音,例如,“在商场周围已经转(zhuan4)了一遍了”和“这个信息已经转(zhuan3)了一遍了”,其中,“3”、“4”分别表示三声调和四声调。预测多音字难度大的同时,人们对多音字发音错误敏感不可接受度高。多音字预测结果转换而成的音素序列,会作为语音合成后端的输入条件,因此,多音字预测错误会造成合成语音的错误发音,合成语音的多音字发音错误会直接降低人们对合成系统的用户体验,由此可见多音字预测的重要程度。
韵律预测是指在文本数据中,根据语义信息,在字词间预测出韵律边界位置,进而后续在韵律边界处给出相应时长的停顿间隔。韵律的合理划分会使合成语音形成合适的节奏,例如:“你到了#记得*给我*打*电话。”,其中“*”、“#”分别为韵律边界的短停顿标识符和长停顿标识符。韵律划分在提升自然度的同时,也会影响语义信息,关系到合成语音的可懂度。
很多文本数据中包含多种符号,这些符号在不同的语境中具有不同的读法,例如,“2-1是1”和“在10-20之间”,其中“-”分别读“减”和“至”,可以理解的是,若针对符号预测出错误的读法势必影响合成语音的质量。
综上,多音字预测、韵律预测和符号读法预测对语音合成有着重要的意义。为此,在上述实施例的基础上,本实施例以语音合成前端的信息预测任务包括韵律预测任务、多音字预测任务和符号读法预测任务为例,对构建能够处理这三种预测任务的信息预测模型的过程进行介绍。
请参阅图3,示出了构建能够处理韵律预测任务、多音字预测任务和符号读法预测任务的信息预测模型的流程示意图,可以包括:
步骤S301:以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练。
具体的,以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练的过程可以包括:
步骤S3011、以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一次训练后的语言模型。
本实施例中的训练语料可以为中文语料,也可以为英文语料,还可以为中英混合语料,当然,本实施例并不限定于此,训练语料还可以为其它语种的语料,比如日文语料、中日混合语料等等。若训练语料为中文语料,则可以字作为文本单元,若训练语料为英文语料,则可以单词作为文本单元,若训练语料为中英混合语料,则中英混合语料中的中文部分,以字作为文本单元,中英混合语料中的英文部分以单词作为文本单元,其它语种的语料类似。
在对初始的语言模型进行训练前,首先将训练语料中的部分文本单元隐藏,然后针对训练语料中的每个文本单元,如图3所示,获取表征该文本单元自身的向量和表征该文本单元在训练语料中所处位置的向量,并将表征该文本单元自身的向量和表征该文本单元在训练语料中所处位置的向量融合,融合后向量作为该文本单元的表示向量,以得到训练语料对应的文本单元表示向量序列,然后将训练语料对应的文本单元表示向量序列中隐藏的文本单元的表示向量用隐藏标记比如[MASK]替换,如图3所示,训练语料“hello,欢迎使用iflytek语音合成系统”中隐藏的文本单元为“欢”、“iflytek”和“成”,则将训练语料对应的文本单元表示向量序列中“欢”、“iflytek”和“成”的表示向量分别用[MASK]替换,将替换后的文本单元表示向量序列输入初始的语言模型,初始的语言模型对输入进行编码,根据编码结果预测训练语料中隐藏的文本单元为字典中各文本单元的概率。
其中,在将训练语料中的部分文本单元隐藏时,可基于设定隐藏比例对训练语料中的文本单元进行隐藏,基于设定隐藏比例对训练语料中的文本单元进行隐藏的实现方式有多种,在一种可能的实现方式中,可将训练语料中设定隐藏比例的文本单元隐藏,比如,设定隐藏比例为15%,则将训练语料中15%的文本单元隐藏,为了提升模型的鲁棒性,在另一种实现方式中,可将训练语料中设定隐藏比例的文本单元中的部分文本单元隐藏、部分文本单元用随意的其它文本单元替换、部分文本单元保持不变,比如,设定隐藏比例为15%,则可将训练语料中15%的文本单元中的80%隐藏,剩余20%中的其中10%用随意的其它文本单元替换,另外10%保持不变,如此是为了引入随机噪声,以使训练得到的模型鲁棒性更强。
步骤S3012、结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型。
为了使语言模型更好地学习文本单元在不同语境下的语义信息,即为了进一步增强语言模型学习文本语义信息的能力,从而更好的提升下游多音字预测任务、韵律预测任务以及符号读法预测任务的效果,本申请提出,对一次训练后的语言模型进一步进行训练,此次训练仍以预测训练语料中隐藏的文本单元为任务进行训练,同时,考虑到多音字的读法往往和词组的搭配有很密切的关系,比如“银行[hang2]”和“行[xing2]人”,并且,韵律的划分也与词的关系有密不可分的联系,本申请提出将分词和词性信息作为先验信息引入此次训练,分词和词性信息作为先验信息引入,并且以预测隐藏的文本单元为任务,有利于语言模型对文本单元间语义的学习。
可选的,训练语料的分词及词性信息可通过如下方式中的任一种获取:基于LTP(Language Technology Platform,语言技术平台)对训练语料进行处理,以得到训练语料的分词及词性信息;采用Google开源的自然语言处理工具包SentencePiece对训练语料进行处理,以得到训练语料的分词及词性信息。
请参阅图4,示出了结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练的示意图,具体的,获取训练语料对应的文本单元表示向量序列(此处获取训练语料对应的文本单元表示向量序列的实现过程与上述S3011的介绍说明中获取训练语料对应的文本单元表示向量序列的实现过程相同),将训练语料对应的文本单元表示向量序列中隐藏的文本单元的表示向量用隐藏标记比如[MASK]替换,得到替换后的文本单元表示向量序列,获取训练语料的分词信息的表示向量及词性信息的表示向量,将替换后的文本单元表示向量序列以及训练语料的分词信息的表示向量及词性信息的表示向量输入一次训练后的语言模型,一次训练后的语言模型对输入进行编码,并根据编码结果预测训练语料中隐藏的文本单元为字典中各文本单元的概率。其中,在将替换后的文本单元表示向量序列以及训练语料的分词信息的表示向量及词性信息的表示向量输入一次训练后的语言模型时,如图5所示,可利用前馈网络将训练语料的分词信息的表示向量及词性信息的表示向量融入替换后的文本单元表示向量序列中,然后将融合结果输入一次训练后的语言模型进行编码。
需要说明的,本步骤中的文本单元与步骤S3011的文本单元类似,比如英文语料,以单词作为文本单元,中文语料以字作为文本单元,中英混合语料中的中文部分以字作为文本单元,英文部分以单词作为文本单元。另外需要说明的是,步骤S3011与步骤S3012中的训练语料可以为同一训练语料库中的训练语料,比如训练语料库中包括多个中文语料、多个英文语料、多个中英混合语料,在进行步骤S3011和步骤S3012的训练时,均可从该训练语料库中获取训练数据进行训练。
步骤S3013、结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。
本步骤中的多音字训练语料为预先构建的多音字训练语料集中的训练语料,多音字训练语料集的构建过程包括:
步骤a1、从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料。
步骤a2、根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重。
其中,一多音字对应的权重根据该多音字的易错率设定。
具体的,针对每个候选多音字训练语料,可将该候选多音字训练语料包含的各多音字分别对应的权重求和,求和后权重作为该候选多音字训练语料对应的多音字权重,如此可获得若干候选多音字训练语料分别对应的多音字权重。
步骤a3、根据若干候选多音字训练语料分别对应的多音字权重,从若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。
根据若干候选多音字训练语料分别对应的多音字权重,从若干候选多音字训练语料中筛选多音字训练语料的实现方式有多种,在一种可能的实现方式中,可从若干候选多音字训练语料中筛选对应的多音字权重大于预设的多音字权重阈值的候选多音字训练语料作为多音字训练语料,在另一种可能的实现方式中,可按多音字权重从大到小的顺序对若干候选多音字训练语料进行排序,将排在前M的M个候选多音字训练语料作为筛选出的多音字训练语料,其中,M可根据具体情况设定。
需要说明的是,多音字预测任务是语音合成前端预测任务中的重中之重,多音字预测的准确率是衡量前端预测系统的重要指标,想要在语言模型的下游任务中提升多音字预测的准确率,只从下游任务中入手是不够的,往往需要语言模型更多的去学习多音字文本单元在不同语境下的语义信息,即学习多音字文本单元在不同语料中的不同含义,语言模型学习的更好,会更有利于下游任务的预测,有鉴于此,本申请提出,以学习多音字文本单元在不同语境下的语义信息为目标,对二次训练后的语言模型进一步进行训练,在训练时,结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练。
需要说明的是,本次训练与二次训练的不同在于:其一,本次训练所使用的训练语料中需要有多音字文本单元(二次训练使用的训练语料中有无多音字文本单元均可);其二,在对训练语料中的文本单元进行隐藏时,隐藏的文本单元需要包括多音字文本单元;其三,本次训练以偏向预测训练语料中隐藏的多音字文本单元为任务进行。除了上述几点不同,本次训练的训练过程与二次训练的训练过程类似,本实施例在此不做赘述。
上述内容提到,在对多音字训练语料中的文本单元进行隐藏时,隐藏的文本单元需要包括多音字文本单元,在一种可能的实现方式中,隐藏的文本单元可以全部为多音字文本单元,考虑到语言模型不只需要对多音字文本单元的信息进行学习,也要对其它文本单元进行学习,如此才能获得性能更佳的语言模型,在另一种可能的实现方式中,隐藏的文本单元需要包括多音字文本单元和非多音字文本单元,具体的,可将多音字训练语料中预设隐藏比例的文本单元隐藏,其中,预设隐藏比例的文本单元中包括多音字文本单元和非多音字文本单元,且多音字文本单元所占比例高于非多音字文本单元的比例,示例性的,可将多音字训练语料中15%的文本单元隐藏,其中,15%的文本单元中85%的文本单元为多音字文本单元,15%的文本单元为非多音字文本单元,需要说明是,隐藏更多的多音字文本单元可以让语言模型偏向于去学习多音字文本单元在不同语料中的语义。
请参阅图6,示出了结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练的示意图,图6中隐藏的文本单元是“欢”、“合”和“系”,其中,“合”和“系”为多音字文本单元,“欢”为非多音字文本单元,可见,本申请通过使隐藏的文本单元中多音字文本单元所占比例高于非多音字文本单元的比例,让语言模型偏向于去学习多音字文本单元在不同语料中的语义,从而更好的学习到多音字的信息。
步骤S302:基于预训练语言模型构建用于处理韵律预测任务、多音字预测任务和符号读法预测任务的多任务联合模型。
其中,多任务联合模型包括编码模块和共享编码模块的韵律预测模块、多音字预测模块和符号读法预测模块,如图7所示,其中,编码模块采用预训练语言模型。可选的,韵律预测模块、多音字预测模块和符号读法预测模块均可采用DNN层和Softmax层。
对于多音字信息、韵律信息和符号读法信息的预测,采用目前的语音合成前端预测方案需要训练四个模型,即多音字预测模型、符号读法预测、短停顿预测和长停顿预测模型,需要说明的是,韵律预测分为短停顿预测和长停顿预测,因此,针对韵律信息的预测,需要训练两个模型。针对三个预测任务分别训练四个模型,使得针对语音合成前端信息的预测模型过多,预测效率低下。有鉴于此,本申请提出构建一个能够同时对多音字信息、韵律信息和符号读法信息进行预测的多任务联合模型。另外,由于多音字预测任务和韵律预测任务具有关联性,因此,构建多任务联合模型,在后续训练时将韵律预测模块与多音字预测模块联合训练能够进一步提升模型的预测效果。
步骤S303:对多任务联合模型进行训练,训练后的多任务联合模型作为信息预测模型。
训练得到的信息预测模块用于针对待预测文本预测韵律信息、多音字信息和符号读法信息。
具体的,对多任务联合模型进行训练的过程可以包括:
步骤S3031、对多音字预测模块和韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块。
考虑到多音字预测任务和韵律预测任务具有关联性,本申请对多音字预测模块和韵律预测模块进行联合训练,在对多音字预测模块和韵律预测模块进行联合训练时,采用交替训练的方式对二者进行训练,即交替对多音字预测模块和韵律预测模块进行参数更新。需要说明的是,对多音字预测模块进行训练时,对多音字预测模块和编码模块进行参数更新,在对韵律预测模块进行训练时,对韵律预测模块和编码模块进行参数更新。
其中,对多音字预测模块进行训练的过程可以包括:
步骤b1、利用编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果。
具体的,获取训练语料中每个文本单元的表示向量(一文本单元的表示向量通过将表征该文本单元的向量与表征该文本单元在训练语料中位置的向量融合得到),以得到训练语料对应的文本单元表示向量序列,并获取训练语料的分词信息的表示向量和词性信息的表示向量,将训练语料的分词信息的表示向量和词性信息的表示向量融入训练语料对应的文本单元表示向量序列中,获得融合结果,将融合结果输入编码模块进行编码,以得到训练语料对应的融合有分词和词性信息的编码结果。
步骤b2、利用多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,进行多音字预测,得到多音字预测结果。
利用多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,进行多音字预测,得到多音字预测结果的实现方式有多种:
在一种可能的实现方式中,可利用多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为设定的候选读音集合中各候选读音的概率,作为多音字预测结果。该实现方式中,候选读音集合可以包括所有多音字文本单元的所有的读音(由不同多音字文本单元存在同音的情况,因此,此种情况下,候选读音集合中会存在重复的读音),也可以包括对所有多音字文本单元的所有读音进行去重后的读音。以中文为例,中文中有908个多音字,将各个多音字的读音的数量求和,为1992,即,将所有多音字的读音分开,一共有1992个读音,由于存在不同多音字同音的情况,因此,1992个读音中存在重复读音,若对1992个读音去重,会得到792个读音,即,上述的候选读音集合可以包括上述的1992个读音,也可以包括上述的792个读音。
由于每个多音字文本单元对应的读音个数不同,将多音字文本单元直接映射到所有读音的类别空间,避免了针对不同多音字文本单元构建不同的模型,省去了逻辑判断,但是,上述实现方式对于数量相对少的多音字训练语料,会出现预测到不属于多音字文本单元的读音的情况,针对该问题,本申请提出了另一种较为优选的实现方式:
利用多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,候选读音集中包括对应多音字的所有读音。在该实现方式中,预先构建每个多音字文本单元对应的候选读音集,比如,多音字文本单元“中”对应的候选读音集为其所有的读音,即[zhong1、zhong4],在对多音字文本单元“中”进行预测时,只需预测“中”的读音为“zhong1”的概率,以及“中”的读音为“zhong4”的概率,如此能够增加对这两个读音的区别度,也不会对其它多音字文本单元的读音产生影响,另外,模型训练的时候只会根据两个概率计算预测损失,进而更新参数。
另外,需要说明的是,在进行多音字预测时,可通过位置掩码MASK获取多音字的位置,位置掩码MASK的总长度与训练语料的总长度相同,其中,位置掩码MASK中与训练语料中的多音字所在位置对应的位置为1,其它位置为0,比如,训练语料的第3、5个位置为多音字文本单元,其它位置为非多音字文本单元,则位置掩码MASK的第3、5个位置为1,其它位置为0。
步骤b3、根据多音字预测结果和训练语料中多音字标注的读音,对多音字预测模块进行参数更新。
具体的,根据多音字预测结果和训练语料中多音字标注的读音计算多音字预测模块的预测损失,根据多音字预测模块的预测损失对多音字预测模块进行参数更新。在对多音字预测模块进行参数更新时,也对编码模块进行参数更新。
考虑到多音字预测的训练语料存在不均衡问题,比如,某个多音字有两个读音,其中一个读音为常用读音,另一个读音为不常用读音,则包含该多音字的语料中,多数语料中该多音字的读音为常用读音,只有少数语料中该多音字的读音为不常用读音,采用这样的训练语料训练模型,不利于模型去分辨这个多音字不同读音所表示的含义,为此,本申请提出采用Focal Loss去改善该问题,Focal Loss的公式表示如下:
FL(pt)=-at(1-pt)γlog(pt) (4)
其中,FL(pt)表示计算得到的Focal Loss即预测损失,at>0和γ>0分别表示调整参数,一般而言,当γ增大时,at需要相应的减小,pt表示预测的概率值。通过该公式可以看出,一个训练语料被分错的时候pt是很小的,此时,调制系数(1-pt)γ趋向于1,即,对于难分类语料而言,调制系数很大,一个训练语料被分对时,pt趋向于1,其调制系数(1-pt)γ很小,即对于易分类语料,调制系数很小。使难分类语料的调制系数很大,能够使模型更加关注难分类样本,从而提升难分类样本对模型的贡献。
接下来对韵律预测模块的训练过程进行介绍。对韵律预测模块进行训练的过程可以包括:
步骤c1、利用编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果。
步骤c1的实现方式与上述步骤b1的实现方式相同,具体可参见上述步骤b1的实现方式,本实施例在此不做赘述。
步骤c2、利用韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中的每个候选短停顿位置为短停顿位置的概率以及训练语料中的每个候选长停顿位置为长停顿位置的概率,作为韵律预测结果。
具体的,利用韵律预测模块中的短停顿位置预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中的每个候选短停顿位置为短停顿位置的概率,作为第一韵律预测结果,利用韵律预测模块中的长短停顿位置预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中的每个候选长停顿位置为长停顿位置的概率,作为第二韵律预测结果。需要说明的是,短停顿位置的预测可看作“0-1”二分类问题,“1”表示短停顿位置,“0”表示“非短停顿位置”,针对训练语料中的每个候选短停顿位置,预测其所属类别为“1”的概率,长停顿位置的预测同样如此。
步骤c3、根据韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对韵律预测模块进行参数更新。
具体的,根据第一韵律预测结果以及训练语料标注的短停顿位置,确定短停顿位置预测模块的预测损失,根据短停顿位置预测模块的预测损失对短停顿位置预测模块进行参数更新,类似的,根据第二韵律预测结果以及训练语料标注的长短停顿位置,确定长停顿位置预测模块的预测损失,根据长停顿位置预测模块的预测损失对长停顿位置预测模块进行参数更新。在对短停顿位置预测模块和长停顿位置预测模块进行参数更新时,也对编码模块进行参数更新。
可选的,考虑到多音字预测任务、长停顿位置预测任务和短停顿位置预测任务难易程度和优先级不同,可采用不同的权值分别对多音字预测模块的预测损失、短停顿位置预测模块的预测损失以及长停顿位置预测模块的预测损失进行加权,根据加权后的损失对对应的预测模块进行参数更新。需要说明的是,三个预测损失分别对应的权值即根据三个预测任务的难易程度和优先级确定,三个预测任务的优先级可根据具体情况设定,比如可设定多音字预测任务的优先级高于长停顿位置预测任务,长停顿位置预测任务的优先级高于短停顿位置预测任务。
步骤S3032、固定编码模块、训练后的多音字预测模块以及训练后的韵律预测模块,对符号读法预测模块进行训练。
考虑到将多音字预测模块、韵律预测模块和符号读法预测进行联合训练,比较难让各个模块都有很好的预测效果,且参数更新比较复杂,本申请提出在多音字预测模块与韵律预测模块联合训练的基础上,固定训练后的编码模块、训练后的多音字预测模块以及训练后的韵律预测模块,单独对符号读法预测模块进行训练。
具体的,对符号读法预测模块进行训练的过程可以包括:
步骤d1、利用编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果。
步骤d2、利用符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,对训练语料中的符号进行读法预测,得到符号读法预测结果。
同多音字预测类似,对训练语料中的符号进行读法预测的实现方式有多种,在一种可能的实现方式中,可预先构建候选读法集合,候选读法集合中可以包括所有常用符号的所有读法,也可以包括对所有常用符号的所有读法进行去重后的读法,在预测时,预测训练语料中符号的读法为候选读法集合中各候选读法的概率,作为符号读法预测结果。为了提高计算效率,简化判别规则,在另一种可能的实现方式中,可预先针对每种常用符号构建其对应的候选读法集,候选读法集中包括对应符号的所有读法,在预测时,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果。
考虑到符号的读法与上下文本相关,特别是数字的搭配,比如,“2-1是1”中的符号“-”与“在10-20之间”中的符号“-”的读法不同,前者读“减”,后者读“至”。由于符号往往和数字关联紧密,分开单独预测符号,语义信息不够全面,因此,本申请提出,如果符号与数字一起出现时,将符号以及其相关数字的语义信息一起用来作为预测依据。即,针对训练语料中的每个符号,利用符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果中,该符号的语义信息以及与该符号相关的数字的语义信息为依据,预测该符号的读法为候选读法集合或者该符号对应的候选读法集中各候选读法的概率。需要说明的是,在对训练语料中符号的读法进行预测时,可通过位置掩码MASK确定训练语料中符号和与符号相关的数字的位置,位置掩码MASK的长度与训练语料的长度相同,位置掩码MASK中与训练语料中的符号和与符号相关的数字所在位置对应的位置为1,其它位置为0。
步骤d3、根据符号读法预测结果和训练语料中符号标注的读法,对符号读法预测模块进行参数更新。
具体的,根据符号读法预测结果和训练语料中符号标注的读法,确定符号读法预测模块的预测损失,根据符号读法预测模块的预测损失对符号读法预测模块进行参数更新。
与多音字预测的训练语料类似,符号读法预测的训练语料同样存在不均衡问题(相同符号不同读法的训练语料的数据量差别较大),本实施例优选为确定符号读法预测模块的Focal Loss,Focal Loss使得模型在训练时更专注于难分类的训练语料。
需要说明的是,本申请实施例在构建信息预测模型时,首先采用训练语料进对初始的语言模型进行预训练,以得到预训练语言模型,然后基于预训练语言模型构建一个用于对多种语音合成前端信息进行预测的多任务联合模型,最后利用训练语料对这个多任务联合模型进行训练,以使其具备能够同时对多种语音合成前端信息进行预测的能力,在利用训练语料对多任务联合模型进行训练时,为了简化参数更新,提升多任务联合模型的训练效果,本申请提出,先用训练语料对多任务联合模型中的部分(即编码模块、多音字预测模块以及韵律预测模块)进行训练,以对该部分进行参数更新,然后再固定该部分,用训练语料对多任务联合模型中的其余部分(即符号读法预测模块)进行训练。
本申请实施例提供的信息预测模型的构建方法,首先采用训练语料进对初始的语言模型进行预训练,预训练分三个阶段进行,第一个阶段,以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,第二阶段,结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对第一阶段训练得到语言模型进行训练,第三个阶段,结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对第二阶段训练得到的语言模型进行训练,通过三个阶段的训练能够使语言模型学习到文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息,学习到文本单元在不同语境下的语义信息,使得后续进行韵律预测时,能够更好的区分同一分词在不同语境下韵律不同的情况,从而预测出更为准确的韵律信息,学习到多音字文本单元在不同语境下的语义信息,使得后续多音字预测的准确度更高,在获得预训练语言模型后,构建用于对多种语音合成前端信息进行预测的多任务联合模型,最后对构建的多任务联合模型进行训练,在对多任务联合模型进行训练时,考虑到韵律预测与多音字预测相关,对多任务联合模型中的韵律预测模块和多音字预测模块进行联合训练,在此基础上,再进一步对符号读法预测模块进行训练,从而获得能够对韵律信息、多音字信息和符号读法信息进行预测的信息预测模型。
另外,在进行多音字预测时,构建每个多音字文本单元对应的候选读音集,只预测多音字文本单元的读音为对应的候选读音集中各候选读音的概率,在进行符号读法预测时,构建每个符号对应的候选读法集,只预测符号的读音为对应的候选读法集中各候选读法的概率,这种策略使得模型的计算效率更高,判别逻辑更为简单,提升了模型的性能。此外,针对多音字预测的训练语料不均衡的情况以及符号读法预测的训练语料不平衡的情况,采用Focal损失函数改善数据不均衡带来的不良影响,进一步提升了模型的性能。
第四实施例
在上述实施例提供的信息预测模块的构建方法的基础上,本实施例提供了一种信息预测方法,该信息预测方法的过程可以包括:获取待预测文本,采用上述实施例提供的信息预测模块的构建方法构建的信息预测模块,针对待预测文本预测多种语音合成前端信息,其中,多种语音合成前端信息中包括与发音有关的信息,可选的,多种语音合成前端信息可以但不限定为包括多音字信息、韵律信息、符号读法信息等。
由于本实施例通过一个信息预测模块即可同时预测出多种语音合成前端信息,因此,相比于通过多个模型预测多种语音合成前端信息,实现复杂度大大降低,预测效率大大提高。
第五实施例
对于某些语种,比如日语,在进行语音合成时,通常需要针对用于进行语音合成的文本数据预测调核位置。
需要说明的是,日语是一种音高重音语言,具体表现在日语的基频曲线(F0)只有高和低两种状态,基频曲线下降的位置就是调核位置,又称音高重音位置。对于有m个音节的单词来说,如果基频曲线的下降点在第n个音节上,则调核位置在第n个音节上,这个单词就是n调,如果这个单词的基频没有下降点,这个单词就是0调。图8展示了4个音节的单词,从0调到4调的四种调核形式。日语是一种音高重音变化复杂的语言,单词本身的调核在句子中会发生变化,且在不同的上下文环境中,变调的形式又不一样,比如“注意(发音:チューイ)”,它的本调是1调,在短语“要注意”中,“注意”的调核也是1调,和本调相同,不发生变化,但是,在短语“注意報”中,“注意”会变成3调,而在短语“注意人物”中,“注意”则会变成0调。日语语音合成中大部分的问题都和调核位置有关,因此,对于日语语音合成来说,调核位置预测的准确与否,直接影响合成语音的自然度和可懂度。
为了能够实现调核位置的准确预测,申请人进行了研究,在研究过程中发现,目前存在一些调核位置预测方案,这些方案的大致过程包括:首先基于词典对待预调核位置的文本数据进行分词,然后预测每个分词边界是否为韵律词边界,预测每个分词边界是否为韵律词边界时,可采用基于规则的预测方式,比如形容词加名词后是韵律词边界、动词加形容词后是韵律词边界等,也可利用条件随机场(CRF)模型来预测韵律词边界,在预测出韵律词边界后,针对基于韵律词边界确定的韵律词预测调核位置。
申请人对上述调核位置预测方案进行研究发现,上述调核位置预测方案存在如下缺陷:调核位置的预测是在韵律词边界预测结果的基础上进行的,即先进行韵律词边界预测,再基于韵律词边界预测结果进行调核位置预测,可以理解的是,若韵律词边界预测错误,后续调核位置的预测准确度势必受影响;基于规则的预测方式和基于条件随机场(CRF)模型的预测方式无法覆盖较多的场景,通用性较差。
鉴于现有的调核位置预测方案存在诸多缺陷,申请人试图提出一种能够克服现有预测方案所存在缺陷的信息预测方法,并为此进行了研究,通过不断深入研究,最终提出了解决方案,即提出了一种能够完美克服现有的调核位置预测方案所存在缺陷的信息预测方法,该信息预测方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),也可以为用户侧使用的终端,比如智能手机、PC、笔记本、PAD等,服务器或终端可按本申请提供的信息预测方法针对待预测调核位置的文本数据预测出较为准确的调核位置。接下来通过下述实施例对本申请提供的信息预测方法进行介绍。
请参阅图9,示出了本申请实施例提供的信息预测方法的流程示意图,可以包括:
步骤S901:获取待预测调核位置的文本数据,作为目标文本数据。
可选的,待预测调核位置的文本数据即目标文本数据可以为日语的文本数据。本实施例并不限定目标文本数据为日语的文本数据,比如,目标文本数据还可以为屈折语(典型的为德语、希腊语等)的文本数据。需要说明的是,屈折语是一种在句子中使用某些词时会改变某些词的形式或结尾的语言,在许多屈折语中,词法重音的预测在语音合成系统中十分重要,重音位置的正确与否直接影响可懂度。
步骤S902:对目标文本数据进行分词,得到分词单元。
具体的,可基于词典对目标文本数据进行分词,以得到分词单元,如下示出了一目标文本数据以及对目标文本数据进行分词所得到的分词结果的示例:
目标文本数据:無利子融資取引の機会費用は10円です
分词结果:無利子融資取引の機会費用は10円です
对上述的目标文本数据“無利子融資取引の機会費用は10円です”进行分词后得到11个分词单元。
步骤S903:获取分词单元的语言学特征。
其中,语言学特征可以包括发音信息和词性信息,发音信息中包括采用第三实施例提供的信息预测方法针对目标文本数据预测出的信息中与发音相关的信息。需要说明的是,发音信息和词性信息是影响韵律词边界以及调核位置的重要因素,在预测时,引入发音信息和词性信息,可以有效地进行韵律词边界和调核边界预测。另外需要说明的是,本实施例并不限定语言学特征包括发音信息和词性信息,其还可以包括其它与韵律词边界以及调核位置预测有关的特征,比如音节长度等。
如下示出了分词结果“無 利子 融資 取引の機会 費用は10円です”中各分词单元的发音信息和词性信息:
发音信息:ムリシユウシトリヒキノキカイヒヨウワジュウエンデス
词性信息:prefix noun11 noun9 noun9 part4 noun11 noun11 part1 noun8noun13 aux
其中,prefix指的是前缀,noun指的是名词,part指的是助词,aux指的是助动词。
步骤S904:根据分词单元以及分词单元的语言学特征,预测目标文本数据的韵律词边界和调核位置。
具体的,可利用预先构建的调核位置预测模块,以分词单元以及分词单元的语言学特征为依据,预测目标文本数据的韵律词边界和调核位置。其中,调核位置预测模块具备同时预测出韵律词边界和调核位置的能力。
可选的,调核位置预测模块可以为调核位置预测模型,调核位置预测模型采用标注有韵律词边界和调核位置的训练文本训练得到,该调核位置预测模型可同时预测出韵律词边界和调核位置。
需要说明的是,本实施例并不限定调核位置预测模块为调核位置预测模型,其还可以为其它形式的能够同时预测出韵律词边界和调核位置的模块,比如基于预测规则同时预测出韵律词边界和调核位置的模块。即,本实施例不对调核位置预测模块的具体实现形式进行限定。
接下来以调核位置预测模块为调核位置预测模型为例,对基于调核位置预测模型预测韵律词边界和调核位置进一步进行介绍,在对基于调核位置预测模型预测韵律词边界和调核位置进行介绍之前,首先对调核位置预测模型的训练过程进行介绍。
请参阅图10,示出了调核位置预测模型的训练过程的流程示意图,可以包括:
步骤S1001:对无标注的第一训练文本进行分词,以得到分词单元。
具体的,可基于词典对第一训练文本进行分词,以得到分词单元。
步骤S1002:获取第一训练文本的分词单元的语言学特征。
其中,语言学特征包括发音信息和词性信息,发音信息中包括采用第四实施例提供的信息预测方法针对第一训练文本预测出的信息中与发音相关的信息。
步骤S1003:基于第一训练文本的分词单元和第一训练文本的分词单元的语言学特征,对初始的语言模型进行预训练,以得到预训练语言模型。
可选的,本步骤中的语言模型可以为Bert语言模型,当然,本实施例并不限定于,本步骤中的语言模型可以为任何无监督语言模型。
在进行预训练时,语言模型的输入包括第一训练文本的每个分词单元对应的三种向量,三种向量分别为:对应分词单元的词面信息的表示向量(包括对应分词单元自身的表示向量、对应分词单元的位置表示向量和对应分词单元所在句子的表示向量)、对应分词单元的发音信息的表示向量以及对应分词单元的词性信息的表示向量。上述三种向量可以但不限定为采用word2vec方式获得。
需要说明的是,分词单元的发音信息和词性信息均为与韵律词边界和调核位置预测相关的信息,为了使得后续获得较好的预测效果,在对语言模型进行预训练时,对于第一训练文本中的每个分词单元,除了将该分词单元的词面信息的表示向量输入语言模型外,将该分词单元的发音信息的表示向量以及词性信息的表示向量与该分词单元的词面信息的表示向量同时一并输入语言模型。在对语言模型进行预训练时,可采用现有的预训练方式对语言模型进行预训练,比如,以预测第一训练文本中隐藏的分词单元为任务进行训练。
步骤S1004:基于预训练语言模型,构建调核位置预测模型。
其中,调核位置预测模型包括编码子模块和调核位置预测子模块,其中,编码子模块采用预训练语言模型。可选的,调核位置预测子模块可以采用全连接层和CRF,即在预训练语言模型的输出端接全连接层,全连接层的输出端接CRF。请参阅图11,示出了调核位置预测模型进行调核位置预测的示意图。
步骤S1005:采用标注有韵律词边界和调核位置的第二训练文本,训练调核位置预测模型。
具体的,采用标注有韵律词边界和调核位置的第二训练文本,训练调核位置预测模型的过程可以包括:
步骤S1005-1、利用调核位置预测模型的编码子模块对第二训练文本的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到第二训练文本对应的融合有词性信息和发音信息的编码结果。
步骤S1005-2、利用调核位置预测模型的调核位置预测子模块,以第二训练文本对应的融合有词性信息和发音信息的编码结果为依据,预测第二训练文本中每个分词单元所属的信息类别为设定的各信息类别的概率,作为调核位置预测结果。
其中,一个分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置。
需要说明的是,现有的调核位置预测方案都是直接预测调核的绝对位置,即,现有的调核位置预测方案中设定的信息类别指示的是调核的绝对位置,为了提升预测准确度,本申请提出,不直接预测调核的绝对位置,而是预测调核的相对位置,调核的相对位置指的是,调核的实际位置与本调的位置差,在预测出调核的相对位置后,基于调核的相对位置和本调就可确定出调核的实际位置。
下表示出了现有的调核位置预测方案设定的信息类别,以及本申请提供的信息预测方案中设定的信息类别:
表1现有方案设定的信息类别和本申请设定的信息类别
Figure BDA0003453445150000311
Figure BDA0003453445150000321
需要说明的是,由于现有的调核位置预测方案中,调核位置的预测在韵律词边界的预测之后进行,因此,现有的调核位置预测方案设定的每个信息类别只是针对调核位置的信息类别,而无针对韵律词边界的类别,相比于现有的调核位置预测方案,本申请利用一个调核位置预测模型同时对调核位置和韵律词边界进行预测,相应的,本申请设定的每个信息类别为针对调核位置和韵律词边界的类别。
需要说明的是,上表中定义的类别non-0、non-1、same-0、same-1、same-1-0、same-1-1、Atama-0、Atama-1、mora-1-0、mora-1-1只涵盖了部分情况,对于未涵盖的情况,本申请定义特殊类别,该特殊类别并不指示变调后的调核位置在哪个音节上,而是指示调核的实际位置与本调的位置差。
步骤S1005-3、根据调核位置预测结果和第二训练文本标注的韵律词边界和调核位置,对调核位置预测模型进行参数更新。
具体的,根据调核位置预测结果和第二训练文本标注的韵律词边界和调核位置确定调核位置预测模型的预测损失,根据调核位置预测模型的预测损失对调核位置预测模型进行参数更新。
按步骤S1005-1~步骤S1005-3的方式,采用不同的第二训练文本对调核位置预测模型进行多次迭代训练,直至满足训练结束条件。
在训练结束后,便可利用训练得到的调核位置预测模型对目标文本数据进行预测,具体的,利用调核位置预测模型的编码子模块,对目标文本数据的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到目标文本数据对应的融合有词性信息和发音信息的编码结果,利用调核位置预测模型的调核位置预测子模块,以目标文本数据对应的融合有词性信息和发音信息的编码结果为依据,预测目标文本数据的每个分词单元所属的信息类别为设定的各信息类别的概率,其中,一分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置,根据目标文本数据的每个分词单元所属的信息类别为设定的各信息类别的概率,确定目标文本数据的韵律词边界和相对调核位置,根据目标文本数据的相对调核位置确定目标文本数据的实际调核位置。
本申请实施例提供的信息预测方法,可基于调核位置预测模块同时预测出韵律词边界和调核位置(调核位置的预测不依赖于韵律词边界的预测结果),这种预测方式避免了现有的调核位置预测方案因韵律词边界预测错误导致调核位置预测错误的问题,并且,本申请请实施例提供的信息预测方法适用于需要进行调核位置的任何场景,通用性较强。另外,本申请实施例提供的信息预测方法在预测时,引入了与调核相关的语言学特征,与调核相关的语言学特征的引入使得本申请的预测准确率更高,此外,本申请请实施例预测相对调核位置而非绝对调核位置,进一步提升了预测效果。
第六实施例
本申请实施例提供了一种信息预测模块的构建装置,下面对本申请实施例提供的信息预测模块的构建装置进行描述,下文描述的信息预测模块的构建装置与上文描述的信息预测模块的构建方法可相互对应参照。
请参阅图12,示出了本申请实施例提供的信息预测模块的构建装置的结构示意图,可以包括:第一构建模块1201、第二构建模块1202和处理模块1203。
第一构建模块1201,用于以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块。
第二构建模块1202,用于基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块。
处理模块1203,用于对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
可选的,第一构建模块1201在以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块时,具体用于:
以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,作为构建的文本处理模块。
可选的,所述多种语音合成前端信息包括多音字信息;第一构建模块1201在以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型时,具体用于:
以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。
可选的,第一构建模块1201在以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型时,具体用于:
以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一次训练后的语言模型;
结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型;
结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。
可选的,多音字训练语料为预先构建的多音字训练语料集中的训练语料,本申请实施例提供的信息预测模块的构建装置还可以包括多音字训练语料集构建模块。多音字训练语料集构建模块,用于:
从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料;根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重,其中,一多音字对应的权重根据该多音字的易错率设定;根据所述若干候选多音字训练语料分别对应的多音字权重,从所述若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。
可选的,第二构建模块1202在基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块时,具体用于:
基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型,作为多任务处理模块;
其中,所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块,所述编码模块采用所述预训练语言模型,每个任务处理模块用于预测一种语音合成前端信息;
可选的,处理模块1203在对所述多任务处理模块进行处理时,具体用于:
对所述多任务联合模型进行训练,训练后的多任务联合模型作为构建的信息预测模块。
可选的,所述多个任务处理模块包括:多音字预测模块、韵律预测模块和符号读法预测模块;处理模块1203在对所述多任务联合模型进行训练时,具体用于:
对所述多音字预测模块和所述韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块;
固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块,对所述符号读法预测模块进行训练。
可选的,处理模块1203在对所述多音字预测模块进行训练时,具体用于:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,所述候选读音集中包括对应多音字的所有读音;
根据所述多音字预测结果和训练语料中多音字标注的读音,对所述多音字预测模块进行参数更新。
可选的,处理模块1203在对所述韵律预测模块进行训练时,具体用于:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率,作为韵律预测结果;
根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。
可选的,处理模块1203在对所述符号读法预测模块进行训练时,具体用于:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果,其中,所述候选读法集包括对应符号的所有读法;
根据所述符号读法预测结果和训练语料中符号标注的读法,对所述符号读法预测模块进行参数更新。
可选的,处理模块1203在利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概时,具体用于:
针对训练语料中的每个符号:利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果中,该符号的语义信息以及与该符号相关的数字的语义信息为依据,预测该符号的读法为该符号对应的候选读法集中各候选读法的概率。
本申请实施例提供的信息预测模块的构建装置,首先以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,然后基于文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,最后对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。经由本申请提供的信息预测模块的构建装置可构建出能够同时对多种语音合成前端信息进行预测的信息预测模块,由于本申请只需要构建一个模块,因此,相比于训练多个模型,实现复杂度大大降低。
第七实施例
本申请实施例提供了一种信息预测装置,下面对本申请实施例提供的信息预测装置进行描述,下文描述的信息预测装置与上文第四实施例描述的信息预测方法可相互对应参照。
本申请实施例提供的信息预测装置可采用上述实施例提供的信息预测模块的构建方法构建出的信息预测模块,针对待预测文本预测两种以上的语音合成前端信息,其中,多种语音合成前端信息中包括与发音相关的信息。
由于本实施例提供的信息预测装置通过一个信息预测模块即可同时预测出多种语音合成前端信息,因此,相比于通过多个模型预测多种语音合成前端信息,实现复杂度大大降低,预测效率大大提高。
第八实施例
本申请实施例提供了一种信息预测装置,下面对本申请实施例提供的信息预测装置进行描述,下文描述的信息预测装置与上文第五实施例描述的信息预测方法可相互对应参照。
请参阅图13,示出了本申请实施例提供的信息预测装置的结构示意图,可以包括:文本数据获取模块1301、文本数据分词模块1302、语言学特征获取模块1303和信息预测模块1304。
文本数据获取模块1301,用于获取待预测调核位置的文本数据。
文本数据分词模块1302,用于对所述文本数据进行分词,得到分词单元。
语言学特征获取模块1303,用于获取所述分词单元的语言学特征。
其中,语言学特征包括发音信息和词性信息,发音信息中包括采用第四实施例提供的信息预测方法针对文本数据预测出的信息中与发音相关的信息。
信息预测模块1304,用于根据分词单元以及分词单元的语言学特征,预测文本数据的韵律词边界和调核位置。
可选的,信息预测模块1304在根据所述分词单元以及所述时,具体用于:
利用预先构建的调核位置预测模块,以所述分词单元以及所述分词单元的语言学特征为依据,预测所述文本数据的韵律词边界和调核位置。
可选的,调核位置预测模块为调核位置预测模型,所述调核位置预测模型采用标注有韵律词边界和调核位置的训练文本训练得到。
可选的,本申请实施例提供的信息预测装置还可以包括:模型训练模块。模型训练模块,用于:
对无标注的第一训练文本进行分词,并获取所述第一训练文本的分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息;基于所述第一训练文本的分词单元和所述第一训练文本的分词单元的语言学特征,对初始的语言模型进行预训练,得到预训练语言模型;基于所述预训练语言模型,构建调核位置模型,其中,所述调核位置预测模型包括编码子模块和调核位置预测子模块,所述编码子模块采用所述预训练语言模型;采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型。
可选的,模型训练模块在采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型时,具体用于:
利用所述调核位置预测模型的编码子模块,对所述第二训练文本的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到所述第二训练文本对应的融合有词性信息和发音信息的编码结果;利用所述调核位置预测模型的调核位置预测子模块,以所述第二训练文本对应的融合有词性信息和发音信息的编码结果为依据,预测所述第二训练文本的每个分词单元所属的信息类别为设定的各信息类别的概率,作为调核位置预测结果,其中,一分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置;根据所述调核位置预测结果和所述第二训练文本标注的韵律词边界和调核位置,对所述调核位置预测模型进行参数更新。
本申请实施例提供的信息预测方法装置,可基于调核位置预测模块同时预测出韵律词边界和调核位置(调核位置的预测不依赖于韵律词边界的预测结果),这种预测方式避免了现有的调核位置预测方案因韵律词边界预测错误导致调核位置预测错误的问题,并且,本申请实施例提供的信息预测装置适用于需要进行调核位置的任何场景,通用性较强。另外,本申请提供的信息预测装置在预测时,引入了与调核相关的语言学特征,与调核相关的语言学特征的引入使得本申请的预测准确率更高,此外,本申请实施例预测相对调核位置而非绝对调核位置,进一步提升了预测效果。
第九实施例
本申请实施例还提供了一种处理设备,请参阅图14,示出了该处理设备的结构示意图,该处理设备可以包括:至少一个处理器1401,至少一个通信接口1402,至少一个存储器1403和至少一个通信总线1404;
在本申请实施例中,处理器1401、通信接口1402、存储器1403、通信总线1404的数量为至少一个,且处理器1401、通信接口1402、存储器1403通过通信总线1404完成相互间的通信;
处理器1401可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十一实施例
本申请实施例还提供了一种处理设备,该处理设备可以包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;
在本申请实施例中,处理器、通信接口、存储器、通信总线的数量为至少一个,且处理器、通信接口、存储器通过通信总线完成相互间的通信;
处理器可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
采用上述实施例提供的信息预测模块的构建方法构建的信息预测模块,针对待预测文本预测多种语音合成前端信息,其中,所述多种语音合成前端信息中包括与发音相关的信息。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十二实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
采用上述实施例提供的信息预测模块的构建方法构建的信息预测模块,针对待预测文本预测多种语音合成前端信息,其中,所述多种语音合成前端信息中包括与发音相关的信息。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十三实施例
本申请实施例还提供了一种处理设备,该处理设备可以包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;
在本申请实施例中,处理器、通信接口、存储器、通信总线的数量为至少一个,且处理器、通信接口、存储器通过通信总线完成相互间的通信;
处理器可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待预测调核位置的文本数据;
对所述文本数据进行分词,得到分词单元;
获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用第四实施例提供的信息预测方法针对所述文本数据预测出的信息中与发音相关的信息;
根据所述分词单元以及所述分词单元的语言学特征,预测所述文本数据的韵律词边界和调核位置。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十四实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待预测调核位置的文本数据;
对所述文本数据进行分词,得到分词单元;
获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用第四实施例提供的信息预测方法针对所述文本数据预测出的信息中与发音相关的信息;
根据所述分词单元以及所述分词单元的语言学特征,预测所述文本数据的韵律词边界和调核位置。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种信息预测方法,其特征在于,包括:
获取待预测调核位置的文本数据;
对所述文本数据进行分词,得到分词单元;
获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用预先构建的信息预测模块对待预测文本预测出的与发音相关的信息;
利用预先构建的调核位置预测模块,以所述分词单元以及所述分词单元的语言学特征为依据,预测所述文本数据的韵律词边界和调核位置;
所述调核位置预测模块为调核位置预测模型,所述调核位置预测模型采用标注有韵律词边界和调核位置的训练文本训练得到;
所述调核位置预测模型的训练过程包括:
对无标注的第一训练文本进行分词,并获取所述第一训练文本的分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息;
基于所述第一训练文本的分词单元和所述第一训练文本的分词单元的语言学特征,对初始的语言模型进行预训练,得到预训练语言模型;
基于所述预训练语言模型,构建调核位置模型,其中,所述调核位置预测模型包括编码子模块和调核位置预测子模块,所述编码子模块采用所述预训练语言模型;
采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型;
所述采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型,包括:
利用所述调核位置预测模型的编码子模块,对所述第二训练文本的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到所述第二训练文本对应的融合有词性信息和发音信息的编码结果;
利用所述调核位置预测模型的调核位置预测子模块,以所述第二训练文本对应的融合有词性信息和发音信息的编码结果为依据,预测所述第二训练文本的每个分词单元所属的信息类别为设定的各信息类别的概率,作为调核位置预测结果,其中,一分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置;
根据所述调核位置预测结果和所述第二训练文本标注的韵律词边界和调核位置,对所述调核位置预测模型进行参数更新;
所述信息预测模块的构建过程,包括:
以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
2.根据权利要求1所述的信息预测方法,其特征在于,所述以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,包括:
以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,作为构建的文本处理模块。
3.根据权利要求2所述的信息预测方法,其特征在于,所述多种语音合成前端信息包括多音字信息;
所述以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。
4.根据权利要求3所述的信息预测方法,其特征在于,所述以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一次训练后的语言模型;
结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型;
结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。
5.根据权利要求4所述的信息预测方法,其特征在于,所述多音字训练语料为预先构建的多音字训练语料集中的训练语料,所述多音字训练语料集的构建过程包括:
从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料;
根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重,其中,一多音字对应的权重根据该多音字的易错率设定;
根据所述若干候选多音字训练语料分别对应的多音字权重,从所述若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。
6.根据权利要求2所述的信息预测方法,其特征在于,所述基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,包括:
基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型,作为多任务处理模块;
其中,所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块,所述编码模块采用所述预训练语言模型,每个任务处理模块用于预测一种语音合成前端信息;
所述对所述多任务处理模块进行处理,包括:
对所述多任务联合模型进行训练,训练后的多任务联合模型作为构建的信息预测模块。
7.根据权利要求6所述的信息预测方法,其特征在于,所述多个任务处理模块包括:多音字预测模块、韵律预测模块和符号读法预测模块;
所述对所述多任务联合模型进行训练,包括:
对所述多音字预测模块和所述韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块;
固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块,对所述符号读法预测模块进行训练。
8.根据权利要求7所述的信息预测方法,其特征在于,对所述多音字预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,所述候选读音集中包括对应多音字的所有读音;
根据所述多音字预测结果和训练语料中多音字标注的读音,对所述多音字预测模块进行参数更新。
9.根据权利要求7所述的信息预测方法,其特征在于,对所述韵律预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率,作为韵律预测结果;
根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。
10.根据权利要求7所述的信息预测方法,其特征在于,对所述符号读法预测模块进行训练,包括:
利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果,其中,所述候选读法集包括对应符号的所有读法;
根据所述符号读法预测结果和训练语料中符号标注的读法,对所述符号读法预测模块进行参数更新。
11.根据权利要求10所述的信息预测方法,所述利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,包括:
针对训练语料中的每个符号:
利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果中,该符号的语义信息以及与该符号相关的数字的语义信息为依据,预测该符号的读法为该符号对应的候选读法集中各候选读法的概率。
12.一种信息预测装置,其特征在于,包括:文本数据获取模块、文本数据分词模块、语言学特征获取模块和信息预测模块;
所述文本数据获取模块,用于获取待预测调核位置的文本数据;
所述文本数据分词模块,用于对所述文本数据进行分词,得到分词单元;
所述语言学特征获取模块,用于获取所述分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息,所述发音信息中包括采用预先构建的信息预测模块对待预测文本预测出的与发音相关的信息;
所述信息预测模块,用于利用预先构建的调核位置预测装置,以所述分词单元以及所述分词单元的语言学特征为依据,预测所述文本数据的韵律词边界和调核位置;
其中,所述调核位置预测模块为调核位置预测模型,所述调核位置预测模型采用标注有韵律词边界和调核位置的训练文本训练得到;
所述调核位置预测模型的训练过程包括:
对无标注的第一训练文本进行分词,并获取所述第一训练文本的分词单元的语言学特征,其中,所述语言学特征包括发音信息和词性信息;
基于所述第一训练文本的分词单元和所述第一训练文本的分词单元的语言学特征,对初始的语言模型进行预训练,得到预训练语言模型;
基于所述预训练语言模型,构建调核位置模型,其中,所述调核位置预测模型包括编码子模块和调核位置预测子模块,所述编码子模块采用所述预训练语言模型;
采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型;
所述采用标注有韵律词边界和调核位置的第二训练文本,训练所述调核位置预测模型,包括:
利用所述调核位置预测模型的编码子模块,对所述第二训练文本的每个分词单元的词面信息的表示向量、词性信息的表示向量和发音信息的表示向量进行编码,以得到所述第二训练文本对应的融合有词性信息和发音信息的编码结果;
利用所述调核位置预测模型的调核位置预测子模块,以所述第二训练文本对应的融合有词性信息和发音信息的编码结果为依据,预测所述第二训练文本的每个分词单元所属的信息类别为设定的各信息类别的概率,作为调核位置预测结果,其中,一分词单元所属的信息类别用于指示该分词单元后边界是否为韵律词边界以及该分词单元的相对调核位置;
根据所述调核位置预测结果和所述第二训练文本标注的韵律词边界和调核位置,对所述调核位置预测模型进行参数更新;
所述信息预测模块的构建装置,包括:第一构建模块、第二构建模块和处理模块;
所述第一构建模块,用于以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
所述第二构建模块,用于基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
所述处理模块,用于对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
13.一种处理设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的信息预测方法的各个步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的信息预测方法的各个步骤。
CN202111679120.5A 2021-12-31 2021-12-31 一种信息预测模块的构建方法、信息预测方法及相关设备 Active CN114333760B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111679120.5A CN114333760B (zh) 2021-12-31 2021-12-31 一种信息预测模块的构建方法、信息预测方法及相关设备
PCT/CN2022/099124 WO2023123892A1 (zh) 2021-12-31 2022-06-16 一种信息预测模块的构建方法、信息预测方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111679120.5A CN114333760B (zh) 2021-12-31 2021-12-31 一种信息预测模块的构建方法、信息预测方法及相关设备

Publications (2)

Publication Number Publication Date
CN114333760A CN114333760A (zh) 2022-04-12
CN114333760B true CN114333760B (zh) 2023-06-02

Family

ID=81022878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111679120.5A Active CN114333760B (zh) 2021-12-31 2021-12-31 一种信息预测模块的构建方法、信息预测方法及相关设备

Country Status (2)

Country Link
CN (1) CN114333760B (zh)
WO (1) WO2023123892A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333760B (zh) * 2021-12-31 2023-06-02 科大讯飞股份有限公司 一种信息预测模块的构建方法、信息预测方法及相关设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4751230B2 (ja) * 2006-04-19 2011-08-17 旭化成株式会社 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
KR20110134909A (ko) * 2009-03-13 2011-12-15 인벤션 머신 코포레이션 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN107464559B (zh) * 2017-07-11 2020-12-15 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN110310619A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN110782870B (zh) * 2019-09-06 2023-06-16 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN110827813B (zh) * 2019-10-18 2021-11-12 清华大学深圳国际研究生院 一种基于多模态特征的重音检测方法及系统
CN110767212B (zh) * 2019-10-24 2022-04-26 百度在线网络技术(北京)有限公司 一种语音处理方法、装置和电子设备
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN111243571B (zh) * 2020-01-14 2022-11-15 北京字节跳动网络技术有限公司 文本的处理方法、装置、设备及计算机可读存储介质
CN111341293B (zh) * 2020-03-09 2022-11-18 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
CN111312231B (zh) * 2020-05-14 2020-09-04 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN111951779B (zh) * 2020-08-19 2023-06-13 广州华多网络科技有限公司 语音合成的前端处理方法及相关设备
CN111951780B (zh) * 2020-08-19 2023-06-13 广州华多网络科技有限公司 语音合成的多任务模型训练方法及相关设备
CN112364653A (zh) * 2020-11-09 2021-02-12 北京有竹居网络技术有限公司 用于语音合成的文本分析方法、装置、服务器和介质
CN112863484B (zh) * 2021-01-25 2024-04-09 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN113268974B (zh) * 2021-05-18 2022-11-29 平安科技(深圳)有限公司 多音字发音标注方法、装置、设备及存储介质
CN113191143B (zh) * 2021-05-25 2022-09-16 海信视像科技股份有限公司 多音字消歧和韵律控制联合方法、系统以及电子设备
CN114333760B (zh) * 2021-12-31 2023-06-02 科大讯飞股份有限公司 一种信息预测模块的构建方法、信息预测方法及相关设备
CN114550692A (zh) * 2022-01-30 2022-05-27 北京百度网讯科技有限公司 文本处理及其模型的训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
WO2023123892A1 (zh) 2023-07-06
CN114333760A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
CN111862977B (zh) 一种语音对话处理方法和系统
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
Huang et al. Pretraining techniques for sequence-to-sequence voice conversion
CN107705787A (zh) 一种语音识别方法及装置
Kim et al. Gated embeddings in end-to-end speech recognition for conversational-context fusion
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN114333760B (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN114023306B (zh) 用于预训练语言模型的处理方法和口语语言理解系统
Route et al. Multimodal, multilingual grapheme-to-phoneme conversion for low-resource languages
CN113571037B (zh) 一种汉语盲文语音合成方法及系统
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
CN113160792A (zh) 一种多语种的语音合成方法、装置和系统
Park et al. Korean grapheme unit-based speech recognition using attention-ctc ensemble network
CN113012685A (zh) 音频识别方法、装置、电子设备及存储介质
CN112802451B (zh) 韵律边界预测方法及计算机存储介质
CN115270771A (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN114548406A (zh) 预训练字符模型及字音转换神经网络模型
Kominek Tts from zero: Building synthetic voices for new languages
Wang et al. Speech-and-text transformer: Exploiting unpaired text for end-to-end speech recognition
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
Horii et al. Language modeling for spontaneous speech recognition based on disfluency labeling and generation of disfluent text
Gurunath Shivakumar et al. Confusion2Vec 2.0: Enriching ambiguous spoken language representations with subwords

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gao Li

Inventor after: Wang Jinwei

Inventor after: Liu Qingfeng

Inventor after: Hu Guoping

Inventor after: Liu Cong

Inventor after: Hu Yajun

Inventor after: Jiang Yuan

Inventor after: Zu Yiqing

Inventor before: Gao Li

Inventor before: Wang Jinwei

Inventor before: Hu Yajun

Inventor before: Jiang Yuan

Inventor before: Zu Yiqing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant