CN111341293B - 一种文本语音的前端转换方法、装置、设备和存储介质 - Google Patents
一种文本语音的前端转换方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111341293B CN111341293B CN202010157096.8A CN202010157096A CN111341293B CN 111341293 B CN111341293 B CN 111341293B CN 202010157096 A CN202010157096 A CN 202010157096A CN 111341293 B CN111341293 B CN 111341293B
- Authority
- CN
- China
- Prior art keywords
- text
- converted
- auxiliary
- speech
- regular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 113
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 5
- 201000007201 aphasia Diseases 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 39
- 238000003786 synthesis reaction Methods 0.000 abstract description 39
- 230000008569 process Effects 0.000 abstract description 25
- 238000009825 accumulation Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实例公开了一种文本语音的前端转换方法、装置、设备和存储介质。其中,该方法包括:根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。本发明实施例提供的技术方案,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。
Description
技术领域
本发明实施例涉及语音合成技术领域,尤其涉及一种文本语音的前端转换方法、装置、设备和存储介质。
背景技术
随着智能语音技术的迅猛发展,语音交互已经成为众多智能设备中人机交互的必选方案,而实现人机交互过程中必不可少的一环就是语音合成技术,也就是将设备内产生的或外部输入的特定文字信息转换为相应的语音信号进行播放;此时,语音合成过程主要分为前端文本处理、声学模型和声码器三部分,其中伴随着声学模型和声码器中部分技术壁垒的不断减少,前端文本处理成为阻碍语音合成技术发展以及影响合成语音质量的关键,因此对于前端文本处理技术需要进行不断优化。
目前,语音合成技术的前端文本处理过程包括文本正则化、文字分割、词性标注、韵律预测、汉字转拼音和多音字消歧等步骤,针对每一步骤分别设置对应的文本处理模块,进而顺序执行对应的文本处理操作,此时每个文本处理模块往往分别单独处理,同时按照执行顺序依次将训练完成后的各个文本处理模块串联合并,得到最终的前端文本处理系统,此时文字分割、词性标注和韵律预测模块,虽有众多机器学习和深度学习方法被提出,但每个文本处理模块之间相互独立且均需要使用较为复杂的网络来实现,使得每一文本处理模块对相关背景知识要求甚高,而且容易耗费大量人力,而且文本处理模块之间的串联合并也会导致各个步骤中文本处理产生的误差累积,使得前端文本处理存在一定缺陷,从而影响最终合成的语音质量。
发明内容
本发明实施例提供了一种文本语音的前端转换方法、装置、设备和存储介质,避免串联后的流式文本语音的前端转换时导致的误差累积,提高文本语音在前端转换时的准确性。
第一方面,本发明实施例提供了一种文本语音的前端转换方法,该方法包括:
根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;
借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。
第二方面,本发明实施例提供了一种文本语音的前端转换装置,该装置包括:
辅助特征提取模块,用于根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;
文本语音转化模块,用于借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。
第三方面,本发明实施例提供了一种设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本语音的前端转换方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本语音的前端转换方法。
本发明实施例提供的一种文本语音的前端转换方法、装置、设备和存储介质,首先根据待转换文本的正则文本特征对该待转换文本进行初步的语音辅助转换,从而提取出该待转换文本的辅助文本特征,后续直接借助该辅助文本特征对该待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1A为本发明实施例一提供的一种文本语音的前端转换方法的流程图;
图1B为本发明实施例一提供的文本语音的前端转换过程的原理示意图;
图2A为本发明实施例二提供的一种文本语音的前端转换方法的流程图;
图2B为本发明实施例二提供的方法中对待转换文本进行语音辅助处理的原理示意图;
图3A为本发明实施例三提供的文本语音的前端转换方法中各功能模块的训练方法的流程图;
图3B为本发明实施例三提供的方法中训练辅助处理模块和文本解码模块的原理示意图;
图4为本发明实施例四提供的一种文本语音的前端转换装置的结构示意图;
图5为本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1A为本发明实施例一提供的一种文本语音的前端转换方法的流程图,本实施例可适用于任一语音合成技术的前端文本处理阶段内。本实施例提供的一种文本语音的前端转换方法可以由本发明实施例提供的文本语音的前端转换装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中。
具体的,参考图1A,该方法可以包括如下步骤:
S110,根据待转换文本的正则文本特征对待转换文本进行语音辅助处理,提取待转换文本的辅助文本特征。
具体的,目前实现人机交互过程中必不可少的一环是语音合成技术(Text ToSpeech,TTS),也就是将设备自身产生的或者外部输入的文字信息转换为可以听懂的流畅的汉语口语进行输出,语音合成过程中可以包括前端文本处理、声学模型和声码器三部分,其中前端文本处理主要负责对文本信息进行初步的前端语音处理,以得到转换后基本的语音序列,声学模型主要负责对转换后的语音序列中包含的语言学特征进行分析和后端语音处理,声码器主要负责将声学模型处理后的语音序列转换为相应的语音波形,从而进行语音播放。由于现有的声学模型和声码器均已经实现端到端的方案,从而保证后端语音合成具备甚佳的合成效果,因此本实施例主要针对前端文本处理的方案进行优化,以进一步提高语音合成的质量。
示例性的,本实施例中的待转换文本可以是指人机交互时设备针对用户发起的输入语音进行回复时,自身产生的或者外部输入的需要转换为语音形式播放给该用户的文本信息;同时,由于待转换文本中可能存在某类形式复杂且难于归纳的无法实现语音合成的字母、符号或者公式等非汉字字符串,因此为了保证待转换文本中文字信息的准确转换,本实施例会预先对该待转换文本内的文字信息进行正则化处理,以得到该待转换文本的正则文本特征,该正则文本特征能够将待转换文本中的各类非汉字字符串转换为相应含义的汉字字符串。
可选的,在确定本次语音合成的待转换文本后,首先通过对该待转换文本中的各类文字进行正则化处理,从而得到该待转换文本的正则文本特征,此时为了避免现有技术中串联后的流式文本语音的前端转换时导致的误差累积,本实施例首先会根据该待转换文本的正则文本特征对该待转换文本进行初步的语音辅助处理,本次语音辅助处理可以是指对待转换文本直接转换为拼音序列而实现端到端的前端文本处理时能够提供一定的帮助和参考的文本语音操作,例如能够预测待转换文本中的真实文字分割结果和真实词性标注信息等的文本特征兼并和提取操作,进而通过语音辅助处理操作提取出待转换文本中的辅助文本特征,以便后续辅助待转换文本的正则文本特征进行前端解码,实现文本到到携带语音播放标准的拼音序列之间端到端的转换。
示例性的,本实施例中可以针对语音合成过程中的前端文本处理设定一个整体的语音合成前端系统,如图1B所示,该语音合成前端系统中可以预先设置对待转换文本执行语音辅助处理的模块,此时根据待转换文本的正则文本特征对待转换文本进行语音辅助处理,具体可以包括:将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对待转换文本进行文字分割和词性标注。
具体的,在对该待转换文本中的各类文字进行正则化处理,得到该待转换文本的正则文本特征后,可以直接将该正则文本特征输入到语音合成前端系统内预先构建的辅助处理模块中,其中本实施例会预先将大量历史文本的历史正则文本特征作为训练样本对该辅助处理模块进行语音辅助处理的训练,从而该辅助处理模块能够根据该待转换文本的正则文本特征对待转换文本进行准确的文字分割和词性标注操作,输出对应的辅助文本特征,此时该辅助文本特征中可以包括该待转换文本的分词结果和各分词的词性信息,以便后续辅助该待转换文本的正则文本特征进行对应的前端解码。
S120,借助辅助文本特征对待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。
可选的,在提取出待转换文本的辅助文本特征后,可以直接借助该辅助文本特征中记载的待转换文本的分词结果和各分词的词性信息等语音辅助特征,对该待转换文本的正则文本特征进行前端解码,也就是借助辅助文本特征将待转换文本在该正则文本特征下对应指定的文本序列进行多音字消歧等操作,并翻译为对应的拼音序列,从而得到携带语音播放标准的拼音序列,此时该语音播放标准可以包括拼音序列的播放声调和韵律标准,以便后续将该待转换文本转换为对应语音波形进行准确播放,保证语音合成的质量。
示例性的,本实施例针对前端解码步骤,如图1B所示,可以在语音合成前端系统中预先设置对待转换文本执行前端解码的模块,此时借助辅助文本特征对待转换文本的正则文本特征进行前端解码,具体可以包括:将正则文本特征和辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。
具体的,在提取出待转换文本的辅助文本特征后,可以将该待转换文本的正则文本特征和辅助文本特征同时输入到语音合成前端系统内预先构建的文本解码模块中,其中本实施例会预先将大量历史文本的历史正则文本特征和历史辅助文本特征作为训练样本对该文本解码模块进行前端解码的训练,从而该文本解码模块能够借助该辅助文本特征对待转换文本的正则文本特征进行准确的前端解码,准确预测得到解码后拼音序列的声调和韵律信息,进而得到携带语音播放标准的拼音序列,以便后续进行高质量的语音播放。
示例性的,本实施例中的文本解码模块可以是基于神经网络的翻译模式NMT领域里的解码网络,对此不作限定。
本实施例提供的技术方案,首先根据待转换文本的正则文本特征对该待转换文本进行初步的语音辅助转换,从而提取出该待转换文本的辅助文本特征,后续直接借助该辅助文本特征对该待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。
实施例二
图2A为本发明实施例二提供的一种文本语音的前端转换方法的流程图,图2B为本发明实施例二提供的方法中对待转换文本进行语音辅助处理的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的,如图2A所示,本实施例中对于待转换文本的正则化过程和语音辅助处理过程进行详细的解释说明。
可选的,如图2A所示,本实施例中可以包括如下步骤:
S210,通过预设的基于转换模型的双向编码器表示(Bidirectional EncoderRepresentations from Transformers,BERT)网络提取待转换文本的初始文本特征,并对初始文本特征进行正则化,得到待转换文本的正则文本特征。
具体的,BERT网络为Google开源释放的模型,采用的是中文维基百科语料库训练,该BERT网络在自然语言处理领域中众多文本处理任务上显示出了极强的文本特征提取能力,因此利用该BERT网络能够准确提取待转换文本内表征不同维度下文本内容的初始文本特征,此时该初始文本特征为高维度的特征隐向量,保证文本特征提取的准确性和全面性;同时,为了规避初始文本特征中的非汉字字符串,提高文本语音在前端转换时的准确性,本实施例可以采用现有的正则化方式对该初始文本特征进行正则化处理,得到待转换文本的正则文本特征。
示例性的,本实施例中针对语音合成过程中的前端文本处理中的特征提取步骤,如图2B所示,可以所设定的语音合成前端系统中预先设置对应的文本特征提取模块和正则化模块,此时该文本特征提取模块设置为本实施例中的BERT网络,正则化模块采用有监督学习的训练方式,利用BERT网络提取大量历史文本的历史初始文本特征的正则化结果,并以真实的正则化结果作为辅助信息进行相应的正则化训练,保证初始文本特征的正则化准确性。
S220,将待转换文本的正则文本特征顺序输入辅助处理模块下的混合门限卷积单元和编码单元中,提取待转换文本的辅助文本特征。
可选的,为了保证辅助处理模块提取待转换文本的辅助文本特征的准确性,本实施例会在辅助处理模块下预先设置对应的混合门限卷积单元和编码单元,此时将待转换文本的正则文本特征顺序输入辅助处理模块后,首先经过其下的混合门限卷积单元进行相应的特征处理,该混合门限卷积单元可以兼并提取待转换文本的正则文本特征中不同维度下的局部特征和上下文特征,同时通过扩张卷积可以使混合门限卷积单元的感受野增大,有利于增强辅助文本特征的抽取效果;同时将混合门限卷积单元输出的文本特征进一步输入到辅助处理模块下的编码单元中,进一步对混合门限卷积单元抽取的文本特征进行更抽象维度的特征提取,此时由于在训练时,会直接将编码单元输出的历史文本的文本特征分别输入到辅助处理模块下的文字分割单元和词性标注单元中,进行文字分割和词性标注,进而根据真实的分词结果和词性信息对该辅助处理模块下的各个单元进行训练,通过该训练约束,可以使编码单元输出的文本特征能够提供准确的分词信息和各分词的词性信息,进而作为待转换文本的辅助文本特征,便于后续辅助待转换文本的正则文本特征得到携带语音播放标准的拼音序列,实现文本到携带语音播放标准的拼音序列之间端到端的转换。
S230,将辅助文本特征分别输入辅助处理模块下的文字分割单元和词性标注单元中,得到待转换文本的分词结果和各分词的词性信息。
可选的,在通过编码单元输出对应的辅助文本特征后,本实施例还可以将该辅助文本特征分别输入到该辅助处理模块下预先设置的文字分割单元和词性标注单元中,由文字分割单元和词性标注单元分别对该辅助文本特征进行特征分析,从而得到待转换文本的分词结果和各分词的词性信息。
需要说明的是,本实施例中的S220和S230主要是针对上述实施例中记载的“将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对待转换文本进行文字分割和词性标注”这一部分内容的具体优化处理。
S240,将正则文本特征和辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。
本实施例提供的技术方案,通过预设的BERT网络提取待转换文本的初始文本特征,并对初始文本特征进行正则化,后续通过预先训练的不同功能下的神经网络模型对待转换文本的正则文本特征进行处理,实现文本到携带语音播放标准的拼音序列之间端到端的转换,保证文本特征提取的准确性和全面性,降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。
实施例三
图3A为本发明实施例三提供的文本语音的前端转换方法中各功能模块的训练方法的流程图,图3B为本发明实施例三提供的方法中训练辅助处理模块和文本解码模块的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的,本实施例对于前端文本处理系统下的各功能模块的训练过程进行详细的解释说明。
可选的,如图3A所示,本实施例中可以包括如下步骤:
S310,提取历史文本的历史正则文本特征,并确定历史文本的辅助标签和解码标签。
可选的,针对语音合成过程所设置的语音合成前端系统,为了保证前端文本处理的准确性,首先需要对该语音合成前端系统内的各个功能模块进行训练,以准确实现对应的前端文本处理操作;此时,首先获取大量历史文本作为语音合成前端系统中的训练样本,并通过预训的BERT网络提取出每一历史文本的历史初始文本特征,将该历史初始文本特征进一步输入到预先构建的正则化模块中,由该正则化模块对该历史初始文本特征进行正则化处理,从而提取出各个历史文本的历史正则文本特征,同时确定各个历史文本的辅助标签和解码标签,该辅助标签和解码标签分别表示对历史文本的历史正则文本特征进行语音辅助处理和解码处理后得到的真实辅助文本特征和携带语音播放标准的真实拼音序列,以便后续采用有监督学习的方式对辅助处理模块和文本解码模块进行训练。
需要说明的是,本实施例中的BERT网络和正则化模块可以预先独立训练好,也可以与该语音合成前端系统内的其他功能模块统一训练。
S320,将历史正则文本特征输入预设的辅助处理模块中,提取历史文本的历史辅助文本特征,并根据辅助标签和历史辅助文本特征确定对应的辅助损失。
可选的,在提取到各个历史文本的历史正则文本特征后,可以将该历史正则文本特征输入到语音合成前端系统内预设的辅助处理模块中,由该辅助处理模块下的混合门限卷积单元和编码单元对该历史正则文本特征进行相应的语音辅助处理,从而提取出历史文本的历史辅助文本特征,并对该历史辅助文本特征和表示该历史文本的真实语音辅助处理结果的辅助标签进行比对,进而确定该辅助处理模块下对应的辅助损失,以指示辅助处理模块在当前时刻下进行训练的准确性。
需要说明的是,通过辅助处理模块下的混合门限卷积单元和编码单元对该历史正则文本特征进行相应的语音辅助处理,从而提取出历史文本的历史辅助文本特征后,还会将该历史辅助文本特征分别输入到辅助处理模块下的文字分割单元和词性标注单元中,得到历史文本的分词结果和各分词的词性信息,此时本实施例中的辅助标签可以包括历史文本的真实分词标签和各分词的真实词性信息,通过对文字分割单元和词性标注单元输出的历史文本的分词结果和各分词的词性信息与该历史文本的真实分词标签和各分词的真实词性信息进行比对,得到对应的辅助损失,此时该辅助损失可以包括分词损失和词性损失。
S330,将历史正则文本特征和历史辅助文本特征同时输入预设的文本解码模块中,得到携带语音播放标准的历史拼音序列,并根据解码标签和历史语音序列确定对应的解码损失。
可选的,在提取出历史文本的历史辅助文本特征后,可以直接该历史文本的历史正则文本特征和历史辅助文本特征同时输入到语音合成前端系统内预设的文本解码模块中,由该文本解码模块借助该历史辅助文本特征对历史文本的历史正则文本特征进行前端解码,从而得到携带语音播放标准的历史拼音序列,并对该历史文本的解码标签中的真实语音序列与该历史拼音序列进行比对,从而确定该文本解码模块下对应的解码损失,以指示文本解码模块在当前时刻下进行训练的准确性。
S340,确定辅助损失和解码损失整合后的联合约束损失,并根据联合约束损失同时训练辅助处理模块和文本解码模块。
可选的,本实施例在得到训练过程中辅助处理模块对应的辅助损失和文本解码模块对应的解码损失后,可以对该辅助损失和解码损失进行相应的整合约束训练,从而确定对应的联合约束损失,进而根据该联合约束损失同时训练辅助处理模块和文本解码模块,保证辅助处理模块和文本解码模块对前端文本处理的准确性。
此外,本实施例还可以根据大量历史文本同一训练语音合成前端系统内的各个功能模块,因此可以为该语音合成前端系统内的每一功能模块分别设定对应的损失函数,进而对各个功能模块执行历史文本的对应操作后得到的损失函数进行整合,得到该语音合成前端系统的联合约束损失;例如,该联合约束损失可以包括正则化模块下的历史正则文本特征与真实正则文本特征的范数形式损失函数对应的正则损失,辅助处理模块下预测分词结果和真实文字分割结果的交叉熵形式损失函数对应的文字分割损失和历史词性标注与真实文本词性标注的softmax交叉熵形式损失函数对应的词性损失,以及文本解码模块下带有韵律标记和声调的历史拼音序列与真实拼音序列的交叉熵损失函数对应的解码损失。因此,本实施例通过为语音合成前端系统内的各个功能模块设定对应的损失函数,并进行多任务学习的联合约束训练,分别对各个功能模块进行控制,提高语音合成前端系统的整体可控性。
需要说明的是,本实施例中的各个步骤均是对于辅助处理模块和文本解码模块的训练过程,因此在对任一待转换文本进行前端转换而得到携带语音播放标准的拼音序列之前,均需要预先训练好辅助处理模块和文本解码模块的训练过程,此时在根据某一待转换文本的正则文本特征对待转换文本进行语音辅助处理,提取待转换文本的辅助文本特征之前,首先需要执行本实施例中的各个步骤,以保证辅助处理模块和文本解码模块能够预先训练完成。
本实施例提供的技术方案,通过多任务学习的方式,对文本语音的前端转换过程中的各个功能模块进行联合约束训练,实现端到端的文本语音的前端转换,同时分别对各个功能模块进行约束控制,提高文本语音在前端转换过程中整体性能的可控性。
实施例四
图4为本发明实施例四提供的一种文本语音的前端转换装置的结构示意图,具体的,如图4所示,该装置可以包括:
辅助特征提取模块410,用于根据待转换文本的正则文本特征对待转换文本进行语音辅助处理,提取待转换文本的辅助文本特征;
文本语音转化模块420,用于借助辅助文本特征对待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。
本实施例提供的技术方案,首先根据待转换文本的正则文本特征对该待转换文本进行初步的语音辅助转换,从而提取出该待转换文本的辅助文本特征,后续直接借助该辅助文本特征对该待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。
进一步的,上述辅助特征提取模块410,可以具体用于:
将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对待转换文本进行文字分割和词性标注,上述辅助文本特征可以包括待转换文本的分词结果和各分词的词性信息。
进一步的,上述文本语音转化模块420,可以具体用于:
将正则文本特征和辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。
进一步的,上述文本语音的前端转换装置,还可以包括训练模块;
上述训练模块,可以具体用于:
提取历史文本的历史正则文本特征,并确定历史文本的辅助标签和解码标签;
将历史正则文本特征输入预设的辅助处理模块中,提取历史文本的历史辅助文本特征,并根据辅助标签和历史辅助文本特征确定对应的辅助损失;
将历史正则文本特征和历史辅助文本特征同时输入预设的文本解码模块中,得到携带语音播放标准的历史拼音序列,并根据解码标签和历史拼音序列确定对应的解码损失;
确定辅助损失和解码损失整合后的联合约束损失,并根据联合约束损失同时训练辅助处理模块和文本解码模块。
进一步的,上述辅助损失包括分词损失和词性损失。
进一步的,上述辅助特征提取模块410,可以具体用于:
将待转换文本的正则文本特征顺序输入辅助处理模块下的混合门限卷积单元和编码单元中,提取待转换文本的辅助文本特征;
将辅助文本特征分别输入辅助处理模块下的文字分割单元和词性标注单元中,得到待转换文本的分词结果和各分词的词性信息。
进一步的,上述语音播放标准包括语音序列的播放声调和韵律标准。
进一步的,上述文本语音的前端转换装置,还可以包括:
文本特征提取模块,用于通过预设的BERT网络提取待转换文本的初始文本特征,并对初始文本特征进行正则化,得到待转换文本的正则文本特征。
本实施例提供的文本语音的前端转换装置可适用于上述任意实施例提供的文本语音的前端转换方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图,如图5所示,该设备包括处理器50、存储装置51和通信装置52;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储装置51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的文本语音的前端转换方法对应的程序指令/模块。处理器50通过运行存储在存储装置51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本语音的前端转换方法。
存储装置51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置52可用于实现设备间的网络连接或者移动数据连接。
本实施例提供的一种设备可用于执行上述任意实施例提供的文本语音的前端转换方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述任意实施例中的文本语音的前端转换方法。该方法具体可以包括:
根据待转换文本的正则文本特征对待转换文本进行语音辅助处理,提取待转换文本的辅助文本特征;
借助辅助文本特征对待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本语音的前端转换方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本语音的前端转换装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本语音的前端转换方法,其特征在于,包括:
根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征,其中,所述辅助文本特征包括所述待转换文本的分词结果和各分词的词性信息;
借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,包括:
将所述正则文本特征和所述辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。
2.根据权利要求1所述的方法,其特征在于,所述根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,包括:
将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对所述待转换文本进行文字分割和词性标注,所述辅助文本特征包括所述待转换文本的分词结果和各分词的词性信息。
3.根据权利要求1所述的方法,其特征在于,在根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理之前,还包括:
提取历史文本的历史正则文本特征,并确定所述历史文本的辅助标签和解码标签;
将所述历史正则文本特征输入预设的辅助处理模块中,提取所述历史文本的历史辅助文本特征,并根据所述辅助标签和所述历史辅助文本特征确定对应的辅助损失;
将所述历史正则文本特征和所述历史辅助文本特征同时输入预设的文本解码模块中,得到携带语音播放标准的历史拼音序列,并根据所述解码标签和所述历史拼音序列确定对应的解码损失;
确定所述辅助损失和所述解码损失整合后的联合约束损失,并根据所述联合约束损失同时训练所述辅助处理模块和所述文本解码模块。
4.根据权利要求3所述的方法,其特征在于,所述辅助损失包括分词损失和词性损失。
5.根据权利要求2所述的方法,其特征在于,所述将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对所述待转换文本进行文字分割和词性标注,包括:
将所述待转换文本的正则文本特征顺序输入所述辅助处理模块下的混合门限卷积单元和编码单元中,提取所述待转换文本的辅助文本特征;
将所述辅助文本特征分别输入所述辅助处理模块下的文字分割单元和词性标注单元中,得到所述待转换文本的分词结果和各分词的词性信息。
6.根据权利要求1所述的方法,其特征在于,所述语音播放标准包括所述拼音序列的播放声调和韵律标准。
7.根据权利要求1所述的方法,其特征在于,在根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理之前,还包括:
通过预设的基于转换模型的双向编码器表示BERT网络提取所述待转换文本的初始文本特征,并对所述初始文本特征进行正则化,得到所述待转换文本的正则文本特征。
8.一种文本语音的前端转换装置,其特征在于,包括:
辅助特征提取模块,用于根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征,其中,所述辅助文本特征包括所述待转换文本的分词结果和各分词的词性信息;
文本语音转化模块,用于借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码, 包括:
将所述正则文本特征和辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。
9.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的文本语音的前端转换方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的文本语音的前端转换方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157096.8A CN111341293B (zh) | 2020-03-09 | 2020-03-09 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
PCT/CN2021/077775 WO2021179910A1 (zh) | 2020-03-09 | 2021-02-25 | 文本语音的前端转换方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157096.8A CN111341293B (zh) | 2020-03-09 | 2020-03-09 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341293A CN111341293A (zh) | 2020-06-26 |
CN111341293B true CN111341293B (zh) | 2022-11-18 |
Family
ID=71186011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010157096.8A Active CN111341293B (zh) | 2020-03-09 | 2020-03-09 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111341293B (zh) |
WO (1) | WO2021179910A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341293B (zh) * | 2020-03-09 | 2022-11-18 | 广州市百果园信息技术有限公司 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
CN111951780B (zh) * | 2020-08-19 | 2023-06-13 | 广州华多网络科技有限公司 | 语音合成的多任务模型训练方法及相关设备 |
CN111951779B (zh) * | 2020-08-19 | 2023-06-13 | 广州华多网络科技有限公司 | 语音合成的前端处理方法及相关设备 |
CN112489620B (zh) * | 2020-11-20 | 2022-09-09 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113380223B (zh) * | 2021-05-26 | 2022-08-09 | 标贝(北京)科技有限公司 | 多音字消歧方法、装置、系统及存储介质 |
CN114333760B (zh) * | 2021-12-31 | 2023-06-02 | 科大讯飞股份有限公司 | 一种信息预测模块的构建方法、信息预测方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109582743A (zh) * | 2018-11-26 | 2019-04-05 | 山东师范大学 | 一种针对恐怖袭击事件的数据挖掘方法 |
CN109800339A (zh) * | 2018-12-13 | 2019-05-24 | 平安普惠企业管理有限公司 | 正则表达式生成方法、装置、计算机设备及存储介质 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
CN110808028A (zh) * | 2019-11-22 | 2020-02-18 | 芋头科技(杭州)有限公司 | 嵌入式语音合成方法、装置以及控制器和介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664644B1 (en) * | 2006-06-09 | 2010-02-16 | At&T Intellectual Property Ii, L.P. | Multitask learning for spoken language understanding |
CN107680579B (zh) * | 2017-09-29 | 2020-08-14 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN109841220B (zh) * | 2017-11-24 | 2022-09-13 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN109326279A (zh) * | 2018-11-23 | 2019-02-12 | 北京羽扇智信息科技有限公司 | 一种文本转语音的方法、装置、电子设备和存储介质 |
CN109686361B (zh) * | 2018-12-19 | 2022-04-01 | 达闼机器人有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN110299131B (zh) * | 2019-08-01 | 2021-12-10 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110782883B (zh) * | 2019-11-12 | 2020-10-20 | 百度在线网络技术(北京)有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN111341293B (zh) * | 2020-03-09 | 2022-11-18 | 广州市百果园信息技术有限公司 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
-
2020
- 2020-03-09 CN CN202010157096.8A patent/CN111341293B/zh active Active
-
2021
- 2021-02-25 WO PCT/CN2021/077775 patent/WO2021179910A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109582743A (zh) * | 2018-11-26 | 2019-04-05 | 山东师范大学 | 一种针对恐怖袭击事件的数据挖掘方法 |
CN109800339A (zh) * | 2018-12-13 | 2019-05-24 | 平安普惠企业管理有限公司 | 正则表达式生成方法、装置、计算机设备及存储介质 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
CN110808028A (zh) * | 2019-11-22 | 2020-02-18 | 芋头科技(杭州)有限公司 | 嵌入式语音合成方法、装置以及控制器和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021179910A1 (zh) | 2021-09-16 |
CN111341293A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN111667816A (zh) | 模型训练方法、语音合成方法、装置、设备和存储介质 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
WO2021127817A1 (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN112463942B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114038447A (zh) | 语音合成模型的训练方法、语音合成方法、装置及介质 | |
CN112633007B (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN112017643B (zh) | 语音识别模型训练方法、语音识别方法及相关装置 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112231015B (zh) | 一种基于浏览器的操作指导方法、sdk插件及后台管理系统 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
CN112216267A (zh) | 一种韵律预测的方法、装置、设备及存储介质 | |
CN113823259B (zh) | 将文本数据转换为音素序列的方法及设备 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN115171647A (zh) | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 | |
Singh et al. | An integrated model for text to text, image to text and audio to text linguistic conversion using machine learning approach | |
CN117524193B (zh) | 中英混合语音识别系统训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231010 Address after: 31a, 15th floor, building 30, maple commercial city, bangrang Road, Brazil Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd. Address before: 5-13 / F, West Tower, building C, 274 Xingtai Road, Shiqiao street, Panyu District, Guangzhou, Guangdong 510000 Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |