CN110010136A - 韵律预测模型的训练和文本分析方法、装置、介质和设备 - Google Patents
韵律预测模型的训练和文本分析方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN110010136A CN110010136A CN201910272718.9A CN201910272718A CN110010136A CN 110010136 A CN110010136 A CN 110010136A CN 201910272718 A CN201910272718 A CN 201910272718A CN 110010136 A CN110010136 A CN 110010136A
- Authority
- CN
- China
- Prior art keywords
- text
- prosody prediction
- sentence
- data set
- target speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000033764 rhythmic process Effects 0.000 claims abstract description 149
- 238000013480 data collection Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims description 82
- 238000012545 processing Methods 0.000 claims description 39
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 21
- 238000003786 synthesis reaction Methods 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 230000005611 electricity Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
公开了一种韵律预测模型的训练和文本分析方法、装置、介质和设备。其中,韵律预测模型的训练方法,包括:确定第二数据集中文本标注的韵律信息,所述第二数据集是通用数据集;将所述第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过所述韵律差异模型对所述第二数据集中文本标注的韵律信息进行调整,得到所述目标发音人的第一数据集;利用所述第一数据集训练韵律预测模型,得到所述目标发音人的韵律预测模型。本公开实施例利用目标发音人的韵律预测模型进行韵律预测,可以与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
Description
技术领域
本公开涉及语音技术,尤其是一种韵律预测模型的训练方法、文本分析方法、韵律预测模型的训练装置、文本分析装置、计算机可读存储介质和电子设备。
背景技术
语音合成,又称文语转换技术,能够将文字转换为语音波形。语音合成系统,需要先对输入文本进行分析,从中提取出音素序列和韵律信息,然后通过声学模型和解码器,生成可直接播放出声音的波形(wav)文件。
构建一个语音合成系统,通常需要针对一个发音人,通过录音获取该发音人的声音数据,从该发音人的声音数据中提取声学参数,根据声学参数生成该发音人的声学模型。
发明内容
在实现本发明的过程中,本发明人通过研究发现,由于不同的发音人有不同的停顿习惯,现有技术中未考虑不同发音人的不同停顿习惯,采用通用的韵律模型进行韵律预测,所获得的标注韵律信息的文本与特定的发音人不能较好地匹配,与后端的声学模型也不能较好的匹配,从而影响了语音合成效果。
为了解决上述技术问题,本公开实施例提供了一种韵律预测模型的训练的技术方案和文本分析的技术方案。
根据本公开实施例的一个方面,提供了一种韵律预测模型的训练方法,包括:
确定第二数据集中文本标注的韵律信息,所述第二数据集是通用数据集;
将所述第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过所述韵律差异模型对所述第二数据集中文本标注的韵律信息进行调整,得到所述目标发音人的第一数据集;
利用所述第一数据集训练韵律预测模型,得到所述目标发音人的韵律预测模型。
根据本公开实施例的另一个方面,提供了一种文本分析方法,包括:
获取待处理文本;
利用目标发音人的韵律预测模型,对所述待处理文本进行韵律预测,得到韵律预测结果;其中,所述目标发音人的韵律预测模型基于所述目标发音人的第一数据集训练得到。
根据本公开实施例的又一个方面,提供了一种韵律预测模型的训练装置,包括:
获取模块,用于确定第二数据集中文本标注的韵律信息,所述第二数据集是通用数据集;
调整模块,用于将所述获取模块确定的所述第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过所述韵律差异模型对所述第二数据集中文本标注的韵律信息进行调整,得到所述目标发音人的第一数据集;
训练模块,用于利用所述调整模块得到的所述第一数据集训练韵律预测模型,得到所述目标发音人的韵律预测模型。
根据本公开实施例的再一个方面,提供了一种文本分析装置,包括:
文本获取模块,用于获取待处理文本;
韵律预测模块,用于利用目标发音人的韵律预测模型,对所述文本获取模块获取的所述待处理文本进行韵律预测,得到韵律预测结果;其中,所述目标发音人的韵律预测模型基于所述目标发音人的第一数据集训练得到。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的方法。
根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述任一实施例所述的方法。
基于本公开上述实施例提供的韵律预测模型的训练方法、韵律预测模型的训练装置、计算机可读存储介质和电子设备,通过确定第二数据集中文本标注的韵律信息,将第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集,其中,第二数据集是通用数据集,第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,利用这样的韵律预测模型进行韵律预测,可以使所获得的标注韵律信息的文本与特定的发音人较好地匹配,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
基于本公开上述实施例提供的文本分析方法、文本分析装置、计算机可读存储介质和电子设备,通过获取待处理文本,利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,得到韵律预测结果,由于目标发音人的韵律预测模型是基于目标发音人的第一数据集训练得到的,而目标发音人的第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,因此利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,在利用这样的韵律预测模型对待处理文本进行韵律预测时,可以使所获得的韵律预测结果,即标注韵律信息的文本与特定的发音人较好地匹配,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开一些实施例的韵律预测模型的训练方法的流程图;
图2为本公开一些实施例获得韵律差异模型的流程图;
图3为本公开一些实施例训练韵律差异模型的流程图;
图4为本公开一些实施例的文本分析方法的流程图;
图5为本公开另一些实施例的文本分析方法的流程图;
图6为本公开又一些实施例的文本分析方法的流程图;
图7为本公开再一些实施例的文本分析方法的流程图;
图8为本公开再一些实施例的文本分析方法的流程图;
图9为本公开一些实施例的韵律预测模型的训练装置的结构示意图;
图10为本公开另一些实施例的韵律预测模型的训练装置的结构示意图;
图11为本公开另一些实施例的韵律预测模型的训练装置中的第一训练模块的结构示意图;
图12为本公开一些实施例的文本分析装置的结构示意图;
图13为本公开另一些实施例的文本分析装置的结构示意图;
图14为本公开又一些实施例的文本分析装置的结构示意图;
图15为本公开再一些实施例的文本分析装置的结构示意图;
图16为本公开再一些实施例的文本分析装置的结构示意图;
图17本公开一些实施例的电子设备的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
随着人工智能(Artificial Intelligence)的发展,语音交互正逐渐成为人机交互的主要方式,语音合成是实现语音交互的关键技术。语音合成,又称文语转换技术,能够将文字转换为语音波形。语音合成系统,是实现文字到语音波形转换的系统,语音合成系统需要先对输入文本进行分析,从中提取出音素序列和韵律信息,然后通过声学模型和解码器,生成可直接播放出声音的波形文件。
其中,声学模型是语音合成系统中最终要的组成部分之一,是用于语音合成系统中文本分析部分的后端,输入为文本分析部分得到的音素序列和韵律信息,输出为预测的语音波形各个帧的声学特征。目前主流语音合成系统的声学模型主要采用隐马尔可夫(Hidden Markov Model,HMM)建模和人工神经网络(Artificial Neural Network,ANN)建模两种方法构建。
构建一个语音合成系统,通常需要选定一个发音人,通过录音获取该发音人的声音数据,从该发音人的声音数据中提取声学参数,根据声学参数生成该发音人的声学模型。
一般情况下,文本分析与发音人无关,不需要针对不同的发音人标注不同韵律信息的文本。但是,由于不同的发音人有不同的停顿习惯,采用通用的韵律模型进行韵律预测,所获得的标注韵律信息的文本与特定的发音人不能较好地匹配,与后端的声学模型也不能较好的匹配,从而影响了语音合成效果。
在一些实施例中,在文本分析过程中,可以利用根据本公开实施例的韵律预测模型的训练方法和/或装置训练的韵律预测模型,针对特定发音人进行韵律预测,可以获得具有特定发音人的停顿习惯的韵律信息,使韵律预测所获得标注韵律信息的文本与特定发音人较好地匹配,与后端的声学模型也能够较好的匹配,从而获得较好的语音合成效果。
如图1所示,图1为本公开一些实施例的韵律预测模型的训练方法的流程图。该方法可以由终端设备或服务器执行,例如:手机、电脑、机器人、智能穿戴设备等终端设备。其中,该韵律预测模型的训练方法可包括:
102,确定第二数据集中文本标注的韵律信息。
在本公开实施例中,第二数据集是通用数据集,其包含有大量标注有韵律信息的文本,并且这些文本所标注的韵律信息不固定发音人,也就是说,这些文本所标注的韵律信息不针对特定的发音人,并不与特定的发音人相匹配。
可选地,可以通过不同发音人对文本进行韵律信息的标注,得到第二数据集,从而确定第二数据集中文本标注的韵律信息;或者,也可以利用现有的标注有韵律信息的通用数据集作为第二数据集,确定第二数据集中文本标注的韵律信息。本公开实施例对第二数据集的获得方式不作限定。
104,将第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集。
在本公开实施例中,第一数据集中的文本标注有符合目标发音人的停顿习惯,能够体现目标发音人的停顿习惯的独特性的韵律信息,因此也可以将第一数据集称为目标发音人的个性化数据集。在本公开实施例中,韵律是指在自然语流中的停顿位置。
在本公开实施例中,韵律差异模型与特定的目标发音人相对应,针对不同的发音人具有不同的韵律差异模型。可选地,可以利用标注有目标发音人韵律信息的文本与通用数据集中的文本之间的韵律差异,训练得到的目标发音人的韵律差异模型,使韵律差异模型学习到两个文本之间的韵律差异;或者也可以利用标注有目标发音人的韵律信息与通用数据集中文本的韵律信息之间的韵律差异的文本,训练得到的目标发音人的韵律差异模型,使韵律差异模型学习到文本标注的两个韵律信息之间的韵律差异。本公开实施例对韵律差异模型的获得方式不作限定。
在本公开实施例中,在将通用数据集输入已训练的与目标发音人相对应的韵律差异模型后,韵律差异模型将利用所学习到的韵律差异对通用数据集中文本标注的韵律信息进行调整,使调整后的韵律信息符合目标发音人的停顿习惯,从而得到目标发音人的第一数据集。可选地,韵律差异模型可以采用神经网络或者其它机器学习的模型,本公开实施例对韵律差异模型的实现方式不作限定。例如,韵律差异模型可以包括但不限于卷积神经网络、深度神经网络、循环神经网络等。
106,利用第一数据集训练韵律预测模型,得到目标发音人的韵律预测模型。
可选地,可以利用第一数据集中标注有韵律信息的文本来训练韵律预测模型,使韵律预测模型从这些文本标注的韵律信息中学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型;或者,可以利用第一数据集中标注有韵律信息的文本中的句子来训练韵律预测模型,使韵律预测模型从这些句子标注的韵律信息中学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型。本公开实施例对训练韵律预测模型的方法不作限定。
在一些可能的实现方式中,当利用第一数据集中标注有韵律信息的文本中的句子来训练韵律预测模型,可以通过韵律预测模型,对第一数据集中的至少一个句子进行韵律预测,得到至少一个句子的韵律预测信息,然后根据至少一个句子的韵律预测信息与至少一个句子标注的韵律信息之间的差异,对韵律预测模型的参数进行调整,实现对韵律预测模型的训练,从而得到目标发音人的韵律预测模型。
可选地,韵律预测模型可以采用神经网络或者其它机器学习的模型,本公开实施例对韵律预测模型的实现方式不作限定。例如,韵律预测模型可以包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Network,DNN)、循环神经网络((Recurrent Neural Network,RNN)等。
本公开实施例提供的韵律预测模型的训练方法,通过确定第二数据集中文本标注的韵律信息,将第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集,其中,第二数据集是通用数据集,第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,利用这样的韵律预测模型进行韵律预测,可以使所获得的标注韵律信息的文本与特定的发音人较好地匹配,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
为了获得特定发音人的韵律差异模型,通常需要对韵律差异模型进行训练。下面将结合图2的例子,详细描述本公开一些实施例获得韵律差异模型的流程。
图2为本公开一些实施例获得韵律差异模型的流程图,如图2所示,该获得韵律差异模型的方法可包括:
202,确定所述目标发音人的部分数据集。
在本公开实施例中,部分数据集中的文本标注有韵律信息,其中,部分数据集中的文本所标注的韵律信息是符合目标发音人的停顿习惯的,能够体现目标发音人的停顿习惯的独特性的韵律信息。部分数据集包含有少量标注有韵律信息的文本。可选地,部分数据集可以为第一数据集中的一部分数据,但本公开实施例对此不做限定。例如:部分数据集可以通过目标发音人对文本进行韵律信息的标注得到。
204,利用第二数据集和部分数据集,训练韵律差异模型,得到已训练的目标发音人的韵律差异模型。
可选地,可以利用通用数据集和部分数据集中文本之间的韵律差异,训练韵律差异模型,得到已训练的目标发音人的韵律差异模型,使韵律差异模型学习到两个文本之间的韵律差异;或者也可以利用通用数据集和部分数据集中文本中的句子之间的韵律差异,训练韵律差异模型,得到已训练的目标发音人的韵律差异模型,使韵律差异模型学习到两个句子之间的韵律差异。本公开实施例对训练韵律差异模型的方式不作限定。
本公开实施例通过利用通用数据集和目标发音人的部分数据集训练韵律差异模型,得到目标发音人的韵律差异模型,为利用韵律差异模型获得大量标注有目标发音人的韵律信息的文本提供了基础,实现了利用部分数据集中少量标注有目标发音人的韵律信息的文本,获得第一数据集中大量标注有目标发音人的韵律信息的文本,可以避免目标发音人进行大量韵律信息的标注,简化大量标注有目标发音人的韵律信息的文本的获取过程,提高获得大量标注有目标发音人的韵律信息的文本的效率,节约时间和成本,为获得特定发音人的韵律预测模型提供了基础。
由于文本是由一个或多个句子组合而成,句子是能够表达一个完整的意思的语言运用的基本单位,因此将句子作为韵律差异模型训练的基础,所获得的韵律差异模型可以具有更好的适应性。下面将结合图3的例子,详细描述本公开一些实施例训练韵律差异模型的流程。
图3为本公开一些实施例训练韵律差异模型的流程图,如图3所示,该训练韵律差异模型的方法可包括:
302,针对部分数据集中的每一个第一句子,确定第一句子与第二数据集的任一个第二句子之间的相似度,得到至少一个相似度。
在本公开实施例中,可以通过对部分数据集中的每一个第一句子,计算其与第二数据集中的每一个第二句子在文字上的相似度,得到部分数据集中的每一个第一句子与第二数据集中的所有第二句子之间的相似度,其中相似度的计算与句子标注的韵律信息无关。可选地,可以采用常用的相似度计算方法,确定第一句子与第二句子之间的相似度,常用的相似度计算方法包括但不限于余弦相似度、汉明距离等,本公开实施例对两个句子之间的相似度的计算方法不作限定。
304,基于至少一个相似度,从第二数据集的任一个第二句子中确定与第一句子相似的第二句子。
可选地,可以对部分数据集中的每一个第一句子的至少一个相似度按照从大到小的顺序进行排序,然后根据排序将最大相似度对应的第二数据集中的第二句子确定为与第一句子相似的第二句子;或者可以将部分数据集中的每一个第一句子的至少一个相似度与预设阈值进行比较,将大于预设阈值的相似度对应的第二数据集中的第二句子确定为与第一句子相似的第二句子。本公开实施例对第二句子的确定方法不作限定。
306,利用每一个第一句子和与第一句子相似的第二句子训练韵律差异模型,得到目标发音人的韵律差异模型。
可选地,可以确定每一个第一句子和与第一句子相似的第二句子标注的韵律信息之间的差异,根据该差异对韵律差异模型的参数进行调整,实现对韵律差异模型的训练,从而得到目标发音人的韵律差异模型。例如,可以将每一个第二句子作为韵律差异模型的输入,将与第二句子相似的第一句子作为韵律差异模型的输出,基于每一个第一句子和与第一句子相似的第二句子标注的韵律信息之间的差异训练韵律差异模型,使韵律差异模型学习到该韵律信息之间的差异,从而利用该韵律信息之间的差异实现对第二句子标注的韵律信息的调整,使调整后的第二句子标注的韵律信息与第一句子标注的韵律信息一致。
在一个可选的例子中,部分数据集中的第一句子为:地平线具有世界先进的深度学习和决策推理算法开发能力。第一句子标注的符合目标发音人的停顿习惯的韵律信息=地平线#2具有#1世界#1先进的#1深度#1学习#1和#3决策#1推理#1算法#1开发#1能力#5。通用数据集中的第二句子为:地平线具有世界领先的深度学习和决策推理算法开发能力。第二句子标注的不固定发音人的韵律信息=地平线#1具有#1世界#1领先的#1深度#1学习#3和#1决策#1推理#1算法#1开发#1能力#5。其中,#1、#2、#3和#5分别为根据停顿时间的长短设置不同的韵律等级。在计算第一句子与第二句子的相似度时,可以将第一句子的文字“地平线具有世界先进的深度学习和决策推理算法开发能力”转换为对应的二进制编码,将第二句子的文字“地平线具有世界领先的深度学习和决策推理算法开发能力”采用相同的方式转换为对应的二进制编码,例如均通过Unicode编码转换为对应的二进制编码,通过计算第一句子与第二句子对应的二进制编码之间的汉明距离,得到第一句子与第二句子的相似度。由于第一句子与第二句子之间存在差异的词语仅为“先进”和“领先”两个词语,因此第一句子与第二句子的汉明距离也就是这两个词语对应的二进制编码对应位置不同字符的个数。
本公开实施例通过以句子作为基本单位训练韵律差异模型,可以在保证语义表达表达完整的基础上,充分利用部分数据集中少量标注有目标发音人的韵律信息的文本实现对韵律差异模型的训练,可以在保证训练得到的韵律差异模型的性能的基础上,进一步减少部分数据集中标注有目标发音人的韵律信息的文本的数量,同时,以句子作为韵律差异模型训练的基础,所获得的韵律差异模型还可以具有更好的适应性。
本公开实施例还提供了一种文本分析方法。如图4所示,图4为本公开一些实施例的文本分析方法的流程图。该方法可以由终端设备或服务器执行,例如:手机、电脑、机器人、智能穿戴设备等终端设备。其中,该文本分析方法可包括:
402,获取待处理文本。
可选地,待处理文本可以为文本分析过程输入的最初文本,例如,待处理文本为一段文字,在计算机中可以为UTF8格式的二进制码,或者待处理文本也可以为文本分析过程得到的中间文本,本公开实施例对此不作限定。
404,利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。可选地,韵律预测结果可以为文本分析过程输出的最终文本,例如,律预测结果为一段标记有音素信息和韵律信息等的文字,或者韵律预测结果也可以为文本分析过程得到的中间文本,本公开实施例对此不作限定。
在一个可选的例子中,文本分析过程输入的文本为:地平线具有世界领先的深度学习和决策推理算法开发能力。文本分析过程输出的结果为:
韵律信息=地平线#1具有#1世界#1领先的#1深度#1学习#3和#1决策#1推理#1算法#1开发#1能力#5;
音素信息=pau0 di4 ping2 xian4 ju4 you3 shi4 jie4 ling3 xian1 de5shen1 du4 xue2 xi2 pau0 he2 jue2 ce4 tui1 li3 suan4 fa3 kai1 fa1 neng2 li4pau0;
词性信息=地平线/n具有/v世界/n领先/n的/u深度/n学习/n和/c决策/n推理/n算法/n开发/n能力/n。
本公开实施例提供的文本分析方法,通过获取待处理文本,利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,得到韵律预测结果,由于目标发音人的韵律预测模型是基于目标发音人的第一数据集训练得到的,而目标发音人的第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,因此利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,在利用这样的韵律预测模型对待处理文本进行韵律预测时,可以使所获得的韵律预测结果,即标注韵律信息的文本与特定的发音人较好地匹配,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
在一些实施例中,本公开实施例的文本分析方法所采用的目标发音人的韵律预测模型是基于上述任一实施例的韵律预测模型的训练方法训练得到。
在本公开实施例中,韵律是指在自然语流中的停顿位置。通常根据停顿时间的长短,可以设置不同的韵律等级,例如,按照停顿时间由短到长,可以将字与字之间的停顿,设置为L0,可以将词语级停顿,设置为L1,可以将短语级停顿,设置为L2,可以将长句子中的换气停顿,设置为L3,可以将逗号、分号等符号级停顿,设置为L4,以及可以将句子的末尾停顿设置为L5等。本公开实施例的文本分析方法利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,得到的韵律预测结果,可以包括L0至L5各个级别的停顿位置,或者L0至L5各个级别的停顿位置之一,或者L0至L5各个级别的停顿位置的任意组合,本公开实施例对此不作限定。
下面将结合图5至图8的实施例,详细描述本公开一些实施例的文本分析方法的流程。
图5为本公开另一些实施例的文本分析方法的流程图,如图5所示,该文本分析方法可包括:
502,获取待处理文本。
在本公开实施例中,关于操作502的说明可以参见图4中关于操作402的说明,故在此不再复述。
504,对待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,分词结果信息包括词性、音素和词语级的停顿信息,即L1,中的任意一项或多项。可选地,可以基于词典对待处理文本进行分词处理,得到至少一个词语的分词结果信息,或者可以通过训练得到的机器学习的模型对待处理文本进行分词处理,得到至少一个词语的分词结果信息,例如神经网络等机器学习的模型,但本公开实施例对此不作限定。
在一个可选的例子中,待处理文本为:中国日报二月二十三日电。分词结果信息为:中国/zhong1-guo2;2;n,nz;日报/ri4-bao4;2;n;二/er4;1;d,m;月/yue4;1;a,d,n,q,t;二十三日/er4-shi2-san1-ri4;22;t;电/dian4;1;a,n,v。其中,分词结果信息包括:音素、词语级的停顿和词性三项信息,并且在分词结果信息中以分号进行间隔。
506,利用目标发音人的韵律预测模型,基于至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。可选地,目标发音人的韵律预测模型是基于上述任一实施例的韵律预测模型的训练方法训练得到。
在一个可选的例子中,待处理文本为:地平线具有世界领先的深度学习和决策推理算法开发能力。分词处理得到的词性信息为:地平线/n具有/v世界/n领先/n的/u深度/n学习/n和/c决策/n推理/n算法/n开发/n能力/n。基于该词性信息进行韵律预测,得到的韵律预测结果为:地平线#1具有#1世界#1领先的#1深度#1学习#3和#1决策#1推理#1算法#1开发#1能力#5。
由于词语的词性会对韵律预测产生一定的影响,本公开实施例提供的文本分析方法,通过在对待处理文本进行分词处理后,基于分词结果信息中的词性信息,对待处理文本进行韵律预测,可以获得更准确的韵律预测结果。
图6为本公开又一些实施例的文本分析方法的流程图,如图6所示,该文本分析方法可包括:
602,获取待处理文本。
在本公开实施例中,关于操作602的说明可以参见图4中关于操作402的说明,故在此不再复述。
604,对待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,关于操作604的说明可以参见图5中关于操作504的说明,故在此不再复述。
606,基于至少一个词语的分词结果信息中的词性信息,对至少一个词语中的多词性词语进行词性预测,得到词性预测结果。
可选地,在分词结果信息中包含多词性词语时,可以通过训练得到的机器学习的模型,根据词语所在句子的语境等对多词性词语进行词性预测,确定多词性词语的词性,例如决策树算法、神经网络等机器学习的模型,但本公开实施例对此不作限定。在本公开实施例中,在得到词性预测结果后,还会根据词性预测结果更新对应的分词结果信息中的词性信息,以获得待处理文本中每一个词语准确的词性信息。
在一个可选的例子中,待处理文本为:中国日报二月二十三日电。分词结果信息为:中国/zhong1-guo2;2;n,nz;日报/ri4-bao4;2;n;二/er4;1;d,m;月/yue4;1;a,d,n,q,t;二十三日/er4-shi2-san1-ri4;22;t;电/dian4;1;a,n,v。其中,分词结果信息包括:音素、词语级的停顿和词性三项信息,并且在分词结果信息中以分号进行间隔。由于“中国”、“二”、“月”、“电”均为多词性词语,其中,“中国”包括n和nz两种词性,“二”包括d和m两种词性,“月”包括a、d、n、q和t五种词性,“电”包括a、n和v三种词性。因此,在对其中的多词性词语进行词性预测后,得到词性预测结果为:中国/nz日报/n二/m月/t二十三日/t电/n。
608,利用目标发音人的韵律预测模型,基于至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,关于操作608的说明可以参见图5中关于操作506的说明,故在此不再复述。
由于词语的词性会对韵律预测产生一定的影响,本公开实施例提供的文本分析方法,通过在对待处理文本进行分词处理后,对其中存在多词性的词语进行词性预测,并基于词性预测后的词性信息,对待处理文本进行韵律预测,可以进一步提高韵律预测结果的准确性。
图7为本公开再一些实施例的文本分析方法的流程图,如图7所示,该文本分析方法可包括:
702,获取待处理文本。
在本公开实施例中,关于操作702的说明可以参见图4中关于操作402的说明,故在此不再复述。
704,对待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,关于操作704的说明可以参见图5中关于操作504的说明,故在此不再复述。
706,利用目标发音人的韵律预测模型,基于至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,关于操作706的说明可以参见图5中关于操作506的说明,故在此不再复述。
708,基于韵律预测结果和至少一个词语的分词结果信息中的音素信息,对至少一个词语中的多音词语进行音素预测,得到音素预测结果。
可选地,在分词结果信息中包含多音词语时,可以通过训练得到的机器学习的模型,根据词语所在句子的语境等对多音词语进行音素预测,确定多音素的音素,例如决策树算法、神经网络等机器学习的模型,但本公开实施例对此不作限定。在本公开实施例中,在得到音素预测结果后,还会根据音素预测结果更新对应的分词结果信息中的音素信息,以获得待处理文本中每一个词语准确的音素信息。
在一个可选的例子中,待处理文本为:他在学校教授科学知识。分词结果信息为:他/ta1在/zai4学校/xue2-xiao4教授/jiao4-shou4科学/ke1-xue2知识/zhi1-shi5。其中,分词结果信息只包括音素信息。由于“教授”为多音词语,“教授”包括jiao4-shou4和jiao1-shou4两个读音,其中数字代表声调数。因此,在对其中的多音词语进行音素预测后,得到音素预测结果为:他/ta1在/zai4学校/xue2-xiao4教授/jiao1-shou4科学/ke1-xue2知识/zhi1-shi5。
可选地,本实施例也可以与图6中的实施例结合,实现文本分析。
由于不同发音人的停顿习惯,会对句子中词语的发音产生一定的影响,例如:根据有些发音人的停顿习惯,一些词语的发音可能会被连读,因此本公开实施例提供的文本分析方法,在对待处理文本进行韵律预测后,通过对待处理文本进行分词处理得到分词结果信息中的多音词语进行音素预测,可以获得更准确的音素信息。
图8为本公开再一些实施例的文本分析方法的流程图,如图8所示,该文本分析方法可包括:
802,获取待处理文本。
在本公开实施例中,关于操作802的说明可以参见图4中关于操作402的说明,故在此不再复述。
804,对所述待处理文本中的非文字部分进行文字转换处理,得到归一化的待处理文本。
在本公开实施例中,待处理文本中的非文字部分包括数字和符号中的任意一项或多项,例如:123、+、-等。可选地,当待处理文本中存在非文字部分时,可以通过训练得到的机器学习的模型,根据词语所在句子的语境等对非文字部分进行文字转换处理,得到归一化的待处理文本,例如神经网络等机器学习的模型,但本公开实施例对此不作限定。例如:将数字“123”转换“一二三”或者“一百二十三”,将符号“-”转为“减”或者“负”等等。
在一个可选的例子中,待处理文本为:中国日报2月23日电;转换处理后得到的归一化的待处理文本为:中国日报二月二十三日电。在另一个可选的例子中,待处理文本为:拨打400-123-8956;转换处理后得到的归一化的待处理文本为:拨打四零零幺二三负八千九百五十六。在又一个可选的例子中,待处理文本为:今天-1℃,pm2.5值52,举例目的地300-400米;转换处理后得到的归一化的待处理文本为:今天零下一摄氏度,pm二点五值五十二,举例目的地三百到四百米。
806,对待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,关于操作806的说明可以参见图5中关于操作504的说明,故在此不再复述。
808,利用目标发音人的韵律预测模型,基于至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,关于操作808的说明可以参见图5中关于操作506的说明,故在此不再复述。
可选地,本实施例也可以与图6和/或图7中的实施例结合,实现文本分析。
本公开实施例提供的文本分析方法,通过将待处理文本中的非文字部分进行文字转换处理,得到归一化的待处理文本,可以便于后续对仅包含文字的归一化的待处理文本采用统一的方式进行处理,避免由于待处理文本中包含非文字部分,需要对其中文字部分和非文字部分分开进行处理,可以简化文本分析的处理过程,提高文本分析的效率,节约时间和成本。
图9为本公开一些实施例的韵律预测模型的训练装置的结构示意图。该装置可以设置于终端设备或服务器,执行本公开上述任一实施例的韵律预测模型的训练方法。如图9所示,该装置包括:获取模块910、调整模块920和训练模块930。其中,
获取模块910,用于确定第二数据集中文本标注的韵律信息。
在本公开实施例中,第二数据集是通用数据集。
调整模块920,用于将获取模块910确定的第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集。
训练模块930,用于利用调整模块920得到的第一数据集训练韵律预测模型,得到目标发音人的韵律预测模型。
在一些可能的实现方式中,当利用第一数据集中标注有韵律信息的文本中的句子来训练韵律预测模型,训练模块930可以通过韵律预测模型,对第一数据集中的至少一个句子进行韵律预测,得到至少一个句子的韵律预测信息,然后根据至少一个句子的韵律预测信息与至少一个句子标注的韵律信息之间的差异,对对韵律预测模型进行训练,得到目标发音人的韵律预测模型。
本公开实施例提供的韵律预测模型的训练装置,通过确定第二数据集中文本标注的韵律信息,将第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集,其中,第二数据集是通用数据集,第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,,利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,利用这样的韵律预测模型进行韵律预测,可以使所获得的标注韵律信息的文本与特定的发音人较好地匹配,,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
图10为本公开另一些实施例的韵律预测模型的训练装置的结构示意图。如图10所示,该装置包括:第一获取模块1010、第一训练模块1020、第二获取模块1030、调整模块1040和第二训练模块1050。其中,
第一获取模块1010,用于确定所述目标发音人的部分数据集。
在本公开实施例中,部分数据集中的文本标注有韵律信息。
第一训练模块1020,用于利用第二数据集和第一获取模块1010确定的部分数据集,训练韵律差异模型,得到已训练的目标发音人的韵律差异模型。
第二获取模块1230,用于确定第二数据集中文本标注的韵律信息。
在本公开实施例中,第二数据集是通用数据集。
调整模块1040,用于将第二获取模块1030确定的第二数据集输入第一训练模块1020得到的已训练的目标发音人的韵律差异模型,通过韵律差异模型对第二数据集中文本标注的韵律信息进行调整,得到目标发音人的第一数据集。
第二训练模块1050,用于利用调整模块1040得到的第一数据集训练韵律预测模型,得到目标发音人的韵律预测模型。
本公开实施例通过利用通用数据集和目标发音人的部分数据集训练韵律差异模型,得到目标发音人的韵律差异模型,为利用韵律差异模型获得大量标注有目标发音人的韵律信息的文本提供了基础,实现了利用部分数据集中少量标注有目标发音人的韵律信息的文本,获得第一数据集中大量标注有目标发音人的韵律信息的文本,可以避免目标发音人进行大量韵律信息的标注,简化大量标注有目标发音人的韵律信息的文本的获取过程,提高获得大量标注有目标发音人的韵律信息的文本的效率,节约时间和成本,为获得特定发音人的韵律预测模型提供了基础。
图11为本公开另一些实施例的韵律预测模型的训练装置中的第一训练模块的结构示意图。如图11所示,第一训练模块包括:计算单元1110、匹配单元1120、和训练单元1130。其中,
计算单元1110,用于针对部分数据集中的每一个第一句子,确定第一句子与第二数据集的任一个第二句子之间的相似度,得到至少一个相似度。
匹配单元1120,用于基于计算单元1110得到的至少一个相似度,从第二数据集的任一个第二句子中确定与第一句子相似的第二句子。
可选地,匹配单元1120可以对部分数据集中的每一个第一句子的至少一个相似度按照从大到小的顺序进行排序,然后根据排序将最大相似度对应的第二数据集中的第二句子确定为与第一句子相似的第二句子。
训练单元1130,用于利用匹配单元1120得到的每一个第一句子和与第一句子相似的第二句子训练韵律差异模型,得到目标发音人的韵律差异模型。
可选地,训练单元1130可以确定每一个第一句子和与第一句子相似的第二句子标注的韵律信息之间的差异,根据该差异对韵律差异模型进行训练,得到目标发音人的韵律差异模型。
本公开实施例通过以句子作为基本单位训练韵律差异模型,可以在保证语义表达表达完整的基础上,充分利用部分数据集中少量标注有目标发音人的韵律信息的文本实现对韵律差异模型的训练,可以在保证训练得到的韵律差异模型的性能的基础上,进一步减少部分数据集中标注有目标发音人的韵律信息的文本的数量,同时,以句子作为韵律差异模型训练的基础,所获得的韵律差异模型还可以具有更好的适应性。
本公开实施例还提供了一种文本分析装置。如图12所示,图12为本公开一些实施例的文本分析装置的结构示意图。该装置可以设置于终端设备或服务器,执行本公开上述任一实施例的文本分析方法。该装置包括:文本获取模块1210和韵律预测模块1220。其中,
文本获取模块1210,用于获取待处理文本。
韵律预测模块1220,用于利用目标发音人的韵律预测模型,对文本获取模块1210获取的待处理文本进行韵律预测,得到韵律预测结果,其中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。
本公开实施例提供的文本分析装置,通过获取待处理文本,利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,得到韵律预测结果,由于目标发音人的韵律预测模型是基于目标发音人的第一数据集训练得到的,而目标发音人的第一数据集是标注有符合目标发音人的停顿习惯的韵律信息的数据集,因此利用第一数据集训练韵律预测模型,可以使韵律预测模型学习到目标发音人的停顿习惯,从而得到符合目标发音人的停顿习惯的韵律预测模型,在利用这样的韵律预测模型对待处理文本进行韵律预测时,可以使所获得的韵律预测结果,即标注韵律信息的文本与特定的发音人较好地匹配,同时也能够与后端的声学模型较好的匹配,从而获得较好的语音合成效果。
在一些实施例中,本公开实施例的文本分析装置所采用的目标发音人的韵律预测模型是基于上述任一实施例的韵律预测模型的训练装置训练得到。
图13为本公开另一些实施例的文本分析装置的结构示意图。如图13所示,该装置包括:文本获取模块1310、分词处理模块1320和韵律预测模块1330。其中,
文本获取模块1310,用于获取待处理文本。
分词处理模块1320,用于对文本获取模块1310获取的待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,分词结果信息包括词性、音素和词语级的停顿信息中的任意一项或多项。
韵律预测模块1330,用于利用目标发音人的韵律预测模型,基于分词处理模块1320得到的至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。
由于词语的词性会对韵律预测产生一定的影响,本公开实施例提供的文本分析装置,通过在对待处理文本进行分词处理后,基于分词结果信息中的词性信息,对待处理文本进行韵律预测,可以获得更准确的韵律预测结果。
图14为本公开又一些实施例的文本分析装置的结构示意图。如图14所示,该装置包括:文本获取模块1410、分词处理模块1420、词性预测模块1430和韵律预测模块1440。其中,
文本获取模块1410,用于获取待处理文本。
分词处理模块1420,用于对文本获取模块1410获取的待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,分词结果信息包括词性、音素和词语级的停顿信息中的任意一项或多项。
词性预测模块1430,用于基于分词处理模块1420得到的至少一个词语的分词结果信息中的词性信息,对至少一个词语中的多词性词语进行词性预测,得到词性预测结果。
在本公开实施例中,在得到词性预测结果后,还会根据词性预测结果更新对应的分词结果信息中的词性信息,以获得待处理文本中每一个词语准确的词性信息。
韵律预测模块1440,用于利用目标发音人的韵律预测模型,基于词性预测模块1430处理后得到的至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。
由于词语的词性会对韵律预测产生一定的影响,本公开实施例提供的文本分析装置,通过在对待处理文本进行分词处理后,对其中存在多词性的词语进行词性预测,并基于词性预测后的词性信息,对待处理文本进行韵律预测,可以进一步提高韵律预测结果的准确性。
图15为本公开再一些实施例的文本分析装置的结构示意图。如图15所示,该装置包括:文本获取模块1510、分词处理模块1520、韵律预测模块1530和音素预测模块1540。其中,
文本获取模块1510,用于获取待处理文本。
分词处理模块1520,用于对文本获取模块1510获取的待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,分词结果信息包括词性、音素和词语级的停顿信息中的任意一项或多项。
韵律预测模块1530,用于利用目标发音人的韵律预测模型,基于分词处理模块1520得到的至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。
音素预测模块1540,用于基于韵律预测模块1530得到的韵律预测结果和至少一个词语的分词结果信息中的音素信息,对至少一个词语中的多音词语进行音素预测,得到音素预测结果。
可选地,本实施例也可以与图14中的实施例结合,实现文本分析。
由于不同发音人的停顿习惯,会对句子中词语的发音产生一定的影响,本公开实施例提供的文本分析装置,在对待处理文本进行韵律预测后,通过对待处理文本进行分词处理得到分词结果信息中的多音词语进行音素预测,可以获得更准确的音素信息。
图16为本公开再一些实施例的文本分析装置的结构示意图。如图16所示,该装置包括:文本获取模块1610、归一化处理模块1620、分词处理模块1630和韵律预测模块1640。其中,
文本获取模块1610,用于获取待处理文本。
归一化处理模块1620,用于对文本获取模块1610获取的待处理文本中的非文字部分进行文字转换处理,得到归一化的待处理文本。
在本公开实施例中,待处理文本中的非文字部分包括数字和符号中的任意一项或多项。
分词处理模块1630,用于对归一化处理模块1620得到的待处理文本进行分词处理,得到至少一个词语的分词结果信息。
在本公开实施例中,分词结果信息包括词性、音素和词语级的停顿信息中的任意一项或多项。
韵律预测模块1640,用于利用目标发音人的韵律预测模型,基于分词处理模块630得到的至少一个词语的分词结果信息,对待处理文本进行韵律预测,得到韵律预测结果。
在本公开实施例中,目标发音人的韵律预测模型基于目标发音人的第一数据集训练得到。
可选地,本实施例也可以与图14和/或图15中的实施例结合,实现文本分析。
本公开实施例提供的文本分析装置,通过将待处理文本中的非文字部分进行文字转换处理,得到归一化的待处理文本,可以便于后续对仅包含文字的归一化的待处理文本采用统一的方式进行处理,避免由于待处理文本中包含非文字部分,需要对其中文字部分和非文字部分分开进行处理,可以简化文本分析的处理过程,提高文本分析的效率,节约时间和成本。
下面,参考图17来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图17图示了根据本公开实施例的电子设备的框图。
如图17所示,电子设备1900包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的韵律预测模型的训练方法和/或文本分析方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图17中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的韵律预测模型的训练方法和/或文本分析方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的韵律预测模型的训练方法和/或文本分析方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (15)
1.一种韵律预测模型的训练方法,包括:
确定第二数据集中文本标注的韵律信息,所述第二数据集是通用数据集;
将所述第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过所述韵律差异模型对所述第二数据集中文本标注的韵律信息进行调整,得到所述目标发音人的第一数据集;
利用所述第一数据集训练韵律预测模型,得到所述目标发音人的韵律预测模型。
2.根据权利要求1所述的方法,其中,还包括:
确定所述目标发音人的部分数据集,所述部分数据集中的文本标注有韵律信息;
利用所述第二数据集和所述部分数据集,训练韵律差异模型,得到已训练的所述目标发音人的韵律差异模型。
3.根据权利要求2所述的方法,其中,所述利用所述第二数据集和所述部分数据集,训练韵律差异模型,包括:
针对所述部分数据集中的每一个第一句子,确定所述第一句子与所述第二数据集的任一个第二句子之间的相似度,得到至少一个相似度;
基于所述至少一个相似度,从所述第二数据集的任一个第二句子中确定与所述第一句子相似的第二句子;
利用每一个第一句子和与所述第一句子相似的第二句子训练所述韵律差异模型,得到所述目标发音人的韵律差异模型。
4.根据权利要求3所述的方法,其中,所述基于所述至少一个相似度,从所述第二数据集的任一个第二句子中确定与所述第一句子相似的第二句子,包括:
对所述部分数据集中的每一个第一句子的所述至少一个相似度按照从大到小的顺序进行排序;
根据所述排序将最大相似度对应的所述第二数据集中的第二句子确定为与所述第一句子相似的第二句子。
5.根据权利要求3或4所述的方法,其中,所述利用每一个第一句子和与所述第一句子相似的第二句子训练所述韵律差异模型,包括:
确定每一个第一句子和与所述第一句子相似的第二句子标注的韵律信息之间的差异;
根据所述差异对所述韵律差异模型进行训练,得到所述目标发音人的韵律差异模型。
6.根据权利要求1至5中任意一项所述的方法,其中,所述利用所述第一数据集训练韵律预测模型,包括:
通过所述韵律预测模型,对所述第一数据集中的至少一个句子进行韵律预测,得到至少一个句子的韵律预测信息;
根据所述至少一个句子的韵律预测信息与所述至少一个句子标注的韵律信息之间的差异,对所述韵律预测模型进行训练,得到所述目标发音人的韵律预测模型。
7.一种文本分析方法,包括:
获取待处理文本;
利用目标发音人的韵律预测模型,对所述待处理文本进行韵律预测,得到韵律预测结果;其中,所述目标发音人的韵律预测模型基于所述目标发音人的第一数据集训练得到,所述目标发音人的韵律预测模型基于权利要求1至6中任意一项所述的韵律预测模型的训练方法训练得到。
8.根据权利要求7所述的方法,其中,所述利用目标发音人的韵律预测模型,对所述待处理文本进行韵律预测之前,还包括:
对所述待处理文本进行分词处理,得到至少一个词语的分词结果信息,所述分词结果信息包括词性、音素和词语级的停顿信息中的任意一项或多项;
所述利用目标发音人的韵律预测模型,对待处理文本进行韵律预测,包括:
利用所述目标发音人的韵律预测模型,基于所述至少一个词语的分词结果信息,对所述待处理文本进行韵律预测,得到所述韵律预测结果。
9.根据权利要求8所述的方法,其中,所述利用所述目标发音人的韵律预测模型,基于所述至少一个词语的分词结果信息对所述待处理文本进行韵律预测之前,还包括:
基于所述至少一个词语的分词结果信息中的词性信息,对所述至少一个词语中的多词性词语进行词性预测,得到词性预测结果;
根据所述词性预测结果更新对应的所述分词结果信息中的词性信息。
10.根据权利要求8所述的方法,其中,所述利用所述目标发音人的韵律预测模型,基于所述至少一个词语的分词结果信息对所述待处理文本进行韵律预测之后,还包括:
基于所述韵律预测结果和所述至少一个词语的分词结果信息中的音素信息,对所述至少一个词语中的多音词语进行音素预测,得到音素预测结果;
根据所述音素预测结果更新对应的所述分词结果信息中的音素信息。
11.根据权利要求8至10中任意一项所述的方法,其中,所述对所述待处理文本进行分词处理,得到至少一个词语的分词结果信息之前,还包括:
对所述待处理文本中的非文字部分进行文字转换处理,得到归一化的所述待处理文本,所述非文字部分包括数字和符号中的任意一项或多项。
12.一种韵律预测模型的训练装置,包括:
获取模块,用于确定第二数据集中文本标注的韵律信息,所述第二数据集是通用数据集;
调整模块,用于将所述获取模块确定的所述第二数据集输入已训练的与目标发音人相对应的韵律差异模型,通过所述韵律差异模型对所述第二数据集中文本标注的韵律信息进行调整,得到所述目标发音人的第一数据集;
训练模块,用于利用所述调整模块得到的所述第一数据集训练韵律预测模型,得到所述目标发音人的韵律预测模型。
13.一种文本分析装置,包括:
文本获取模块,用于获取待处理文本;
韵律预测模块,用于利用目标发音人的韵律预测模型,对所述文本获取模块获取的所述待处理文本进行韵律预测,得到韵律预测结果;其中,所述目标发音人的韵律预测模型基于所述目标发音人的第一数据集训练得到。
14.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至11中任意一项所述的方法。
15.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1至11中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910272718.9A CN110010136B (zh) | 2019-04-04 | 2019-04-04 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910272718.9A CN110010136B (zh) | 2019-04-04 | 2019-04-04 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110010136A true CN110010136A (zh) | 2019-07-12 |
CN110010136B CN110010136B (zh) | 2021-07-20 |
Family
ID=67170053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910272718.9A Active CN110010136B (zh) | 2019-04-04 | 2019-04-04 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010136B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853613A (zh) * | 2019-11-15 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112466277A (zh) * | 2020-10-28 | 2021-03-09 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
CN113129863A (zh) * | 2019-12-31 | 2021-07-16 | 科大讯飞股份有限公司 | 语音时长预测方法、装置、设备及可读存储介质 |
CN114091444A (zh) * | 2021-11-15 | 2022-02-25 | 北京声智科技有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN112331177B (zh) * | 2020-11-05 | 2024-07-02 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN101504643A (zh) * | 2008-02-07 | 2009-08-12 | 株式会社日立制作所 | 声音处理系统、声音处理程序以及声音处理方法 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN101814288A (zh) * | 2009-02-20 | 2010-08-25 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102543081A (zh) * | 2010-12-22 | 2012-07-04 | 财团法人工业技术研究院 | 可调控式韵律重估测系统与方法及计算机程序产品 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
US20150012277A1 (en) * | 2008-08-12 | 2015-01-08 | Morphism Llc | Training and Applying Prosody Models |
CN104835493A (zh) * | 2014-02-10 | 2015-08-12 | 株式会社东芝 | 语音合成字典生成装置和语音合成字典生成方法 |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105185373A (zh) * | 2015-08-06 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
US20180261209A1 (en) * | 2014-05-13 | 2018-09-13 | At&T Intellectual Property I, L.P. | System and Method for Data-Driven Socially Customized Models for Language Generation |
-
2019
- 2019-04-04 CN CN201910272718.9A patent/CN110010136B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN101504643A (zh) * | 2008-02-07 | 2009-08-12 | 株式会社日立制作所 | 声音处理系统、声音处理程序以及声音处理方法 |
US20090204401A1 (en) * | 2008-02-07 | 2009-08-13 | Hitachi, Ltd. | Speech processing system, speech processing method, and speech processing program |
US20150012277A1 (en) * | 2008-08-12 | 2015-01-08 | Morphism Llc | Training and Applying Prosody Models |
CN101814288A (zh) * | 2009-02-20 | 2010-08-25 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN102543081A (zh) * | 2010-12-22 | 2012-07-04 | 财团法人工业技术研究院 | 可调控式韵律重估测系统与方法及计算机程序产品 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
CN104835493A (zh) * | 2014-02-10 | 2015-08-12 | 株式会社东芝 | 语音合成字典生成装置和语音合成字典生成方法 |
US20180261209A1 (en) * | 2014-05-13 | 2018-09-13 | At&T Intellectual Property I, L.P. | System and Method for Data-Driven Socially Customized Models for Language Generation |
CN105185373A (zh) * | 2015-08-06 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
Non-Patent Citations (2)
Title |
---|
GULMIRE IMAM: "Prosody modeling for Uyghur TTS", 《THE 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》 * |
杨金辉: "一种基于Straight的语音焦点合成方法", 《计算机工程》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542154B (zh) * | 2019-09-05 | 2024-03-19 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN110853613B (zh) * | 2019-11-15 | 2022-04-26 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN110853613A (zh) * | 2019-11-15 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 韵律停顿等级预测的校正方法、装置、设备和介质 |
CN113129863A (zh) * | 2019-12-31 | 2021-07-16 | 科大讯飞股份有限公司 | 语音时长预测方法、装置、设备及可读存储介质 |
CN113129863B (zh) * | 2019-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 语音时长预测方法、装置、设备及可读存储介质 |
CN112466277A (zh) * | 2020-10-28 | 2021-03-09 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112466277B (zh) * | 2020-10-28 | 2023-10-20 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112331177B (zh) * | 2020-11-05 | 2024-07-02 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
CN112786023B (zh) * | 2020-12-23 | 2024-07-02 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
CN114091444A (zh) * | 2021-11-15 | 2022-02-25 | 北京声智科技有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110010136B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105118498B (zh) | 语音合成模型的训练方法及装置 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN108447486A (zh) | 一种语音翻译方法及装置 | |
CN109767755A (zh) | 一种语音合成方法和系统 | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN107871496B (zh) | 语音识别方法和装置 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
CN105654939A (zh) | 一种基于音向量文本特征的语音合成方法 | |
CN111354343B (zh) | 语音唤醒模型的生成方法、装置和电子设备 | |
Liu et al. | Mongolian text-to-speech system based on deep neural network | |
Dongmei | Design of English text-to-speech conversion algorithm based on machine learning | |
Zen | Generative model-based text-to-speech synthesis | |
Tan | Neural text-to-speech synthesis | |
CN117789771A (zh) | 一种跨语言端到端情感语音合成方法及系统 | |
Ekpenyong et al. | Improved syllable-based text to speech synthesis for tone language systems | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
CN111696517A (zh) | 语音合成方法、装置、计算机设备及计算机可读存储介质 | |
Dandge et al. | Multilingual Global Translation using Machine Learning | |
CN112216267B (zh) | 一种韵律预测的方法、装置、设备及存储介质 | |
Macintyre et al. | The 2021 International Conference on Machine Learning and Big Data Analytics for IoT Security and Privacy: SPIoT-2021 Volume 1 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |