CN117877462A - 一种基于大模型的语音合成方法、系统、设备及存储介质 - Google Patents
一种基于大模型的语音合成方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117877462A CN117877462A CN202410102113.6A CN202410102113A CN117877462A CN 117877462 A CN117877462 A CN 117877462A CN 202410102113 A CN202410102113 A CN 202410102113A CN 117877462 A CN117877462 A CN 117877462A
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- speech
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 107
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 107
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 18
- 230000008451 emotion Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,具体提供一种基于大模型的语音合成方法、系统、设备及存储介质,旨在解决传统语音合成系统的文本前端对于发音、韵律单独建模所造成的语音合成准确度低的技术问题。通过语言大模型获取文本特征;基于文本特征,通过语音映射模型确定语音特征的长度信息;基于语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。通过语言大模型获取文本特征以及结合语音特征的长度信息,输出语音合成结果,提高了语音合成准确度。
Description
技术领域
本发明涉及人工智能技术领域,具体提供一种基于大模型的语音合成方法、系统、设备及存储介质。
背景技术
在直播带货,AI助手等数字人人机交互应用场景中,语言大模型需要首先生成文字,然后由语音合成TTS引擎系统合成文字对应的语音。
目前主流的语音合成模组是使用一套粒度低,单元之间相关性低的声学单元模组来强化语音合成模型的学习效果,比如中文的声韵母或者粒度更细的国际音标建模(ipa)。然而在实际使用时,仅靠声学单元的建模方法无法充分处理语义、情感、多音字方面上对于合成语音的影响。
此外,用户或者语言大模型输入的均为文本信息,基于声学单元建模的传统语音合成TTS系统需要额外内置文本前端模型,比如文本正则、韵律分析、文本转发音等模块将文本映射到发音单元上才能将输入的文本转换成发音单元进而合成对应的语音。每一个单独的文本前端模型因使用不同的算法结构和训练数据,不仅维护成本高,而且串联时带来的累积误差依旧会生成出发音不标准,韵律不自然的语音。这一点在与语言大模型交互时影响更为严重:一旦文本内容中包含生僻字,或尚未被处理的文本正则规则的文本,语音合成模型就会合成不自然的读法、错误的发音、多字或少字的音频,这些错误会严重影响用户对语音内容的理解。
同时,采用声学单元建模的语音系统虽然在输入正确发音时发音拟人,但该训练范式严重依赖高质量的、录制风格多样的、标注精细的语音数据。这些数据不仅收集困难,成本高,在实际算法落地的过程中包含了真实应用场景的全量范围,进而消极影响语音合成模型的鲁棒性。
因此,如何解决传统语音合成系统的文本前端对于发音、韵律单独建模所造成的语音合成准确度低的技术问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决传统语音合成系统的文本前端对于发音、韵律单独建模所造成的语音合成准确度低的技术问题。
在第一方面,本发明提供了一种基于大模型的语音合成方法,包括:
通过语言大模型获取待合成语音的文本特征;
基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。
在一个实施例中,所述语音特征的长度信息包括以下信息至少之一:语音特征长度、文本中字符帧与待合成语音的语音帧之间的对应关系。
在一个实施例中,通过调整文本中字符帧与待合成语音的语音帧之间的对应关系,确定语音合成的语速。
在一个实施例中,1个字符帧对应1个或多个语音帧。
在一个实施例中,所述语音映射模型的训练过程为:
获取文本样本及与所述文本样本对应的语音样本;
通过所述语言大模型对所述文本样本进行处理,获取文本特征,并将所述文本特征输入所述语音映射模型,获得预测的语音特征的长度信息;
确定所述预测的语音特征的长度信息、语音样本对应的语音特征的长度信息之间的偏差结果,并根据所述偏差结果,调整所述语音映射模型的训练参数,直至满足收敛条件。
在一个实施例中,预测的语音特征的长度信息中包括以下信息至少之一:预测的语音特征长度、文本中字符帧与语音帧的对应关系。
在一个实施例中,通过语音模型对所述语音样本的处理,获得对应的语音特征及语音特征的长度信息。
在一个实施例中,所述语音模型是指通过大量语音数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督;
所述语言大模型是指通过大量文本数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督。
在一个实施例中,所述文本特征包括以下信息至少之一:文本向量特征信息、文本语义表征信息、文本发音表征信息、文本情感表征信息。
在一个实施例中,所述语音特征包括以下至少之一:音频特征、音调特征、音量特征、音色特征。
在一个实施例中,基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型的声码器,输出语音合成结果。
在一个实施例中,通过语音合成大模型中的鉴别器,比对所述语音合成结果与语音样本,获取比对结果,并基于比对结果,对所述语音合成大模进行训练,直至满足收敛条件。
在一个实施例中,通过所述语言大模型对所述文本样本进行处理,获取文本特征之前,还包括:对文本样本进行预处理,所述预处理包括以下至少之一:将文本样本中的字符转换为数字标识、删除文本样本中的目标字符、删除文本样本中的目标标点符号、压缩文本样本。
在一个实施例中,通过语音模型对所述语音样本的处理,获得对应的语音特征之前,还包括:对语音样本进行预处理,所述预处理包括以下至少之一:降采样、增强语音音质、单音轨转换。
在一个实施例中,文本样本及与所述文本样本对应的语音样本是指文本标注的语音数据,所述文本标注的语音数据包括以下至少之一:语音识别数据、带有字幕的语音数据。
在第二方面,本发明提供一种基于大模型的语音合成系统,包括:
文本特征获取模块,用于通过语言大模型获取待合成语音的文本特征;
语音长度获取模块,用于基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
语音合成模块,用于基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。
在第三方面,提供一种计算机设备,包括处理器和存储装置,其中所述存储器中存储有程序,所述处理器执行所述程序时实现上述方法的技术方案中任一项技术方案所述的基于大模型的语音合成方法。
在第四方面,提供一种计算机可读存储介质,存储有程序,所述程序被执行时实现上述方法的技术方案中任一项技术方案所述的基于大模型的语音合成方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中:
进一步地,通过语言大模型获取待合成语音的文本特征;基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;基于所述语音特征的长度信息、音色特征信息,通过语音合成大模型,输出语音合成结果。通过语言大模型获取文本特征以及结合语音特征的长度信息,输出语音合成结果,提高了语音合成准确度。
进一步地,通过大量的无标注文本训练,语言大模型有更强的语义理解能力,相对于传统语音合成模型的前端模块的分析,语言大模型有着更精准的发音、情感等表示信息,解决了多音字、情感、文本韵律模型学习低效的问题。而在这些问题有了充分的解决方案后,语音合成时,便消除了对内置的文本前端模组的依赖性,可以直接削减掉前端模组来优化训练流程,减少瓶颈模块,进而优化合成效果和简化出错时检查成本。
进一步地,本发明仅需使用带有文本标注的语音数据(例如:语音识别数据、带有字幕的对话数据),便可以进行语音合成训练,拓宽训练数据范围,减少了对高质量、精细标注的语音数据依赖,使得语音合成效果自然、流畅,提升语音合成的风格表现力和语音合成系统鲁棒性。
进一步地,本发明提供了一套高效泛用的语音映射模型,实现通过文本特征映射出语音特征的长度信息,进而使其他声学任务也能利用语言大模型的语义理解能力生成更真实的结果。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
图1是根据本发明的一个实施例的基于大模型的语音合成方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的基于大模型的语音合成系统的主要结构框图示意图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
名词解释:
文字帧:一串文字下单个字符的表示长度,在未经压缩的算法下单个字符帧长为1;
语音帧:一段语音的表示长度,一般为320个采样率为一帧(一秒采样率16000的语音有50帧;
语音模型:是指通过大量语音数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督;
语言大模型:是指通过大量文本数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督。
生成对抗网络:由一个鉴别器和生成器组成的深度学习训练架构。生成器用于生成目标标签以混淆鉴别器相对于真实标签的区分程度,鉴别器通过区分真实标签和生成标签的方法优化生成器的效果;
语音合成大模型/TTS:输入一段文本,输出表示文本内容音频的系统。
语音模型、语言大模型、或语音合成大模型为参数规模较大的深度学习模型。参数规模较大,例如:十亿参数以上、百亿参数以上、千亿参数以上等等。
图1是根据本发明的一个实施例的基于大模型的语音合成方法的主要步骤流程示意图。如图1所示,主要包括下列步骤S10-S30:
S10,通过语言大模型获取待合成语音的文本特征;
在本实施例中,将待合成语音的文本输入语言大模型,输出待合成语音的文本特征;其中,所述文本特征包括以下信息至少之一:文本向量特征信息、文本语义表征信息、文本发音表征信息、文本情感表征信息。这样使得文本特征包含更多的发音、情感等表示信息,解决了多音字、情感、文本韵律模型学习低效的问题。
在本实施例中,所述语言大模型是指通过大量文本数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督。这使得语言大模型有更强的语义理解能力,相对于传统语音合成模型的前端模块的分析,语言大模型有着更精准的发音、情感等表示信息,解决了多音字、情感、文本韵律模型学习低效的问题。而在这些问题有了充分的解决方案后,语音合成时,便消除了对内置的文本前端模组的依赖性,可以直接削减掉前端模组来优化训练流程,减少瓶颈模块,进而优化合成效果和简化出错时检查成本。
S20,基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
本实施例中,所述语音特征的长度信息包括以下信息至少之一:语音特征长度、文本中字符帧与待合成语音的语音帧之间的对应关系。具体而言,1个字符帧可以对应1个或多个语音帧,通过调整文本中字符帧与待合成语音的语音帧之间的对应关系,确定语音合成的语速。例如:文本为:我是张三。“我”、“是”、“张”、“三”为单个字符帧,每个字符帧对应的语音帧数可以是不同的。例如,“我”对应X个语音帧,“是”对应Y个语音帧、“张”对应Z个语音帧、“三”对应W个语音帧;其中,X、Y、Z为自然数。
在本实施例中,语音映射模型的训练过程为:获取文本样本及与所述文本样本对应的语音样本;通过语言大模型对所述文本样本进行处理,获取文本特征,并将所述文本特征输入所述语音映射模型,获得预测的语音特征的长度信息;确定所述预测的语音特征的长度信息、语音样本对应的语音特征的长度信息之间的偏差结果,并根据所述偏差结果,调整所述语音映射模型的训练参数,直至满足收敛条件。
本实施例中,文本样本及与所述文本样本对应的语音样本是指文本标注的语音数据,所述文本标注的语音数据包括以下至少之一:语音识别数据、带有字幕的语音数据。文本样本、语音样本具有高度解耦度的特点,大大拓宽训练数据范围,减少了对高质量、精细标注的语音数据依赖,使得语音合成效果自然、流畅,提升语音合成的风格表现力和语音合成系统鲁棒性。
本实施例中,预测的语音特征的长度信息中包括以下信息至少之一:预测的语音特征长度、文本中字符帧与语音帧的对应关系。
本实施例中,通过语音模型对所述语音样本的处理,获得对应的语音特征及语音特征的长度信息;其中,所述语音模型是指通过大量语音数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督。具体而言:通过语音模型对所述语音样本的处理,获得对应的语音特征之前,首先处理语音样本,使之可以被语音模型识别并分析,对于语音样本处理的方式包括以下至少之一:降采样、增强语音音质、单音轨转换。这使得语音模型输出的结果更加准确。
本实施例中,所述语音特征包括以下至少之一:音频特征、音调特征、音量特征、音色特征。
本实施例中,通过所述语言大模型对所述文本样本进行处理,获取文本特征之前,还包括:对文本样本进行预处理,所述预处理包括以下至少之一:将文本样本中的字符转换为数字标识、删除文本样本中的目标字符、删除文本样本中的目标标点符号、压缩文本样本。使得后续语言大模型输出的文本特征具有更加准确的表达文本中所蕴含的语义、发音、情感等信息。
具体而言:
通过所述语言大模型对所述文本样本进行处理,获取文本特征之前,首先处理文本,使之可以被语言大模型识别并分析。对于文本处理的方式包括以下至少之一:字符到数字标识id(例如:1、2、3)转换、清理语言大模型不能识别的标点符号和字符、文本压缩。
S30,基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。
本实施例中,基于所述语音特征的长度信息、音色特征信息,通过语音合成大模型的声码器,输出语音合成结果。具体而言,音色特征信息主要利用音色识别模型提取语音对应的音色特征,通过选择不同说话人的语音,获取不同的音色特征,进而用以合成不同音色的语音。
本实施例中,通过语音合成大模型中的鉴别器,比对所述语音合成结果与语音样本,获取比对结果,并基于比对结果,对所述语音合成大模进行训练,直至满足收敛条件。
通过声码器、鉴别器进行对抗训练,来优化语音合成大模型的语音合成效果;其中,鉴别器的目标是:当输入为真实语音时,输出尽可能为0;当输入为合成语音时,输出尽可能为1。
鉴别器通过声码器生成的语音和真实语音在下采样过程和频域上的不同区分两者,并通过区分的程度优化声码器的语音合成效果。在训练的过程中生成和鉴别交互进行,直到声码器和鉴别器的对抗学习收敛到稳定状态。
本实施例中,利用语音模型、语言大模型高度解耦的特征学习模态之间的关联性,优化了传统语音合成模型中文本处理的瓶颈模组,并通过隐征层面的直接学习(例如:语言大模型的语义理解能力)规避了传统显式文本建模不兼容语言大模型的问题。在文本处理方面,语言大模型的隐征可以使本发明更好学习文本和标点符号之间的关联性,从而合成出自然流畅语音。而在语音分析层面,语音模型的隐征可以使本发明更好的抓取内容到语音所缺少的发音、音调、音量等信息,从而合成出更拟人的语音。
除此之外,在实施本实施例的技术方案中,还具有以下技术效果:
通过语言大模型获取待合成语音的文本特征;基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;基于所述语音特征的长度信息、音色特征信息,通过语音合成大模型,输出语音合成结果。通过语言大模型获取文本特征以及结合语音特征的长度信息,输出语音合成结果,提高了语音合成准确度。
通过大量的无标注文本训练,语言大模型有更强的语义理解能力,相对于传统语音合成模型的前端模块的分析,语言大模型有着更精准的发音、情感等表示信息,解决了多音字、情感、文本韵律模型学习低效的问题。而在这些问题有了充分的解决方案后,语音合成时,便消除了对内置的文本前端模组的依赖性,可以直接削减掉前端模组来优化训练流程,减少瓶颈模块,进而优化合成效果和简化出错时检查成本。
本发明仅需使用带有文本标注的语音数据(例如:语音识别数据、带有字幕的对话数据),便可以进行语音合成训练,拓宽训练数据范围,减少了对高质量、精细标注的语音数据依赖,使得语音合成效果自然、流畅,提升语音合成的风格表现力和语音合成系统鲁棒性。
本发明提供了一套高效泛用的语音映射模型,实现通过文本特征映射出语音特征的长度信息,进而使其他声学任务也能利用语言大模型的语义理解能力生成更真实的结果。
本发明还提供了一种基于大模型的语音合成系统。如图2所示,本发明实施例中的一种基于大模型的语音合成系统主要包括文本特征获取模块21、语音长度获取模块22、语音合成模块23;
其中,
文本特征获取模块21,用于通过语言大模型获取待合成语音的文本特征;
语音长度获取模块22,用于基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
语音合成模块23,用于基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。
在一些实施例中,文本特征获取模块21、语音长度获取模块22、语音合成模块23中的一个或多个可以合并在一起成为一个模块。一个实施方式中,具体实现功能的描述可以参见上述实施例步骤所述。
在实施本实施例的技术方案中,具有以下技术效果:
通过语言大模型获取待合成语音的文本特征;基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。通过语言大模型获取文本特征以及结合语音特征的长度信息,输出语音合成结果,提高了语音合成准确度。
通过大量的无标注文本训练,语言大模型有更强的语义理解能力,相对于传统语音合成模型的前端模块的分析,语言大模型有着更精准的发音、情感等表示信息,解决了多音字、情感、文本韵律模型学习低效的问题。而在这些问题有了充分的解决方案后,语音合成时,便消除了对内置的文本前端模组的依赖性,可以直接削减掉前端模组来优化训练流程,减少瓶颈模块,进而优化合成效果和简化出错时检查成本。
本发明仅需使用带有文本标注的语音数据(例如:语音识别数据、带有字幕的对话数据),便可以进行语音合成训练,拓宽训练数据范围,减少了对高质量、精细标注的语音数据依赖,使得语音合成效果自然、流畅,提升语音合成的风格表现力和语音合成系统鲁棒性。
本发明提供了一套高效泛用的语音映射模型,实现通过文本特征映射出语音特征的长度信息,进而使其他声学任务也能利用语言大模型的语义理解能力生成更真实的结果。
上述基于大模型的语音合成系统以用于执行图1所示的基于大模型的语音合成方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,基于大模型的语音合成系统的具体工作过程及有关说明,可以参考基于大模型的语音合成方法的实施例所描述的内容,此处不再赘述。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种计算机设备,计算机设备包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的基于大模型的语音合成方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的基于大模型的语音合成方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以是包括各种电子设备形成的计算机设备。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的基于大模型的语音合成方法的程序,该程序可以由处理器加载并运行以实现上述基于大模型的语音合成方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (18)
1.一种基于大模型的语音合成方法,其特征在于,包括:
通过语言大模型获取待合成语音的文本特征;
基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型,输出语音合成结果。
2.根据权利要求1所述的方法,其特征在于,所述语音特征的长度信息包括以下信息至少之一:语音特征长度、文本中字符帧与待合成语音的语音帧之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,通过调整文本中字符帧与待合成语音的语音帧之间的对应关系,确定语音合成的语速。
4.根据权利要求3所述的方法,其特征在于,1个字符帧对应1个或多个语音帧。
5.根据权利要求1所述的方法,其特征在于,所述语音映射模型的训练过程为:
获取文本样本及与所述文本样本对应的语音样本;
通过所述语言大模型对所述文本样本进行处理,获取文本特征,并将所述文本特征输入所述语音映射模型,获得预测的语音特征的长度信息;
确定所述预测的语音特征的长度信息、语音样本对应的语音特征的长度信息之间的偏差结果,并根据所述偏差结果,调整所述语音映射模型的训练参数,直至满足收敛条件。
6.根据权利要求5所述的方法,其特征在于,预测的语音特征的长度信息中包括以下信息至少之一:预测的语音特征长度、文本中字符帧与语音帧的对应关系。
7.根据权利要求5所述的方法,其特征在于,通过语音模型对所述语音样本的处理,获得对应的语音特征及语音特征的长度信息。
8.根据权利要求7所述的方法,其特征在于,所述语音模型是指通过大量语音数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督;
所述语言大模型是指通过大量文本数据训练的深度学习模型;其中,训练方法包括以下至少之一:有监督、自监督、半监督。
9.根据权利要求1所述的方法,其特征在于,所述文本特征包括以下信息至少之一:文本向量特征信息、文本语义表征信息、文本发音表征信息、文本情感表征信息。
10.根据权利要求1所述的方法,其特征在于,所述语音特征包括以下至少之一:音频特征、音调特征、音量特征、音色特征。
11.根据权利要求1所述的方法,其特征在于,基于所述语音特征的长度信息、选择的音色特征信息,通过语音合成大模型的声码器,输出语音合成结果。
12.根据权利要求11所述的方法,其特征在于,通过语音合成大模型中的鉴别器,比对所述语音合成结果与语音样本,获取比对结果,并基于比对结果,对所述语音合成大模进行训练,直至满足收敛条件。
13.根据权利要求5所述的方法,其特征在于,通过所述语言大模型对所述文本样本进行处理,获取文本特征之前,还包括:对文本样本进行预处理,所述预处理包括以下至少之一:将文本样本中的字符转换为数字标识、删除文本样本中的目标字符、删除文本样本中的目标标点符号、压缩文本样本。
14.根据权利要求7所述的方法,其特征在于,通过语音模型对所述语音样本的处理,获得对应的语音特征之前,还包括:对语音样本进行预处理,所述预处理包括以下至少之一:降采样、增强语音音质、单音轨转换。
15.根据权利要求5所述的方法,其特征在于,文本样本及与所述文本样本对应的语音样本是指文本标注的语音数据,所述文本标注的语音数据包括以下至少之一:语音识别数据、带有字幕的语音数据。
16.一种基于大模型的语音合成系统,其特征在于,包括:
文本特征获取模块,用于通过语言大模型获取待合成语音的文本特征;
语音长度获取模块,用于基于所述文本特征,通过语音映射模型确定待合成语音的语音特征的长度信息;
语音合成模块,用于基于所述语音特征的长度信息、音色特征信息,通过语音合成大模型,输出语音合成结果。
17.一种计算机设备,包括处理器和存储装置,其中所述存储器中存储有程序,其特征在于,所述处理器执行所述程序时实现权利要求1至15中任一项所述的方法。
18.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被执行时实现权利要求1至15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410102113.6A CN117877462A (zh) | 2024-01-24 | 2024-01-24 | 一种基于大模型的语音合成方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410102113.6A CN117877462A (zh) | 2024-01-24 | 2024-01-24 | 一种基于大模型的语音合成方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117877462A true CN117877462A (zh) | 2024-04-12 |
Family
ID=90590147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410102113.6A Pending CN117877462A (zh) | 2024-01-24 | 2024-01-24 | 一种基于大模型的语音合成方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117877462A (zh) |
-
2024
- 2024-01-24 CN CN202410102113.6A patent/CN117877462A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN113470615B (zh) | 跨讲话者风格转移语音合成 | |
JPH09265379A (ja) | 画像操作装置及び方法 | |
CN113658577B (zh) | 一种语音合成模型训练方法、音频生成方法、设备及介质 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN112786012A (zh) | 一种语音合成方法、装置、电子设备和存储介质 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN116741144B (zh) | 一种语音音色转换方法和系统 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN117854492A (zh) | 一种基于大模型的智能交互方法、系统、设备及存储介质 | |
CN114387945A (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN112185340A (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
CN117877462A (zh) | 一种基于大模型的语音合成方法、系统、设备及存储介质 | |
CN112634861B (zh) | 数据处理方法、装置、电子设备和可读存储介质 | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN114299989A (zh) | 一种语音过滤方法、装置、电子设备及存储介质 | |
CN113823300A (zh) | 语音处理方法及装置、存储介质、电子设备 | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |