CN112562637A

CN112562637A - 拼接语音音频的方法、装置以及存储介质

Info

Publication number: CN112562637A
Application number: CN201910913308.8A
Authority: CN
Inventors: 黄磊; 杨春勇; 权圣
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-03-26
Anticipated expiration: 2039-09-25
Also published as: CN112562637B

Abstract

本申请公开了一种拼接语音音频的方法、装置以及存储介质。其中，该方法包括：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。解决了语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

Description

拼接语音音频的方法、装置以及存储介质

技术领域

本申请涉及计算机和人工智能领域，特别是涉及一种拼接语音音频的方法、装置以及存储介质。

背景技术

目前TTS(Text To Speech)的拼接合成技术是通过将录音员所录的录音，根据标注格式，切割成一段一段的录音，当合成文本传入后，会根据单元挑选合适的录音进行拼接合成。例如合成人名张三，录音库里面分别存了‘张’、‘三’，通过合成这两个字来生成‘张三’的音频。虽然这种合成方式在整体上会显得比较自然，但是在切割处拼接的时候会存在过渡不够平滑的问题，主要体现在姓名的合成上。现有技术一般采用TD-PSOLA算法解决这个问题，而TD-PSOLA算法在拼接过程中出现声音信号值较多的情况使用效果不佳，此外还存在合成不自然的问题，因此合成语音的自然度跟真人录音相比效果比较差。

针对上述的现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种拼接语音音频的方法、装置以及存储介质，以至少解决现有技术中存在的文字转语音的过程中需要进行音频片段的拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

根据本公开实施例的一个方面，提供了一种拼接语音音频的方法，包括：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种拼接语音音频的装置，包括：获取模块，用于获取用于拼接的第一语音音频和第二语音音频；生成模块，用于生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及拼接模块，用于将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

根据本公开实施例的另一个方面，还提供了一种拼接语音音频的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

在本公开实施例中，通过获取用于拼接的两个音频片段，然后生成用于平滑衔接两个音频片段的过渡音频，最终将所生成的过渡音频插入到两个音频片段之间，生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的，从而实现了增强合成语音的自然度和协调性，降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的拼接语音音频的方法的流程示意图；

图3是根据本公开实施例1所述的两个连续音频拼接的波形示意图；

图4是根据本公开实施例1所述的插入过渡音频的两个连续音频拼接的波形示意图；

图5a是根据本公开实施例1所述的一个文字的波形示意图；

图5b是根据本公开实施例1所述的另一个文字的波形示意图；

图6是根据本公开实施例1所述的拼接处两个文字的波形示意图；

图7是根据本公开实施例2所述的拼接语音音频的装置的示意图；以及

图8是根据本公开实施例3所述的拼接语音音频的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种拼接语音音频的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现拼接语音音频的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的拼接语音音频的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的拼接语音音频的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种拼接语音音频的方法，图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取用于拼接的第一语音音频和第二语音音频；

S204：生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及

S206：将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

正如背景技术中所述的，目前TTS(Text To Speech)的拼接合成技术是通过将录音员所录的录音，根据标注格式，切割成一段一段的录音，当合成文本传入后，会根据单元挑选合适的录音进行拼接合成。例如合成人名张三，录音库里面分别存了‘张’、‘三’，通过合成这两个字来生成‘张三’的音频。虽然这种合成方式在整体上会显得比较自然，但是在切割处拼接的时候会存在过渡不够平滑的问题，主要体现在姓名的合成上。现有技术一般采用TD-PSOLA算法解决这个问题，而TD-PSOLA算法在拼接过程中出现声音信号值较多的情况使用效果不佳，此外还存在合成不自然的问题，因此合成语音的自然度跟真人录音相比效果比较差。

其中，切割录音的时候，为了保证切割的质量不会切到后面音节发音，会尽量在切割处进行短暂的停顿，因此在拼接处的基频值差异较大，图3示出了两个连续音频拼接的波形示意图，其中虚线框为拼接处，可以明显看出拼接处的波形波动不平滑(即，基频值差异较大)。

针对背景技术中存在的技术问题，具体地，本实施例提供的拼接语音音频的方法，参考图2所示，首先获取第一语音音频和第二语音音频，第一语音音频和第二语音音频是两段连续的音频，例如：第一语音音频为“你好，请问你是”，第二语音音频为“刘伟先生么”。在语音合成过程中需要对两段语音按顺序进行拼接。其中第一语音音频和第二语音音频例如可以在录音库中获得，录音库中存储有大量音频片段，在文本转语音的过程中可以从录音库中获取音频片段，然后进行音频片段的拼接，最终完成文本转语音的操作。

进一步地，生成一个过渡音频，其中过渡音频用于平滑衔接第一语音音频和第二语音音频，即利用过渡音频拼接“你好，请问你是”和“刘伟先生么”两个音频片段。

最终，将过渡音频插入到第一语音音频和第二语音音频之间，得到“你好，请问你是”+“过渡音频”+“刘伟先生么”这一顺序，最终输出的语音顺序依次是：第一音频片段(你好，请问你是)、过渡音频、第二音频片段(刘伟先生么)。图4示出了第一音频片段和第二音频片段拼接后的波形示意图，参考图4所示，其中虚线框中的为过渡音频对应的波形。

从而通过这种方式，首先获取用于拼接的两个音频片段，然后生成用于平滑衔接两个音频片段的过渡音频，最终将所生成的过渡音频插入到两个音频片段之间，生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的，从而实现了增强合成语音的自然度和协调性，降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

可选地，生成过渡音频的操作，包括：获取与第一语音音频对应的第一文本以及与第二语音音频对应的第二文本；以及利用预先训练的将文本转换为语音的转换模型，根据第一文本和第二文本，生成过渡音频。

具体地，在生成过渡音频的操作中，首先获取与第一语音音频对应的第一文本以及与第二语音音频对应的第二文本，即“你好，请问你是”和“刘伟先生么”的文本片段，其中文本片段是进行分割后的，整段的文本(即，你好，请问你是刘伟先生么)可以由用户在前端输入，然后根据录音库中的音频数据对文本片段进行截取。然后，利用预先训练的将文本转换为语音的转换模型，根据第一文本和第二文本，生成过渡音频。从而，可以得到两个语音音频之间的过渡音频。

可选地，利用预先训练的将文本转换为语音的转换模型，根据第一文本和第二文本，生成过渡音频的操作，包括：确定第一文本的尾字以及第二文本的首字；以及利用转换模型，根据尾字和首字，生成过渡音频。

具体地，在利用预先训练的将文本转换为语音的转换模型，根据第一文本和第二文本，生成过渡音频的操作中，首先确定第一文本的尾字以及第二文本的首字，第一文本“你好，请问你是”的尾字为“是”，第二文本“刘伟先生么”的首字为“刘”。然后，利用转换模型，根据“是”和“刘”，生成过渡音频。参考图5a和图5b所示，图5a例如为“是”字的波形示意图，图5b例如为“刘”字的波形示意图。图6是首字和尾字对应的音频的波形示意图，虚线框为拼接处。

从而通过这种方式，可以根据连续的两个文本片段连接处的连接字生成两个连续的音频片段之间的过渡音频，从而使得音频连接处更加平滑自然。

可选地，利用转换模型，根据尾字和首字，生成过渡音频的操作，包括：利用预先训练的Tacotron模型，根据尾字和首字，生成过渡音频。

具体地，转换模型是基于Tacotron框架训练得到的，然后利用Tacotron模型，根据尾字和首字，生成过渡音频。此外为了保证模型生成的录音的自然度，训练数据为录音员真人根据电影字幕的录音，并且训练数据和录音库中的音频为同一录音员录制的。采用的训练模型更加灵活，生成的连接音频涵盖的范围更大，并且可以采用不同的训练数据以达到可以满足不同的应用场景的效果。

可选地，还包括：根据预先设置的语音音频样本，确定尾字和首字的发音的基频变化率；以及根据基频变化率对过渡音频进行修正。

具体地，生成过渡音频之后，根据预先设置的语音音频样本，确定尾字和首字的发音的基频变化率，语音音频样本为真人发音的音频样本(例如：录音员录制训练数据时的录音)。其中基频用一段连续的数值表示。例如：真人录音中的“是”字的部分基频值为：310，285，275，260；“刘”字的部分基频值为：255，263，280，295，两个字连续发音的基频值变化率为先下降然后上升(基频变化率参考图3和图4中的基频值变化曲线)。

进一步地，根据真人发音的基频变化率对过渡音频进行修正，即从过渡音频中找到与真人发音变化率对应的部分。由于拼接处的过渡音频是两个连接字之间的过渡，因此最终还需要将修正后的过渡音频进行截取，保留中间的部分作为过渡音频。从而通过这种方式，使得过渡音频更加接近真人发音，并且得到的过渡音频更加精准。

可选地，确定尾字和首字的发音的基频变化率的操作，包括：根据尾字的韵母以及首字的声母，确定基频变化率。

具体地，在确定尾字和首字的发音的基频变化率的操作中，确定首字的韵母和尾字的声母。例如：首字“是”的韵母为i，尾字“刘”的声母为l，然后基于韵母和声母确定基频变化率。由于声调韵母总共96个，声母总共23个，例如：“是李”与“是刘”的韵母与声母相同，这样只需2208个组合录音就能覆盖大多数拼接处的连接字，从而节省计算资源。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，通过获取用于拼接的两个音频片段，然后生成用于平滑衔接两个音频片段的过渡音频，最终将所生成的过渡音频插入到两个音频片段之间，生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的，从而实现了增强合成语音的自然度和协调性，降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图7示出了根据本实施例所述的拼接语音音频的装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：获取模块710，用于获取用于拼接的第一语音音频和第二语音音频；生成模块720，用于生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及拼接模块730，用于将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

可选地，生成模块720，包括：获取子模块，用于获取与第一语音音频对应的第一文本以及与第二语音音频对应的第二文本；以及生成子模块，用于利用预先训练的将文本转换为语音的转换模型，根据第一文本和第二文本，生成过渡音频。

可选地，生成子模块，包括：确定单元，用于确定第一文本的尾字以及第二文本的首字；以及生成单元，用于利用转换模型，根据尾字和首字，生成过渡音频。

可选地，生成单元包括：生成子单元，用于利用预先训练的Tacotron模型，根据尾字和首字，生成过渡音频。

可选地，还包括：基频变化率确定模块，用于根据预先设置的语音音频样本，确定尾字和首字的发音的基频变化率，其中语音音频样本为真人发音的音频样本；以及修正模块，用于根据基频变化率对过渡音频进行修正。

可选地，基频变化率确定模包括：基频变化率确定子模块，用于根据尾字的韵母以及首字的声母，确定基频变化率。

从而根据本实施例，通过拼接语音音频的装置700，首先获取用于拼接的两个音频片段，然后生成用于平滑衔接两个音频片段的过渡音频，最终将所生成的过渡音频插入到两个音频片段之间，生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的，从而实现了增强合成语音的自然度和协调性，降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

实施例3

图8示出了根据本实施例所述的拼接语音音频的装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：处理器810；以及存储器820，与处理器810连接，用于为处理器810提供处理以下处理步骤的指令：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。

可选地，存储器820还用于为处理器810提供处理以下处理步骤的指令：根据预先设置的语音音频样本，确定尾字和首字的发音的基频变化率；以及根据基频变化率对过渡音频进行修正。

从而根据本实施例，通过拼接语音音频的装置800，首先获取用于拼接的两个音频片段，然后生成用于平滑衔接两个音频片段的过渡音频，最终将所生成的过渡音频插入到两个音频片段之间，生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的，从而实现了增强合成语音的自然度和协调性，降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种拼接语音音频的方法，其特征在于，包括：

获取用于拼接的第一语音音频和第二语音音频；

生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及

将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间，并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接，生成拼接语音音频。

2.根据权利要求1所述的方法，其特征在于，生成过渡音频的操作，包括：

获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本；以及

利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频。

3.根据权利要求2所述的方法，其特征在于，利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频的操作，包括：

确定所述第一文本的尾字以及所述第二文本的首字；以及

利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频。

4.根据权利要求3所述的方法，其特征在于，利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频的操作，包括：

利用预先训练的Tacotron模型，根据所述尾字和所述首字，生成所述过渡音频。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据预先设置的语音音频样本，确定所述尾字和所述首字的发音的基频变化率；以及

根据所述基频变化率对所述过渡音频进行修正。

6.根据权利要求5所述的方法，其特征在于，确定所述尾字和所述首字的发音的基频变化率的操作，包括：根据所述尾字的韵母以及所述首字的声母，确定所述基频变化率。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。

8.一种拼接语音音频的装置，其特征在于，包括：

获取模块，用于获取用于拼接的第一语音音频和第二语音音频；

生成模块，用于生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及

拼接模块，用于将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间，并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接，生成拼接语音音频。

9.根据权利要求8所述的装置，其特征在于，所述生成模块，包括：

获取子模块，用于获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本；以及

生成子模块，用于利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频。

10.一种拼接语音音频的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取用于拼接的第一语音音频和第二语音音频；