CN115910024B

CN115910024B - 一种语音清洗及合成方法、系统、装置及存储介质

Info

Publication number: CN115910024B
Application number: CN202211570958.5A
Authority: CN
Inventors: 叶俊杰; 凌瑞欣; 王伦基; 莫世玉; 李�权
Original assignee: Guangzhou Sailingli Technology Co ltd
Current assignee: Guangzhou Sailingli Technology Co ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-08-29
Anticipated expiration: 2042-12-08
Also published as: CN115910024A

Abstract

本发明公开了一种语音清洗及合成方法、系统、装置及存储介质，语音清洗方法包括：根据音频数据的响度值及时间间隔确定静默搜索范围；根据静默搜索范围将音频数据分成若干组分句，根据优化分句标准及若干组分句确定优化分句；拟合优化分句的音频时长与对应文本长度的关系，根据关系计算偏移量，确定偏移量的第一阈值‑剩余百分比曲线的第一拐点值；计算优化分句的特征向量与目标说话人音频的特征向量的相似度，确定相似度的第二阈值‑剩余百分比曲线的第二拐点值；根据第一拐点值和第二拐点值清洗音频数据。本发明实施例清洗语音中不一致的音色及语速，减少语音合成中的录音数据量，提高合成效率，可广泛应用于数据处理技术领域。

Description

一种语音清洗及合成方法、系统、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音清洗及合成方法、系统、装置及存储介质。

背景技术

在智能语音领域，特别是语音合成克隆目标说话人声音，需要录取目标说话人大量数据，录取数据的效率比较低，有可能出现受录音环境影响导致不同日期录取的数据音色不一致，如果使用目标说话人已有的数据使上述问题更加突出。对目标说话人录取数据或用已有数据有以下缺点：对于已有数据没有分句信息；已有数据或者录取数据的音色不一致；已有数据的语速变化较大；需要专业配音录取大量数据，效率较低。

发明内容

有鉴于此，本发明实施例的目的是提供一种语音清洗及合成方法、系统、装置及存储介质，对语音数据进行分句，并基于分句清洗语音中不一致的音色及语速，减少语音合成中的录音数据量，挺高合成效率。

第一方面，本发明实施例提供了一种语音清洗方法，包括以下步骤：

获取音频数据，计算所述音频数据的响度值，根据所述音频数据的响度值及预设的时间间隔确定静默搜索范围；

根据所述静默搜索范围将所述音频数据分成若干组分句，根据优化分句标准及所述若干组分句确定优化分句，将所述优化分句转换成文本；

拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，计算所述偏移量的第一阈值-剩余百分比曲线，确定所述第一阈值-剩余百分比曲线的第一拐点值；

计算所述优化分句的特征向量，计算所述优化分句的特征向量与目标说话人音频的特征向量的相似度，计算所述相似度的第二阈值-剩余百分比曲线，确定所述第二阈值-剩余百分比曲线的第二拐点值；

根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集。

可选地，所述根据所述音频数据的响度值及预设的时间间隔确定静默搜索范围，具体包括：

根据所述音频数据的响度值计算平均响度值，根据所述平均响度值及预设的响度间隔确定静默响度阈值参数范围；

根据预设的时间间隔确定静默持续时间范围；

根据所述静默响度阈值参数范围及所述静默持续时间范围确定静默搜索范围。

可选地，所述根据优化分句标准及所述若干组分句确定优化分句，具体包括：

根据语音合成模型的允许语音时长范围及期望语音时长范围确定优化分句标准；

根据所述优化分句标准计算所述若干组分句对应的若干组分句得分；

将所述若干组分句得分中最高分对应的分句确定为优化分句。

可选地，所述拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，具体包括：

采用线性回归方法拟合所述优化分句的音频时长与对应文本长度的关系，得到回归函数；

根据所述回归函数计算所述优化分句到所述回归函数的残差绝对值或欧几里得距离，得到所述优化分句的偏移量。

可选地，所述根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集，具体包括：

从所述音频数据中筛选出满足第一拐点值的第一筛选数据；

从所述音频数据中筛选出满足第二拐点值的第二筛选数据；

将所述第一筛选数据及所述第二筛选数据的交集，确定为满足所述目标说话人音频的语音数据集。

第二方面，本发明实施例提供了一种语音合成方法，包括：

根据上述的语音清洗方法，得到所述目标说话人的语音数据集；

采用情感分类模型确定所述目标说话人的语音数据集的情感分类；

将情感分类后的所述目标说话人的语音数集据训练情感语音合成模型，并根据获取的文字、情感标签及训练后的情感语音合成模型，合成所述文字对应的所述目标说话人的语音。

第三方面，本发明实施例提供了一种语音清洗系统，包括：

第一模块，用于获取音频数据，计算所述音频数据的响度值，根据所述音频数据的响度值及预设的时间间隔确定静默搜索范围；

第二模块，用于根据所述静默搜索范围将所述音频数据分成若干组分句，根据优化分句标准及所述若干组分句确定优化分句，将所述优化分句转换成文本；

第三模块，用于拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，计算所述偏移量的第一阈值-剩余百分比曲线，确定所述第一阈值-剩余百分比曲线的第一拐点值；

第四模块，用于计算所述优化分句的特征向量，计算所述优化分句的特征向量与目标说话人音频的特征向量的相似度，计算所述相似度的第二阈值-剩余百分比曲线，确定所述第二阈值-剩余百分比曲线的第二拐点值；

第五模块，用于根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集。

第四方面，本发明实施例提供了一种语音合成系统，包括：

语音清洗模块，用于根据上述的语音清洗方法，得到所述目标说话人的语音数据集；

语音情感分类模块，用于采用情感分类模型确定所述目标说话人的语音数据集的情感分类；

语音合成模块，用于根据情感分类后的所述目标说话人的语音数据集训练情感语音合成模型，根据获取的文字、情感标签及训练后的情感语音合成模型，合成所述文字对应的所述目标说话人的语音。

第五方面，本发明实施例提供了一种语音处理装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

实施本发明实施例包括以下有益效果：本实施例中首先根据音频数据的响度值及时间间隔确定静默搜索范围，然后根据静默搜索范围对音频数据进行分句，并根据优化分句标准确定最优分句，从而实现对语音数据进行分句，根据优化分句的音频时长与对应文本长度确定清洗语速的第一拐点值，根据优化分句的特征向量与目标说话人音频的特征向量的相似度确定清洗音色的第二拐点值，根据第一拐点值和第二拐点值清洗音频数据，从而实现基于分句清洗语音中不一致的音色及语速；根据上述的语音清洗方法得到所述目标说话人的语音数据集，采用情感分类模型确定语音数据集的情感分类，并采用情感分类后的语音数据集训练情感语音合成模型，使用训练后的情感语音合成模型合成需要的语音，从而减少语音合成中的录音数据量，挺高合成效率。

附图说明

图1是本发明实施例提供的一种语音清洗方法的步骤流程示意图；

图2是本发明实施例提供的一种优化分句的音频时长与对应文本长度的关系的曲线图；

图3是本发明实施例提供的一种偏移量的第一阈值-剩余百分比曲线图；

图4是本发明实施例提供的一种相似度的第二阈值-剩余百分比曲线图；

图5是本发明实施例提供的另一种语音清洗方法的步骤流程示意图；

图6是本发明实施例提供的一种语音清洗装置的结构框图；

图7是本发明实施例提供的一种语音合成方法的步骤流程示意图；

图8是本发明实施例提供的一种语音合成装置的结构框图；

图9是本发明实施例提供的一种语音处理装置的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

如图1所示，本发明实施例提供了一种语音清洗方法，包括步骤S100至步骤S500。

S100、获取音频数据，计算所述音频数据的响度值，根据所述音频数据的响度值及预设的时间间隔确定静默搜索范围。

需要说明的是，音频数据可以根据目标说话人已有的录音或者视频数据得到，音频数据也可以是目标说话人现场说话采集，具体根据实际应用确定，本实施例不做具体限制。

响度值表征音量的大小，音频数据的响度描述音频的响亮程度，本实施例中以dB为单位。

S110、根据所述音频数据的响度值计算平均响度值，根据所述平均响度值及预设的响度间隔确定静默响度阈值参数范围；

S120、根据预设的时间间隔确定静默持续时间范围；

S130、根据所述静默响度阈值参数范围及所述静默持续时间范围确定静默搜索范围。

需要说明的是，预设的响度间隔及预设的时间间隔的大小均根据实际应用确定，本实施例不做具体限制。

具体地，在平均响度值以下范围内，按照预设的响度间隔确定静默响度阈值参数范围，按照预设的时间间隔确定静默持续时间范围，将静默响度阈值参数范围和静默持续时间范围组成2维空间的静默搜索范围。

在一个具体的实施例中，根据音频数据的响度值计算得到音频的平均响度为-20dB，预设的响度间隔设置为5dB，按响度间隔选取静默响度阈值参数i范围为：[-25dB，-30dB，-35dB，-40dB，-45dB，-50dB，-55dB，-60dB，-65dB，-70dB]；预设的时间间隔为100ms，选取静默持续时间j范围为：[200ms，300ms，400ms，500ms，600ms，700ms，800ms，900ms，1000ms，1100ms，1200ms]；根据响度和时间两个维度，建立关于静默参数搜索范围的二维空间。

S200、根据所述静默搜索范围将所述音频数据分成若干组分句，根据优化分句标准及所述若干组分句确定优化分句，将所述优化分句转换成文本。

当静默搜索范围中静默响度阈值参数范围包括i个参数，静默搜索范围中静默持续时间范围包括j个参数，根据静默搜索范围可以将音频数据分成n(i,j)组分句。使用语音识别工具把分句后的每句语音转换为文本text格式。

S210、根据语音合成模型的允许语音时长范围及期望语音时长范围确定优化分句标准；

S220、根据所述优化分句标准计算所述若干组分句对应的若干组分句得分；

S230、根据所述若干组分句得分中最高分对应的分句确定为优化分句。

需要说明的是，一般情况下，语音合成模型的允许语音时长范围及期望语音时长范围不同。

具体地，优化分句标准包括若干组分句中满足语音合成模型的允许语音时长范围的比例及满足语音合成模型的期望语音时长范围的比例共同确定，优化分句标准还可以包括权重参数，权重参数根据实际应用确定，本实施例不做具体限制；根据优化分句标准计算若干组分句对应的若干组分句得分；将最高得分对应的分句确定为优化分句。

在一个具体的实施例中，语音合成模型的允许语音时长范围[Amin,Amax]，语音合成模型的期望语音时长范围[Bmin,Bmax])，某组分句中满足允许语音时长范围条件有nA(i,j)句，且该组分句中满足期望语音时长范围条件有nB(i,j)句，优化分句标准的计算公式如下：score(i,j)＝weightA*nA(i,j)/n(i,j)+weightB*nB(i,j)/n(i,j)，其中，weightA表示允许语音时长范围的权重参数，weightB表示期望语音时长范围的权重参数，n(i,j)表示该组中分句的总数。根据优化分句标准计算得到的分数越高，表明选取的静默参数越好，将最高分对应的分句确定为优化分句。

S300、拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，计算所述偏移量的第一阈值-剩余百分比曲线，确定所述第一阈值-剩余百分比曲线的第一拐点值。

由于目标说话人的数据来源于自由表达或者已有数据，可能存在有时很快有时很慢的极端情况，为了使语音合成的效果保持一定的语速范围，就需要清洗语速过快和过慢的语句，根据语音文本长度和持续时间可计算每句语音的语速，语速＝本文长度/持续时间。

S310、采用线性回归方法拟合所述优化分句的音频时长与对应文本长度的关系，得到回归函数；

S320、根据所述回归函数计算所述优化分句到所述回归函数的残差绝对值或欧几里得距离，计算得到所述优化分句的偏移量。

具体地，优化分句对应的文本长度可根据文本的字符数确定，如将文本的字符数确定为文本长度。回归函数中，可以将优化分句的音频时长作为X轴参数，将对应文本长度作为Y轴参数，采用线性回归方法拟合优化分句的音频时长与对应文本长度的关系，得到回归函数；根据回归函数计算优化分句到回归函数的残差绝对值或欧几里得距离，得到优化分句的偏移量。

在一个具体的实施例中，参阅图2，横坐标单位为ms，纵坐标单位为字符个数，采用线性回归方法拟合优化分句的音频时长与对应文本长度的关系，得到回归函数曲线为y＝ax+b，a为斜率，b为截局，回归函数曲线两侧的点表示不同分句对应的音频时长及文本长度。

优化分句的偏移量确定后，对偏移量从小到大进行排序，并保留某一阈值以内的剩余百分比，得到关于语速的第一阈值-剩余百分比曲线，采用python kneed包的KneeLocator工具找到上述的第一阈值-剩余百分比曲线拐点位置并得到第一拐点值。具体实现方法如下：knee_value＝KneeLocator(threshold_values,remain_ratio_values,S＝1.0,curve＝'concave',direction＝'decreasing',online＝True).knee。其中，threshold_values表示X轴阈值，remain_ratio_values表示Y轴剩余百分比，S＝1.0表示敏感度，越小对应拐点被检测出得越快，curve＝'concave'表示曲线上方区域的凹凸性，此处为凹性，direction＝'decreasing'表示曲线增减性，此处为减性，online＝True表示在线识别模式别出每一个局部拐点，并在其中选择最优的拐点。参阅图3，将偏移量为4的点作为第一拐点值。

S400、计算所述优化分句的特征向量，计算所述优化分句的特征向量与目标说话人音频的特征向量的相似度，计算所述相似度的第二阈值-剩余百分比曲线，确定所述第二阈值-剩余百分比曲线的第二拐点值。

由于语音文件可能来源于多个音频文件，受录音环境的影响导致不同文件的目标说话人的音色之间都不尽相同，为了使语音合成的效果保持音色一致性，就需要清洗音色相差较大的语句。使用语者识别模型(例如ECAPA-TDNN模型、多层LSTM+GE2E损失函数模型等)把分句后的每句语音计算说话人特征向量(假设为256维vector)。选取能代表目标说话人的音色的一句或者多句语音注册为目标说话人特征向量，计算所有语句的说话人特征向量与目标说话人特征向量的余弦相似度。

同理，将优化分句的余弦相似度确定后，对余弦相似度从小到大进行排序，并保留某一阈值以内的剩余百分比，得到关于音色的第二阈值-剩余百分比曲线，采用pythonkneed包的KneeLocator工具找到上述的第二阈值-剩余百分比曲线拐点位置并得到第二拐点值。参阅图4，将相似度度0.8的点作为第二拐点值。

S500、根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集。

根据获取的第一拐点值清洗语速，根据获取的第二拐点值清洗音色，保留同时满足两项清洗条件的语音，得到经过清洗后的目标说话人语音数据集。

S510、从所述音频数据中筛选出满足第一拐点值的第一筛选数据；

S520、从所述音频数据中筛选出满足第二拐点值的第二筛选数据；

S530、将所述第一筛选数据及所述第二筛选数据的交集，确定为满足所述目标说话人音频的语音数据集。

具体地，将音频数据中偏移量小于第一拐点值的分句作为第一筛选数据，将音频数据中相似度大于第一拐点值的分句作为第二筛选数据，将第一筛选数据与第二筛选数据交集中的分句集合作为满足目标说话人音频的语音数据集。

在一个具体的实施例中，参阅图5，本实施例中语音数据清洗包括选择数据、分句识别及清洗数据等过程，在选择数据阶段对语音中情感数据要求不高，按任意情感录取数据或者选取说话者已有数据；在分句识别阶段，首先技术每帧音频的响度值，把底噪值以下作为静默响度并持续一定时间作为分隔数据，然后根据分隔数据建立静默参数的搜索空间和最优化分句条件进行分句，然后使用语音识别工具把每局语音转换成文本；在清洗数据阶段，首先拟合语音时长与字数关系并计算每句语音的偏移量，以及计算每句语音与注册的目标说话人语音的相似度，然后计算统计根据偏移量及相似度清洗保留的百分比，确定每项清洗拐点值，并根据拐点值清洗分句语音，获得目标说话人的语音数据集。

实施本发明实施例包括以下有益效果：本实施例中首先根据音频数据的响度值及时间间隔确定静默搜索范围，然后根据静默搜索范围对音频数据进行分句，并根据优化分句标准确定最优分句，从而实现对语音数据进行分句，根据优化分句的音频时长与对应文本长度确定清洗语速的第一拐点值，根据优化分句的特征向量与目标说话人音频的特征向量的相似度确定清洗音色的第二拐点值，根据第一拐点值和第二拐点值清洗音频数据，从而实现基于分句清洗语音中不一致的音色及语速。

参阅图6，本发明实施例提供了一种语音清洗系统，包括：

可见，上述语音清洗方法实施例中的内容均适用于本语音清洗系统实施例中，本语音清洗系统实施例所具体实现的功能与上述语音清洗方法实施例相同，并且达到的有益效果与上述语音清洗方法实施例所达到的有益效果也相同。

参阅图7，本发明实施例提供了一种语音合成方法，包括：

S600、根据上述的语音清洗方法，得到所述目标说话人的语音数据集；

S700、采用情感分类模型确定所述目标说话人的语音数据集的情感分类；

S800、将情感分类后的所述目标说话人的语音数据集训练情感语音合成模型，并根据获取的文字、情感标签及训练后的情感语音合成模型，合成所述文字对应的所述目标说话人的语音。

实施本发明实施例包括以下有益效果：根据上述的语音清洗方法得到所述目标说话人的语音数据，采用情感分类模型确定语音数据的情感分类，并采用情感分类后的语音数据训练情感语音合成模型，使用训练后的情感语音合成模型合成需要的语音，从而减少语音合成中的录音数据量，挺高合成效率。

参阅图8，本发明实施例提供了一种语音合成系统，包括：

可见，上述语音合成方法实施例中的内容均适用于本语音合成系统实施例中，本语音合成系统实施例所具体实现的功能与上述语音合成方法实施例相同，并且达到的有益效果与上述语音合成方法实施例所达到的有益效果也相同。

参阅图9，本发明实施例提供了一种语音处理装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的语音清洗或语音合成方法。

其中，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本申请实施例还公开了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的方法。同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现上述的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音清洗方法，其特征在于，包括：

根据所述静默搜索范围将所述音频数据分成若干组分句，根据优化分句标准及所述若干组分句确定优化分句，将所述优化分句转换成文本；其中，所述根据优化分句标准及所述若干组分句确定优化分句，具体包括：根据语音合成模型的允许语音时长范围及期望语音时长范围确定优化分句标准；根据所述优化分句标准计算所述若干组分句对应的若干组分句得分；将所述若干组分句得分中最高分对应的分句确定为优化分句；

拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，计算所述偏移量的第一阈值-剩余百分比曲线，确定所述第一阈值-剩余百分比曲线的第一拐点值；所述音频时长与对应文本长度的关系表征语速；

计算所述优化分句的特征向量，计算所述优化分句的特征向量与目标说话人音频的特征向量的相似度，计算所述相似度的第二阈值-剩余百分比曲线，确定所述第二阈值-剩余百分比曲线的第二拐点值；所述优化分句的特征向量包括音色的特征向量；

根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集；所述根据所述第一拐点值和第二拐点值清洗所述音频数据，具体包括：根据所述第一拐点值清洗语速，根据所述第二拐点值清洗音色。

2.根据权利要求1所述的语音清洗方法，其特征在于，所述根据所述音频数据的响度值及预设的时间间隔确定静默搜索范围，具体包括：

根据预设的时间间隔确定静默持续时间范围；

3.根据权利要求1所述的语音清洗方法，其特征在于，所述拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，具体包括：

4.根据权利要求1所述的语音清洗方法，其特征在于，所述根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集，具体包括：

从所述音频数据中筛选出满足第一拐点值的第一筛选数据；

从所述音频数据中筛选出满足第二拐点值的第二筛选数据；

5.一种语音合成方法，其特征在于，包括：

根据权利要求1-4任一项所述的语音清洗方法，得到所述目标说话人的语音数据集；

将情感分类后的所述目标说话人的语音数据集训练情感语音合成模型，并根据获取的文字、情感标签及训练后的情感语音合成模型，合成所述文字对应的所述目标说话人的语音。

6.一种语音清洗系统，其特征在于，包括：

第二模块，用于根据所述静默搜索范围将所述音频数据分成若干组分句，根据优化分句标准及所述若干组分句确定优化分句，将所述优化分句转换成文本；其中，所述根据优化分句标准及所述若干组分句确定优化分句，具体包括：根据语音合成模型的允许语音时长范围及期望语音时长范围确定优化分句标准；根据所述优化分句标准计算所述若干组分句对应的若干组分句得分；将所述若干组分句得分中最高分对应的分句确定为优化分句；

第三模块，用于拟合所述优化分句的音频时长与对应文本长度的关系，并根据所述关系计算所述优化分句的偏移量，计算所述偏移量的第一阈值-剩余百分比曲线，确定所述第一阈值-剩余百分比曲线的第一拐点值；所述音频时长与对应文本长度的关系表征语速；

第四模块，用于计算所述优化分句的特征向量，计算所述优化分句的特征向量与目标说话人音频的特征向量的相似度，计算所述相似度的第二阈值-剩余百分比曲线，确定所述第二阈值-剩余百分比曲线的第二拐点值；所述优化分句的特征向量包括音色的特征向量；

第五模块，用于根据所述第一拐点值和第二拐点值清洗所述音频数据，确定满足所述目标说话人音频的语音数据集；所述根据所述第一拐点值和第二拐点值清洗所述音频数据，具体包括：根据所述第一拐点值清洗语速，根据所述第二拐点值清洗音色。

7.一种语音合成系统，其特征在于，包括：

语音清洗模块，用于根据权利要求1-4任一项所述的语音清洗方法，得到所述目标说话人的语音数据集；

8.一种语音处理装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5任一项所述的方法。

9.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述的方法。