CN111460094B

CN111460094B - 一种基于tts的音频拼接优化的方法及其装置

Info

Publication number: CN111460094B
Application number: CN202010188222.6A
Authority: CN
Inventors: 李旭滨; 詹学君
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-05-05
Anticipated expiration: 2040-03-17
Also published as: CN111460094A

Abstract

本发明提供了一种基于TTS的音频拼接优化的方法及其装置，构建基于知性会话的知识库；接收到用户问题录音后，确定所述用户问题录音的用户参数；所述知识库根据所述用户问题录音确定对应的解答录音；将所述解答录音进行分段，并将分段后的所述解答录音和用户参数以TTS合成技术合成拼接录音。获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，根据所述训练结果对所述拼接录音进行动态优化。本发明的有益效果：本发明在智能外呼等场景中，给用户回答中需要动态填充参数如用户的姓名等，使得拼接后录音听感自然，能够提升合成语音与真人录音一致性。能够在拼接时去掉前后段的录音的静音时长,以提升拼接处的连贯性。

Description

一种基于TTS的音频拼接优化的方法及其装置

技术领域

本发明涉及人机交互的对话技术领域，特别涉及一种基于TTS的音频拼接优化的方法及其装置。

背景技术

目前，在外呼的多轮对话中，知性会话(KRC)是一种常用的FAQ的知识库,其中一个问题和N多相似问题以及一个答案的录音,对话中用户命中KRC中问题后,然后播放配置的答案录音给用户,其中对播报文本中固定句式部分采用真人录音，对于文本中需要经常变化的部分(通常称为槽位，例如人名等)采用合成语音，然后将真人录音与合成语音做实时拼接。由于外呼中，现有技术方案由于合成系统效果的限制，会存在合成语音音质、音色与真人录音听感上差异性较大，从而导致TTS拼接后的语音听感上很不自然，而且在拼接处存在明显的跳变感，影响产品体验。

发明内容

本发明提供一种基于TTS的音频拼接优化的方法及其装置，用以解决现有技术方案由于合成系统效果的限制，会存在合成语音音质、音色与真人录音听感上差异性较大，从而导致TTS拼接后的语音听感上很不自然，产品体验不好的情况。

一种基于TTS的音频拼接优化的方法，其特征在于，包括：

构建基于知性会话的知识库；

接收到用户问题录音后，确定所述用户问题录音的用户参数；并根据所述用户问题录音在所述知识库中确定解答录音；

将所述解答录音进行分段，并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音；

获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，得到训练结果，根据所述训练结果对所述拼接录音进行动态优化。

作为本发明的一种实施例：所述构建基于知性会话的知识库，包括：

获取智能外呼场景中基于知性会话的知识图谱；

根据所述知识图谱，确定所述知识图谱中的问题集和答案集，并确定所述问题集中每一个问题的问题参数和答案集中每一个答案的答案参数；

根据所述答案集将答案与所述问题集中的问题对应，其中，所述答案集中的每一答案对应有所述问题集中的多个问题；

将所述答案集中每一个答案和答案参数与所述每一个答案对应的问题和问题参数分别合成，得到多个数据单元；

将所有的所述数据单元进行整理，构成知识库。

作为本发明的一种实施例：所述接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音在所述知识库中确定解答录音，包括：

根据所述问题类型，在所述知识库中得到相同类型的问题的问题集；

根据所述关键字确定所述用户问题录音的用户问题参数；

将所述用户问题参数与所述问题集中每一个的问题的问题参数相匹配，并获取匹配结果；

根据所述匹配结果，在所述问题集中确定同答案问题；

根据所述同答案问题在所述知识库中获取解答录音。

作为本发明的一种实施例：所述将所述解答录音进行分段，并将分段后的所述解答录音和用户参数以TTS合成技术合成拼接录音，包括：

将所述用户问题录音分段，确定所述用户问题录音中的问题参数；

根据所述用户问题录音的用户参数，确定所述用户参数在所述用户问题录音的用户参数音频段；

根据所述解答录音，获取所述解答录音的录音文本；

将所述录音文本划分为动态填充部分和固定部分；

通过所述动态填充部分，在所述解答录音中标记所述动态填充部分的动态音频段；

根据标记的所述动态音频段将所述解答录音按顺序分段；

在分段后，将标记的动态音频段与所述用户参数音频段进行替换，获取替换后的解答录音；

将所述替换后的解答录音，通过TTS合成技术合成拼接录音。

作为本发明的一种实施例：所述获取用户的真人录音并生成测试集；

获取所述用户的真人录音，其中，所述用户为N个，N大于1；

将所述真人录音通过预处理，包括：

通过语音清洗，提高所述真人录音的清晰度；

通过分类标注，将所述真人语音以用户和语音相对应的方式进行分类，对同一用户的不同语音采用相同的标注字符进行标注，获取标注结果；

根据所述标注结果，通过语音特征提取，提取相同标注字符的语音的语音特征，生成多个语音特征数据集，每一个所述语音特征数据集对应一个用户；

根据所述用户的数量构建测试模型；

将所述语音特征数据集输入测试模型，并与所述测试模型中的用户一一对应，构成基于所述测试模型的测试集。

作为本发明的一种实施例：所述通过所述测试集对所述拼接录音进行训练，根据所述训练结果对所述拼接录音进行动态优化，包括以下步骤：

步骤1：获取所述拼接录音，并提取所述拼接录音中的用户参数；

步骤2：根据所述用户参数，确定所述测试集中对应用户的语音特征数据集；

步骤3：根据所述语音特征数据集对所述拼接录音进行训练，获取训练数据；

步骤4：根据所述训练数据，对所述拼接录音进行动态调整，并获取调整后的拼接录音的语音特征；

步骤5：将调整后的拼接录音的语音特征与所述语音特征数据集进行对比，判断所述拼接录音的语音特征与所述语音特征数据集的一致性，并获取一致性数值；

步骤6：根据所述一致性数值，判断所述一致性数值是否等于1，并输出判断结果；

步骤7：当所述一致性数值等于1时，输出所述拼接录音；当所述一致性数值低于1时，重新执行步骤3对所述拼接录音进行动态优化。

作为本发明的一种实施例：所述方法还包括：

获取所述解答录音中的静音音频段；

将所述静音音频段从所述拼接录音删除，减少所述拼接录音中的无效音频段。

作为本发明的一种实施例：所述方法还包括：

预设多组基准频域参数和与所述基准频域参数对应滤波参数；

获取所述拼接录音的频域参数；

根据所述拼接录音的频域参数与所述基准频域参数，确定所述拼接录音的滤波参数；

根据所述拼接录音的滤波参数配置滤波器，实现主动降噪。

作为本发明的一种实施例：所述获取所述拼接录音的频域参数，包括如下步骤：

对所述拼接语进行分帧，得到分帧公式：

Y_i(x)＝[(i-1)N+x]

其中，所述Y_i(x)表示第i帧语音的第x个采样点的帧值；所述N表示相邻帧之间的距离。

根据对所述拼接语音的分帧，计算每一帧的频域参数；

其中，所述G_i(x)表示第i帧语音的的频域参数，所述Q(y,y₀)每帧语音的起始坐标，所述W(y,f₀)每帧语音的结尾坐标；

为每帧语音的权重；所述n表权重个数；所述D表示所述起始坐标和结尾坐标的距离；

通过所述分帧公式和所述频域参数获取总的频域参数；

其中，所述U表示总频域参数。

一种基于TTS的音频拼接优化的装置，其特征在于，包括：

知识库构建模块：用于构建基于知性会话的知识库；

第一确定模块：用于在接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音在所述知识库中确定与所述用户问题录音对应的解答录音。

合成模块：用于将所述解答录音进行分段，并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音；

优化模块：用于获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，根据所述训练结果对所述拼接录音进行动态优化。

本发明的有益效果在于：本发明在智能外呼等场景中，给用户回答中需要动态填充参数如用户的姓名等，再利用TTS拼接优化，可以使得拼接后录音听感自然。能够根据真人录音的声学特征对合成语音作出动态调整,来提升合成语音与真人录音一致性。能够在拼接时去掉前后段的录音的静音时长,以提升拼接处的连贯性。外呼场景中，由于机器人播报的话术中含有可变信息,使用固定话术的真人录音和语音合成文本(TTS)合成音频实时参数拼接生成听感自然的的录音,从而提升外呼系统的交互的体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种基于TTS的音频拼接优化的方法的方法流程图。

图2为本发明实施例中录音分段的示意图；

图3为本发明实施例中一种基于TTS的音频拼接优化的装置的结构示意图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如附图1所示的一种基于TTS的音频拼接优化的方法的方法流程图，本方法包括以下步骤：

步骤100：构建基于知性会话的知识库；

步骤101：接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音确定在所述知识库中确定解答录音；

步骤102：将所述解答录音进行分段，并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音；

步骤103：获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，得到训练结果，根据所述训练结果对所述拼接录音进行动态优化。

本发明的原理在于：本发明通过预先创建基于知性会话的知识库，而知性会话(KRC)是一种常用的FAQ的知识库，其具有一个问题和N多相似问题以及对应一个答案的录音。本方法在接收到用户的录音后，会根据用户的问题录音确定用户参数(在一个事实施例中用户参数为用户姓名，也可以为用户编码、用户特征等等)。基于预先创建的知识库，在知识库中找到解答用户问题录音的解答录音。但是解答录音可能会包含知识库中问题的原解答用户的用户参数，因此，用户参数为一个动态特征。在解答录音提取时，通过将解答录音分段，区分出解答录音中的动态特征，然后基于TTS合成技术将解答录音中的动态参数替换为接收到的问题录音的用户的用户参数，合成一个拼接的合成录音。而拼接录音一般具有不连贯的问题，还与用户的真人语音具有区别，因此，通过建立真人录音的测试集，通过测试集的训练，基于训练结果实现拼接录音的动态优化调整，降低拼接录音不自然，不连贯的现象。

本发明的有益效果在于：本发明能够在多轮对话中通过录音的TTS拼接技术和知识库的动态填充，可以填充解答语音中的动态内容，还可以提升合成语音与真人录音一致性。在拼接时去掉前后段的录音的静音时长，以提升拼接处的连贯性。对于合成的整体的音频再通过音频的进行降噪等处理，通过所述测试集对所述拼接录音进行训练，对拼接录音进行动态优化，让固定录音和合成的录音之间衔接更加自然。

获取智能外呼场景中基于知性会话的知识图谱；

将所有的所述数据单元进行整理，构成知识库。

本发明的原理在于：本发明主要用于智能外呼场景，因此可以通过智能外场景的所有可能出现的问题，相对于可能出现的问题的解答答案，建立智能会话的知识图谱。因为基于知性会话。所述一个答案可能会存在多个相似的问题。所以答案和问题要对应时，一个答案对应多个问题。最后基于答案，提取相对于答案的问题，把一个答案和答案对应的多个问题进行统一整理，生成数据单元进行存储。而数据单元基于答案的数量，因此当数据单元为多个时，就可以构建知识库。

本发明的有益效果在于：本发明通过构建知识图谱，可以整理所有的答案和问题，并且把答案和问题进行对应整理生成可以基于问题可以快速调取答案的知识库。

根据所述用户问题录音，通过标点过滤和无关词过滤，确定所述用户的问题录音的关键字、问题类型和用户参数；

根据所述关键字确定所述用户问题录音的用户问题参数；

根据所述匹配结果，在所述问题集中确定同答案问题；

根据所述同答案问题在所述知识库中获取解答录音。

本发明的原理在于：本发明的方法中，在接收到用户的问题录音时，通过标点过滤和无关词过滤，确定所述用户的问题录音的关键字、问题类型和用户参数；基于问题类型，可以把相同类型的问题进行整理。根据关键字和可以提取用户的问题，还可以提取用户的问题参数。通过接收的问题的关键字和知识库预设的问题的关键字匹配，可以在知识库中找到与接收到的问题相似或相同的问题，基于知识库中相同或者相似问题，可以找到对应的解答录音。

本发明的有益效果在于：可以通过问题的关键字、问题类型和用户参数提取，在知识库中找到相同的或相似的问题以及对应的解答语音，使得智能外呼中呼叫和解答都比较迅速。

根据所述解答录音，获取所述解答录音的录音文本；

将所述录音文本划分为动态填充部分和固定部分；

根据标记的所述动态音频段将所述解答录音按顺序分段；

将所述替换后的解答录音，通过TTS合成技术合成拼接录音。

附图2为本发明一种解答录音的实施例，图中#userName就是用户姓名的动态参数，当用户命中知识库后，需要调用业务接口中拿到业务系统的数据，通过语音合成文本(TTS)合成录音，然后将三段录音进行实时拼接成一个录音,并播放给客户。

在分段后，将标记的所述动态音频段与所述用户参数音频段进行替换，获取替换后的解答录音；

将所述替换后的解答录音，通过TTS合成技术合成拼接录音。

本发明的原理在于：本发明同对用户的问题录音分段，可以提取出用户参数，以及用户参数对用的音频段，因为这一段属于动态部分，因此在解答录音中，通过对解答录音的分段，划分出解答录音中的动态填充部分，将用户问题中的动态部分和解答录音中的动态填充部分替换，得到拼接录音，而拼接录音也通过TTS技术合成。

本发明的有益效果在于：通过分段的方式，把解答录音中的动态天填充部分进行替换，能够生成一个基于用户的问题录音的拼接答案。解决了用户的问题。

获取所述用户的真人录音，其中，所述用户为N个，N大于1；

将所述真人录音通过预处理，包括：

通过语音清洗，提高所述真人录音的清晰度；

通过分类标注，将所述真人录音以用户和语音相对应的方式进行分类，对同一用户的不同语音采用相同的标注字符进行标注，获取标注结果；

根据所述用户的数量构建测试模型；

本发明的原理在于：本发明中，如果是多人的智能外呼，真人语音的用户为多个。然后通过预处理，清晰且标注过的用户官员，最后通过检查早、测试模型构建测试集。

本发明的有益效果在于：通过获取用户的真人语音，并通过用户的真人语音，通过清洗和标注实现用户标准获取最后通过用户真人语音建立测试集，测试合成的拼接语音的与真人语音的一致性，通过一致性，对用户的拼接语音进行优化调整。

步骤4：根据所述训练数据，对所述拼接录音进行动态调整，并获取调整后的所述拼接录音的语音特征；

步骤5：将调整后的所述拼接录音的语音特征与所述语音特征数据集进行对比，判断所述拼接录音的语音特征与所述语音特征数据集的一致性，并获取一致性数值；

步骤6：根据所述一致性数值，判断所述一致性数值是否等于1；

本发明阐述了一种动态优化的过程。通过七个步骤，分别等于基于知识库中执行的值，对用户的拼接录音进行筛选。

本发明的有益效果在于：本发明通过七个步骤实现了动态优化的过程，而且，可以通过测试集和一致性对拼接的语音进行调整。

作为本发明的一种实施例：所述方法还包括：

获取所述解答录音中的静音音频段；

本发明的在于通过解答录音分段来实现静音的音频点可调整和删除，降低无效概率。

作为本发明的一种实施例：所述方法还包括：

获取所述拼接录音的频域参数；

根据所述拼接录音的滤波参数配置滤波器，实现主动降噪。

本发明的实施例在于：本发明基于预设的基准频域参数，确定需要的滤波参数，最后选定滤波器，去除杂音。

有益效果在于：能够实现主动降噪，并且滤波器的选型基于滤波参数。使得拼接路易能更加自然。

对所述拼接录音进行分帧，得到分帧公式：

Y_i(x)＝[(i-1)N+x]

根据对所述拼接语音的分帧，计算每一帧的频域参数；

通过所述分帧公式和所述频域参数获取总的频域参数；

其中，所述U表示总频域参数。

本发明频域参数的获取首先需要对拼接录音进行分帧，得到分帧公式，分帧公式可以显示每一帧的帧值总的和帧数，然后求出任意某帧的拼接录音的频域参数，根据某帧七十点和结尾点的坐标，根据微分方程获取频域参数，最后通过积分方程累加相乘的方式求得总的频域参数。

如附图3所示：一种基于TTS的音频拼接优化的装置，包括：

知识库构建模块：用于构建基于知性会话的知识库；

发明的原理在于：本发明通过知识库构建模块预先创建基于知性会话的知识库，而知性会话(KRC)是一种常用的FAQ的知识库,其中具有一个问题和N多相似问题以及一个答案的录音。本方法在接收到用户的录音后，第一确定模块会根据用户的问题录音确定用户参数(在一个事实施例中用户参数为用户姓名，也可以为用户编码、用户特征等等)。基于预先创建的知识库，在知识库中找到解答用户问题录音的解答录音。但是解答录音可能会包含知识库中问题的原解答用户的用户参数，因此，用户参数为一个动态特征。在解答录音提取时，合成模块通过将解答录音分段，区分出解答录音中的动态特征，然后基于TTS合成技术将解答录音中的动态参数替换为接收到的问题录音的用户的用户参数，合成一个拼接的合成录音。而拼接录音一般具有不连贯的问题，还与用户的真人语音具有区别，因此，优化模块通过建立真人录音的测试集，通过测试集的训练，基于训练结果实现拼接录音的动态优化调整，降低拼接录音不自然，不连贯的现象。

本发明的有益效果在于：本发明能够在多轮对话中通过录音的TTS拼接技术和知识库的动态填充，可以填充解答语音中的动态内容，还可以提升合成语音与真人录音一致性。在拼接时去掉前后段的录音的静音时长,以提升拼接处的连贯性。对于合成的整体的音频再通过音频的进行降噪等处理,让固定录音和合成的录音之间衔接更加自然。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于TTS的音频拼接优化的方法，其特征在于，包括：

构建基于知性会话的知识库；

接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音在所述知识库中确定解答录音；

获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，得到训练结果，根据所述训练结果对所述拼接录音进行动态优化；

其中，所述方法还包括：

获取所述拼接录音的频域参数；

根据所述拼接录音的滤波参数配置滤波器，实现主动降噪；

其中，所述获取所述拼接录音的频域参数，包括如下步骤：

对所述拼接语进行分帧，得到分帧公式：

其中，所述表示第i帧语音的第x个采样点的帧值；所述N表示相邻帧之间的距离；

根据对所述拼接语音的分帧，计算每一帧的频域参数；

其中，所述表示第i帧语音的的频域参数，所述每帧语音的起始坐标，所述每帧语音的结尾坐标；为每帧语音的权重；所述n表权重个数；所述D表示所述起始坐标和结尾坐标的距离；

通过所述分帧公式和所述频域参数获取总的频域参数；

其中，所述U表示总频域参数。

2.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述构建基于知性会话的知识库，包括：

获取智能外呼场景中基于知性会话的知识图谱；

将所有的所述数据单元进行整理，构成知识库。

3.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音在所述知识库中确定解答录音，包括：

根据所述关键字确定所述用户问题录音的用户问题参数；

根据所述匹配结果，在所述问题集中确定同答案问题；

根据所述同答案问题在所述知识库中获取解答录音。

4.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述将所述解答录音进行分段，并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音，包括：

根据所述解答录音，获取所述解答录音的录音文本；

将所述录音文本划分为动态填充部分和固定部分；

根据标记的所述动态音频段将所述解答录音按顺序分段；

将所述替换后的解答录音，通过TTS合成技术合成拼接录音。

5.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述获取用户的真人录音并生成测试集；

获取所述用户的真人录音，其中，所述用户为N个，N大于1；

将所述真人录音通过预处理，包括：

通过语音清洗，提高所述真人录音的清晰度；

根据所述用户的数量构建测试模型；

6.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述通过所述测试集对所述拼接录音进行训练，得到训练结果，根据所述训练结果对所述拼接录音进行动态优化，包括以下步骤：

7.根据权利要求1所述的一种基于TTS的音频拼接优化的方法，其特征在于，所述方法还包括：

获取所述解答录音中的静音音频段；

8.一种基于TTS的音频拼接优化的装置，其特征在于，包括：

知识库构建模块：用于构建基于知性会话的知识库；

获取模块：用于在接收到用户问题录音后，确定所述用户问题录音的用户参数，并根据所述用户问题录音在所述知识库中获取与所述用户问题录音对应的解答录音；

优化模块：用于获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，根据所述训练结果对所述拼接录音进行动态优化；

其中，装置还包括：

获取所述拼接录音的频域参数；

根据所述拼接录音的滤波参数配置滤波器，实现主动降噪；

其中，所述获取所述拼接录音的频域参数，包括如下步骤：

对所述拼接语进行分帧，得到分帧公式：

根据对所述拼接语音的分帧，计算每一帧的频域参数；

通过所述分帧公式和所述频域参数获取总的频域参数；

其中，所述U表示总频域参数。