CN112863531A

CN112863531A - 通过计算机识别后重新生成进行语音音频增强的方法

Info

Publication number: CN112863531A
Application number: CN202110035305.6A
Authority: CN
Inventors: 蒋亦韬
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-28

Abstract

本发明公开了通过计算机识别后重新生成进行语音音频增强的方法，涉及计算机音频增强处理系统技术领域，具体为通过计算机识别后重新生成进行语音音频增强的方法，包括以下步骤：S1、输入语音音频数据；S2、将语音音频进行分割处理；S3、将分割音频进行计算机识别处理；S4、对计算机识别结果做修正处理；S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。该通过计算机识别后重新生成进行语音音频增强的方法，通过计算机识别语音内容成分，并使用获取到的内容成分进行计算机生成语音，从而达到对音频中语音内容的直接增强；通过计算机生成语音，可以对语音增强结果进行高度的自定义化效果，而并不用依赖于音频素材本身。

Description

通过计算机识别后重新生成进行语音音频增强的方法

技术领域

本发明涉及计算机音频增强处理系统技术领域，具体为通过计算机识别后重新生成进行语音音频增强的方法。

背景技术

目前，语音增强大多是采用算法进行环境降噪、滤波、分频、压限等方式，或通过使用硬件混合处理的方法降噪并增强说话人语音。

传统语音增强方法更多是通过对音频信号本身进行处理而进行的，通过间接的方式增强说话人的语音内容，而不能直接的提取出音频信号中的语音内容进行增强，这会使得语音增强过程中得到一些并不想要的声音结果，且增强效果不稳定，无法保证在不同环境中获得稳定的语音增强效果，增强后的语音对于人类的听觉识别的优化较为有限，无法很好的起到增强人类语音理解力的作用。

发明内容

针对现有技术的不足，本发明提供了通过计算机识别后重新生成进行语音音频增强的方法，解决了上述背景技术中提出现有传统语音增强方法更多是通过对音频信号本身进行处理而进行的，通过间接的方式增强说话人的语音内容，而不能直接的提取出音频信号中的语音内容进行增强，这会使得语音增强过程中得到一些并不想要的声音结果，且增强效果不稳定，无法保证在不同环境中获得稳定的语音增强效果，增强后的语音对于人类的听觉识别的优化较为有限，无法很好的起到增强人类语音理解力的作用的问题。

为实现以上目的，本发明通过以下技术方案予以实现：通过计算机识别后重新生成进行语音音频增强的方法，包括以下步骤：

S1、输入语音音频数据；

S2、将语音音频进行分割处理；

S3、将分割音频进行计算机识别处理；

S4、对计算机识别结果做修正处理；

S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。

可选的，所述通过计算机识别后重新生成进行语音音频增强的方法，具体包括一下步骤：

S1、输入语音音频数据：输入一段完整的语音音频；

S2、将语音音频进行分割处理：将步骤S1、输入语音音频数据中的完整音频，根据说话的断句判断其分割点，记录下相应的时间戳、时长、相对位置等标记数据，并对音频本身进行切分；

S3、将分割音频进行计算机识别处理：将分割后的音频，通过计算机语音转换技术，将音频内容转换成文字或等价的语音标记元素如字符、拼音、音标、罗马音、发音标记等；

S4、对计算机识别结果做修正处理：根据上下文分析和发音规律分析等将可能产生误识别的语音标记元素修正为更有可能是正确的语音标记元素；

S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频：根据步骤S4、对计算机识别结果做修正处理中产生的语音生成标记，使用计算机进行语音合成，生成语音音频结果。

可选的，所述步骤S3、将分割音频进行计算机识别处理的进一步包括：将分割音频进行语音情绪、语调、性别等语音特征进行识别。

可选的，所述将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤：为了能获得更好的语音生成效果，减少生成语音与原说话人之间的声音差异，以及避免情绪等信息的传达缺失，以及将原音频中说话人在该段音频中的语音特征提取出来，以便按照相似的特征进行语音生成。

本发明提供了通过计算机识别后重新生成进行语音音频增强的方法，具备以下有益效果：

1、该通过计算机识别后重新生成进行语音音频增强的方法，解决当前语音增强只能进行音频处理间接增强，而无法对语音内容本身进行直接增强的问题，通过神经网络对语音进行识别再生成的处理，得到清晰的语音音频，将输入语音进行识别内容、情绪、发音规则，而后根据识别的信息进行语音合成，实现了不清晰语音到清晰语音的转换，且在转换时保持了输出与输入在内容上的高度一致。

2、该通过计算机识别后重新生成进行语音音频增强的方法，通过计算机识别语音内容成分，并使用获取到的内容成分进行计算机生成语音，从而达到对音频中语音内容的直接增强。

3、该通过计算机识别后重新生成进行语音音频增强的方法，通过计算机生成语音，可以对语音增强结果进行高度的自定义化效果，而并不用依赖于音频素材本身。

附图说明

图1为本发明的步骤流程示意图；

图2为本发明的具体步骤流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1-图2，本发明提供一种技术方案：通过计算机识别后重新生成进行语音音频增强的方法，包括以下步骤：

S1、输入语音音频数据；

S2、将语音音频进行分割处理；

S3、将分割音频进行计算机识别处理；

S4、对计算机识别结果做修正处理；

通过计算机识别后重新生成进行语音音频增强的方法，具体包括一下步骤：

S1、输入语音音频数据：输入一段完整的语音音频；

例如将音频内容为“你好，这是一个例子”，拆分为音频内容为“你好”和“这是一个例子”的两段音频；主要的分割方法主要依托于音频的窗口平均阈值作为切分依据；当一段时间内的音频信号小于设定的阈值，则视为截断点；分割方式并不作为本专利的核心部分，仅为对输入数据进行的一种预处理；本方案支持将通过其他方式进行数据预处理的数据；

具体实现方法主要通过神经网络对语音内容进行分析及识别，获取相应发音所对应的语音元素成分标记；

这种语音元素标记不同于现有语音识别，后者识别的是语音中的文字内容，前者的主要特征可以是任何形式的具有发音代表性的标识数据。这种特征甚至不一定是人类可读的，可以只是计算机自行理解的发音规律。通过神经网络获得的近似标识和这些标识的置信参数可以根据说话人自身的发音习惯做针对性的匹配，通过提取说话人常用特定字词发音，作为权重补偿对神经网络输出时的多个可能正确的结果进行置信程度的调整，以获得更具有针对性和更加准确的识别结果；

S4、对计算机识别结果做修正处理：此步骤是为了解决单纯计算机识别可能产生的误识别问题，根据上下文分析和发音规律分析等将可能产生误识别的语音标记元素修正为更有可能是正确的语音标记元素；

为方便理解，以拼音作为中间语音标记元素为例，识别到“zhe4si4yi1duan4dui4hua1”，可以修复为“zhe4shi4yi2duan4dui4hua4”；

这主要依赖于修复库中的修复素材以及相应的文本权重比对进行，如一段文本的识别置信程度较低，但根据上下文所得到的修复库中对应置信程度较高，则对识别结果进行替换；每一种用于标记的语音元素均需要有其相对应的修复库或修复规则；根据不同的应用场景，可以更换更适合特定应用场景的修复库；例如在描述专业内容的输入中，就可以使用包含更多专有名词的修复库，专业性用词也可以相应提升其权重以便修复结果更加精确。前序步骤中所有的输出结果在此进行合并，作为含有时间、语音标记数据、情绪发音标记数据的语音生成标记；

S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频：根据上一步骤产生的语音生成标记，使用计算机进行语音合成，生成语音音频结果；

生成方式主要采用神经网络生成，可以获得更加平滑自然的生成结果。除识别结果标记数据为不可或缺的主要参数之外，其他输入数据均为可选的为了更进一步增强语音生成效果而加入的可选参数；将语音标记元素输入后，计算机按照相应规则生成与其匹配的音频；上述辅助参数将对生成音频的生成细节进行调整；生成网络允许训练特异性的某种发音习惯，如方言、口音等。输出音频的语音内容应与输入语音的内容保持基本一致，以最终实现音频内容增强，而去除了多方面干扰的效果。

步骤S3、将分割音频进行计算机识别处理的进一步包括：将分割音频进行语音情绪、语调、性别等语音特征进行识别。

将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤：为了能获得更好的语音生成效果，减少生成语音与原说话人之间的声音差异，以及避免情绪等信息的传达缺失。可以将原音频中说话人在该段音频中的语音特征提取出来，以便按照相似的特征进行语音生成。

其不需要是人类可以理解的情绪特征，仅仅是某种发音方法的标识。为了方便理解，以人类可理解的方式举例，比如提取出（情绪开心+语调高起伏+语速130字每分钟+男声+醇厚低音+嗓音沙哑）等特征。

在此方案中通常采用神经网络以及频谱分析等的复合方式进行分析提取。以神经网络输出的结果为主，频谱分析作为辅助判断依据进行结果修正。一段语音可以同时拥有多种特征，这些特征对应的是语音合成部分的输入参数，以此来得到接近原语音的声音。此部分也可以替换为固定的生成数据或缺省，以默认或其他参数进行后续的语音音频合成。此方案中输出获得的情绪数据为用于语音合成的标记数据，转换生成为类似于SSML的语音生成标记语言用于后续生成。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.通过计算机识别后重新生成进行语音音频增强的方法，包括以下步骤：

S1、输入语音音频数据；

S2、将语音音频进行分割处理；

S3、将分割音频进行计算机识别处理；

S4、对计算机识别结果做修正处理；

2.根据权利要求1所述的通过计算机识别后重新生成进行语音音频增强的方法，其特征在于，所述具体包括一下步骤：

S1、输入语音音频数据：输入一段完整的语音音频；

3.根据权利要求1所述的通过计算机识别后重新生成进行语音音频增强的方法，其特征在于，所述步骤S3、将分割音频进行计算机识别处理的进一步包括：将分割音频进行语音情绪、语调、性别等语音特征进行识别。

4.根据权利要求3所述的通过计算机识别后重新生成进行语音音频增强的方法，其特征在于：所述将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤：为了能获得更好的语音生成效果，减少生成语音与原说话人之间的声音差异，以及避免情绪等信息的传达缺失，可以将原音频中说话人在该段音频中的语音特征提取出来，以便按照相似的特征进行语音生成。