CN112435649A

CN112435649A - 一种多人配音音效混合方法

Info

Publication number: CN112435649A
Application number: CN202011241369.3A
Authority: CN
Inventors: 陈阳; 鲁永春; 王周
Original assignee: Hefei Mingyang Information Technology Co ltd
Current assignee: Hefei Mingyang Information Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-02

Abstract

本发明公开了一种多人配音音效混合方法，属于音效处理领域。一种多人配音音效混合方法，包括以下步骤：步骤1：输入原音频与插入音频；步骤2：从音频插入点将所述原音频断开，插入空白的断开音频；步骤3：在所述断开音频上置入第一特异标记；步骤4：在所述插入音频的开头插入第二特异标记，步骤5：将所述原音频与所述插入音频进行混音，并使得所述第一特异标记与所述第二特异标记对齐。能够更加精准的插入音效或配音，并且音频之间的过度更加自然。

Description

一种多人配音音效混合方法

技术领域

本发明涉及配音技术领域，具体涉及一种多人配音音效混合方法。

背景技术

随着配音技术的发展，人们对配音的要求也越来越高，多人配音的需求越来越多，特别是男女混音配音配音需求越来越多，仅仅是多人配音的需求是不够的，还有对配音的前奏、中间转场或者末尾加入一些音乐特效，达到更好的效果。

目前市面上已有多种不同的音频或音效的混合方法，但是现有的方法在多人配音的使用环境下，难以保证插入或混合的精确度，在时间轴上容易产生误差，造成配音插入位置不准，以及音效之间的过度不自然。

发明内容

针对现有技术的不足，本发明提出了一种多人配音音效混合方法。

本发明的目的可以通过以下技术方案实现：

一种多人配音音效混合方法，包括以下步骤：

步骤1：输入原音频与插入音频；

步骤2：从音频插入点将所述原音频断开，插入空白的断开音频；

步骤3：在所述断开音频上置入第一特异标记；

步骤4：在所述插入音频的开头插入第二特异标记，

步骤5：将所述原音频与所述插入音频进行混音，并使得所述第一特异标记与所述第二特异标记对齐。

进一步地，所述断开音频的时长设置为小于0.5秒。

进一步地，将所述断开音频之前的原音频的最后一个音符延音，拷贝至所述断开音频，并覆盖整个所述断开音频。

进一步地，还包括以下步骤：所述步骤5之后，校准经过混音后的音频，校准所述原音频与所述断开音频所述的时间轴。若误差大于0.5秒，则去除所述插入音频，重新放置所述插入音频。

进一步地，所述步骤5中，将所述第一特异性与存储第二特异标记的存储器的进行一一对比。

进一步地，通过TTS技术将所述原音频与插入音频的混音。

进一步地，还包括以下步骤：通过场景分析模块分析原音频场景的类型，调节所述断开音频与插入音频的播放速度。

进一步地，所述步骤1中，通过输入文本，将输入文本转为语音，形成原音频，将所述原音频与插入音频混合后，形成混合音效，再输出为合成音频。

本发明的有益效果：

在进行配音混合时，可预先插入空白段，即断开音频，提供一个插入的空间，将原音频断开。然后再将该断开音频作为标的，将插入音频的前端与该断开音频对齐，插入的位置更加精确，并且，实际操作中，插入音频前后形成短暂的停顿，能够产生节奏感，并且使得加入插入音频后的过度更加自然。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本申请的多人配音音效混合方法的流程图；

图2为本申请的一个示例中的多人配音音效混合总流程图；

图3为本申请的一个示例中的音效混合流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1，一种多人配音音效混合方法，包括以下步骤：

步骤1：输入原音频与插入音频；

步骤3：在所述断开音频上置入第一特异标记；

步骤4：在所述插入音频的开头插入第二特异标记，

这样，在进行配音混合时，可预先插入空白段，即断开音频，提供一个插入的空间，将原音频断开。然后再将该断开音频作为标的，将插入音频的前端与该断开音频对齐，插入的位置更加精确，并且，实际操作中，插入音频前后形成短暂的停顿，能够产生节奏感，并且使得加入插入音频后的过度更加自然。

进一步地，所述断开音频的时长设置为小于0.5秒，设置的越长，插入前后的过度就越明显。

进一步地，将所述断开音频之前的原音频的最后一个音符延音，拷贝至所述断开音频，并覆盖整个所述断开音频。也就是说通过使用在断开音频前的原音频的最后一个音符形成延音，填满整个断开音频，使得过度更加自然。更进一步地，还以可以取断开音频前的原音频的最后一个音符与插入音频的第一个音符形成混音，覆盖整个断开音频，同样使得插入前后的过度更加自然。

进一步地，本发明的方法还包括以下步骤：所述步骤5之后，校准经过混音后的音频，校准所述原音频与所述断开音频所述的时间轴。若误差大于0.5秒，则去除所述插入音频，重新放置所述插入音频。通过二次校验插入后的时间轴，能进一步判定插入是否准确。

进一步地，所述步骤5中，将所述第一特异性与存储第二特异标记的存储器的进行一一对比。例如可将第一特异标记所处的参数设为1，第二特异标记设置为1，其余位点参数均设为0，这样，用第二特异位点沿着原音频长度逐步寻找第一特异位点时，通过对比位置参数，即可确定第一特异标记的位置，使得第一特异标记与第二特异标记对齐，进一步地提高插入精度。

进一步地，通过TTS技术将所述原音频与插入音频的混音。

进一步地，还包括以下步骤：通过场景分析模块分析原音频场景的类型，调节所述断开音频与插入音频的播放速度，从而使插入的音效的节奏更好地与原音频相适配。

进一步地，所述步骤1中，通过输入文本，将输入文本转为语音，形成原音频，将所述原音频与插入音频混合后，形成混合音效，再输出为合成音频，从而能够更好的适配多人配音的音效混合。

在本发明的一个示例中，如图2所示，将将上述方法集成在手机APP中，通过手机APP输入所要混合的音效，设定好插入位置与时间轴，并上传至相应的TTS服务器，再合成为合成音频文件。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种多人配音音效混合方法，其特征在于，包括以下步骤：

步骤1：输入原音频与插入音频；

步骤3：在所述断开音频上置入第一特异标记；

步骤4：在所述插入音频的开头插入第二特异标记，

2.根据权利要求1所述的多人配音音效混合方法，其特征在于，所述断开音频的时长设置为小于0.5秒。

3.根据权利要求1所述的多人配音音效混合方法，其特征在于，将所述断开音频之前的原音频的最后一个音符延音，拷贝至所述断开音频，并覆盖整个所述断开音频。

4.根据权利要求1所述的多人配音音效混合方法，其特征在于，还包括以下步骤：所述步骤5之后，校准经过混音后的音频，校准所述原音频与所述断开音频所述的时间轴。若误差大于0.5秒，则去除所述插入音频，重新放置所述插入音频。

5.根据权利要求1所述的多人配音音效混合方法，其特征在于，所述步骤5中，将所述第一特异性与存储第二特异标记的存储器的进行一一对比。

6.根据权利要求1所述的多人配音音效混合方法，其特征在于，通过TTS技术将所述原音频与插入音频的混音。

7.根据权利要求1所述的多人配音音效混合方法，其特征在于，还包括以下步骤：通过场景分析模块分析原音频场景的类型，调节所述断开音频与插入音频的播放速度。

8.根据权利要求1所述的多人配音音效混合方法，其特征在于，所述步骤1中，通过输入文本，将输入文本转为语音，形成原音频，将所述原音频与插入音频混合后，形成混合音效，再输出为合成音频。