CN105957528A

CN105957528A - 音频处理方法及装置

Info

Publication number: CN105957528A
Application number: CN201610415341.4A
Authority: CN
Inventors: 周海
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2016-09-21

Abstract

本发明是关于一种音频处理方法及装置，其中，所述方法包括：接收用户对终端设备输入的语音信息；根据接收到的所述语音信息确定所述用户与所述终端设备之间的当前距离；根据所述当前距离确定对应的混响参数；当所述终端设备的TTS播放引擎播放与所述语音信息对应的TTS音频文件时，使用所述混响参数对所述TTS音频文件进行混响效果处理。通过该技术方案，接收用户对终端设备输入的语音信息，并根据该语音信息确定用户与终端设备之间的距离，从而根据该距离确定对应的混响参数，通过确定的混响参数对根据语音信息反馈的TTS音频文件进行处理，从而使得播放的TTS文件具有最有的播放效果，提升TTS的收听体验。

Description

音频处理方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频处理方法及装置。

背景技术

TTS是Text To Speech的缩写，即"从文本到语音"，是人机对话的一部分，让机器能够说话。

它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。

TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。现在的TTS应用包括语音驱动的邮件以及声音敏感系统，并常与声音识别程序一起使用。

发明内容

本发明实施例提供一种音频处理方法及装置，用以实现优化TTS的播放效果，提升TTS的收听体验。

根据本发明实施例的第一方面，提供一种音频处理方法，包括：

接收用户对终端设备输入的语音信息；

根据接收到的所述语音信息确定所述用户与所述终端设备之间的当前距离；

根据所述当前距离确定对应的混响参数；

当所述终端设备的TTS播放引擎播放与所述语音信息对应的TTS音频文件时，使用所述混响参数对所述TTS音频文件进行混响效果处理。

在该实施例中，接收用户对终端设备输入的语音信息，并根据该语音信息确定用户与终端设备之间的距离，从而根据该距离确定对应的混响参数，通过确定的混响参数对根据语音信息反馈的TTS音频文件进行处理，从而使得播放的TTS文件具有最有的播放效果，提升TTS的收听体验。

在一个实施例中，所述混响参数至少包括空间面积。

在该实施例中，混响参数可以包括空间面积，空间面积的大小决定了混响效果的大小，例如，用户在室内和用户在山谷里，那么混响效果是截然不同的。而用户与终端设备之间的距离和混响参数之间可以成正比关系，如用户与终端设备之间的距离越近，则混响参数可以越小，即空间面积越小，从而使得语音信息的TTS反馈音包含较小的混响效果，反之，用户与终端设备之间的距离越远，则混响参数可以越大，即空间面积越大，从而使得语音信息的TTS反馈音包含较大的混响效果。

在一个实施例中，所述使用所述混响参数对所述TTS音频文件进行混响效果处理，包括：

当所述TTS播放引擎播放所述TTS音频文件时，实时获取当前播放的音频流；

使用所述混响参数对所述当前播放的音频流进行混响效果处理，以得到混响处理后的音频流。

在该实施例中，在使用混响参数对TTS音频文件进行混响效果处理时，可以采用如下处理方式：在TTS播放引擎播放TTS音频文件的过程中，实时获取当前播放的TTS音频流，并实时使用混响参数对该TTS音频流进行混响效果处理，这样，不是获取整个TTS音频文件，全部进行混响效果处理后输出，而是实时进行处理，既保证了处理效果，又保证了处理的实时性，提升用户的使用体验。

在一个实施例中，所述根据所述当前距离确定对应的混响参数，包括：

确定当前距离所属的目标距离范围；

根据预设距离范围与预设混响参数之间的对应关系，确定与所述目标距离范围对应的混响参数。

在该实施例中，可以设置多个目标距离范围，以及与每个距离范围对应的预设混响参数，从而根据两者之间的对应关系，确定用户与终端设备之间的当前距离属于的目标距离范围，进而确定目标距离范围对应的混响参数。

在一个实施例中，所述方法还包括：

接收输入的设置命令；

根据所述设置命令设置多个预设距离范围，以及与每个预设距离范围对应的预设混响参数。

在该实施例中，用户或者厂商可以设置多个目标距离范围，以及与每个距离范围对应的预设混响参数，从而根据两者之间的对应关系，确定用户与终端设备之间的当前距离属于的目标距离范围，进而确定目标距离范围对应的混响参数。

根据本发明实施例的第二方面，提供一种音频处理装置，包括：

接收模块，用于接收用户对终端设备输入的语音信息；

第一确定模块，用于根据接收到的所述语音信息确定所述用户与所述终端设备之间的当前距离；

第二确定模块，用于根据所述当前距离确定对应的混响参数；

处理模块，用于当所述终端设备的TTS播放引擎播放与所述语音信息对应的TTS音频文件时，使用所述混响参数对所述TTS音频文件进行混响效果处理。

在一个实施例中，所述混响参数至少包括空间面积。

在一个实施例中，所述处理模块包括：

获取子模块，用于当所述TTS播放引擎播放所述TTS音频文件时，实时获取当前播放的音频流；

处理子模块，用于使用所述混响参数对所述当前播放的音频流进行混响效果处理，以得到混响处理后的音频流。

在一个实施例中，所述第二确定模块包括：

第一确定子模块，用于确定当前距离所属的目标距离范围；

第二确定子模块，用于根据预设距离范围与预设混响参数之间的对应关系，确定与所述目标距离范围对应的混响参数。

在一个实施例中，所述装置还包括：

接收模块，用于接收输入的设置命令；

设置模块，用于根据所述设置命令设置多个预设距离范围，以及与每个预设距离范围对应的预设混响参数。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的音频处理方法的流程图。

图2是根据一示例性实施例示出的音频处理方法中步骤S104的流程图。

图3是根据一示例性实施例示出的音频处理方法中步骤S103的流程图。

图4是根据一示例性实施例示出的另一种音频处理方法的流程图。

图5是根据一示例性实施例示出的一种音频处理装置的框图。

图6是根据一示例性实施例示出的一种音频处理装置中处理模块的框图。

图7是根据一示例性实施例示出的一种音频处理装置中第二确定模块的框图。

图8是根据一示例性实施例示出的另一种音频处理装置的框图。

图9是根据一示例性实施例示出的另一种音频处理装置的工作流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的音频处理方法的流程图。该音频处理方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有音频处理功能的设备。如图1所示，该方法包括步骤S101-S104：

在步骤S101中，接收用户对终端设备输入的语音信息；

在步骤S102中，根据接收到的所述语音信息确定所述用户与所述终端设备之间的当前距离；

终端设备根据接收到的语音信息的音量等参数，可以确定出该语音信息的传送距离，即用户与终端设备之间的距离。

在步骤S103中，根据所述当前距离确定对应的混响参数；

可以预先设置不同的距离对应的不同的混响参数，从而根据当前距离确定当前的混响参数。

在步骤S104中，当所述终端设备的TTS播放引擎播放与所述语音信息对应的TTS音频文件时，使用所述混响参数对所述TTS音频文件进行混响效果处理。

终端设备收到用户的语音信息后，并反馈给用户与语音信息对应的TTS音频文件，如用户输入的语音信息为“帮我查找XX城市的地图”，则对应的TTS音频文件可以是“已查找到XX城市的地图，请查看”等。

在一个实施例中，所述混响参数至少包括空间面积。

如图2所示，在一个实施例中，上述步骤S104包括步骤S201-S202：

在步骤S201中，当所述TTS播放引擎播放所述TTS音频文件时，实时获取当前播放的音频流；TTS音频文件播放时，是以音频流的形式播放的。

在步骤S202中，使用所述混响参数对所述当前播放的音频流进行混响效果处理，以得到混响处理后的音频流。

如图3所示，在一个实施例中，上述步骤S103包括步骤S301-S302：

在步骤S301中，确定当前距离所属的目标距离范围；可以设置多个距离范围，如0-1米为一个距离范围，1-3米为一个距离范围，3-5米为一个距离范围，5-10米为一个距离范围，10米以上为一个距离范围。则如果当前距离为4米，则确定其目标距离范围为3-5米。

在步骤S302中，根据预设距离范围与预设混响参数之间的对应关系，确定与所述目标距离范围对应的混响参数。

如图4所示，在一个实施例中，上述方法还包括步骤S401-S402：

在步骤S401中，接收输入的设置命令；

在步骤S402中，根据所述设置命令设置多个预设距离范围，以及与每个预设距离范围对应的预设混响参数。

举例来说，混响参数通过距离来表征，为提高TTS音频文件的收听体验，可设置距离越远，混响参数越大，该例中混响参数和距离范围的对应关系如表1所示。

表1

距离范围	混响参数
		0-1米	1
1-3米	2
		3-5米	3
5-10米	4

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种音频处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该音频处理装置包括：

接收模块51，用于接收用户对终端设备输入的语音信息；

第一确定模块52，用于根据接收到的所述语音信息确定所述用户与所述终端设备之间的当前距离；

第二确定模块53，用于根据所述当前距离确定对应的混响参数；

处理模块54，用于当所述终端设备的TTS播放引擎播放与所述语音信息对应的TTS音频文件时，使用所述混响参数对所述TTS音频文件进行混响效果处理。

在一个实施例中，所述混响参数至少包括空间面积。

如图6所示，在一个实施例中，所述处理模块54包括：

获取子模块61，用于当所述TTS播放引擎播放所述TTS音频文件时，实时获取当前播放的音频流；

处理子模块62，用于使用所述混响参数对所述当前播放的音频流进行混响效果处理，以得到混响处理后的音频流。

如图7所示，在一个实施例中，所述第二确定模块53包括：

第一确定子模块71，用于确定当前距离所属的目标距离范围；

第二确定子模块72，用于根据预设距离范围与预设混响参数之间的对应关系，确定与所述目标距离范围对应的混响参数。

如图8所示，在一个实施例中，上述装置还包括：

接收模块81，用于接收输入的设置命令；

设置模块82，用于根据所述设置命令设置多个预设距离范围，以及与每个预设距离范围对应的预设混响参数。

下面以一个具体流程图详细说明本发明的技术方案。

如图9所示，接收用户对终端设备输入的语音信息，并由第一确定模块91根据该语音信息确定用户与终端设备之间的距离，从而根据该距离确定对应的混响参数，处理模块92通过确定的混响参数对终端设备的TTS播放引擎播放的与语音信息对应的TTS音频文件进行处理，从而使得播放的TTS文件具有最有的播放效果，提升TTS的收听体验。

其中，第一确定模块和TTS播放引擎的处理过程是并行的，从而保证处理速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频处理方法，其特征在于，包括：

接收用户对终端设备输入的语音信息；

根据所述当前距离确定对应的混响参数；

2.根据权利要求1所述的方法，其特征在于，所述混响参数至少包括空间面积。

3.根据权利要求1所述的方法，其特征在于，所述使用所述混响参数对所述TTS音频文件进行混响效果处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前距离确定对应的混响参数，包括：

确定当前距离所属的目标距离范围；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收输入的设置命令；

6.一种音频处理装置，其特征在于，包括：

接收模块，用于接收用户对终端设备输入的语音信息；

7.根据权利要6所述的装置，其特征在于，所述混响参数至少包括空间面积。

8.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

9.根据权利要求6所述的装置，其特征在于，所述第二确定模块包括：

第一确定子模块，用于确定当前距离所属的目标距离范围；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收输入的设置命令；