CN112837668B

CN112837668B - 一种语音处理方法、装置和用于处理语音的装置

Info

Publication number: CN112837668B
Application number: CN201911061318.XA
Authority: CN
Inventors: 黎明超; 李茜; 郑亚鑫
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2023-04-28
Anticipated expiration: 2039-11-01
Also published as: CN112837668A

Abstract

本申请实施例公开了一种语音处理方法、装置和用于处理语音的装置。该方法的实施例包括：在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音；接收用户输入的语音；将用户输入的语音与模板语音进行拼接，生成目标语音；输出目标语音。该实施方式能够在用户录入的语音的基础上，输出更为丰富的语音内容，提高了语音内容的丰富性。

Description

一种语音处理方法、装置和用于处理语音的装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种语音处理方法、装置和用于处理语音的装置。

背景技术

随着计算机技术的发展，输入法应用的功能越来越丰富。用户在利用输入法应用进行信息输入时，不仅可以采用文字输入方式，还可以采用语音输入等方式。当用户采用语音输入方式进行信息输入时，一些输入法应用还可提供语音变声功能，以呈现不同的语音播放效果。

现有的语音变声功能，通常仅支持对用户录入的语音进行音色转换等处理，无法对用户录入的语音进行语音内容的添加等处理，从而导致用户在使用语音变声功能时，无法在用户录入的语音的基础上，输出更为丰富的语音内容。

发明内容

本申请实施例提出了一种语音处理方法、装置和用于处理语音的装置，能够在用户录入的语音的基础上，输出更为丰富的语音内容，提高了语音内容的丰富性。

第一方面，本申请实施例提供了一种语音处理方法，该方法包括：在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音；接收用户输入的语音；将用户输入的语音与模板语音进行拼接，生成目标语音；输出目标语音

第二方面，本申请实施例提供了一种语音处理装置，该装置包括：第一获取单元，被配置成在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音；接收单元，被配置成接收用户输入的语音；拼接单元，被配置成将用户输入的语音与模板语音进行拼接，生成目标语音；输出单元，被配置成输出目标语音。

第三方面，本申请实施例提供了一种用于处理语音的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音；接收用户输入的语音；将用户输入的语音与模板语音进行拼接，生成目标语音；输出目标语音。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所描述的方法。

本申请实施例提供的语音处理方法、装置和用于处理语音的装置，在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音，而后接收用户输入的语音，之后将用户输入的语音与模板语音进行拼接，生成目标语音，最终输出目标语音。由此，能够将用户输入的语音与模板语音进行拼接，能够在用户录入的语音的基础上，输出更为丰富的语音内容，提高了语音内容的丰富性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的语音处理方法的一个实施例的流程图；

图2是根据本申请的语音处理方法的又一个实施例的流程图；

图3是根据本申请的语音处理装置的一个实施例的结构示意图；

图4是根据本申请的一种用于处理语音的装置的结构示意图；

图5是根据本申请的一些实施例中服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的语音处理方法的一个实施例的流程100。上述语音处理方法可运行于各种电子设备，上述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

上述电子设备可以安装有各种类型的客户端应用，例如输入法应用、网页浏览器应用、即时通信工具、购物类应用、搜索类应用、邮箱客户端、社交平台软件等。上述电子设备所安装的一种或多种应用(例如输入法应用)，可以支持语言变声功能。该功能能够改变用户所输入的语音，例如，可以把用户输入的声音模拟成其他人的声音。从而，赋予了用户聊天时信息表达的多样性和趣味性。

本申请实施例中所提到的输入法应用能够支持多种输入法。其中，输入法可以是一种为了将各种符号输入到如计算机、手机等电子设备而采用的编码方法，用户可以使用输入法应用便利地将需要的字符或者字符串输入电子设备。需要注意的是，在本申请实施例中输入法除了支持常见的中文输入法(比如拼音输入法、五笔输入法、注音输入法、语音输入法、手写输入法等)以外，还可以支持其他语种的输入法(比如日文平假名输入法、韩文输入法等)，在此不对输入法以及输入法的语言种类做任何限定。

本实施例中的语音处理方法，可以包括以下步骤：

步骤101，在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音。

在本实施例中，语音处理方法的执行主体当检测到用户触发语音变声功能后，可以呈现语音变声界面。该现语音变声界面可以包含至少一个模板语音选项。各模板语音选项对应不同的模板语音。在检测到用户触发某一个模板语音选项后，即可将该模板语音选项对应的模板语音作为用户选中的模板语音，从而获取该模板语音。实践中，所获取的模板语音可以是音频数据(voice data)，如PCM(Pulse Code Modulation，脉冲编码调制)编码格式的数据流。

实践中，模板语音可以是预先生成或者截取的语音片段。例如，当前较为流行的段子等。

需要说明的是，本申请实施例中对模板语音的获取来源不作限定。以输入法应用为例，在一种场景中，输入法应用中可以内置有多种模板语音，各模板语音可以文件形式存储于输入法应用的数据包中。在用户选中模板语音后，可以从本地的输入法应用的数据包中直接读取用户选中的模板语音文件，从而获取到相应的模板语音。在另一种场景中，输入法应用中的数据包中可以不包含用户选中的模板语音文件。此时，上述执行主体可以通过向服务器(如为上述输入法应用提供支持的服务器)发送模板语音文件获取请求的方式，获取该模板语音文件。

在本实施例的一些可选的实现方式中，上述语音变声界面还可以包括至少一个模板语音的介绍信息。其中，上述介绍信息中可以包括模板语音的内容(可以是文本形式的内容，也可以是语音形式的内容)。作为示例，模板语音的内容可以是当前较为流行的网络段子，如“来了老弟”。此外，介绍信息中可以包括模板语音的位置信息。此处的位置信息可以用于提示用户输入的语音与模板语音的位置关系。实践中，位置信息可以为文本形式的信息，如“播放模板语音后，将播放您录入的语音之前”。

在本实施例的一些可选的实现方式中，模板语音可以包括但不限于以下至少一项：段子语音、明星语音、主播语音、热点语音。

步骤102，接收用户输入的语音。

在本实施例中，语音变声界面可以包含语音录制按键。当用户触发(如点击)该按键时，即可进行语音输入。由此，即可获得用户输入的语音。

需要说明的是，上述执行主体还可以采用其他方式接收用户输入的语音。例如，当用户通过文字输入方式进行文字输入时，可以将用户输入的文字转换为语音，并将转换的语音作为用户输入的语音。

实践中，用户输入的语音可以是与上述模板语音格式相同的音频数据，如PCM编码格式的数据流。在获取用户输入的语音的过程中，上述执行主体可以首先采用扬声器采集用户录入的声音信号，而后对声音信号进行数字化处理，得到用户输入的语音。

步骤103，将用户输入的语音与模板语音进行拼接，生成目标语音。

在本实施例中，上述执行主体可以将用户输入的语音与模板语音进行拼接，生成目标语音。此处，不同的模板语音可以具有预先制定的拼接方式。例如，对于模板语音A(如“来了老弟”)，则可以将其拼接于用户输入的语音的首端。对于模板语音B(如“真香”)，则可以将其拼接于用户输入的语音的尾端。由此，上述执行主体可以采用在语音变声界面中选中的模板语音对应的拼接方式，进行用户输入的语音与模板语音进行拼接，并将拼接后得到的语音作为目标语音。

在本实施例的一些可选的实现方式中，用户输入的语音与模板语音的拼接方式可以包括但不限于：将模板语音拼接至用户输入的语音的首端、将模板语音拼接至用户输入的语音的尾端、将模板语音插入至用户输入的语音中的目标位置(如两句话之间)等。

在本实施例的一些可选的实现方式中，具体可以采用如下步骤将模板语音插入至用户输入的语音中的目标位置：

第一步，将上述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容。

此处，可以采用自然语言理解(Natural Language Understanding，NLU)技术对用户输入的语音的进行语音切分。语音切分(也称为语音分割)是识别自然语言中的单词，音节或音素之间的边界的过程。由此，可以按照词语对用户输入的语音进行语音切分，使切分后的每一个语音片段对应一个词语。

作为示例，用户输入的语音的语音内容为“我喜欢吃汉堡”。在对该用户输入的语音进行切分后，可以得到4个语音片段。依次对应的语音内容为：“我”、“喜欢”、“吃”、“汉堡”。

实践中，可以采用无监督贝叶斯模型、基于HMM(Hidden Markov Model，隐马尔科夫模型)的语音分割模型等实现用户输入的语音的切分。此外，通过自然语言理解技术，还可以确定出各个词语的类别，如主语、谓语、宾语等。也可以确定出一个句子的结束。

第二步，获取各语音片段的起始时间。此处，用户输入的语音中的每一帧可以具有一个时间戳。该时间戳可以是系统时间戳、相对时间戳等。对于每一个语音片段，上述执行主体可以将该语音片段中的首帧的时间戳作为该语音片段的起始时间。

第三步，基于各语音片段的起始时间，确定各语音片段的时长。此处，对于每一个语音片段，可以将该语音片段的下一个语音片段的起始时间与该语音片段的起始时间的差值，作为该语音片段的时长。例如，可以将第二个语音片段的起始时间与第一个语音片段的起始时间的差值，作为第一个语音片段的时长；将将第三个语音片段的起始时间与第二个语音片段的起始时间的差值，作为第二个语音片段的时长；以此类推。

第四步，从上述用户输入的语音的切分位置中，选取目标切分位置，将上述模板语音拼接至上述目标切分位置。其中，目标切分位置可以根据需要而预先设定，此处不作限定。作为示例，可以设置为宾语结束后，或者设置为两个句子之间等。例如，用户输入的语音为“我喜欢吃汉堡，你吃吗”，则可以将模板语音插入至语音内容为“汉堡”的语音片段之后。

第五步，基于各语音片段的时长和上述模板语音的时长，确定上述模板语音的起始时间，并更新各语音片段的起始时间。

此处，由于在用户输入的语音的其中两个语音片段之间插入了模板语音，因而，导致位于模板语音之后的语音片段的起始时间发生了变更，由此需要重新确定各语音片段的起始时间。

具体地，可以首先将目标切分位置之后的第一个语音片段的起始时间作为模板语音的起始时间。而后，对于目标切分位置之后的每一个语音片段，将该语音片段的起始时间与板语音的时长之和，作为该语音片段的新的起始时间。

作为示例，用户输入的语音为“我喜欢吃汉堡，你呢”，共包含7个语音片段(依次为“我”、“喜欢”、“吃”、“汉堡”、“你”、“吃”、“吗”)。模板语音拼接在了第4个语音片段“汉堡”和第5个语音片段“你”之间。则可以将第5个语音片段“你”的起始时间，作为模板语音的起始时间。而后，将第5个语音片段“你”的起始时间、第6个语音片段“吃”的起始时间和第7个语音片段“吗”的起始时间进行更新。

步骤104，输出目标语音。

在本实施例中，上述执行主体可以对拼接后所得到的目标语音进行输出。例如，可以直接播放该目标语音；也可以在当前输入场景(如即时通讯过程中)下进行该目标语音的发送。

在本实施例的一些可选的实现方式中，上述执行主体在输出目标语音时，可以首先确定与上述模板语音对应的目标音色。例如，模板语音为某个明星的话语“大家好”，则可以将该明星的音色作为与上述模板语音对应的目标音色。而后，可以将上述目标语音进行音色转换，以上述目标音色输出上述目标语音。

可选的，可以通过如下步骤上述目标语音进行音色转换：首先，对上述目标语音的各帧进行声学特征提取，得到各帧对应的原始声学特征。其中，上述原始声学特征可以包括原始语音内容和原始音色特征。而后，可以获取上述目标音色的目标音色特征。之后，可以基于各帧的原始语音内容和上述目标音色特征，生成各帧对应的目标语音特征。最后，可以对各帧对应的目标声学特征进行语音合成。

本申请的上述实施例提供的方法，在检测到用户触发语音变声功能后，获取上述用户在语音变声界面中选中的模板语音，而后接收上述用户输入的语音，之后将上述用户输入的语音与上述模板语音进行拼接，生成目标语音，最终输出上述目标语音。由此，能够将用户输入的语音与模板语音进行拼接，能够在用户录入的语音的基础上，输出更为丰富的语音内容，提高了语音内容的丰富性。

进一步参考图2，其示出了语音处理方法的又一个实施例的流程200。该语音处理方法的流程200，包括以下步骤：

步骤201，在检测到用户触发语音变声功能后，获取用户在语音变声界面中选中的模板语音。

步骤202，接收用户输入的语音。

在本实施例中，上述执行主体可以接收用户通过语音输入方式输入的语音。或者，上述执行主体可以接收用户通过文字输入方式输入的文字，并将上述文字转换为语音，从而，得到用户输入的语音。

步骤203，将用户输入的语音与模板语音进行拼接，生成目标语音。

本实施例中的步骤201-步骤203可以参见图1所示实施例的步骤101-步骤103，此处不再赘述。

步骤204，获取与模板语音相匹配的背景音乐。

在本实施例中，不同的模板语音可以对应不同的背景音乐。模板语音与背景音乐的对应关系可以预先设定。语音处理方法的执行主体在生成目标语音后，可以基于预设的模板语音与背景音乐的对应关系，获取与用户选中的模板语音相对应的背景音乐。

需要说明的是，本申请实施例中对背景音乐的获取来源不作限定。以输入法应用为例，在一种场景中，输入法应用中可以内置有多种模板语音对应的背景音乐，各模板语音对应的背景音乐可以文件形式存储于输入法应用的数据包中。此时，上述执行主体可以从本地的输入法应用的数据包中，直接读取用户选中的模板语音对应背景音乐文件，从而获取到相应的背景音乐。在另一种场景中，输入法应用中的数据包中可以不包含用户选中的模板语音对应的背景音乐文件。此时，上述执行主体可以通过向服务器(如为上述输入法应用提供支持的服务器)发送背景音乐文件获取请求的方式，获取该模板语音对应的背景音乐文件。

步骤205，为目标语音添加背景音乐。

在本实施例中，在获取到与模板语音相匹配的背景音乐后，上述执行主体还可以为目标语音添加背景音乐。

具体地，上述执行主体可以首先确定目标语音的时长。而后，可以将背景音乐按照该时长进行切割，以使目标语音与背景音乐的起止时间同步。之后，可以调用音频处理工具，将目标语音与背景语音进行音频合并。从而，实现对目标语音的背景音乐的添加。

由于添加背景音乐后，可以使用户输入的语音与模板语音处于相同的背景音乐下，因而，可以从听觉上消除用户输入的语音与模板语音的差异，提高了用户输入的语音与模板语音的融合效果。

步骤206，输出目标语音。

在本实施例中，上述执行主体可以输出添加有上述背景音乐的目标语音。实践中，可以直接播放该目标语音；也可以在当前输入场景(如即时通讯过程中)下进行该目标语音的发送。

从图2中可以看出，与图1对应的实施例相比，本实施例中的语音处理方法的流程200涉及了为拼接后的目标语音添加背景音乐的步骤。由于添加背景音乐后，可以使用户输入的语音与模板语音处于相同的背景音乐下，因而，可以从听觉上消除用户输入的语音与模板语音的差异，提高了用户输入的语音与模板语音的融合效果。

进一步参考图3，作为对上述各图所示方法的实现，本申请提供了一种语音处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的语音处理装置300包括：第一获取单元301，被配置成在检测到用户触发语音变声功能后，获取上述用户在语音变声界面中选中的模板语音；接收单元302，被配置成接收上述用户输入的语音；拼接单元303，被配置成将上述用户输入的语音与上述模板语音进行拼接，生成目标语音；输出单元304，被配置成输出上述目标语音。

在本实施例的一些可选的实现方式中，上述接收单元302，进一步被配置成：接收用户通过语音输入方式输入的语音；或者接收用户通过文字输入方式输入的文字，并将上述文字转换为语音。

在本实施例的一些可选的实现方式中，上述装置还包括：第二获取单元，被配置成获取与上述模板语音相匹配的背景音乐；添加单元，被配置成为上述目标语音添加上述背景音乐。

在本实施例的一些可选的实现方式中，上述语音变声界面包括至少一个模板语音的介绍信息，上述介绍信息中包括模板语音的内容和模板语音的位置信息，上述位置信息用于指示用户输入的语音与模板语音的位置关系；以及，模板语音包括以下至少一项：段子语音、明星语音、主播语音、热点语音。

在本实施例的一些可选的实现方式中，上述拼接单元303，进一步被配置成：将上述模板语音拼接至上述用户输入的语音的首端；或者将上述模板语音拼接至上述用户输入的语音的尾端；或者将上述模板语音插入至上述用户输入的语音中的目标位置。

在本实施例的一些可选的实现方式中，上述拼接单元303，进一步被配置成：将上述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；获取各语音片段的起始时间；基于各语音片段的起始时间，确定各语音片段的时长；从上述用户输入的语音的切分位置中，选取目标切分位置，将上述模板语音拼接至上述目标切分位置；基于各语音片段的时长和上述模板语音的时长，确定上述模板语音的起始时间，并更新各语音片段的起始时间。

在本实施例的一些可选的实现方式中，上述输出单元304，进一步被配置成：确定与上述模板语音对应的目标音色；将上述目标语音进行音色转换，以上述目标音色输出上述目标语音。其中，所述将所述目标语音进行音色转换，包括：对上述目标语音的各帧进行声学特征提取，得到各帧对应的原始声学特征，上述原始声学特征包括原始语音内容和原始音色特征；获取上述目标音色的目标音色特征；基于各帧的原始语音内容和上述目标音色特征，生成各帧对应的目标语音特征；对各帧对应的目标声学特征进行语音合成。

本申请的上述实施例提供的装置，在检测到用户触发语音变声功能后，获取上述用户在语音变声界面中选中的模板语音，而后接收上述用户输入的语音，之后将上述用户输入的语音与上述模板语音进行拼接，生成目标语音，最终输出上述目标语音。由此，能够将用户输入的语音与模板语音进行拼接，能够在用户录入的语音的基础上，输出更为丰富的语音内容，提高了语音内容的丰富性。

图4是根据一示例性实施例示出的用于输入的装置400的框图，该装置400可以为智能终端或者服务器。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在上述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如上述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本申请的一些实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，上述方法包括：在检测到用户触发语音变声功能后，获取所述用户在语音变声界面中选中的模板语音；接收所述用户输入的语音；将所述用户输入的语音与所述模板语音进行拼接，生成目标语音；输出所述目标语音。

可选的，所述接收所述用户输入的语音，包括：接收用户通过语音输入方式输入的语音；或者，接收用户通过文字输入方式输入的文字，并将所述文字转换为语音。

可选的，所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取与所述模板语音相匹配的背景音乐；为所述目标语音添加所述背景音乐。

可选的，所述语音变声界面包括至少一个模板语音的介绍信息，所述介绍信息中包括模板语音的内容和模板语音的位置信息，所述位置信息用于指示用户输入的语音与模板语音的位置关系；以及，模板语音包括以下至少一项：段子语音、明星语音、主播语音、热点语音。

可选的，所述将所述用户输入的语音与所述模板语音进行拼接，包括：将所述模板语音拼接至所述用户输入的语音的首端；或者将所述模板语音拼接至所述用户输入的语音的尾端；或者将所述模板语音插入至所述用户输入的语音中的目标位置。

可选的，所述将所述模板语音插入至所述用户输入的语音中的目标位置，包括：将所述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；获取各语音片段的起始时间；基于各语音片段的起始时间，确定各语音片段的时长；从所述用户输入的语音的切分位置中，选取目标切分位置，将所述模板语音拼接至所述目标切分位置；基于各语音片段的时长和所述模板语音的时长，确定所述模板语音的起始时间，并更新各语音片段的起始时间。

可选的，所述输出所述目标语音，包括：确定与所述模板语音对应的目标音色；将所述目标语音进行音色转换，以所述目标音色输出所述目标语音；其中，所述将所述目标语音进行音色转换，包括：对所述目标语音的各帧进行声学特征提取，得到各帧对应的原始声学特征，所述原始声学特征包括原始语音内容和原始音色特征；获取所述目标音色的目标音色特征；基于各帧的原始语音内容和所述目标音色特征，生成各帧对应的目标语音特征；对各帧对应的目标声学特征进行语音合成。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

以上对本申请所提供的一种语音处理方法、装置和一种用于处理语音的装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

在检测到用户触发语音变声功能后，获取所述用户在语音变声界面中选中的模板语音；

接收所述用户输入的语音；

将所述用户输入的语音与所述模板语音进行拼接，生成目标语音；

输出所述目标语音；

其中，所述将所述用户输入的语音与所述模板语音进行拼接，包括：

将所述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；

从所述用户输入的语音的切分位置中，选取目标切分位置，将所述模板语音拼接至所述目标切分位置。

2.根据权利要求1所述的方法，其特征在于，所述接收所述用户输入的语音，包括：

接收用户通过语音输入方式输入的语音；或者

接收用户通过文字输入方式输入的文字，并将所述文字转换为语音。

3.根据权利要求1所述的方法，其特征在于，在所述生成目标语音之后，所述方法还包括：

获取与所述模板语音相匹配的背景音乐；

为所述目标语音添加所述背景音乐。

4.根据权利要求1所述的方法，其特征在于，所述语音变声界面包括至少一个模板语音的介绍信息，所述介绍信息中包括模板语音的内容和模板语音的位置信息，所述位置信息用于指示用户输入的语音与模板语音的位置关系；以及，模板语音包括以下至少一项：段子语音、明星语音、主播语音、热点语音。

5.根据权利要求1所述的方法，其特征在于，所述将所述用户输入的语音与所述模板语音进行拼接，包括：

将所述模板语音拼接至所述用户输入的语音的首端；或者

将所述模板语音拼接至所述用户输入的语音的尾端；或者

将所述模板语音插入至所述用户输入的语音中的目标位置。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取各语音片段的起始时间；

基于各语音片段的起始时间，确定各语音片段的时长；

基于各语音片段的时长和所述模板语音的时长，确定所述模板语音的起始时间，并更新各语音片段的起始时间。

7.根据权利要求1所述的方法，其特征在于，所述输出所述目标语音，包括：

确定与所述模板语音对应的目标音色；

将所述目标语音进行音色转换，以所述目标音色输出所述目标语音；

其中，所述将所述目标语音进行音色转换，包括：

对所述目标语音的各帧进行声学特征提取，得到各帧对应的原始声学特征，所述原始声学特征包括原始语音内容和原始音色特征；

获取所述目标音色的目标音色特征；

基于各帧的原始语音内容和所述目标音色特征，生成各帧对应的目标语音特征；

对各帧对应的目标声学特征进行语音合成。

8.一种语音处理装置，其特征在于，所述装置包括：

第一获取单元，被配置成在检测到用户触发语音变声功能后，获取所述用户在语音变声界面中选中的模板语音；

接收单元，被配置成接收所述用户输入的语音；

拼接单元，被配置成将所述用户输入的语音与所述模板语音进行拼接，生成目标语音；

输出单元，被配置成输出所述目标语音；

其中，所述拼接单元，进一步被配置成：将所述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；从所述用户输入的语音的切分位置中，选取目标切分位置，将所述模板语音拼接至所述目标切分位置。

9.根据权利要求8所述的装置，其特征在于，所述接收单元，进一步被配置成：

接收用户通过语音输入方式输入的语音；或者

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取单元，被配置成获取与所述模板语音相匹配的背景音乐；

添加单元，被配置成为所述目标语音添加所述背景音乐。

11.根据权利要求8所述的装置，其特征在于，所述语音变声界面包括至少一个模板语音的介绍信息，所述介绍信息中包括模板语音的内容和模板语音的位置信息，所述位置信息用于指示用户输入的语音与模板语音的位置关系；以及，模板语音包括以下至少一项：段子语音、明星语音、主播语音、热点语音。

12.根据权利要求8所述的装置，其特征在于，所述拼接单元，进一步被配置成：

将所述模板语音拼接至所述用户输入的语音的首端；或者

将所述模板语音拼接至所述用户输入的语音的尾端；或者

将所述模板语音插入至所述用户输入的语音中的目标位置。

13.根据权利要求8所述的装置，其特征在于，所述拼接单元，进一步被配置成：

获取各语音片段的起始时间；

基于各语音片段的起始时间，确定各语音片段的时长；

14.根据权利要求8所述的装置，其特征在于，所述输出单元，进一步被配置成：

确定与所述模板语音对应的目标音色；

其中，所述将所述目标语音进行音色转换，包括：

获取所述目标音色的目标音色特征；

对各帧对应的目标声学特征进行语音合成。

15.一种用于处理语音的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1-7中任一所述的方法的指令。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。