CN108922525B

CN108922525B - 语音处理方法、装置、存储介质及电子设备

Info

Publication number: CN108922525B
Application number: CN201810631577.0A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2020-05-12
Anticipated expiration: 2038-06-19
Also published as: WO2019242414A1; CN108922525A

Abstract

本申请实施例公开了一种语音处理方法、装置、存储介质及电子设备，其中，本申请实施例中的电子设备，可以采集外部环境中的语音信号，并获取采集到的语音信号所包括的语音内容以及声纹特征，再根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容，最后输出生成的待输出语音信号。由此，使得电子设备能够根据输入语音信号所包括的声纹特征，输出包括对应声纹特征的输出语音信号，实现了以不同的发声方式进行语音输出，因此，提高了电子设备进行语音交互的灵活性。

Description

语音处理方法、装置、存储介质及电子设备

技术领域

本申请涉及电子设备技术领域，具体涉及一种语音处理方法、装置、存储介质及电子设备。

背景技术

目前，随着技术的发展，人机之间的交互方式变得越来越丰富。相关技术中，用户可以通过语音与手机、平板电脑等电子设备进行交互。比如，用户可以向电子设备说出“明天天气如何”，电子设备将查询到今天的天气信息，并以语音的方式输出查询到的天气信息。然而，在相关技术中，电子设备通常以固定的发声方式进行语音输出，存在灵活性较差的问题。

发明内容

本申请实施例提供了一种语音处理方法、装置、存储介质及电子设备，能够提高电子设备进行语音交互的灵活性。

第一方面，本申请实施例提供了一种语音处理方法，包括：

采集外部环境中的语音信号；

获取所述语音信号包括的语音内容以及声纹特征；

根据所述语音内容和所述声纹特征生成待输出语音信号，所述待输出语音信号包括对应所述声纹特征的待输出声纹特征、以及对应所述语音内容的待输出语音内容；

输出所述待输出语音信号。

第二方面，本申请实施例提供了一种语音处理装置，包括：

采集模块，用于采集外部环境中的语音信号；

获取模块，用于获取所述语音信号包括的语音内容以及声纹特征；

生成模块，用于根据所述语音内容和所述声纹特征生成待输出语音信号，所述待输出语音信号包括对应所述声纹特征的待输出声纹特征、以及对应所述语音内容的待输出语音内容；

输出模块，用于输出所述待输出语音信号。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请实施例提供的语音处理方法中的步骤。

第四方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请实施例提供的语音处理方法中的步骤。

本申请实施例中，电子设备可以采集外部环境中的语音信号，并获取采集到的语音信号所包括的语音内容以及声纹特征，再根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容，最后输出生成的待输出语音信号。由此，使得电子设备能够根据输入语音信号所包括的声纹特征，输出包括对应声纹特征的输出语音信号，实现了以不同的发声方式进行语音输出，因此，提高了电子设备进行语音交互的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音处理方法的一流程示意图。

图2是本申请实施例中电子设备从语音信号中获取语音内容的示意图。

图3是本申请实施例中电子设备和用户进行语音交互的示意图。

图4是本申请实施例中电子设备和用户在会议室场景中进行语音交互的示意图。

图5是本申请实施例提供的语音处理方法的另一流程示意图。

图6是本申请实施例提供的语音处理装置的一结构示意图。

图7是本申请实施例提供的电子设备的一结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种语音处理方法，该语音处理方法的执行主体可以是本申请实施例提供的语音处理装置，或者集成了该语音处理装置的电子设备，其中该语音处理装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的语音处理方法的流程示意图。如图1所示，本申请实施例提供的语音处理方法的流程可以如下：

101、采集外部环境中的语音信号。

其中，电子设备可以通过多种不同方式来采集外部环境中的语音信号，比如，在电子设备未外接麦克风时，电子设备可以通过内置的麦克风对外部环境中的语音进行采集，得到语音信号；又比如，在电子设备外接有麦克风时，电子设备可以通过外接的麦克风对外部环境中的语音进行采集，得到语音信号。

其中，电子设备在通过麦克风(此处的麦克风可以是内置麦克风，也可以是外接麦克风)采集外部环境中的语音信号时，若麦克风为模拟麦克风，将采集到模拟的语音信号，此时电子设备需要对模拟的语音信号进行采样，以将模拟的语音信号转换为数字化的语音信号，比如，可以16KHz的采样频率进行采样；此外，若麦克风为数字麦克风，则电子设备将通过数字麦克风直接采集到数字化的语音信号，无需进行转换。

102、获取采集到的语音信号所包括的语音内容以及声纹特征。

其中，电子设备在采集到外部环境中的语音信号之后，电子设备判断本地是否存在语音解析引擎，若存在，则电子设备将采集到的语音信号输入到本地的语音解析引擎进行语音解析，得到语音解析文本。其中，对语音信号进行语音解析，也即是将语音信号由“音频”向“文字”的转换过程。

此外，在本地存在多个语音解析引擎时，电子设备可以按照以下方式从多个语音解析引擎中选取一个语音解析引擎对语音信号进行语音解析：

其一，电子设备可以从本地的多个语音解析引擎中随机选取一个语音解析引擎，对采集到的语音信号进行语音解析。

其二，电子设备可以从多个语音解析引擎中选取解析成功率最高的语音解析引擎，对采集到的语音信号进行语音解析。

其三，电子设备可以从多个语音解析引擎中选取解析时长最短的语音解析引擎，对采集到的语音信号进行语音解析。

其四，电子设备还可以从多个语音解析引擎中，选取解析成功率达到预设成功率、且解析时长最短的语音解析引擎对采集到的语音信号进行语音解析。

需要说明的是，本领域技术人员还可以按照以上未列出的方式进行语音解析引擎的选取，或者可以结合多个语音解析引擎对语音信号进行语音解析，比如，电子设备可以同时通过两个语音解析引擎对语音信号进行语音解析，并在两个语音解析引擎得到的语音解析文本相同时，将该相同的语音解析文本作为语音信号的语音解析文本；又比如，电子设备可以通过至少三个语音解析引擎对语音信号进行语音解析，并在其中至少两个语音解析引擎得到的语音解析文本相同时，将该相同的语音解析文本作为语音信号的语音解析文本。

电子设备在解析得到语音信号的语音解析文本之后，即可从该语音解析文本中提取出语音信号所包括的语音内容。比如，请参照图2，用户说出语音“明天天气如何”，电子设备将采集到对应语音“明天天气如何”的语音信号，对该语音信号进行语音解析，得到对应的语音解析文本，从该语音解析文本中提取出前述语音信号的语音内容“明天天气如何”。

此外，电子设备判断本地是否存在语音解析引擎之后，若不存在，则将前述语音信号发送至服务器(该服务器为提供语音解析服务的服务器)，指示该服务器对前述语音信号进行解析，并返回解析前述语音信号所得到的语音解析文本。在接收到服务器返回的语音解析文本之后，电子设备即可从该语音解析文本中提取出前述语音信号所包括的语音内容。

需要说明的是，在实际生活中，每个人说话时的声音都有自己的特点，熟悉的人之间，可以只听声音而相互辨别出来。这种声音的特点就是声纹特征，声纹特征由多种因素决定：

第一个决定声纹特征的是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。

第二个决定声纹特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

此外，用户发声时的情绪也会导致声纹特征产生变化。

相应的，在本申请实施例中，电子设备除了获取采集到的语音信号所包括的语音内容之外，还获取采集到的语音信号所包括声纹特征。

其中，声纹特征包括但不限于频谱特征分量、倒频谱特征分量、共振峰特征分量、基音特征分量、反射系数特征分量、声调特征分量、语速特征分量、情绪特征分量、韵律特征分量以及节奏特征分量中的至少一种特征分量。

103、根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容。

其中，电子设备在获取到前述语音信号所包括的语音内容以及声纹特征之后，根据预先设置的语音内容、声纹特征与待输出语音内容的对应关系，以及获取到的前述语音内容以及前述声纹特征，得到对应的待输出语音内容。需要说明的是，对于语音内容、声纹特征与待输出语音内容的对应关系，可由本领域技术人员根据实际需要进行设置，其中，可以在待输出语音内容中增加不影响语义的语气词。

比如，以声纹特征仅包括情绪特征分量为例，当用户以中性的情绪说出“明天天气如何”时，电子设备将得到对应的待输出内容为“明天晴空万里，适合外出哦”；又比如，当用户以负面的情绪说出“我不开心”时，电子设备将得到对应的待输出内容为“不要不开心，带我出去玩吧”。

此外，电子设备还根据预先设置的声纹特征和待输出声纹特征的对应关系，以及获取到的前述声纹特征，得到对应的待输出声纹特征。需要说明的是，对于声纹特征和待输出声纹特征的对应关系，可由本领域技术人员根据实际需要进行设置，本申请对此不做具体限制。

比如，以声纹特征仅包括情绪特征分量为例，可以设置负面情绪对应的待输出情绪为正面情绪，中性情绪对应的待输出情绪为中性情绪，正面情绪对应的待输出情绪为正面情绪。

电子设备在获取到与前述语音内容、前述声纹特征所对应的待输出语音内容，以及获取到对应前述声纹特征的待输出语音特征之后，根据前述待输出语音内容以及待输出语音特征进行语音合成，得到待输出语音信号，该待输出语音信号包括了与前述语音内容、前述声纹特征所对应的待输出语音内容，以及与前述声纹特征对应的待输出语音特征。

104、输出生成的待输出语音信号。

其中，电子设备在生成前述待输出语音信号之后，将以语音的方式输出该待输出语音信号。比如，请参照图3，以声纹特征仅包括情绪特征分量为例，当用户以负面情绪说出“我不开心”时，电子设备将得到对应的待输出内容为“不要不开心，带我出去玩吧”，以及得到对应的待输出声纹特征为“正面情绪”，之后，电子设备根据“不要不开心，带我出去玩吧”以及“正面情绪”进行语音合成，得到待输出语音信号，在输出该待输出语音信号时，若将电子设备看做一个“人”，则这个“人”将以正面情绪说出“不要不开心，带我出去玩吧”，对用户进行安慰。

由上可知，本申请实施例的电子设备可以采集外部环境中的语音信号，并获取采集到的语音信号所包括的语音内容以及声纹特征，再根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容，最后输出生成的待输出语音信号。由此，使得电子设备能够根据输入语音信号所包括的声纹特征，输出包括对应声纹特征的输出语音信号，实现了以不同的发声方式进行语音输出，因此，提高了电子设备进行语音交互的灵活性。

在一实施方式中，“输出生成的待输出语音信号”包括：

(1)获取前述语音信号的响度值；

(2)根据获取到响度值确定对应待输出语音信号的目标响度值；

(3)按照确定的目标响度值，输出待输出语音信号。

其中，电子设备在输出生成的待输出语音信号时，首先获取到前述语音信号的响度值(或称音量值)，将该响度值作为输入响度值，再根据预设的输入响度值和输出响度值的对应关系，确定对应前述响度值的输出响度值，将该输出响度值作为对应待输出语音信号的目标响度值，最后以确定的该目标响度值，输出生成的待输出语音信号。

输入响度值和输出响度值的对应关系可以如下所示：

Lout＝k*Lin；

其中，Lout表示输出响度值，Lin表示输入响度值，k为对应系数，可由本领域技术人员根据实际需要进行设置，比如，将k设置为1时，输出响度值与输入响度值相等，将k设置为小于1时，输出响度值将小于输入响度值。

由此，通过采集的语音信号的响度值来确定输出对应的待输出语音信号的目标响度值，能够使得电子设备的语音交互与当前所处的场景更加契合。比如，请参照图4，用户携电子设备位于会议室内，当用户小声的发出语音时，电子设备也会小声的进行语音反馈，避免了固定发声而打扰到他人的情形。

在一实施方式中，“采集外部环境中的语音信号”包括：

(1)在采集到外部环境中的带噪语音信号时，获取对应带噪语音信号的历史噪声信号；

(2)根据历史噪声信号，获取带噪语音信号采集期间的噪声信号；

(3)将获取到的噪声信号与带噪语音信号进行反相位叠加，并将叠加得到的降噪语音信号作为采集到的语音信号。

容易理解的是，环境中存在各种各样的噪声，比如，办公室中存在电脑运行产生的噪声，敲击键盘产生的噪声等。那么，电子设备在进行语音信号的采集时，显然难以采集到纯净的语音信号。因此，本申请实施例继续提供一种从嘈杂的环境中采集语音信号的方案。

当电子设备处于嘈杂的环境中时，若用户发出语音信号，电子设备将采集到外部环境中的带噪语音信号，该带噪语音信号由用户发出的语音信号和外部环境中的噪声信号组合形成，若用户未发出语音信号，电子设备将仅采集到外部环境中的噪声信号。其中，电子设备将缓存采集到的带噪语音信号和噪声信号。

本申请实施例中，电子设备在采集到外部环境中的带噪语音信号时，以带噪语音信号的起始时刻为结束时刻，获取接收到带噪语音信号之前采集的、预设时长(该预设时长可由本领域技术人员根据实际需要取合适值，本申请实施例对此不做具体限制，比如，可以设置为500ms)的历史噪声信号，将该噪声信号作为对应带噪语音信号的历史噪声信号。

比如，预设时长被配置为500毫秒，带噪语音信号的起始时刻为2018年06月13日16时47分56秒又500毫秒，则电子设备获取2018年06月13日16时47分56秒至2018年06月13日16时47分56秒又500毫秒期间缓存的、时长为500毫秒的噪声信号，将该噪声信号作为对应带噪语音信号的历史噪声信号。

电子设备在获取到对应带噪语音信号的历史噪声信号之后，根据获取到的历史噪声信号，进一步获取到带噪语音信号采集期间的噪声信号。

比如，电子设备可以根据获取到的历史噪声信号，来预测带噪语音信号采集期间的噪声分布，从而得到带噪语音信号采集期间的噪声信号。

又比如，考虑到噪声的稳定性，连续时间内的噪声变化通常较小，电子设备可以将获取到历史噪声信号作为带噪语音信号采集期间的噪声信号，其中，若历史噪声信号的时长大于带噪语音信号的时长，则可以从历史噪声信号中截取与带噪语音信号相同时长的噪声信号，作为带噪语音信号采集期间的噪声信号；若历史噪声信号的时长小于带噪语音信号的时长，则可以对历史噪声信号进行复制，拼接多个历史噪声信号以得到与带噪语音信号相同时长的噪声信号，作为带噪语音信号采集期间的噪声信号。

在获取到带噪语音信号采集期间的噪声信号之后，电子设备首先对获取到的噪声信号进行反相处理，再将反相处理后的噪声信号与带噪语音信号进行叠加，以消除带噪语音信号中的噪声部分，得到降噪语音信号，并将得到的该降噪语音信号作为采集到外部环境的语音信号，用作后续处理，具体可参照以上相关描述，此处不再赘述。

在一实施方式中，“根据历史噪声信号，获取带噪语音信号采集期间的噪声信号”包括：

(1)将历史噪声信号作为样本数据进行模型训练，得到噪声预测模型；

(2)根据噪声预测模型预测带噪语音信号采集期间的噪声信号。

其中，电子设备在获取到历史噪声信号之后，将该历史噪声信号作为样本数据，并按照预设训练算法进行模型训练，得到噪声预测模型。

需要说明的是，训练算法为机器学习算法，机器学习算法可以通过不断的进行特征学习来对数据进行预测，比如，电子设备可以根据历史的噪声分布来预测当前的噪声分布。其中，机器学习算法可以包括：决策树算法、回归算法、贝叶斯算法、神经网络算法(可以包括深度神经网络算法、卷积神经网络算法以及递归神经网络算法等)、聚类算法等等，对于选取何种训练算法用作预设训练算法进行模型训练，可由本领域技术人员根据实际需要进行选取。

比如，电子设备配置的配置的预设训练算法为高斯混合模型算法(为一种回归算法)，在获取到历史噪声信号之后，将该历史噪声信号作为样本数据，并按照高斯混合模型算法进行模型训练，训练得到一个高斯混合模型(噪声预测模型包括多个高斯单元，用于描述噪声分布)，将该高斯混合模型作为噪声预测模型。之后，电子设备将带噪语音信号采集期间的开始时刻和结束时刻作为噪声预测模型的输入，输入到噪声预测模型进行处理，得到噪声预测模型输出带噪语音信号采集期间的噪声信号。

在一实施方式中，“根据获取到语音内容和声纹特征生成待输出语音信号”之前，还包括：

(1)判断前述声纹特征是否与预设声纹特征匹配；

(2)在前述声纹特征与预设声纹特征匹配时，根据获取到的前述语音内容和前述声纹特征生成待输出语音信号。

其中，预设声纹特征可以为机主预先录入的声纹特征，也可以为机主授权的其他用户预先录入的声纹特征，判断前述声纹特征(也即是采集到外部环境中语音信号的声纹特征)是否与预设声纹特征匹配，也即是判断发出语音信号的用户是否为机主。若前述声纹特征与预设声纹特征不匹配，电子设备判定发出语音信号的用户不为机主，若前述声纹特征与预设声纹特征匹配，电子设备判定发出语音信号的用户为机主，此时根据获取到的前述语音内容和前述声纹特征生成待输出语音信号，具体可参照以上相关描述，此处不再赘述。

本申请实施例通过在生成待输出语音信号之前，根据语音信号的声纹特征对发出语音信号的用户进行身份识别，在且仅发出语音信号的用户为机主时，才根据获取到的前述语音内容和前述声纹特征生成待输出语音信号。由此，能够避免电子设备对机主外的他人产生错误响应，以提升机主的使用体验。

在一实施方式中，“判断前述声纹特征是否与预设声纹特征匹配”包括：

(1)获取前述声纹特征和预设声纹特征的相似度；

(2)判断获取到的相似度是否大于或等于第一预设相似度；

(3)在获取到的相似度大于或等于第一预设相似度时，确定前述声纹特征与预设声纹特征匹配。

电子设备在判断前述声纹特征是否与预设声纹特征匹配时，可以获取前述声纹特征与预设声纹特征的相似度，并判断获取到的相似度是否大于或等于第一预设相似度(可由本领域技术人员根据实际需要进行设置)。其中，在获取到的相似度大于或等于第一预设相似度时，确定获取到的前述声纹特征与预设声纹特征匹配，在获取到的相似度小于第一预设相似度时，确定获取到的前述声纹特征与预设声纹特征不匹配。

其中，电子设备可以获取前述声纹特征与预设声纹特征的距离，并将获取到的距离作为前述声纹特征与预设声纹特征的相似度。其中，可由本领域技术人员根据实际需要选取任意一种特征距离(比如欧氏距离、曼哈顿距离、切比雪夫距离等等)来衡量前述声纹特征与预设声纹特征之间的距离。

比如，可以获取前述声纹特征和预设声纹特征的余弦距离，具体参照以下公式：

其中，e表示前述声纹特征和预设声纹特征的余弦距离，f表示前述声纹特征，N表示前述声纹特征和预设声纹特征的维度(前述声纹特征和预设声纹特征的维度相同)，f_i表示前述声纹特征中第i维度的特征向量，g_i表示预设声纹特征中第i维度的特征向量。

在一实施方式中，“判断获取到的相似度是否大于或等于第一预设相似度”之后，还包括：

(1)在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时，获取当前的位置信息；

(2)根据该位置信息判断当前是否位于预设位置范围内；

(3)在当前位于预设位置范围内时，确定前述声纹特征与预设声纹特征匹配。

需要说明的是，由于声纹特征和人体的生理特征密切相关，在日常生活中，如果用户感冒发炎的话，其声音将变得沙哑，声纹特征也将随之发生变化。在这种情况下，即使发出语音信号的用户为机主，电子设备也无法识别出。此外，还存在多种导致电子设备无法识别出机主的情况，此处不再赘述。

为解决可能出现的、无法识别出机主的情况，在本申请实施例中，电子设备在完成对声纹特征相似度的判断之后，若前述声纹特征与预设声纹特征的相似度小于第一预设相似度，则进一步判断该相似度是否大于或等于第二预设相似度(该第二预设相似度配置为小于第一预设相似度，具体可由本领域技术人员根据实际需要取合适值，比如，在第一预设相似度被设置为95％时，可以将第二预设相似度设置为75％)。

在判断结果为是，也即是前述声纹特征与预设声纹特征的相似度小于第一预设相似度且大于或等于第二预设相似度时，电子设备进一步获取到当前的位置信息。

其中，在处于室外环境(电子设备可以根据接收到卫星定位信号的强度大小来识别当前处于室外环境，还是处于室内环境，比如，在接收到的卫星定位信号强度低于预设阈值时，判定处于室内环境，在接收到的卫星定位信号强度高于或等于预设阈值时，判定处于室外环境)时，电子设备可以采用卫星定位技术来获取到当前的位置信息，在处于室内环境时，电子设备可以采用室内定位技术来获取当前的位置信息。

在获取到当前的位置信息之后，电子设备根据该位置信息判断当前是否位于预设位置范围内。其中，预设位置范围可以配置为机主的常用位置范围，比如家里和公司等。

在判定当前位于预设位置范围内时，电子设备确定前述声纹特征与预设声纹特征匹配，确定发出语音信号的用户为机主。

由此，能够避免可能出现的、无法识别出机主的情况，达到提升机主使用体验的目的。

下面将在上述实施例描述的方法基础上，对本申请的语音处理方法做进一步介绍。请参照图5，该语音处理方法可以包括：

201、在采集到外部环境中的带噪语音信号时，获取对应带噪语音信号的历史噪声信号。

202、根据历史噪声信号，获取带噪语音信号采集期间的噪声信号。

203、将获取到的噪声信号与带噪语音信号进行反相位叠加，并将叠加得到的降噪语音信号作为待处理的语音信号。

在获取到带噪语音信号采集期间的噪声信号之后，电子设备首先对获取到的噪声信号进行反相处理，再将反相处理后的噪声信号与带噪语音信号进行叠加，以消除带噪语音信号中的噪声部分，得到降噪语音信号，并将得到的该降噪语音信号作为待处理的语音信号，用作后续处理。

204、获取前述语音信号所包括的语音内容以及声纹特征。

其中，电子设备得到待处理的语音信号之后，首先判断本地是否存在语音解析引擎，若存在，则电子设备前述语音信号输入到本地的语音解析引擎进行语音解析，得到语音解析文本。其中，对语音信号进行语音解析，也即是将语音信号由“音频”向“文字”的转换过程。

其一，电子设备可以从本地的多个语音解析引擎中随机选取一个语音解析引擎，对前述语音信号进行语音解析。

其二，电子设备可以从多个语音解析引擎中选取解析成功率最高的语音解析引擎，对前述语音信号进行语音解析。

其三，电子设备可以从多个语音解析引擎中选取解析时长最短的语音解析引擎，对前述语音信号进行语音解析。

其四，电子设备还可以从多个语音解析引擎中，选取解析成功率达到预设成功率、且解析时长最短的语音解析引擎对前述语音信号进行语音解析。

需要说明的是，本领域技术人员还可以按照以上未列出的方式进行语音解析引擎的选取，或者可以结合多个语音解析引擎对前述语音信号进行语音解析，比如，电子设备可以同时通过两个语音解析引擎对前述语音信号进行语音解析，并在两个语音解析引擎得到的语音解析文本相同时，将该相同的语音解析文本作为前述语音信号的语音解析文本；又比如，电子设备可以通过至少三个语音解析引擎对前述语音信号进行语音解析，并在其中至少两个语音解析引擎得到的语音解析文本相同时，将该相同的语音解析文本作为前述语音信号的语音解析文本。

电子设备在解析得到前述语音信号的语音解析文本之后，即可从该语音解析文本中提取出前述语音信号所包括的语音内容。比如，请参照图2，用户说出语音“明天天气如何”，电子设备将采集到对应语音“明天天气如何”的语音信号，对该语音信号进行语音解析，得到对应的语音解析文本，从该语音解析文本中提取出前述语音信号的语音内容“明天天气如何”。

此外，用户发声时的情绪也会导致声纹特征产生变化。

相应的，在本申请实施例中，电子设备除了获取前述语音信号所包括的语音内容之外，还获取前述语音信号所包括声纹特征。

205、根据获取到语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容。

206、获取前述语音信号的响度值。

其中，电子设备在生成的待输出语音信号之后，首先获取到前述语音信号的响度值(或称音量值)。

207、根据获取到响度值确定对应待输出语音信号的目标响度值。

208、按照确定的目标响度值，输出待输出语音信号。

其中，电子设备在获取到前述语音信号的响度值之后，将该响度值作为输入响度值，再根据预设的输入响度值和输出响度值的对应关系，确定对应前述响度值的输出响度值，将该输出响度值作为对应待输出语音信号的目标响度值，，再以确定的该目标响度值，输出生成的待输出语音信号。

输入响度值和输出响度值的对应关系可以如下所示：

Lout＝k*Lin；

在一实施例中，还提供了一种语音处理装置。请参照图6，图6为本申请实施例提供的语音处理装置400的结构示意图。其中该语音处理装置应用于电子设备，该语音处理装置包括采集模块401、获取模块402、生成模块403和输出模块404，如下：

采集模块401，用于采集外部环境中的语音信号。

获取模块402，用于获取采集到的语音信号所包括的语音内容以及声纹特征。

生成模块403，用于根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容。

输出模块404，用于输出生成的待输出语音信号。

在一实施方式中，输出模块404可以用于：

获取前述语音信号的响度值；

根据获取到响度值确定对应待输出语音信号的目标响度值；

按照确定的目标响度值，输出待输出语音信号。

在一实施例中，采集模块401可以用于：

在采集到外部环境中的带噪语音信号时，获取对应带噪语音信号的历史噪声信号；

根据历史噪声信号，获取带噪语音信号采集期间的噪声信号；

将获取到的噪声信号与带噪语音信号进行反相位叠加，并将叠加得到的降噪语音信号作为采集到的语音信号。

在一实施方式中，采集模块401可以用于：

将历史噪声信号作为样本数据进行模型训练，得到噪声预测模型；

根据噪声预测模型预测带噪语音信号采集期间的噪声信号。

在一实施方式中，生成模块403可以用于：

判断前述声纹特征是否与预设声纹特征匹配；

在前述声纹特征与预设声纹特征匹配时，根据获取到的前述语音内容和前述声纹特征生成待输出语音信号。

在一实施方式中，生成模块403可以用于：

获取前述声纹特征和预设声纹特征的相似度；

判断获取到的相似度是否大于或等于第一预设相似度；

在获取到的相似度大于或等于第一预设相似度时，确定前述声纹特征与预设声纹特征匹配。

在一实施方式中，生成模块403可以用于：

在获取到的相似度小于第一预设相似度且大于或等于第二预设相似度时，获取当前的位置信息；

根据该位置信息判断当前是否位于预设位置范围内；

在当前位于预设位置范围内时，确定前述声纹特征与预设声纹特征匹配。

其中，语音处理装置400中各模块执行的步骤可以参考上述方法实施例描述的方法步骤。该语音处理装置400可以集成在电子设备中，如手机、平板电脑等。

具体实施时，以上各个模块可以作为独立的实体实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单位的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的语音处理装置可以由采集模块401采集外部环境中的语音信号。由获取模块402获取采集到的语音信号所包括的语音内容以及声纹特征。由生成模块403根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容。由输出模块404输出生成的待输出语音信号。由此，使得电子设备能够根据输入语音信号所包括的声纹特征，输出包括对应声纹特征的输出语音信号，实现了以不同的发声方式进行语音输出，因此，提高了电子设备进行语音交互的灵活性。

在一实施例中，还提供一种电子设备。请参照图7，电子设备500包括处理器501以及存储器502。其中，处理器501与存储器502电性连接。

处理器500是电子设备500的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器502内的计算机程序，以及调用存储在存储器502内的数据，执行电子设备500的各种功能并处理数据。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

采集外部环境中的语音信号；

获取采集到的语音信号所包括的语音内容以及声纹特征；

根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容；

输出生成的待输出语音信号。

请一并参阅图8，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图8中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

在某些实施方式中，在输出生成的待输出语音信号时，处理器501可以执行以下步骤：

获取前述语音信号的响度值；

根据获取到响度值确定对应待输出语音信号的目标响度值；

按照确定的目标响度值，输出待输出语音信号。

在某些实施方式中，在采集外部环境中的语音信号时，处理器501可以执行以下步骤：

在某些实施方式中，在根据历史噪声信号，获取带噪语音信号采集期间的噪声信号时，处理器501可以执行以下步骤：

根据噪声预测模型预测带噪语音信号采集期间的噪声信号。

在某些实施方式中，在根据获取到的语音内容和声纹特征生成待输出语音信号时，处理器501可以执行以下步骤：

判断前述声纹特征是否与预设声纹特征匹配；

在某些实施方式中，在判断前述声纹特征是否与预设声纹特征匹配时，处理器501还可以执行以下步骤：

获取前述声纹特征和预设声纹特征的相似度；

判断获取到的相似度是否大于或等于第一预设相似度；

在某些实施方式中，在判断获取到的相似度是否大于或等于第一预设相似度之后，处理器501还可以执行以下步骤：

根据该位置信息判断当前是否位于预设位置范围内；

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例中的语音处理方法，比如：采集外部环境中的语音信号；获取采集到的语音信号所包括的语音内容以及声纹特征；根据获取到的语音内容和声纹特征生成待输出语音信号，该待输出语音信号包括对应前述声纹特征的待输出声纹特征、以及对应前述语音内容的待输出语音内容；输出生成的待输出语音信号。

本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)或者随机存取器(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的语音处理方法而言，本领域普通测试人员可以理解实现本申请实施例的语音处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如语音处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的语音处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种语音处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

采集外部环境中的语音信号；

获取所述语音信号包括的语音内容以及声纹特征；

根据预设的语音内容、情绪特征和待输出语音内容的对应关系以及所述声纹特征中的情绪特征分量，得到对应所述语音信号的待输出语音内容；

根据预设的情绪特征和待输出情绪特征的对应关系以及所述声纹特征中的情绪特征分量，得到对应所述语音信号的待输出情绪特征；

根据所述待输出情绪特征以及所述待输出语音内容进行语音合成，得到待输出语音信号；

输出所述待输出语音信号。

2.如权利要求1所述的语音处理方法，其特征在于，输出所述待输出语音信号的步骤，包括：

获取所述语音信号的响度值；

根据所述响度值确定对应所述待输出语音信号的目标响度值；

按照所述目标响度值，输出所述待输出语音信号。

3.如权利要求1所述的语音处理方法，其特征在于，采集外部环境中的语音信号的步骤，包括：

在采集到外部环境中的带噪语音信号时，获取对应所述带噪语音信号的历史噪声信号；

根据所述历史噪声信号，获取所述带噪语音信号采集期间的噪声信号；

将所述噪声信号与所述带噪语音信号进行反相位叠加，并将叠加得到的降噪语音信号作为所述语音信号。

4.如权利要求3所述的语音处理方法，其特征在于，根据所述历史噪声信号，获取所述带噪语音信号采集期间的噪声信号的步骤，包括：

将所述历史噪声信号作为样本数据进行模型训练，得到噪声预测模型；

根据所述噪声预测模型预测所述采集期间的所述噪声信号。

5.如权利要求1-4任一项所述的语音处理方法，其特征在于，根据所述语音内容和所述声纹特征生成待输出语音信号的步骤之前，还包括：

判断所述声纹特征是否与预设声纹特征匹配；

在所述声纹特征与预设声纹特征匹配时，根据所述语音内容和所述声纹特征生成所述待输出语音信号。

6.如权利要求5所述的语音处理方法，其特征在于，判断所述声纹特征是否与预设声纹特征匹配的步骤，包括：

获取所述声纹特征和所述预设声纹特征的相似度；

判断所述相似度是否大于或等于第一预设相似度；

在所述相似度大于或等于所述第一预设相似度时，确定所述声纹特征与所述预设声纹特征匹配。

7.如权利要求6所述的语音处理方法，其特征在于，判断所述相似度是否大于或等于第一预设相似度的步骤之后，还包括：

在所述相似度小于所述第一预设相似度且大于或等于第二预设相似度时，获取当前的位置信息；

根据所述位置信息判断当前是否位于预设位置范围内；

在当前位于预设位置范围内时，确定所述声纹特征与所述预设声纹特征匹配。

8.一种语音处理装置，其特征在于，包括：

采集模块，用于采集外部环境中的语音信号；

生成模块，用于根据预设的情绪特征和待输出情绪特征的对应关系以及所述声纹特征中的情绪特征分量，得到对应所述语音信号的待输出情绪特征；以及根据预设的语音内容、情绪特征和待输出语音内容的对应关系以及所述声纹特征中的情绪特征分量，得到对应所述语音信号的待输出语音内容；以及根据所述待输出情绪特征以及所述待输出语音内容进行语音合成，得到待输出语音信号；

输出模块，用于输出所述待输出语音信号。

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的语音处理方法。

10.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的语音处理方法。