CN112397083B

CN112397083B - 语音处理方法及相关装置

Info

Publication number: CN112397083B
Application number: CN202011271841.8A
Authority: CN
Inventors: 刘君
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2024-05-24
Anticipated expiration: 2040-11-13
Also published as: CN112397083A

Abstract

本申请实施例提供了一种语音处理方法及相关装置，方法包括：获取第一语音数据所对应的用户身份标识和关键词识别结果；若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据；以及利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据；通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。该方法覆盖翻译过程中的声纹识别、翻译和语音合成过程，可以降低用户语音翻译过程中的噪声干扰，提高翻译准确度和自然度。

Description

语音处理方法及相关装置

技术领域

本申请涉及语音处理技术领域，具体涉及一种语音处理方法及相关装置。

背景技术

随着人工智能(AI，Artificial Intelligence)技术的不断发展和成熟，运用人工智能技术解决生活中常见问题的产品不断涌现。其中机器同声传译(又被称为机器同传、AI同传)技术，被广泛应用于会议、商务会谈、访谈节目、个人出境旅游等场景，替代或部分替代了传统的人工同声传译。但目前的机器同声传译技术在嘈杂的环境下的语音识别效果较差，因此翻译结果的准确度和翻译效率都不高，用户体验较差。

发明内容

本申请实施例提供了一种语音处理方法及相关装置，以期降低用户语音翻译过程中的噪声干扰，提高翻译准确度和自然度。

第一方面，本申请实施例提供了一种语音处理方法，包括：

获取第一语音数据所对应的用户身份标识和关键词识别结果；

若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据；以及

利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据；

通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。

第二方面，本申请提供了一种语音处理装置，包括：

第一获取单元，用于获取第一语音数据所对应的用户身份标识和关键词识别结果；

生成单元，用于若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据；以及

分离单元，用于利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据；

第二获取单元，用于通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行本申请实施例第一方面中的步骤的指令。

四方面，本申请实施例提供了一种计算机存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，首先获取第一语音数据所对应的用户身份标识和关键词识别结果，若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据，以及利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据，然后通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。这样不仅可以降低用户语音翻译过程中的噪声干扰，提高翻译准确度和自然度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的示意图；

图2a是本申请实施例提供的一种语音处理方法的流程图；

图2b是本申请实施例提供的一种语音处理方法的注册阶段和唤醒阶段的流程示意图；

图2c为本申请实施例提供的一种语音合成的流程示意图；

图2d是本申请实施例提供的一种语音识别或机器翻译的流程示意图；

图2e是本申请实施例提供的一种语音处理系统的设计框图；

图3是本申请实施例提供的另一种语音处理方法的流程示意图；

图4是本申请实施例提供的一种语音处理装置的功能单元组成框图；

图5是本申请实施例提供的另一种语音处理装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

(1)波束形成(Beam forming)又叫波束赋形、空域滤波，可以对多路麦克风信号进行合并处理，抑制非目标方向的干扰信号，增强目标方向的声音信号。其实现原理是调整相位阵列的基本单元参数，使得某些角度的信号获得相长干涉，而另一些角度的信号获得相消干涉。对各个阵元输出信号加权求和、滤波，最终输出期望方向的语音信号，相当于形成一个“波束”。可以根据获取加权矢量时采用的方法不同，可将波束形成方法分为三类：和参考信号数据无关的波束形成方法，如常规波束形成方法，这种波束形成方法通过加权取平均得到固定的阵列输出响应，阵列输出不受信号数据变化的影响；使用最佳权矢量的波束形成方法，这类方法依赖于对阵列接收数据统计特性的估计，如最大信噪比准则；可根据接收数据变化自适应地改变权矢量的波束形成方法，如最小方差无畸变响应(MVDR)波束形成、LMS算法、递推最小二乘(RLS)算法、采样矩阵求逆(SMI)算法等。

(2)盲源分离(Blind Source Separation，BSS)，又称为盲信号分离，是指在信号的理论模型和源信号无法精确获知的情况下，如何从混迭信号(观测信号)中分离出各源信号的过程，盲源分离的目的是求得源信号的最佳估计。

目前，机器同声传译技术在嘈杂的环境下的语音识别效果较差，且翻译结果只有文字，或者只有机械的语音，用户体验较差。

针对上述问题，本申请实施例提供了一种语音处理方法及相关装置，下面结合附图对本申请实施例进行详细介绍。

请参阅图1，图1是本申请实施例提供的一种电子设备的示意图，该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。该电子设备100包括数字信号处理器(Digital Signal Processor，DSP)110、ARM处理器(Advanced RISC Machines)120、神经网络处理器(Neural-network Processing Unit，NPU)130和存储器140。DSP处理器110、ARM处理器120和NPU处理器130可分别利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器140内的指令、程序、代码集或指令集，以及调用存储在存储器140内的数据，执行电子设备100的各种功能和处理数据。

其中，DSP处理器110主要可用于对语音片段的第一语音前端处理和第二语音前端处理，用于对关键词检测与识别和声纹特征提取与识别等，ARM处理器120用于对语音片段做第三语音前端处理，NPU处理器130主要是根据语音数据对情绪特征和语调特征等进行提取，并最终将语音数据翻译成文字，以及生成第二语音数据等。

其中，DSP处理器110在检测到相关关键词后会唤醒ARM处理器120和NPU处理器130以进行后续的处理。

可以理解的是，上述各处理器在实际产品中可以映射为系统级芯片(System on aChip，SOC)，上述处理单元和/或接口也可以不集成到各处理器中，单独通过一块通信芯片或者电子元器件实现对应的功能。上述各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构的唯一限定。

存储器140可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选地，该存储器140包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器140可用于存储指令、程序、代码、代码集或指令集。存储器140可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(例如声音播放功能)、用于实现下述各个方法实施例的指令。该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储电子设备100在使用中所创建的数据(比如待处理语音片段)等，和在使用中所需要的数据(比如声纹特征库中的声纹特征数据、语音识别模型、语音合成模型、机器翻译模型、知识库和词典等)。

请参阅图2a，图2a是本申请实施例提供的一种语音处理方法的流程图，如图所示，本语音处理方法包括以下步骤。

S201，获取第一语音数据所对应的用户身份标识和关键词识别结果。

其中，该语音处理方法可以用于语音处理系统中，为了使用该系统，用户需要首先使用预设的唤醒词唤醒系统，系统可以通过声纹信息确定用户的身份标识。随后系统根据该身份标识读取用户事先设置好的第一语种和第二语种、对应第一语种和第二语种的语音识别模型、对应第一语种和第二语种的翻译模型、对应第一语种和第二语种的语音合成模型、与用户身份标识相对应的知识库和词典、与用户身份标识相对应的声纹特征以及与用户身份标识相对应的语音合成说话人特征。在唤醒系统后，用户又可以选择是否进入对话模式。在非对话模式下，系统将只识别用户自己的语音，并将其从第一语种翻译至第二语种。而在对话模式下，系统将用户自己的语音从第一语种翻译至第二语种，而将非用户自己的语音从第二语种翻译至第一语种。在将第一语种翻译至第二语种时，系统会模拟用户的声音特征。而将第二语种翻译至第一语种时，系统不会模拟用户的声音特征。

S202，若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据。

其中，当识别到有效关键词后，系统进入使用阶段，可以通过麦克风阵列进行远场拾音，以此对原始语音数据进行采集，获取第二语音数据。且在持续运行并采集语音数据过程中，可以使用端点检测的方法获取语音数据的每一个完整片段，便于后续对每个片段进行处理。端点检测的方法是指在连续音频信号中检测是否存在语音，并且判断每一句语音的起始点和终止点。这个算法的主要目的是从连续的音频信号中忽略空白或噪声的部分，并且切割出语音片段。当检测到一个语音片段终止时，触发接下来的识别和翻译流程。端点检测算法主要依赖于语音活动检测，即结合历史信息针对每一帧音频信号判断其中是否包含语音。语音活动检测算法常用基于分频段能量的高斯混合模型(GMM，Gaussian MixtureModel)的判决方法，或者基于深度神经网络(Deep Neural Networks，DNN)的二分类方法。

S203，利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据。

其中，根据用户的身份标识选择对应的声纹特征，根据该声纹特征进行盲源分离，可以从混合嘈杂的多通道数据中分离出用户自己的语音数据。声纹特征的提取可以是i-vector、x-vector或其他特征，识别和比对通常采用概率形式的线性判别式分析(PLDA，Probabilistic Linear Discrimination Analysis)算法。盲源分离通常采用基于DNN的编码-解码方法。根据身份标识可以确定出当前说话人的身份，并根据用户事先配置的信息，加载对应的知识库和词典，以提高定制化的识别和翻译服务，且能够确定对应的说话人特征，并在生成翻译后的语音时模仿当前说话人的特征，在对话场景中，还能根据身份标识判断当前说话人是否为登记用户，从而自动决定相应的原始语种和目标语种。

S204，通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。

其中，波束形成可以利用麦克风阵列的定向增强能力，增强用户方向的声音，并且抑制其他方向的干扰和噪声。麦克风阵列采集到的多通道数据经过波束形成处理后成为单通道数据。波束形成算法可以采用最小方差无失真响应(MVDR，Minimum VarianceDistortionless Response)滤波器或者广义旁瓣相消器(GSC，General SidelobeCanceller)。也可以使用深度神经网络(DNN，Deep Neural Network)来预测时频域上目标信号的掩膜，这样可以更好地估计目标和干扰信号的协方差矩阵，再利用最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)算法可以得到更好的定向增强效果。

可见，本实例中，首先获取第一语音数据所对应的用户身份标识和关键词识别结果，若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据，以及利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据，然后通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。这样不仅可以降低用户语音翻译过程中的噪声干扰，提高翻译准确度和自然度。

在一个可能的实例中，所述获取第一语音数据所对应的用户身份标识和关键词识别结果，包括：针对采集到的第一语音数据执行第一语音前端处理，得到第一参考语音数据，所述第一语音前端处理包括以下至少一种：声学回声消除、波束形成、去混响、降噪、自动增益控制、端点检测；根据所述第一参考语音数据进行关键词识别和声纹特征识别，得到关键词识别结果和声纹特征识别结果，所述声纹特征识别结果包括所述第一语音数据的第一声纹特征和所述第一声纹特征对应的用户身份标识。

其中，第一语音前端处理是对采集的音频信号进行预处理，以去除音频中各种噪声、干扰和混响，尽可能恢复纯净的用户语音，提升身份标识和关键词识别结果的准确率。回声消除(AEC，Acoustic Echo Cancellation)是指去除扬声器所播放的声音经过空间反射后被麦克风采集到的回声。AEC算法需要使用扬声器所播放的声音信号作为参考信号，并且使用一组自适应滤波器来预测麦克风实际收到的回声并从混合信号中去除。实际中常用的方法是频域分块自适应滤波器(PBFDAF，Partitioned Block Frequency DomainAdaptive Filter)。AEC算法通常还需要后置的非线性处理模块，来处理回声中非线性的部分，和进一步抑制残留回声。波束形成是指利用麦克风阵列的定向增强能力，增强用户方向的声音，并且抑制其他方向的干扰和噪声。去混响主要指去除由于空间反射带来的语音混响，尽可能恢复无混响的纯净语音。去混响算法可以包括谱减法，或者加权预测误差法(WPE，Weighted Prediction Error)。去混响算法也可以合并到波束形成算法当中，目的是进一步去除环境中的稳态或非稳态噪声。降噪算法包括谱减法、维纳滤波法、基于DNN的时频域掩膜预测算法或者基于DNN的纯时域编码-解码算法。降噪算法也可以合并到波束形成算法当中。第一语音前端处理还可以包括自动增益控制(AGC，Automatic Gain Control)，平衡由于使用者音量或者位置变化而带来的采集信号的能量变化，使输出尽可能维持在一个恒定的增益水平上。

如图2b所示，图2b是本申请实施例提供的一种语音处理方法的注册阶段和唤醒阶段的流程示意图，在唤醒阶段，用户的语音数据经过第一语音前端处理后，得到第一参考语音数据。第一参考语音数据再通过第一编码器和第一特征提取器等的处理后，得到该段语音的第一特征，并和声纹特征库中所有的第一特征进行比对，得到最接近的第一特征所对应的用户身份标识。该用户身份标识将被用于后续的语音识别、机器翻译、语音合成和说话人特征训练等。识别和比对通常采用概率形式的线性判别式分析(PLDA，ProbabilisticLinear Discrimination Analysis)算法。具体实现中，系统还可以包括注册阶段，注册阶段是指用户第一次使用语音处理系统并进行注册的操作。在注册阶段，用户录制一段语音片段作为注册语音，同时给自己定义一个唯一的身份标识。注册语音片段经过第一语音前端处理后，分别经过第一编码器和第二编码器，然后再分别通过第一特征提取器和第二特征提取器，得到第一特征和第二特征。其中第一特征将用于用户身份标识的识别，第二特征将用于对第二参考语音进行处理。第一特征、第二特征将和用户的身份标识一起组成成对信息，保存于系统的声纹特征库中。

可见，本实例中，对第一语音数据进行前端处理，获取关键词识别结果和声纹特征识别结果，可以快速响应用户需求，并提高翻译的准确度和自然度。

在一个可能的实例中，所述基于第二语音数据生成多通道语音数据，包括：针对采集到的第二语音数据执行第二语音前端处理，得到回声消除和去混响后的第二参考语音数据，所述第二参考语音数据为多通道数据。

其中，当关键词识别结果为有效关键词时，会持续采集第二语音数据，并对该第二语音数据进行回声消除和去混响的操作，以得到第二参考语音数据。

可见，本实例中，对第二语音数据进行回声消除和去混响操作，可以以去除语音数据中各种噪声、干扰和混响，尽可能恢复纯净的用户语音，提升后续语音识别的准确率。

在一个可能的实例中，所述用户身份标识相对应的声纹特征为声纹特征库中匹配所述用户身份标识的第二声纹特征；所述利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据，包括：利用所述第二声纹特征和预先训练好的盲源分离模型处理所述第二参考语音数据，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第二语音数据是否包含对应于所述目标用户的声纹特征的目标语音。

其中，多通道数据首先经过第二编码器进行编码，该第二编码器与前述声纹识别中的第二编码器可以是同一个编码器。然后通过一个基于DNN的盲源分离网络，该网络接收到根据用户身份标识所确定的对应的第二声纹特征，并从编码信息中仅仅提取对应于声纹特征的部分，并舍弃其他的部分。盲源分离网络还可以同时输出语音数据中是否包含对应于声纹特征的目标语音的判断，该判断将用于决定翻译的方向，即从第一语种翻译至第二语种还是从第二语种翻译至第一语种。然后使用一个基于DNN的波束形成网络对盲源分离网络的输出进行波束形成处理。且利用声纹信息，可以进行有监督的盲源分离，在混合的语音数据中提取出用户的语音数据，屏蔽其他人的语音数据，从而提升识别率和用户体验。

可见，本实例中，根据第二声纹特征和预先训练好的盲源分离模型处理第二参考语音数据，获取目标用户的语音数据和语音归属识别结果，可以提高翻译的准确度。

在一个可能的实例中，所述通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据，包括：提取所述目标用户的语音数据在预设声源方向的所述第三参考语音数据。

其中，可以调用预先训练好的波束形成模型对所述部分语音数据进行波束形成处理，得到所述第三参考语音数据。具体过程可以是：对所述第二参考语音数据的多通道数据进行编码，得到编码后语音数据；获取所述用户身份标识对应的声纹特征；调用预先训练好的盲源分离模型根据所述声纹特征，从所述编码后语音数据中提取对应于所述声纹特征的部分语音数据，以及生成语音归属识别结果；调用预先训练好的波束形成模型对所述部分语音数据进行波束形成处理，得到定向语音数据；将所述定向语音数据解码还原成第三参考语音数据。所述波束形成模型所使用的声源方向信息的确定方式包括以下任意一种：预先设定；以及，通过预先训练好的声源定位模型从所述部分语音数据中提取得到。

可见，本实例中，在从目标用户的语音数据中提取出第三参考语音数据，可以提高翻译的准确度。

在一个可能的实例中，所述方法还包括：根据所述用户身份标识、所述语音归属识别结果和所述第三参考语音数据进行语音的识别、翻译与合成操作。

其中，语音的识别、翻译与合成可以通过语音识别模块、机器翻译模块和语音合成模块分别完成。该语音识别模块、机器翻译模块和语音合成模块算法模型中的通用部分会定期和服务器上的数据库进行同步，保证用户能够及时使用到最新的算法模型。根据用户的需求和设定，可以自动从服务器上同步语音识别模块中的辅助语言模型。基于此可以提供最优化的语音识别结果。根据用户个性化的需求和设定，可以自动从服务器上同步特定的知识库和词典。机器翻译时可以基于这些信息提供定制化的翻译结果，并且能够对网络上最新的资讯和热词等进行跟踪。为了保障用户隐私和信息安全，语音合成中的说话人特征编码器部分会进行加密后再存储。加密和解密所使用的密钥和用户的身份标识一一对应，并且和声纹特征一起保存于系统的加密存储区内。

可见，本实例中，根据用户身份标识、所述语音归属识别结果和所述第三参考语音数据进行语音的识别、翻译与合成操作，可以提高翻译的准确度和自然度。

在一个可能的实例中，所述根据所述用户身份标识、所述语音归属识别结果和所述第三参考语音数据进行语音的识别、翻译与合成操作，包括：若所述语音归属识别结果为所述第二语音数据包含对应于所述目标用户的声纹特征的目标语音，则根据所述用户身份标识将所述第三参考语音数据识别成第一语种的文字，提取所述第三参考语音数据中的情绪特征信息和语调特征信息；根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据。

其中，所述方法还包括：播放所述第二语种的语音数据。系统中包括语音合成(TTS，Text to Speech)模块，该模块基于机器翻译模块输出的文字，生成目标语种的语音片段。这里可以采用基于DNN的语音合成方法来取得最自然的合成效果。由于其模型通常较大，在本系统中使用NPU或其他形式的神经网络加速器对其处理过程进行加速。语音合成模型包含通用部分和说话人特征信息的部分，其中说话人特征的部分是由用户自己的语音训练得到。在进行合成时，基于说话人识别模块所提取的身份标识，选择对应的说话人特征，同时结合情绪和语调模块所提取的情绪和语调信息，模拟说话人的发音方式，使得合成的语音就像是用户本人说出来的一样。

可见，本实例中，根据用户身份标识、情绪特征信息、语调特征信息和第二语种的文字，生成第二语种的语音数据，可以提高翻译的自然度。

在一个可能的实例中，所述根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，包括：根据所述用户身份标识从预设的说话人特征库中选择对应的说话人特征编码器，将所述第二语种的文字输入所述说话人特征编码器进行处理，得到说话人特征编码后信息；通过预先训练好的语音合成模型根据所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字生成所述第二语种的语音数据。

其中，所述通过预先训练好的语音合成模型根据所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字生成所述第二语种的语音数据，包括：将所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字输入预设的语音合成编码器，得到语音合成编码后信息；将所述语音合成编码后信息输入注意力模块进行处理，得到语音合成待解码信息；将所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述语音合成待解码信息输入预设的语音合成解码器进行处理，得到待合成语音的声学特征信息，所述声学特征信息包括以下任意一种：梅尔谱、频谱；通过预设的声码器将所述待合成语音的声学特征信息转换为波形数据，得到所述第二语种的语音数据。

具体实现中，系统在第一次使用时需要用户的少量语音和对应的用户身份标识来进行语音合成模型中说话人特征编码器部分的训练，该过程由说话人特征编码器训练模块完成。而根据用户的配置，在使用阶段中，用户的语音数据也可以被保存在本地，并且在系统空闲时利用这些数据继续进行说话人特征编码器的训练。通过训练和更新机制，可以实现说话人特征编码器的自我进化，让语音合成模块能够越来越好地模拟用户自己的声音。当用户对语音合成结果满意时，也可以随时关闭此模块。

如图2c所示，图2c为本申请实施例提供的一种语音合成的流程示意图，语音合成的流程分别可包括使用阶段和训练阶段。在使用阶段中，首先根据用户的身份标识，从说话人特征库中选择对应的说话人特征编码器。同时，经过盲源分离和波束形成处理之后的参考语音数据经过第三编码器和第三特征提取模块，并得到该参考语音数据对应的情绪语调特征编码。机器翻译模块所输出的翻译文本将被输入第四编码器，再经过注意力模块和第四解码器后，将得到待合成语音的特征信息。该特征信息可能是梅尔谱、频谱或者其他声学特征。翻译文本同时也会被输入至说话人特征编码器，其中说话人特征编码器的输出和前述情绪语调特征编码将被插入到第四编码器和第四解码器中。最后通过声码器将待合成语音的特征信息转换为波形数据，并送到扬声器进行播放。

语音合成模块在训练阶段中，主要需要更新的是说话人特征编码器的参数。首先根据用户的身份标识，从说话人特征库中选择对应的说话人特征编码器。同时，经过盲源分离和波束形成处理之后的语音片段经过第三编码器和第三特征提取模块，并得到该语音片段对应的情绪语调特征编码。语音识别模块所输出的识别文本将被输入第四编码器，再经过注意力模块和第四解码器后，将得到待合成语音的特征信息。该特征信息可能是梅尔谱、频谱或者其他声学特征。识别文本同时也会被输入至说话人特征编码器，其中说话人特征编码器的输出和前述情绪语调特征编码将被插入到第四编码器和第四解码器中。另外还可以有一个特征提取模块，根据第四解码器的输出格式，使用对应的提取算法，如梅尔谱提取算法、频谱提取算法、声学特征提取算法等，从第二语音片段中提取特征信息，并和第四解码器所输出的特征信息计算其误差。该误差将通过梯度计算和反向传播，对说话人特征编码器中的参数进行更新。更新后的参数将和用户身份标识一起保存于说话人特征库中。

可见，本实例中，通过预先训练好的语音合成模型根据所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字生成所述第二语种的语音数据，可以提高翻译的准确度和自然度。

在一个可能的实例中，所述根据所述用户身份标识将所述第三参考语音数据识别成第一语种的文字，包括：调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；调用预先训练好的通用语言模型和所述辅助语言模型处理提取出所述音素序列，得到第一语种的文字。

其中，语音识别(ASR，Automatic Speech Recognition)模块将用户的语音片段识别成对应语种的文字。语音识别通常采用基于DNN的方法。由于其模型通常较大，在本系统中使用神经网络处理单元(NPU，Neural-network Processing Unit)或其他形式的神经网络加速器对其处理过程进行加速。语音识别模型由声学模型和语言模型组成，其中声学模型从原始语音信号中提取出音素的序列，然后由语言模型将音素的序列转变成对应的文字序列。语言模型的部分包含通用语言模型和辅助语言模型。在识别过程中，会结合说话人识别模块所提供的身份标识，针对说话人预先设定的知识领域和使用场景，采用对应的辅助语言模型，得到最优化的识别结果。

请参阅图2d，图2d是本申请实施例提供的一种语音识别或机器翻译的流程示意图，如图2d所示，语音识别分为注册、更新阶段和使用阶段。其中注册阶段是指用户第一次使用语音处理系统并进行注册的操作。更新阶段是指根据用户的设定，语音处理系统进行自动更新或者在用户的操作下进行手动更新时的操作。在注册和更新阶段，语音处理系统根据用户身份标识和用户的设定，可以从云端数据库中将用户所需要的辅助语言模型和知识库和词典同步到本地。在使用阶段中，经过第二语音前端处理后的第二语音片段，首先经过特征提取模块，得到语音特征，然后通过基于DNN的声学模型，得到预测的音素序列或文本序列。该音素序列或文本序列将分别通过通用语言模型和辅助语言模型进行打分和修正，并得到最终的语音识别文本。

可见，本实例中，根据身份标识和相关模型得到第一语种的文字，针对说话人预先设定的知识领域和使用场景，得到最优化的识别结果。

在一个可能的实例中，所述根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字，包括：获取适配所述用户身份标识的知识领域和使用场景；获取所述知识领域和所述使用场景对应的知识库和词典；根据所述知识库和所述词典，调用预先训练好的机器翻译模型，翻译所述第一语种的文字，得到第二语种的文字。

其中，机器翻译模块将语音识别模块输出的文字翻译到目标语种的文字。这里采用基于DNN的机器翻译方法来取得最优化的翻译效果。由于其模型通常较大，在本系统中使用NPU或其他形式的神经网络加速器对其处理过程进行加速。在翻译过程中，会结合说话人模块所提供的身份标识，针对说话人预先设定的知识领域和使用场景，采用对应的知识库和词典，得到最优化的翻译结果。

具体实现中，如图2d所示，机器翻译模块也可分为注册、更新阶段和使用阶段。其中注册阶段是指用户第一次使用同声传译系统并进行注册的操作。更新阶段是指根据用户的设定，同声传译系统进行自动更新或者在用户的操作下进行手动更新时的操作。在注册和更新阶段，同声传译系统根据用户身份标识和用户的设定，从云端数据库中将用户所需要的辅助语言模型和知识库和词典同步到本地。在使用阶段，通过特征提取、声学模型、通用语言模型确定识别文本，通过机器翻译模型利用知识库/词典处理识别文本得到翻译文本。

可见，本实例中，翻译过程中，可以结合说话人模块所提供的身份标识，针对说话人预先设定的知识领域和使用场景，采用对应的知识库和词典，得到最优化的翻译结果。

在一个可能的实例中，所述方法还包括：获取第三语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第三语音数据的第三声纹特征和所述用户身份标识；若所述关键词识别结果包括有效的关键词，则根据所述用户身份标识对应的第四声纹特征对采集到的第四语音数据进行盲源分离，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第三语音数据是否包含对应于所述目标用户的声纹特征的目标语音；根据所述用户身份标识将所述第四参考语音数据识别成第一语种的文字，提取所述目标用户的语音数据中的情绪特征信息和语调特征信息；若所述语音归属识别结果为所述第四语音数据包含对应于所述目标用户的声纹特征的目标语音，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，播放所述第二语种的语音数据。

其中，此时第四语音数据是单通道数据，直接对该第四语音数据进行盲源分离，同时也可对该第四语音数据进行回声消除和去混响等处理。

可见，本实例中，直接对采集到的第四语音数据进行盲源分离，可以提高简化流程，提高翻译速度。

在一个可能的实例中，所述方法还包括：获取第五语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第五语音数据的第五声纹特征和所述第五声纹特征对应的用户身份标识；若所述关键词识别结果为检测到有效的关键词，则根据所述第五声纹特征对应的用户身份标识将采集到的第六语音数据识别成第一语种的文字，提取所述第六语音数据中的情绪特征信息和语调特征信息；若所述用户身份标识对应所述目标用户，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，播放所述第二语种的语音数据。

可见，本实例中，不再有第二语音前端处理模块，同时也不再需要声纹特征，可以简化语音处理过程，提高翻译速度。

下面，对本方案进行具体说明。请参阅图2e，图2e是本申请实施例提供的一种语音处理系统的设计框图。该语音处理系统包括本地模块和云端模块两部分，其中本地模块的具体工作如下：首先使用麦克风阵列进行声音采集，然后将采集到的语音数据经过第一语音前端处理模块进行预处理，以去除音频中各种噪声、干扰和混响，尽可能恢复纯净的用户语音。说话人识别模块首先提取语音片段中的声纹特征，然后与本地存储中的声纹特征库进行比对，并提取出当前说话人的身份标识。然后将第二语音数据经过第二语音前端处理模块进行回声消除和去混响等操作得到第二参考语音数据，再将第二参考语音数据经过盲源分离和波束形成等操作得到参考语音数据。然后将处理后的参考语音数据经过语音识别模块(图示为语音识别本地模型)，将用户的语音片段识别成对应语种的文字。再经过机器翻译模型、数据库、词典将语音识别模块输出的文字翻译到目标语种的文字。情绪语调特征提取模块从用户的语音片段中提取情绪和语调的特征信息，并进行编码。语音合成模块(图示为语音合成本地模型)基于机器翻译模块输出的文字，生成目标语种的语音片段。说话人特征编码器用于对语音片段中的声纹特征进行编码，说话人特征编码器训练器用于根据用户的语音和对应的用户身份标识进行说话人特征编码器的训练。

请参阅图3，图3是本申请实施例提供的另一种语音处理方法的流程示意图，如图所示，本语音处理方法，包括以下步骤：

S301，针对采集到的第一语音数据执行第一语音前端处理，得到第一参考语音数据，所述第一语音前端处理包括以下至少一种：声学回声消除、波束形成、去混响、降噪、自动增益控制、端点检测；

S302，根据所述第一参考语音数据进行关键词识别和声纹特征识别，得到关键词识别结果和声纹特征识别结果，所述声纹特征识别结果包括所述第一语音数据的第一声纹特征和所述第一声纹特征对应的用户身份标识；

S303，若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据；

S304，利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据；

S305，通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。

可见，本实例中，首先针对采集到的第一语音数据执行第一语音前端处理，得到第一参考语音数据，然后根据所述第一参考语音数据进行关键词识别和声纹特征识别，得到关键词识别结果和声纹特征识别结果，若所述关键词识别结果包括有效的关键词，则基于第二语音数据生成多通道语音数据，再然后利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据，最后通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据。这样，可以提高翻译结果的准确定度和自然度，使得翻译结果符合用户说话语境。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

与上述图2a、图3所示的实施例一致的，请参阅图4，图4是本申请实施例提供的一种语音处理装置的功能单元组成框图，所示语音处理装置400包括：获取单元401，用于获取第一语音数据所对应的用户身份标识和关键词识别结果；生成单元402，用于基于第二语音数据生成多通道语音数据，以及用于利用声纹特征库中匹配所述用户身份标识的第二声纹特征和预先训练好的盲源分离模型处理所述多通道语音数据，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第二语音数据是否包含对应于所述目标用户的声纹特征的目标语音；以及用于根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；以及用于调用预先训练好的通用语言模型和所述辅助语言模型处理提取出所述音素序列，得到第一语种的文字；以及用于根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据；提取单元403，用于提取所述目标用户的语音数据在预设声源方向的第三参考语音数据；以及用于调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；以及用于提取所述第三参考语音数据中的情绪特征信息和语调特征信息。

在一个可能的实例中，在所述获取第一语音数据所对应的用户身份标识和关键词识别结果方面，所述获取单元401具体用于：针对采集到的第一语音数据执行第一语音前端处理，得到第一参考语音数据，所述第一语音前端处理包括以下至少一种：声学回声消除、波束形成、去混响、降噪、自动增益控制、端点检测；根据所述第一参考语音数据进行关键词识别和声纹特征识别，得到关键词识别结果和声纹特征识别结果，所述声纹特征识别结果包括所述第一语音数据的第一声纹特征和所述第一声纹特征对应的用户身份标识。

在一个可能的实例中，在所述基于第二语音数据生成多通道语音数据方面，所述生成单元402具体用于：针对采集到的第二语音数据执行第二语音前端处理，得到回声消除和去混响后的第二参考语音数据，所述第二参考语音数据为多通道数据。

在一个可能的实例中，所述用户身份标识相对应的声纹特征为声纹特征库中匹配所述用户身份标识的第二声纹特征，在所述利用与所述用户身份标识相对应的声纹特征对所述多通道数据进行分离，以获取用户的语音数据方面，所述生成单元402具体用于：利用所述第二声纹特征和预先训练好的盲源分离模型处理所述第二参考语音数据，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第二语音数据是否包含对应于所述目标用户的声纹特征的目标语音。

在一个可能的实例中，在所述通过波束形成来获取所述用户的语音数据在预设声源方向上的参考语音数据方面，所述提取单元403具体用于：提取所述目标用户的语音数据在预设声源方向的所述第三参考语音数据。

在一个可能的实例中，所述装置400还用于根据所述用户身份标识、所述语音归属识别结果和所述第三参考语音数据进行语音的识别、翻译与合成操作。

在一个可能的实例中，在所述根据所述用户身份标识、所述语音归属识别结果和所述第三参考语音数据进行语音的识别、翻译与合成操作方面，所述装置400具体用于：若所述语音归属识别结果为所述第二语音数据包含对应于所述目标用户的声纹特征的目标语音，则根据所述用户身份标识将所述第三参考语音数据识别成第一语种的文字，提取所述第三参考语音数据中的情绪特征信息和语调特征信息；根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据。

在一个可能的实例中，在所述根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据方面，所述装置400具体用于：根据所述用户身份标识从预设的说话人特征库中选择对应的说话人特征编码器，将所述第二语种的文字输入所述说话人特征编码器进行处理，得到说话人特征编码后信息；通过预先训练好的语音合成模型根据所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字生成所述第二语种的语音数据。

在一个可能的实例中，在所述根据所述用户身份标识将所述第三参考语音数据识别成第一语种的文字方面，所述装置400具体用于：调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；调用预先训练好的通用语言模型和所述辅助语言模型处理提取出所述音素序列，得到第一语种的文字。

在一个可能的实例中，在所述根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字方面，所述装置400具体用于：获取适配所述用户身份标识的知识领域和使用场景；获取所述知识领域和所述使用场景对应的知识库和词典；根据所述知识库和所述词典，调用预先训练好的机器翻译模型，翻译所述第一语种的文字，得到第二语种的文字。

在一个可能的实例中，所述装置400还用于：获取第三语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第三语音数据的第三声纹特征和所述用户身份标识；若所述关键词识别结果包括有效的关键词，则根据所述用户身份标识对应的第四声纹特征对采集到的第四语音数据进行盲源分离，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第三语音数据是否包含对应于所述目标用户的声纹特征的目标语音；根据所述用户身份标识将所述第四参考语音数据识别成第一语种的文字，提取所述目标用户的语音数据中的情绪特征信息和语调特征信息；若所述语音归属识别结果为所述第四语音数据包含对应于所述目标用户的声纹特征的目标语音，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，播放所述第二语种的语音数据。

在一个可能的实例中，所述装置400还用于：获取第五语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第五语音数据的第五声纹特征和所述第五声纹特征对应的用户身份标识；若所述关键词识别结果为检测到有效的关键词，则根据所述第五声纹特征对应的用户身份标识将采集到的第六语音数据识别成第一语种的文字，提取所述第六语音数据中的情绪特征信息和语调特征信息；若所述用户身份标识对应所述目标用户，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，播放所述第二语种的语音数据。

可以理解的是，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此，本申请中方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

在采用集成的单元的情况下，本申请实施例提供的语音处理装置的结构示意图如图5所示。在图5中，语音处理装置500包括：处理模块50和通信模块51。处理模块50用于对语音处理装置的动作进行控制管理，例如，获取单元401、生成单元402和提取单元403执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块51用于支持语音处理装置与其他设备之间的交互。如图5所示，语音处理装置还可以包括存储模块52，存储模块52用于存储语音处理装置的程序代码和数据，例如存储上述存储单元52所保存的内容。

其中，处理模块50可以是处理器或控制器，例如可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块51可以是收发器、RF电路或通信接口等。存储模块52可以是存储器。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述语音处理装置均可执行上述图2a所示的图像处理方法中目标终端所执行的步骤。

本申请实施例还提供了一种芯片，其中，该芯片包括处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上述方法实施例中电子设备所描述的部分或全部步骤。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

利用声纹特征库中匹配所述用户身份标识的第二声纹特征和预先训练好的盲源分离模型处理所述多通道语音数据，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第二语音数据是否包含对应于所述目标用户的声纹特征的目标语音；

提取所述目标用户的语音数据在预设声源方向的第三参考语音数据；

若语音归属识别结果为所述第二语音数据包含对应于所述目标用户的声纹特征的目标语音，则调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；调用预先训练好的通用语言模型和所述辅助语言模型处理提取出所述音素序列，得到第一语种的文字；

提取所述第三参考语音数据中的情绪特征信息和语调特征信息；

根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；

根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据；

其中，若所述关键词识别结果包括用于指示语音处理系统进入对话模式的关键词，则将所述多通道语音数据中非目标用户的语音数据进行文本识别，文本翻译以及语音生成后生成第一语种的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音数据所对应的用户身份标识和关键词识别结果，包括：

针对采集到的第一语音数据执行第一语音前端处理，得到第一参考语音数据，所述第一语音前端处理包括以下至少一种：声学回声消除、波束形成、去混响、降噪、自动增益控制、端点检测；

根据所述第一参考语音数据进行关键词识别和声纹特征识别，得到关键词识别结果和声纹特征识别结果，所述声纹特征识别结果包括所述第一语音数据的第一声纹特征和所述第一声纹特征对应的用户身份标识。

3.根据权利要求2所述的方法，其特征在于，所述基于第二语音数据生成多通道语音数据，包括：

针对采集到的第二语音数据执行第二语音前端处理，得到回声消除和去混响后的第二参考语音数据，所述第二参考语音数据为所述多通道语音数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，包括：

根据所述用户身份标识从预设的说话人特征库中选择对应的说话人特征编码器，将所述第二语种的文字输入所述说话人特征编码器进行处理，得到说话人特征编码后信息；

通过预先训练好的语音合成模型根据所述说话人特征编码后信息、所述情绪特征信息、所述语调特征信息、所述第二语种的文字生成所述第二语种的语音数据。

5.根据权利要求3所述的方法，其特征在于，所述根据所述用户身份标识将所述第三参考语音数据识别成第一语种的文字，包括：

调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；

根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；

调用预先训练好的通用语言模型和所述辅助语言模型处理提取出所述音素序列，得到第一语种的文字。

6.根据权利要求3所述的方法，其特征在于，所述根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字，包括：

获取适配所述用户身份标识的知识领域和使用场景；

获取所述知识领域和所述使用场景对应的知识库和词典；

根据所述知识库和所述词典，调用预先训练好的机器翻译模型，翻译所述第一语种的文字，得到第二语种的文字。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

获取第三语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第三语音数据的第三声纹特征和所述用户身份标识；

若所述关键词识别结果包括有效的关键词，则根据所述用户身份标识对应的第四声纹特征对采集到的第四语音数据进行盲源分离，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第三语音数据是否包含对应于所述目标用户的声纹特征的目标语音；

根据所述用户身份标识将所述第四语音数据识别成第一语种的文字，提取所述目标用户的语音数据中的情绪特征信息和语调特征信息；

若所述语音归属识别结果为所述第四语音数据包含对应于所述目标用户的声纹特征的目标语音，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；

根据所述用户身份标识、所述情绪特征信息、所述语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据，播放所述第二语种的语音数据。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

获取第五语音数据所对应的声纹特征识别结果和关键词识别结果，所述声纹特征识别结果包括所述第五语音数据的第五声纹特征和所述第五声纹特征对应的用户身份标识；

若所述关键词识别结果为检测到有效的关键词，则根据所述第五声纹特征对应的用户身份标识将采集到的第六语音数据识别成第一语种的文字，提取所述第六语音数据中的情绪特征信息和语调特征信息；

若所述用户身份标识对应所述目标用户，则根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；

9.一种语音处理装置，其特征在于，包括：

获取单元，用于获取第一语音数据所对应的用户身份标识和关键词识别结果；

生成单元，用于基于第二语音数据生成多通道语音数据，以及用于利用声纹特征库中匹配所述用户身份标识的第二声纹特征和预先训练好的盲源分离模型处理所述多通道语音数据，得到目标用户的语音数据和语音归属识别结果，所述语音归属识别结果用于描述所述第二语音数据是否包含对应于所述目标用户的声纹特征的目标语音；以及用于根据所述用户身份标识所适配的知识领域和使用场景，确定对应的辅助语言模型；以及用于调用预先训练好的通用语言模型和所述辅助语言模型处理提取出音素序列，得到第一语种的文字；以及用于根据所述用户身份标识将所述第一语种的文字翻译成第二语种的文字；根据所述用户身份标识、情绪特征信息、语调特征信息和所述第二语种的文字，生成所述第二语种的语音数据；

提取单元，用于提取所述目标用户的语音数据在预设声源方向的第三参考语音数据；以及用于调用预先训练好的声学模型从所述第三参考语音数据中提取出音素序列；以及用于提取所述第三参考语音数据中的情绪特征信息和语调特征信息。

10.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。

11.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-8任一项所述的方法。