CN117174067A

CN117174067A - 语音处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN117174067A
Application number: CN202311257606.9A
Authority: CN
Inventors: 陈昌儒; 谢永斌; 李标; 宋阳
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-05

Abstract

本申请公开了一种语音处理方法、装置、电子设备及计算机可读介质，涉及计算机技术领域，方法包括：获取待处理的语音数据对应的语音特征向量；获取提示信息，所述提示信息包括任务信息和辅助信息；基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。因此，通过该提示信息能够使得语音处理后的数据具有超过语音内容之外的附加内容，从而实现生成超越语音信息内容本身的语音。

Description

语音处理方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种语音处理方法、装置、电子设备及计算机可读介质。

背景技术

随着人工智能技术的快速发展以及认为对应交互体验要求的不断提高，智能交互已逐渐开始替代一些传统的人机交互方式。目前，基于LLM或者语音大模型在语音任务上初步进行了探索和研究，但是仅仅可以实现不同的语音生成任务，或者多个简单的语音分类任务。

发明内容

本申请提出了一种语音处理方法、装置、电子设备及计算机可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种语音处理方法，包括：获取待处理的语音数据对应的语音特征向量；获取提示信息，所述提示信息包括任务信息和辅助信息；基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

第二方面，本申请实施例还提供了一种语音处理装置，包括：获取单元、确定单元和处理单元。获取单元，用于获取待处理的语音数据对应的语音特征向量。确定单元，用于获取提示信息，所述提示信息包括任务信息和辅助信息。处理单元，用于基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的语音处理方法、装置、电子设备及计算机可读介质，获取待处理的语音数据对应的语音特征向量；获取提示信息，所述提示信息包括任务信息和辅助信息；基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据。由于目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求，因此，通过该提示信息能够使得语音处理后的数据具有超过语音内容之外的附加内容，从而实现生成超越语音信息内容本身的语音。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的语音处理方法的方法流程图；

图2示出了本申请一实施例提供的语音处理系统的示意图；

图3示出了本申请另一实施例提供的语音处理方法的方法流程图；

图4示出了本申请另一实施例提供的语音处理系统的示意图；

图5示出了本申请一实施例提供的目标界面的示意图；

图6示出了本申请一实施例提供的语音处理装置的模块框图；

图7示出了本申请实施例提供的电子设备的结构框图；

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的触摸屏设置方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着人工智能技术的快速发展以及认为对应交互体验要求的不断提高，智能交互已逐渐开始替代一些传统的人机交互方式。目前，基于LLM或者语音大模型在语音任务上初步进行了探索和研究。

然而，发明人在研究中发现，目前的LLM或者语音大模型仅仅可以实现不同的语音生成任务，或者多个简单的语音分类任务，无法超越语音信息，生成超越语音信息内容本身的语音。

因此，为了克服上述缺陷，本申请实施例提供了一种语音处理方法，通过提示信息使得输出的语音内容能够超越语音信息内容本身。如图1所示，该方法包括：S101至S103。

S101：获取待处理的语音数据对应的语音特征向量。

作为一种实施方式，该待处理的语音数据可以是用户实时输入的语音数据。示例性地，本申请的语音处理方法应用于电子设备，该电子设备内安装有目标客户端，用户可以通过该目标客户端输入语音数据，该目标客户端可以基于本申请实施例提供的语音处理方法得到目标语音数据并通过电子设备播放。

例如，该目标客户端能够提供语音转换功能，即用户输入语音，该客户端能够输出该语音转换后的目标语音。例如，该目标客户端设置有语音输入界面，在该界面内设置有语音输入控件，例如，可以是虚拟按键，用户可以按住该语音输入控件的过程中，输入语音数据，则该所输入的语音数据作为本次的待处理的语音数据。

作为另一种实施方式，该待处理的语音数据也可以是预先存储或下载的语音数据，对此不做限定。

语音特征向量是将语音信号转化为数值表示的表示方式。语音信号是时间域上的波形信号，但直接使用原始波形作为特征向量往往不够有效，因此通常会采用特征提取算法来提取语音的相关特征，并将其表示为特征向量。通常，常用的语音特征向量包括：短时能量(Short-term Energy)，计算语音信号短时段内的能量变化，用于表示语音的强弱程度；过零率(Zero Crossing Rate)，统计语音信号在短时段内穿过零点的次数，反映语音信号的频率特性；倒谱系数(Cepstral Coefficients)，通过对语音信号进行傅里叶变换和倒谱运算，得到一组倒谱系数，用于表示语音的频谱特征；梅尔频率倒谱系数(Mel FrequencyCepstral Coefficients，MFCC)，类似于倒谱系数，但在频域上采用梅尔滤波器组来模拟人耳对声音的感知，更符合人类听觉特性；线性预测编码(Linear Predictive Coding，LPC)系数，使用线性预测模型对语音信号进行建模，得到一组预测系数，用于表示语音的谐振峰特征；声谱图(Spectrogram)，将语音信号进行短时傅里叶变换，得到频谱随时间变化的三维图谱，可用于表示语音的频谱特性。

于本申请实施例中，语音特征向量可以用于语音识别、说话人识别、情感分析等领域。在实际应用中，通常需要根据具体任务和数据集的特点选择适当的特征向量组合，并利用机器学习或深度学习方法进行训练和分类。

S102：获取提示信息，所述提示信息包括任务信息和辅助信息。

作为一种实施方式，该提示信息能够决定语音特征向量的语音转换的方向或目的，而且，还能够在语音转换的过程中，为语音转换操作提供的辅助支持，需要说明的是，该辅助信息可以是对语音转换后的语音数据的声音特性的要求。

于本申请实施例中，任务信息可以是语音转换任务的指示信息，该语音转换任务可以包括语音翻译、语音补全、语音转录、语音连续等任务，其通常能够决定待处理的语音数据的语音内容转换后的语音内容。其中，语音翻译(Speech Translation)是指将待处理的语音数据转换为目标语言的文本或语音输出，即将待处理的语音数据的初始语言转换为目标语言，例如，将中文转换为日文。语音补全指的是自动语音识别(Automatic SpeechRecognition，ASR)任务中的语音识别结果完整性提升。语音识别系统可能会因为各种因素(如噪声、口音、发音不清等)而产生错误或缺失的识别结果。在这种情况下，语音补全旨在通过使用上下文信息、语法模型、声学模型等方法来预测、插入可能缺失的语音部分，以改善识别结果的完整性和准确性。语音转录(Speech Transcription)是将说话人的语音内容转换为文本形式的过程。语音连续(speech continuation)是指在给定一段语音或文本的情况下，生成一个连贯和有意义的续篇。也可以理解为给定上下文，生成接下来的语音内容或文本。

可以理解的是，辅助信息与输出的语音内容的声音特性有关，该声音特性可以包括口音、情绪、说话人、语气等语音内容之外的特性。

S103：基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据。

其中，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

作为一种实施方式，将所述语音特征向量合成目标语音数据的过程可以包括内容转换和声音特性转换，并且该内容转换和声音特性转换之间相互影响，也就是说，声音特性也会影响转换后的内容，例如，该辅助信息内包括情绪，该任务信息是语音翻译，则不同的情绪对应的内容可能是不同的，例如，“吃饭吗”换成愉悦的心情的方式来表达，可以是“可以和你共进晚餐吗”。

于本申请实施例中，该辅助信息对应的声音特性要求可以包括口音、情绪、说话人、语气等语音内容之外的特性，其中，说话人转换(Voice Conversion)是指，将一个人的语音转换成另一个人的语音，使得输出的语音保留目标人物的发音特征和语音风格，而不改变原始语音的内容和语义。情感转换(Emotion Conversion)是指将一个说话人的语音转换为具有不同情感状态(如高兴、悲伤、愤怒等)的语音，使输出的语音能够传达所需的情感信息。语气转换(Tone Conversion)是指将一个说话人的语音转换为具有不同语气(如肯定、疑问、命令等)的语音，使输出的语音能够表达所需的语气。口音转换(AccentConversion)是指将一个说话人的语音转换为另一个地区或国家的口音，使输出的语音更符合所需的语言环境和文化背景。语速转换(Speech Rate Conversion)是指，将一个说话人的语音转换成不同的语速，例如，将一个快速说话人的语音慢下来，或者将一个慢速说话人的语音加速。

如图2所示，语音处理系统包括目标模型，目标模型通过提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，可以使得目标语音数据能够满足任务信息对应的内容要求以及辅助信息对应的声音特性要求，其中，目标模型可以是能够实现语音转换的模型，例如，可以是前述的LLM模型。以语音翻译为例，且辅助信息包括情绪信息，则基于任务信息为语音翻译，将该待处理的语音数据对应的语音特征向量翻译为第一语音内容，然后，再通过情绪信息将该第一语音内容转换为第二语音内容，第二语音内容内的各个语音数据的发音满足该情绪信息的需求，例如，是愉悦的发音，则该第二语音内容就可以得到该目标语音数据，例如，通过将该第二语音内容编码可以得到该目标语音数据。

因此，本申请实施例中，获取待处理的语音数据对应的语音特征向量；获取提示信息，所述提示信息包括任务信息和辅助信息；基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据。由于目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求，因此，通过该提示信息能够使得语音处理后的数据具有超过语音内容之外的附加内容，从而实现生成超越语音信息内容本身的语音。

请参阅图3，图3示出了本申请实施例提供的语音处理方法，该方法包括：S301至S305。

S301：获取待处理的语音数据对应的语音特征向量。

作为一种实施方式，于本申请实施例中，执行该语音处理方法的系统为语音处理系统，该语音处理系统包括语音编码器、语音语言模型、语音解码器，如图4所示，提示信息(Prompt)和语音编码器输出的语音特征向量共同作为语音语言模型的输入。

作为一种实施方式，该语音编码器可以是Speech Encoder模块，待处理的语音数据输入该Speech Encoder模块，Speech Encoder模块输出的语音token作为待处理的语音数据对应的语音特征向量。例如，该Speech Encoder模块可以是HuBERT。HuBERT是一种基于自监督学习方法训练的语音表示学习模型，它可以将语音信号转换为一系列语音特征向量。在HuBERT中，语音信号被切割成小片段，每个片段称为一个token。

S302：获取提示信息，所述提示信息包括任务信息和辅助信息。

需要说明的是，提示信息(Prompt)是指向语音语言模型提供的一段文本或问题，用于引导其生成相应的回答。提示可以用来指定任务、设定上下文或约束生成结果。对话式模型通常会通过提示来启动对话，并在后续交互中根据用户的输入和先前的对话历史来生成回复。对于生成式模型，Prompt可以是一句话或几个句子，用于表达期望的输出样式、要求模型回答问题或提供解释等。

作为一种实施方式，该提示信息包括任务信息和辅助信息，辅助信息包括情绪描述信息和说话人描述信息的至少一种。示例性地，该Prompt包括任务(Task)、情感(Emotion)和说话者(Speaker)。其中，任务是指希望模型完成的具体任务或目标。该任务可以是回答问题、翻译文本、生成摘要等。通过在Prompt中明确指定任务，模型可以更好地理解和针对特定任务生成内容。情感表示所期望生成的内容的情绪色彩或情感倾向。其可以是积极的、消极的、中性的等。通过在Prompt中加入相应的情感指示词或描述，可以引导模型生成符合期望情感的内容。说话者表示回答的说话人身份或角色。它可以是特定的人物、机器人、匿名用户等。通过在Prompt中指定说话者，可以要求模型生成符合特定说话人身份的内容。其中，Task可以是语音翻译、语音补全、语音修复等；Emotion可以是喜怒哀乐等；Speaker可以是儿童、甜美女声、武侠男声等。

需要说明的是，上述的任务、情感和说话者可以根据具体需求进行组合和调整，以满足不同场景下的生成要求。例如，在一个情感对话系统中，Prompt可能包含任务是回答用户问题，情感是友善和鼓励，说话者是机器人本身。

可以理解的是，此处仅以生成的信息里含有做什么任务、生成的语音具有什么情感、以什么样的说话人身份去说，三方面信息为例，从而实现生成超越信息内容本身的语音。

在实际使用中，提示信息不仅仅包含以上三方面信息，也可以包含口音信息(即以某种语种的当地方言进行生成，比如汉语的四川话)、环境信息(比如生成街道、厨房等场景下的特定语音)等等。

S303：将所述语音特征向量和所述提示信息共同输入语音语言模型。

作为一种实施方式，该语音语言模型可以是Speech LM(Speech LanguageModel)，该模型是一种用于处理语音数据的语言模型。它的作用是根据输入的语音信号或语音特征，生成与之对应的连贯文本序列。训练的时候Speech LM参数保持不变，侧重于学习Prompt对应的提示向量，例如，任务特定的提示向量、情感特定的提示向量、说话人特定的提示向量。

示例性地，可以预先设置一个模型，保持该模型的其他参数不变，而仅对提示向量的参数进行训练，该预先设置的模型可以是Unit MBART、GLSM、PGLSM等。

可以理解的是，该训练方式是一种迁移学习方法，主要思想是将SpeechLM的参数保持不变，仅训练特定的提示向量(prompt vector)、情感提示向量(emotion vector)和说话人提示向量(speaker vector)，以适应特定的任务、情感和说话人等变化。

Unit MBART、GLSM、PGLSM等是预训练语言模型，其中包含大量的语言知识和规律，可以帮助SpeechLM更好地理解语言输入。示例性地，可以使用这些预训练模型来初始化SpeechLM，并锁定其所有参数，从而使得SpeechLM能够充分利用预训练模型的知识，同时只需要训练特定的提示向量。这样做的好处是可以大大减少需要训练的参数数量，从而降低训练成本和提高训练速度。

另外，目标函数可以采用以交叉熵损失作为所有生成任务的目标函数，通过比较模型的预测结果和目标离散单元标签来计算损失。也就是说，目标函数采用交叉熵损失作为所有生成任务的目标函数，通过比较模型的预测结果和目标离散单元标签来计算损失。这个目标函数可用于训练各种任务，如语音识别、语音合成、语音命令识别等，并且可以根据具体任务进行调整。

在这个过程中，在所述语音语言模型的训练过程中，保持提示向量参数之外的参数不变，也就是说，提示向量是模型中唯一需要训练的参数，而Speech LMs的参数在训练过程中保持不变，这确保了模型行为的一致性。通过插入提示向量，引导Speech LMs从输入中提取任务特定信息，并提高产生符合特定语音生成任务的输出的可能性。

S304：获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音标记。

其中，语音标记可以是Speech LM输出的Speech token，在语音处理领域中，Speech token通常指的是对语音信号进行划分和表示的基本单位，Speech token是语音信号经过预处理和特征提取后得到的表示形式。在语音识别和语音情感识别等任务中，可以通过使用深度神经网络来抽取高维度的语音特征，这些特征可以看作高维度的Speechtoken。

Speech LM通过同时对提示信息(Prompt)和输入单元(即语音特征向量)进行条件设置，有效地生成特定语音生成任务所需的输出，即Speech token。

作为一种实施方式，每个语音标记包括具有与辅助信息任务相关的语音特性的语音单元内容。具体地，Speech Encoder模块输出的语音token作为待处理的语音数据对应的语音特征向量并输入至Speech LM，Speech LM基于提示信息(Prompt)对语音token处理，得到该提示信息相匹配的语音token，作为Speech token，需要说明的是，Speech LM输出的Speech token不仅是基于该任务信息将语音token转换后的token，而且也具有与情绪描述信息和说话人描述信息相关的声学特性，例如，该说话人是甜美女性，该情绪是愉悦，那么Speech LM输出的Speech token中的音色与甜美女性匹配，并且该Speech LM输出的Speechtoken也对应有愉悦特性，例如，该Speech token对应的内容为愉悦心情下的说话内容。

也就是说，语音编码器将波形(待处理的语音数据)作为输入，并将其转换为由有限词汇表导出的单位序列。为了缩短序列长度，会移除重复的连续单位以生成压缩的单位序列。然后，Speech LM作为单位序列的语言模型，通过预测前一单位和单位序列的后续单位来优化可能性。通过提示信息对Speech LM进行提示调整，以引导其根据任务生成适当的单位，即Speech token。

S305：通过语音解码器，基于所述语音语言模型输出的每个语音标记合成为目标音频。

作为一种实施方式，该语音解码器可以是Speech Decoder，即能够将每个语音标记合成为音频波形，即目标音频。可以理解的是，每个语音标记即speech token作为离散单元被输入到基于单元的语音解码器中，生成对应的波形。也就是说，Speech LM生成的标记token由语音解码器处理，将其转换回波形，即目标音频。

示例性地，Speech Decoder获取到Speech LM生成的一系列离散的speech token，然后，使用声码器模型将speech token转化为相应的音频波形。声码器模型接收语音识别得到的speech token作为输入，并根据这些token生成相应的波形。声码器可以是传统的声学模型，如基于隐藏马尔可夫模型(Hidden Markov Model,HMM)的Vocoder，或者是基于神经网络的声码器，如WaveNet、WaveRNN、Tacotron等。

也就是说，以任务信息为翻译任务，例如，中文翻译为日文，辅助信息包括情绪描述信息和说话人描述信息，利用预训练模型造训练数据：大量脏数据没有目标输出，语音翻译任务，输入中文a音频，经过预训练的语音翻译模型，输出日文b1音频，再经过情感模型，输出b2音频，<a,b2>作为训练对，语音补齐任务，输入中文c音频，经过预训练语音补齐模型，输出补齐后d音频，<c,d>作为训练对，等等。具体地的训练过程中，可以固定其他的模块，只训练speech decoder。

作为一种实施方式，本申请实施例还可以通过低秩适配(Low-Rank Adaptation,LORA)方法调整所述语音语言模型，为调整后的语音语言模型增加处理预设任务的能力。

在上述的语音语言模型中，低秩自适应可以用于对语言模型进行优化和改进。通过将低秩自适应应用于语言模型微调，可以提高模型的泛化能力、减少过拟合，并增强对于特定领域或任务的适应性。

示例性地，首先，在大规模、通用的语料库上进行语音语言模型的预训练。这样的预训练使得模型能够学习到广泛的语言知识和上下文关系。然后，将预训练的语言模型通过有标注数据或特定任务的数据进行微调。例如，将模型应用于特定的文本生成任务，如机器翻译、文本摘要、对话系统等。在微调过程中，可以引入低秩自适应技术来进一步优化模型。具体而言，可以通过引入低秩约束或附加低秩正则化项来限制模型的参数空间，从而使模型具备低秩的特性。这有助于减小模型的复杂度，并提高模型的泛化能力，尤其是当微调数据较少时。

也就是说，通过低秩适配方法调整所述语音语言模型，使得该语音语言模型基于语音特征向量和所述提示信息输出的多个语音标记，可以被用于其他的任务。

作为一种实施方式，前述的提示信息可以是用户通过前述的目标客户端输入，如图5所示，该目标客户端具有语音翻译的功能，能够将用户输入的语音的语种翻译成目标语种的语音并播放。作为一种实施方式，用户可以在图5所示的目标界面内输入提示信息，该目标界面包括任务信息输入控件501和辅助信息输入控件502，如图5所示，用户可以通过该任务信息输入控件501输入与任务相关的信息，例如，任务是语音翻译任务，通过该任务信息输入控件501可以选择本次输入的语音的语言种类以及需要被翻译成的语言种类。

另外，用户还可以通过辅助信息输入控件502属于辅助信息，于本申请实施例中，该辅助信息可以包括情绪描述信息和说话人描述信息，其中，情绪描述信息是指用于描述情绪的内容，例如，可以是情绪标签或情绪的描述文本，说话人描述信息也可以是说话人标签或说话人的描述文本。如图5所示，用户通过该辅助信息输入控件502可以输入不同的情绪标签和说话人标签。

需要说明的是，用户还可以在输入辅助信息的时候，选择推荐模式，即电子设备在确定用户选择推荐模式的情况下，自动为该任务信息配置对应的辅助信息。如图5所示，用户可以在辅助信息输入控件502对应的选项中选择“自动推荐”的选项，从而目标客户端可以确定用户选择推荐模式。

也就是说，获取提示信息的实施方式，获取任务信息，确定是否处于推荐模式，若处于推荐模式，通过自动推荐策略设置辅助信息。

作为一种实施方式，在辅助信息包括说话人描述信息的情况下，则通过自动推荐策略设置辅助信息的实施方式为，基于电子设备的环境信息来确定说话人描述信息，其中，该环境信息可以包括当前的地理位置和当前周围人群信息等。

若环境信息为当前的地理位置，则基于电子设备的环境信息来确定说话人描述信息的实施方式可以是，获取电子设备的当前的地理位置信息，基于当前的地理位置信息确定说话人描述信息。可以理解的是，不同的位置区域的人群说话方式可能是不同的，则可以在获取电子设备的当前的地理位置信息，确定当前的地理位置信息对应的人群说话风格，确定与该人群说话风格匹配的说话人描述信息。

示例性地，该人群说话风格可以是口音，该口音也称为方言，所表征的是当前的地理位置的区域内的居民的语言发音方式，则确定与该人群说话风格匹配的说话人描述信息的实施方式为，将当前的地理位置信息的方言作为说话人描述信息。

又示例性地，基于当前的地理位置信息确定说话人描述信息的实施方式可以是，确定所述当前的地理位置信息是否位于指定位置范围内，若位于该指定位置范围内，确定该指定位置范围对应的目标说话人身份，将目标说话人身份作为说话人描述信息。其中，该指定位置范围可以是预先确定的，该指定位置范围内对应有预设身份的营业所或居所，例如，该预设身份可以是医务工作者、售货员等，因此，可以预先建立一个对应关系表，在该对应关系表内包括多个指定位置范围和每个指定位置范围对应的预设身份，则电子设备在获取到当前的地理位置信息之后，将该当前的地理位置信息与对应关系表中的各个指定位置范围匹配，查找匹配的指定位置范围作为目标位置范围，将该对应关系表中，目标位置范围对应的预设身份作为目标身份，将该目标身份作为说换人描述信息，从而在后续生成的目标语音数据能够模拟该目标身份的说话口吻。

另外，若环境信息为当前周围人群信息，则基于电子设备的环境信息来确定说话人描述信息的实施方式可以是，获取电子设备的当前周围人群信息，基于当前周围人群信息确定说话人描述信息。示例性地，该当前周围人群信息可以包括当前周围人的身份信息，该身份信息可以包括职业、年龄、性别和人种等信息，则电子设备可以通过电子设备的摄像头采集周围人群的图像，基于所采集的图像分析得到当前周围人群信息，例如，职业可以通过人物所穿戴的衣服识别到，年龄、性别和人种可以通过相貌特征得到，也就是说，在获取到周围人的身份信息之后，将周围人的身份信息作为说话人描述信息。例如，该当前周围人群信息包括周围人群的年龄和性别，则将该年龄和性别作为说话人描述信息，例如，周围人群是40岁的女性，则说话人描述信息也可以是40岁的女性，从而能够模仿周围人群的年龄和性别输出目标语音。

作为一种实施方式，在辅助信息包括情绪描述信息的情况下，则通过自动推荐策略设置辅助信息的实施方式为，获取电子设备的预设时间段内的历史数据，基于该历史数据确定目标情绪，将该目标情绪作为该情绪描述信息。

示例性地，该历史数据可以包括预设时间段内通过电子设备输入的语音数据，则基于该历史数据确定目标情绪的实施方式可以是，获取预设时间段内通过电子设备输入的语音数据，作为历史语音数据，分析该历史语音数据得到情绪标签，作为历史情绪，基于该历史情绪确定目标情绪。示例性地，若该历史情绪为正面情绪，则将该历史情绪作为目标情绪，若该历史情绪为负面情绪，则将该历史情绪对应的正面情绪作为目标情绪。其中，正面情绪通常包括快乐、喜悦、满足、幸福等积极愉悦的情感状态。负面情绪则包括悲伤、愤怒、恐惧、焦虑等消极不快的情感状态。

作为一种实施方式，该历史语音数据可以是电子设备的使用者输入的语音数据，也可以是电子设备的使用者的对话对象输入的语音数据。于本申请实施例中，为了照顾到对方的情绪，该历史语音数据为电子设备的使用者的对话对象输入的语音数据，则确定对话对象输入的语音数据的方式可以是，预先获取电子设备的使用者的身份信息和该身份信息对应的预设声纹特征，该身份信息可以是该使用者登录电子设备或目标客户端的帐号，然后，电子设备的预设时间段内采集到的所有语音数据，确定每个语音数据对应的声纹特征，将与电子设备的使用者的身份信息对应的预设声纹特征不匹配的声纹特征作为目标声纹特征，将目标声纹特征对应的语音数据作为历史数据。

另外，该历史数据还可以是用户在预设时间段内操作电子设备所产生的操作数据，该操作数据可以包括操作指定应用程序所产生的数据，示例性地，该指定应用程序可以是多媒体应用程序，则操作数据可以是在多媒体应用程序内浏览的内容，通过识别所浏览的内容确定该内容对应的情绪，将该情绪作为历史情绪，基于该历史情绪确定目标情绪。其中，该多媒体应用程序可以包括视频播放应用程序、音频播放应用程序、社交媒体应用功能等，该在多媒体应用程序内浏览的内容可以包括播放的视频、播放的音频、阅读的文章等。示例性地，若该历史情绪为正面情绪，则将该历史情绪作为目标情绪，若该历史情绪为负面情绪，则将该历史情绪对应的正面情绪作为目标情绪。

需要说明的是，该操作数据还可以是游戏类应用程序的战绩信息，该战绩信息可以包括胜负结果、通关结果等，该战绩信息能够影响用户的情绪，所以，通过识别该战绩信息确定用户的历史情绪。

请参阅图6，其示出了本申请实施例提供的一种语音处理装置600的结构框图，该装置可以包括：获取单元601、确定单元602和处理单元603。

获取单元601，用于获取待处理的语音数据对应的语音特征向量。

确定单元602，用于获取提示信息，所述提示信息包括任务信息和辅助信息。

进一步的，所述辅助信息包括情绪描述信息和说话人描述信息的至少一种。

进一步的，所述任务信息为翻译任务。

处理单元603，用于基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

进一步的，处理单元603还用于将所述语音特征向量和所述提示信息共同输入语音语言模型；获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音标记，每个语音标记包括具有与辅助信息任务相关的语音特性的语音单元内容；通过语音解码器，基于所述语音语言模型输出的每个语音标记合成为目标音频。

进一步的，处理单元603还用于通过低秩适配方法调整所述语音语言模型，为调整后的语音语言模型增加处理预设任务的能力。

进一步的，所述语音语言模型为Speech LM模型，语音分析模型为Speech Decoder模型。

进一步的，训练所述语音语言模型，其中，在所述语音语言模型的训练过程中，保持提示向量参数之外的参数不变。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图7，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的语音处理方法、装置、电子设备及计算机可读介质，获取待处理的语音数据对应的语音特征向量；获取提示信息，所述提示信息包括任务信息和辅助信息；基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据。由于目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求，因此，通过该提示信息能够使得语音处理后的数据具有超过语音内容之外的附加内容，从而实现生成超越语音信息内容本身的语音。

本申请实现了一种生成超越语音内容的语音语言大模型，具有非常好的技术创新和诱人的落地收益。可以使用本申请的技术实现更加丰富、多样的语音技术，比如在手机虚拟人领域、智能家居、车载、国际语音交流等场景均可以有很好的落地。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待处理的语音数据对应的语音特征向量；

获取提示信息，所述提示信息包括任务信息和辅助信息；

基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

2.根据权利要求1所述的方法，其特征在于，所述辅助信息包括情绪描述信息和说话人描述信息的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述任务信息为翻译任务。

4.根据权利要求1所述的方法，其特征在于，所述基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，包括：

将所述语音特征向量和所述提示信息共同输入语音语言模型；

获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音标记，每个语音标记包括具有与辅助信息任务相关的语音特性的语音单元内容；

通过语音解码器，基于所述语音语言模型输出的每个语音标记合成为目标音频。

5.根据权利要求4所述的方法，其特征在于，在获取所述语音语言模型基于所述语音特征向量和所述语音分类任务输出的多个语音标记之后，还包括：

通过低秩适配方法调整所述语音语言模型，为调整后的语音语言模型增加处理预设任务的能力。

6.根据权利要求4所述的方法，其特征在于，所述语音语言模型为Speech LM模型，语音分析模型为Speech Decoder模型。

7.根据权利要求4所述的方法，其特征在于，所述获取所述语音语言模型基于所述语音特征向量和所述提示信息输出的多个语音标记之前，还包括：

训练所述语音语言模型，其中，在所述语音语言模型的训练过程中，保持提示向量参数之外的参数不变。

8.一种语音处理装置，其特征在于，包括：

获取单元，用于获取待处理的语音数据对应的语音特征向量；

确定单元，用于获取提示信息，所述提示信息包括任务信息和辅助信息；

处理单元，用于基于所述提示信息和语音特征向量，将所述语音特征向量合成目标语音数据，所述目标语音数据满足所述任务信息对应的内容要求和所述辅助信息对应的声音特性要求。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读介质，其特征在于，所述计算机可读介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-7任一项所述方法。