CN112634892B

CN112634892B - 一种语音处理方法、装置、可读存储介质和电子设备

Info

Publication number: CN112634892B
Application number: CN202011497120.9A
Authority: CN
Inventors: 陈昌儒; 徐培来
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-11-24
Anticipated expiration: 2040-12-17
Also published as: CN112634892A

Abstract

本发明实施例公开了一种语音处理方法、装置、存储介质和电子设备。本发明实施例的技术方案通过获取语音数据，对所述语音数据进行语音识别以确定对应的第一文本，将第一文本输入预先训练的文本处理模型确定对应的第二文本，第二文本是对第一文本的标识或替换，第二文本中不包含不文明用语，将第二文本处理生成第一音频，所述第一音频中不包含被替换的不文明用语。输出第一音频，由此，本发明实施例的第一音频中不包含不文明用语，净化了网络环境。

Description

一种语音处理方法、装置、可读存储介质和电子设备

技术领域

本发明涉及通信领域，具体涉及一种语音处理方法、装置、可读存储介质和电子设备。

背景技术

在网络交互场景中，有的用户会说出不文明用语，为了净化网络交互环境，需要对不文明用语进行处理。

现有技术中，对不文明用语处理的方法通常是基于一定的屏蔽规则对关键词或敏感词进行屏蔽。但是，现有技术的方法处理精度不高。

发明内容

有鉴于此,为了在网络交互场景中提高对于不文明用语的屏蔽精度，本发明实施例提供一种语音处理方法、装置、存储介质和电子设备。

第一方面，本发明实施例提供一种语音处理方法，包括：

获取语音数据；

对所述语音数据进行语音识别确定对应的第一文本；

将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；

根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

优选地，所述第二文本将所述第一文本中的不文明用语替换为目标文本；

所述根据所述第二文本处理生成第一音频包括：

根据所述目标文本生成第二音频；

根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频；

根据所述不文明用语在所述第一文本的位置获取所述不文明用语对应的不文明语音片段在所述语音数据中的开始时间戳和结束时间戳；以及

按所述开始时间戳和所述结束时间戳将所述第二音频与所述语音数据合成为第一音频。

优选地，所述将所述目标文本生成第二音频包括：

获取所述语音数据的基频特征；

按所述基频特征将所述目标文本生成第二音频；

其中，所述基频特征是通过预先训练的语音特征模型获得的。

优选地，所述将所述目标文本生成第二音频包括：

将所述目标文本对应的第二音频处理为背景噪声。

优选地，所述第二文本对于所述第一文本中的不文明用语进行了替换包括：

响应于所述第一文本全部为不文明用语，将所述第一文本替换为所述第二文本；

所述根据所述第二文本处理生成第一音频包括：

将所述第二文本按基频特征合成第一音频，其中，所述基频特征是通过预先训练的语音特征模型获得的；或者

将所述背景噪声合成为所述第一音频。

优选地，所述将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换之前包括：

将语料训练集和语料验证集输入神经网络进行训练获得文本处理模型；

其中，所述语料训练集和所述语料验证集是预先对语料集合中的不文明用语标注获得的。

第二方面，本发明实施例提供一种语音处理装置，包括：

语音获取模块，获取语音数据；

语音识别模块，对所述语音数据进行语音识别确定对应的第一文本；

语义处理模块，将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；

语音生成模块，根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

第三方面，本发明实施例提供一种可读存储介质，包括：

一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现上述中任一项所述的方法。

第四方面，本发明实施例提供一共电子设备，包括：

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如上述任一项所述的方法。

本发明实施例的技术方案通过获取语音数据，对所述语音数据进行语音识别确定对应的第一文本，将第一文本输入预先训练的文本处理模型，所述文本处理模型根据语义确定对应的第二文本，第二文本是对第一文本的标注或替换，第二文本中不包含不文明用语，将第二文本处理生成第一音频，由此，所述第一音频中不包含被替换的不文明用语。进而净化了网络环境。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例网络交互场景的示意图；

图2是是本发明实施例语音处理方法的流程图；

图3是本发明实施例根据第二文本处理生成第一音频的流程图；

图4是本发明实施例按基频特征生成第二音频的流程图；

图5是本发明实施例合成第一音频的流程图；

图6是本发明实施例合成第一音频的示意图；

图7是本发明实施例的语音处理装置的示意图；

图8是本发明实施例语音处理系统的流程图；

图9是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例网络交互场景的示意图。

参照图1，本发明实施的网络交互场景包括第一终端10、服务器30和第二终端20。

第一终端10和第二终端20可以是手机、平板电脑、多媒体播放器、可穿戴设备、个人计算机等电子设备。服务器30可以是一台服务器、也可以是服务器集群，还可以是云服务器。第一终端10和第二终端20通过网络能够与服务器30通信连接。

第一终端10通过音频输入装置收集用户A的语音，将其处理为语音数据。第一终端10通过网络将语音数据发送到服务器30。服务器30将语音数据处理为第一音频后通过网络发送到第二终端20，第二终端20通过音频输出装置播放第一音频，由此，用户B能够听到第一音频。

在社交网络环境下，许多网络交互场景下的用户都通过语音直接沟通。例如游戏平台、社交平台、教学平台、直播平台等。用户在通过语音交流的过程中有时会有不文明用语，给其他用户造成不好的用户体验和消极的影响。例如，某些情况下，用户A情绪激动，用户A的语音中会出现不文明用语。

为了净化社交网络环境，现有技术是收集关键词或敏感词，基于一定的屏蔽或过滤规则将关键词或敏感词对应的部分从语音中去除。但是，这种基于关键词的处理方式精度较低，常常出现误处理，也即，屏蔽了并非不文明用于的音频片段，或，遗漏了不文明用语。

为此，本发明实施例提供一种语音处理方法。具体地，第一终端10通过音频输入装置收集用户A的语音，第一终端10将用户A的语音处理为语音数据。第一终端10通过网络将语音数据发送到服务器30。服务器30将语音数据处理为第一文本。服务器30将第一文本输入经训练的文本处理模型获得第二文本。文本处理模型用于将第一文本中的不文明用语根据语义进行标注或替换后输出第二文本，第二文本不包含不文明用语，服务器30将第二文本合成为第一音频。服务器30通过网络将第一音频发送到第二终端20，第二终端20通过音频输出装置播放第一音频，由此，用户B能够听到第一音频。第一音频中不包含不文明用语。也就是说，本发明实施例能够实时的自动处理第一终端10和第二终端20之间交互的语音数据。需要说明的是，本发明实施例对第一终端10和第二终端20的数量不做限制，可以是多个第一终端、多个第二终端。在本发明的技术方案中，也可以是第二终端20将语音数据发送到服务器30，服务器30经处理后将不包含不文明用语的第一音频发送到第一终端10。

图2是本发明实施例的语音处理方法的流程图。

参照图2，本发明实施例的语音处理方法包括步骤100-步骤400，步骤100-步骤400在图1所示的服务器30上执行。

步骤100，获取语音数据。

获取语音数据，语音数据可以为WAV格式的音频数据。WAV(Windows Media Audio，媒体文件)是微软公司开发的一种声音文件格式,也叫波形声音文件。为了存储和运算方便，语音数据也可以是其他格式的音频文件。

步骤200，对所述语音数据进行语音识别确定对应的第一文本。

在一种优选的实现方式中，本发明实施例通过语音识别模型对语音数据进行识别获得第一文本。

本发明实施例的语音识别模型为混合高斯-隐马尔可夫模型(GMM-HMM)结合深度神经网络声学模型，然后结合语言模型。其中，深度神经网络声学模型是一种神经网络模型，深度神经网络声学模型可以为长短期记忆网络(LSTM)、双向长短记忆网络(BiLSTM)、循环神经网络(RNN)等。语言模型可以为N-Gram(N元模型)模型。采用混合高斯-隐马尔可夫模型结合深度神经网络声学模型的优点在于训练速度快、并且模型存储空间较小，从而，适合社交网络环境下实时语音识别的需求。采用N-Gram模型容易评估第一文本是否合理。

通过执行步骤200，能够将语音数据处理为第一文本。具体地，将语音数据输入混合高斯-隐马尔可夫模型获得语音数据对应的待选文本的概率。将待选文本概率输入语音识别模型获得第一文本。

在一些情况下，第一文本中可能有不文明用语。为了净化第一文本中的不文明用语，通过文本处理模型根据语义获得第二文本。

优选地，本发明实施例在步骤300之前通过语料集训练神经网络，获得文本处理模型。

具体地，将语料训练集和语料验证集输入神经网络进行训练获得文本处理模型。其中，所述语料训练集和所述语料验证集是预先对语料集合中的不文明用语标注获得的。

例如，预先收集语料训练集和语料验证集，语料训练集和语料验证集中包括多条文本。语料训练集和语料验证集的多条文本预先经过标注。将语料训练集输入神经网络，对神经网络进行训练。通过语料验证集获得神经网络的识别率，当神经网络的识别率满足预设的条件时，保存神经网络的各项参数获得文本处理模型。由此，将包含不文明用语的文本输入文本处理模型能够根据语义对文本中的不文明用语进行标注或替换。

步骤300，将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换。

在本发明实施例中，将第一文本输入文本处理模型，文本处理模型能够确定对应的第二文本，所述第二文本对第一文本中的不文明用语进行标识或替换。

具体地，步骤300有两种可能的情况。

情况一，第一文本的第一部分是文明用语，第一文本的第二部分是不文明用语。对于情况一，第一文本的第一部分是文明用语，第一文本的第二部分是不文明用语。通过步骤300获得的第二文本有两种可能的情况，其一，目标文本是对不文明用语的替换；其二，目标文本是对不文明用语的标识。

例如，第一文本为：你是C。其中C是不文明用语。将第一文本输入文本处理模型获得第二文本。第二文本是对不文明用语进行了标识或替换。其一，通过对不文明用语进行替换，获得的第二文本为：你是D；D是目标文本。目标文本D是对不文明用语C的替换。由此，获得的第二文本中的目标文本D为文明用语。需要说明的是，目标文本的字符个数不必和不文明用语的字符个数相同。其二，通过对不文明用语进行标识，获得的第二文本为：你是*；*是目标文本。目标文本*是对不文明用语C的标识。由此，获得的第二文本中的目标文本*为标识符号。需要说明的是，目标文本的具体标识符号可以自定义，标识符号也可以为#，##，《》等。

情况二，第一文本全部为不文明用语。

通步骤300将所述第一文本替换为所述第二文本。例如，第一文本为：CCC,第一文本全部为不文明用语，通过步骤300将第一文本替换为第二文本。第二文本为：DDD或者，第二文本为：***。其中，第二文本不包含不文明用语的字符或不包含不文明用语的标识符号。需要说明的是，第一文本与第二文本中的字符(或字符串)个数不必完全相同，第一文本到第二文本为语义替换。当使用标识符号替换第一文本得到第二文本时，标识符号的字符个数不必和第一文本完全相同。

步骤400，根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

具体地，通过音频合成的方法，根据所述第二文本处理生成第一音频。

图3是本发明实施例根据第二文本处理生成第一音频的流程图。

下面以情况一为例具体说明根据第二文本处理生成第一音频的过程。

将目标文明生成第二音频，根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频。

参照图3，本发明实施例中步骤400包括2个子步骤，分别是步骤410和步骤420。

步骤410，所述第二文本将所述第一文本中的不文明用语替换为目标文本,根据所述目标文本生成第二音频。

例如，第一文本为：你是C，其中，C是不文明用语。第二文本为：你是D。其中，D是文明用语。将D作为目标文本。将目标文本合成为语音。本发明实施例以目标文本是字符或字符串为例进行说明。当目标文本为标识符号时，只需根据标识符号表征的目标文本生成第二音频即可。

也就是说，目标文本是第二文本的一部分。第二文本包括目标文本，其中目标文明是替换后的文明用语。参见表1，表1是对第一文本和第二文本的说明。

第一文本	你是	C	C为不文明用语
				第二文本	你是	D	D是目标文本。

表1

在一种可选的实现方式中，通过Speaker Embedding(音频合成)将目标文本合成为第二音频。使用Speaker Embedding(音频合成)将目标文本合成第二音频时，不需要训练，按照预先设定的人物的基频特征将目标文本合成第二音频。

在另一中可选的实现方式中，通过Speaker Encoding(音频编码)将目标文本合成第二音频。使用Speaker Encoding(音频编码)将目标文本合成第二音频时，可以通过预先训练，按照目标人物的基频特征将目标文本合成第二音频。具体地，目标人物可以为图1所示的用户A。

在又一种可选的实现方式中，在将目标文本合成为第二音频时，使用背景噪声作为第二音频。也即，将所述目标文本对应的第二音频处理为背景噪声。优选地，为了使第二音频的声音更加真实，使用Speaker Encoding(音频编码)按目标人物的基频特征合成第二音频。

具体地，获取目标人物的语音数据，提取所述语音数据的基频特征。例如，语音数据的基频特征来自于图1所示的用户A，基频特征和用户A的年龄、性别、音色等相关。本发明实施例预先获得用户A的基频特征，使用用户A的基频特征合成将目标文本合成第二音频。具体地，基频特征可以通过基频特征提取网络获得。在使用基频特征提取网络获得语音数据的基频特征之前，通过声波数据对基频特征提取网络进行训练。

图4是本发明实施例按基频特征生成第二音频的流程图。

参照图4，具体地，步骤410包括2个子步骤，分别是步骤411和步骤412。

步骤411，获取所述语音数据的基频特征。

具体地，通过基频特征提取网络提取语音数据的基频特征。

步骤412，按所述基频特征将所述目标文本生成第二音频。

具体地，按基频特征将目标文本生成第二音频。

例如，通过用户A获得的语音数据中有不文明用语，将语音数据转换为第一文本，第一文本为：你是C，其中，C是不文明用语。替换其中的不文明用语得到第二文本。第二文本为：你是D。其中，D是文明用语。将D作为目标文本。按基频特征将目标文本生成第二音频。也就是说，将D合成为第二音频时，第二音频是按用户A的基频特征合成的，而不是按照预定人物的基频特征合成的。

本发明实施例，通过获取语音数据的基频特征，按照基频特征将目标文本生成第二音频，由此，本发明实施例的技术方案能够按照用户的基频特征合成第二音频，因此，第二音频的声音更加真实。

步骤420，根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频。

图5是本发明实施例合成第一音频的流程图。

参照图5，具体地，步骤420包括2个子步骤，分别是步骤421和步骤422。

步骤421，根据所述不文明用语在所述第一文本的位置获取所述不文明用语对应的不文明语音片段在所述语音数据中的开始时间戳和结束时间戳。

图6是本发明实施例合成第一音频的示意图。

参照图6，语音数据包括两部分，分别是语音数据第一部分和语音数据第二部分。例如，语音数据的第一部分不包含不文明用语，语音数据的第二部分为不文明语音片段。据所述不文明用语在所述第一文本的位置获，获取不文明片段在所述语音数据中的开始时间戳T1和结束时间戳T2。

步骤422，按所述开始时间戳和所述结束时间戳将所述第二音频与所述语音数据合成为第一音频。

继续参照图6，按所述开始时间戳T1和所述结束时间戳T2将语音数据中的不文明语音片段去掉后，将所述第二音频与所述语音数据第一部分合成为第一音频。也即，第一音频包括语音数据第一部分和第二音频。由此，第一音频不包含不文明用语对应的语音片段，净化了网络。

下面以情况二为例具体说明根据第二文本处理生成第一音频的过程。

第二文本是对第一文本全部内容的替换。直接将第二文本合成第一音频。

具体地，响应于所述第一文本全部为不文明用语，将所述第一文本替换为所述第二文本；

所述根据所述第二文本处理生成第一音频包。在一种可选的实现方式中，将所述第二文本按基频特征合成第一音频，其中，所述基频特征是通过预先训练的语音特征模型获得的。具体地，通过Speaker Embedding(语音嵌入软件)将第二文本合成为第一音频。

在另一中可选的实现方式中，将背景噪声合成为所述第一音频。

本发明实施例通过获取语音数据，对所述语音数据进行语音识别确定对应的第一文本，将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换，根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。从而，在本发明实施例的第一音频中去除了不文明用语，由此净化了网络环境。

图7是本发明实施例的语音处理装置的示意图。

参照图6，本发明实施的语音获取装置包括语音获取模块10、语音识别模块20、语义处理模块30和语音生成模块40。其中语音生成模块40包括语音合成模块41。语音合成模块41包括语音拼接模块411。

语音获取模块10，用于获取语音数据；

语音识别模块20，用于对所述语音数据进行语音识别确定对应的第一文本。

语义处理模块20，用于将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换。

语音生成模块40，用于根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

优选地，所述语音生成模块40包括语音合成模块41，用于根据所述目标文本生成第二音频，以及根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频。优选地，语音合成模块41包括语音拼接模块411，用于根据所述不文明用语在所述第一文本的位置获取所述不文明用语对应的不文明语音片段在所述语音数据中的开始时间戳和结束时间戳。按所述开始时间戳和所述结束时间戳将所述第二音频与所述语音数据合成为第一音频。

图8是本发明实施例语音处理系统的流程图。

本发明实施例的语音处理系统包括第一终端10、服务器30和第二终端20。

步骤1000，第一终端10收集用户语音，将用户语音处理为语音数据。

步骤1100，第一终端10户语音，将用户语音处理为语音数据。

步骤1200，服务器30获取第一终端10的语音数据。

步骤1300，服务器30对所述语音数据进行语音识别确定对应的第一文本。

步骤1400，服务器30将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换。

步骤1500，服务器30根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

步骤1600，服务器30发送第一音频到第二终端20。

步骤1700，第二终端20接收第一音频。

本发明实施的语音处理系统中，第二终端20的数量不做限制，也可以是多个第二终端20。也即，服务器30可以将第一音频发送到多个第二终端20。

本发明实施例的语音处理系统中，第一终端10收集用户语音，第一终端10将与会语音处理为语音数据，第一终端10将语音数据发送到服务器30，服务器30接收语音数据，服务器30将语音数据处理为文本，也即，服务器30将语音数据进行识别或获得第一文本，服务器30通过预先序列的文本处理模型确定第二文本，第二文本不包含不文明用语，服务器30根据第二文本生成第一音频，第一音频也不包含不文明用语对应的语音片段。服务器30将第一音频发送到第二终端20。由此，第二终端20的用户收到的是净化后的第一音频。

图9是本发明实施例的电子设备的示意图。

如图9所示的电子设备9包括通用的硬件结构，其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器91通过执行存储器92所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起，同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置95通过输入/输出(I/O)控制器96与系统相连。

本领域的技术人员应明白，本申请的实施例可提供方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部方法的实施例。

即，本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个可读存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

获取语音数据；

对所述语音数据进行语音识别确定对应的第一文本；

将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本将所述第一文本中的不文明用语进行了标识或替换为目标文本；根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语；

根据所述第二文本处理生成第一音频包括：

根据所述目标文本生成第二音频；

根据所述目标文本生成第二音频包括：

获取所述语音数据的基频特征；

按所述基频特征将所述目标文本生成第二音频；

2.根据权利要求1所述的方法，其特征在于，所述根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标文本生成第二音频包括：

将所述目标文本对应的第二音频处理为背景噪声。

4.根据权利要求1所述的方法，其特征在于，所述第二文本对于所述第一文本中的不文明用语进行了替换包括：

所述根据所述第二文本处理生成第一音频包括：

将背景噪声合成为所述第一音频。

5.根据权利要求1所述的方法，其特征在于，所述将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换之前包括：

6.一种语音处理装置，其特征在于，所述装置包括：

语音获取模块，获取语音数据；

语义处理模块，将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本将所述第一文本中的不文明用语进行了标识或替换为目标文本；

语音生成模块，根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语；

根据所述第二文本处理生成第一音频包括：

根据所述目标文本生成第二音频；

根据所述目标文本生成第二音频包括：

获取所述语音数据的基频特征；

按所述基频特征将所述目标文本生成第二音频；

7.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。