CN105244026A

CN105244026A - 一种语音处理方法及装置

Info

Publication number: CN105244026A
Application number: CN201510523976.1A
Authority: CN
Inventors: 陈娟; 巫晓倩
Original assignee: Individual
Current assignee: Beijing Yijiao Wenshu Technology Co Ltd
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2016-01-13
Anticipated expiration: 2035-08-24
Also published as: CN105244026B

Abstract

本申请提供了一种语音处理方法及装置，包括：获取待处理语音的音频流，将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频，将所述需要处理的第一音频替换成第二音频，输出将第一音频替换成第二音频后的音频流。由于本申请所提供的方案，在获取到待处理语音的音频流之后，可以自动将所述音频流与预存样本进行比对，从而识别出需要处理的第一音频，并将其替换成第二音频后输出，无需人工操作，节省了人力、物力，并且，现有技术中需要在节目录制完成后进行人工审核，而本申请实施例中可以对获取的音频流进行及时处理并输出，并不需要将待处理语音全部接收完成以后再处理，因此相比现有技术实时性较高。

Description

一种语音处理方法及装置

技术领域

本申请涉及音频处理技术领域，尤其涉及一种语音处理方法及装置。

背景技术

在谈话类、影视类节目中，经常会存在一些不适合向公众播出的言语，例如：粗口、儿童不宜的内容、涉及政治或黄色等违反国家法律法规的内容等等。

目前，对于节目音频中出现的不良语音，通常是在节目录制完成后通过人工审核、屏蔽，但这种操作方式会浪费较大的人力、物力，且实时性不高。

现有技术不足在于：

通过人工审核、屏蔽的操作方式，浪费较大的人力、物力，且实时性较低。

发明内容

本申请实施例提出了一种语音处理方法及装置，以解决现有技术中通过人工审核、屏蔽的操作方式，浪费较大的人力、物力，且实时性较低的技术问题。

本申请实施例提供了一种语音处理方法，包括如下步骤：

获取待处理语音的音频流；

将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频；

将所述需要处理的第一音频替换成第二音频；

输出将第一音频替换成第二音频后的音频流。

本申请实施例提供了一种语音处理装置，包括：

获取模块，用于获取待处理语音的音频流；

识别模块，用于将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频；

替换模块，用于将所述需要处理的第一音频替换成第二音频；

输出模块，用于输出将第一音频替换成第二音频后的音频流。

有益效果如下：

本申请实施例所提供的语音处理方法及装置，首先获取待处理语音的音频流，将所述音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频，将所述需要处理的第一音频替换成第二音频，输出将第一音频替换成第二音频后的音频流。由于本申请实施例所提供的方案，在获取到待处理语音的音频流之后，可以自动将所述音频流与预存样本进行比对，从而识别出需要处理的第一音频，并将其替换成第二音频后输出，无需人工操作，节省了人力、物力，并且，现有技术中需要在节目录制完成后进行人工审核，而本申请实施例中可以对获取的音频流进行及时处理并输出，并不需要将待处理语音全部接收完成以后再处理，因此相比现有技术实时性较高。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请实施例中语音处理方法实施的流程示意图；

图2示出了本申请实施例中语音处理装置的结构示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：

不仅在谈话类、影视类节目中会出现不良语音，在终端间通话时也可能会出现，这些不良语音可能会造成听者的不满、误会或者带来其他的不良影响。

目前，对于终端间通话过程中出现的不良语音，尚未有任何措施来识别、屏蔽。

基于此，本申请实施例提出了一种语音处理方法及装置，下面进行说明。

图1示出了本申请实施例中语音处理方法实施的流程示意图，如图所示，所述语音处理方法可以包括如下步骤：

步骤101、获取待处理语音的音频流；

步骤102、将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频；

步骤103、将所述需要处理的第一音频替换成第二音频；

步骤104、输出将第一音频替换成第二音频后的音频流。

本申请实施例中待处理语音可以是录制节目时的节目语音，也可以是终端间通信的语音，还可以是类似QQ、微信等通讯应用程序中的语音，本申请对此不作限制。

预存样本可以通过各种音频文件收集得到，也可以通过制作得到，本领域技术人员知晓预存样本还可以有其他获得方式，本申请对此不作限制。

在本申请实施例中，将所述待处理语音的音频流与预存样本进行比对，可以利用现有的波形比对、频谱分布变化趋势比对等。当所述音频流中存在与所述预存样本比对成功的音频片段时(例如：二者的波形相同)，即可确定所述音频片段即为所述待处理语音中需要处理的第一音频。

本申请实施例可以将所述识别出的第一音频替换为第二音频，其中，第二音频可以是一段无声的音频、或者其他声音的音频，第二音频的时长可以与第一音频的时长相同，也可以比第一音频的时长短，本申请对第二音频的具体内容不作限制。最终，本申请实施例输出给用户的语音为将第一音频替换为第二音频后的音频流，确保用户听到的不是第一音频，而是第二音频。例如：甲与乙在通话过程中，甲说“我要气死了”，系统接收到“我要气死了”这段音频流之后，将其与预存样本进行比对，如果比对成功，则将其识别为不良语音，此时，可以将这段音频进行替换，例如，可以替换为“我现在很生气”，最终，乙听到的则是“我现在很生气”。

由于本申请实施例所提供的语音处理方法，在获取到待处理语音的音频流之后，可以自动将所述音频流与预存样本进行比对，从而识别出需要处理的第一音频，并将其替换成第二音频后输出，无需人工操作，节省了人力、物力，并且，现有技术中需要在节目录制完成后进行人工审核，而本申请实施例中可以对获取的音频流进行及时处理并输出，并不需要将待处理语音全部接收完成以后再处理，因此相比现有技术实时性较高。

对于终端间通话过程的语音，现有技术是将说话者的语音直接传输至接听者一端，尚未有任何措施来处理说话者的语音，而本申请实施例可以实时获取说话者的语音的音频流，识别出音频流中的第一音频并将其替换成第二音频，然后输出给接听者，可以确保第一音频不被接听者听到，阻断了第一音频的传播。

为了进一步提高比对的效率以及准确率，本申请实施例还可以采用如下方式实施。

实施中，在将所述待处理语音的音频流与预存样本进行比对之前，可以进一步包括：

对所述待处理语音的音频流进行切分。

本申请实施例考虑到音频流可能为一段话，或者为较长的句子，在进行比对时，准确度和实时性均不是很高，为了进一步提高比对的准确度和实时性，本申请实施例可以在比对之前，将待处理语音的音频流进行切分。在具体实施中，可以将一段话根据断句、停顿等标识切分为多个句子，也可以进一步将一句话切分为多个词语，具体的切分过程可以采用语音识别方式。

实施中，所述将所述待处理语音的音频流与预存样本进行比对，具体可以为：

将切分后的音频与预设样本库中的语音样本进行比对。

在具体实施中，可以预先建立包括多个语音样本的样本库，将切分后的音频与样本库中的语音样本直接进行比对。由于本申请实施例是将切分后的音频直接与语音样本进行比对，实时性较高。

实施中，所述将切分后的音频与语音样本进行比对，具体可以为：

对切分后的音频和语音样本中的每一帧，利用如下公式得到音频指纹：

F (n, m) = \{\begin{matrix} 1 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) > 0 \\ 0 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) \leq 0 \end{matrix},

其中，F(n,m)表示音频数据中的第n帧的第m个频带对应的数值，E(n,m)-E(n,m+1)表示第n帧中第m个频带与第m+1个频带的能量变化，E(n-1,m)-E(n-1,m+1)表示第n-1帧中第m个频带与第m+1个频带的能量变化，所述音频指纹为每个频带对应的数值的组合；

将所述切分后的音频的音频指纹与所述语音样本的音频指纹进行比对。

在具体实施中，如果当前帧的相邻频带的能量变化大于当前帧的前一帧的相同的相邻频带的能量变化，即E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))＞0，则当前帧中相邻频带的前一个频带对应的数值为1；

如果当前帧的相邻频带的能量变化小于等于当前帧的前一帧的相同的相邻频带的能量变化，即E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))≤0，则当前帧中相邻频带的前一个频带对应的数值为0。

以此类推，可以为当前帧中除最后一个频带以外的每个频带得到一个对应的数值，将每个频带对应的数值组合得到该当前帧的音频指纹，利用所述音频指纹即可进行比对。

音频指纹是声学特征中的一种，上述音频指纹体现了音频数据的每一帧、每个频带的能量变化，可以准确识别出待处理语音的音频流以及语音样本的音频特征，本申请实施例基于音频指纹进行比对，可以实现精确比对和识别。

实施中，所述将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频，具体可以为：

将切分后的音频转换成文字；

将转换得到的文字与预设样本库中的文字样本进行比对，得到需要处理的文字片段；

将所述文字片段对应到所述待处理语音的音频流中，得到需要处理的第一音频。

本申请实施例可以将切分后的音频转换成文字，利用文字与文字样本进行比对，最后将比对得到的文字片段对应到音频流中，即可得到需要处理的第一音频。在具体实施中，将切分后的音频转换成文字可以利用现有的音频转换文字技术实现，例如：速记云、AudioNote、WaveToText等。转换得到的文字与文字样本的比对也可以采用文本比较技术实现，当转换得到的文字中包括与文字样本一致的文字时，即可确定该文字即为需要处理的文字片段。例如：甲与乙的通话过程中，甲说“你缺电吗？”，本申请实施例可以将“你缺电吗？”这段音频流进行切分，切分结果可以为“你”、“缺电”、“吗”，并将这些切分后的音频转换成对应的文字，将转换得到的文字与文字样本进行比对，假设样本库中存在“缺电”这一样本，则该词语比对成功，“缺电”即为需要处理的文字片段，再根据音频转换文字的对应关系将其对应到音频流中，得到需要处理的第一音频为“缺电”这一词语的音频。

实施中，所述对所述待处理语音的音频流进行切分，具体可以为：

根据所述待处理语音中不同说话者的声纹特征，将所述待处理语音的音频流切分为不同说话者的音频；

通过对同一说话者的音频的语义分析，将所述同一说话者的音频切分为句子或词语的音频。

本申请实施例中可以先根据不同说话者的声纹特征，将音频流初步切分为不同说话者的音频，也即，初步切分后的每段音频中为同一说话者的音频，然后再对每个说话者的音频根据语义分析，进一步切分为句子或词语。

例如：在访谈节目录制过程中，包括主持人和一名嘉宾，本申请实施例可以根据主持人和嘉宾说话的声纹特征，将音频流切分为主持人的音频、嘉宾的音频；然后再将主持人的音频进一步切分为句子或词语，将嘉宾的音频进一步切分为句子或词语。

采用这种切分方式，由于是先区分开不同说话者，再进行语句的切分，相比直接进行语句的切分方式，准确度更高，而且还可以为后续语音的模仿提供数据支撑。

实施中，所述将所述需要处理的第一音频替换成第二音频具体可以为屏蔽所述需要处理的第一音频或者将所述第一音频进行音频转换。

本申请实施例中可以将需要处理的第一音频直接进行屏蔽，在具体实施时，可以在这段时间内不播放声音，或者，以连续的“滴”声代替；还可以将第一音频之后的音频流提前与第一音频之前的音频流进行无缝衔接，也即，第一音频之前的音频流直接与第一音频之后的音频流衔接，或者以第一音频之前的音频流加时长较短的“滴”声之后再衔接第一音频之后的音频流。

例如：在甲与乙的通话过程中，甲说“凌晨4点出发，我靠，太早了吧？”，本申请实施例在确定第一音频为“我靠”之后，对第一音频(“我靠”)进行屏蔽处理，输出给乙的音频流则可以为“凌晨4点出发，太早了吧？”。

显然，本领域技术人员还可以采用其他方式实现屏蔽第一音频的目的。

本申请实施例可以通过将需要处理的第一音频进行屏蔽处理或者音频转换处理两种方式，实现阻断第一音频传播的目的。

实施中，所述第二音频具体可以为：

根据预设的替换关系表确定的；

或者，

通过对所述待处理语音的前文和/或后文进行语义分析，根据语义分析结果确定的。

在具体实施中，所述第二音频可以根据预设的替换关系表确定，本申请实施例中可以将根据预设替换关系表替换音频的方式称为简单转换。例如：预设的替换关系表中包括“缺电”与“傻”的对应关系，本申请实施例可以将上述举例(“你缺电吗”)中的“缺电”音频替换为“傻”的音频，最终输出的音频流则可以为“你傻吗”。

所述第二音频还可以通过对音频流的前后文进行语义分析确定，本申请实施例中可以将这种进行语义分析后进行音频替换的方式称为智能转换。在具体实施中，对于离线处理的音频流可以根据前、后文的语义分析确定，对于在线处理的音频流则可以根据前文的语义进行猜测确定。

例如：甲说“你缺电吗？我有万能充电器”，则可以根据后一句话“我有万能充电器”进行语义分析得知，甲是在表达电源的意思，根据语义确定第二音频可以为“你需要充电吗”，从而输出给乙的音频流则可以为“你需要充电吗？我有万能充电器”。

为了实现替换音频之间的平滑过渡，本申请实施例还可以采用如下方式实施。

实施中，在将所述需要处理的第一音频替换成第二音频之前，可以进一步包括：检测所述第一音频的基音，对所述第一音频的语调进行模仿；

所述第二音频为与所述第一音频同基音、同语调的替换音频。

本申请实施例可以在进行音频替换之前，先检测第一音频的基音，进行语音、语调等的模仿，确保第二音频与第一音频相似或相近，从而进一步提升用户体验。

在具体实施中，由于一段音频流可能存在多个说话者的声音，在进行模仿时可能出现模仿错误等现象，因此，为了进一步提高模仿的相似度，本申请实施例可以在对音频流进行切分，将音频流切分为不同说话这的音频之后，再模仿每个音频中说话者的语音、语调，从而可以更加准确的模仿，确保语音的连贯性。

为了便于本申请的实施，下面以不良语音作为实例进行说明。

本申请实施例可以包括：一是不良语音的自动识别；二是不良语音的屏蔽，或者不良语音的智能替换，下面分别进行说明。

第一步，不良语音的自动识别。

本申请实施例对于不良语音的自动识别提出了两种具体的实现方式：

一、音频流与样本音频流直接比对。

首先，可以收集大量的不良语音的样本。

这些样本可以通过线上或线下的各种音频文件收集得到，在具体实施时，可以在各种电影、对话、录音、谈话类节目、争吵、辩论等现有音频文件中截取相应的样本。截取的方式可以是，将包含不良内容的那段时长的音频文件进行截断，并进行声音处理。

在具体实施时，可以通过人工方式截取，也可以通过机器识别方式来截取。机器识别方式来截取则需要有样本，可以根据与样本的特征比对、或者根据字幕等辅助信息(如：电影对白、歌曲歌词等)来截取。

对声音的处理可以包括对原始语音进行变换得到该不良语音的变种，例如：添加不同强度的、不同环境噪声、添加音效等，这样处理的目的是为了提供更多的标注样本，以提高机器学习的识别率；对声音的处理还可以包括提取该段语音的基础特征，例如：频谱分布、基音、过零率等信号特征，或者对该段语音的持续时长、内容属性(粗口、涉政、涉黄等)附加标识信息。

不良语音的样本，还可以通过制作方式获得，例如：将包含粗口、涉政、涉黄等内容的常见文字信息翻译成音频文件。具体实施时，可以通过文本语音合成(TTS，TextToSpeech)技术来实现文字到音频的转换，另外还可以增加持续时长、内容属性等附加标识信息。

不良语音的样本可以有多种获得方式，本申请对此不作限制。

在获取到不良语音样本后，将这些收集到的不良语音样本存入音频文件的样本库中。

其次，获取需要进行语音屏蔽的音频流(可以是谈话类节目、影视节目或者语音通话等等)，可以基于端点检测技术(即，检测词句的起始和终止位置)进行句子或词语的切分。具体实施中，可以先根据不同说话者的声纹特征、或者语音文件本身自带的标识信息，将音频流进行初步切分，然后再根据语义分析，对同一说话者的句子或词语进行再次切分，对切分后的句子或词语的音频添加时间轴信息。

最后，将切分后的句子或词语的音频与音频文件样本库中的不良语音样本进行比对，以识别输入的音频流中哪些句子或词语是需要进行语音屏蔽的。在具体实施中，还可以根据不良语音样本的标识信息，为需要进行语音屏蔽的句子或词语添加内容属性标签，根据内容属性标签将这些句子或词语的音频存入音频文件样本库中。

具体的比对算法，可以采用以下方式实施：

一是直接波形比对，但这种方式较为苛刻，可能会漏掉一些不良语音；

二是基于声学特征的比对，例如：频谱分布变化趋势、过零率等等，这种方式相比波形比对更加准确，本申请实施例提供了一种基于音频指纹进行特征比对的具体实现方式，具体过程为：

接收音频数据，从该音频数据的第一帧开始，对所述音频数据中的每一帧，利用如下公式得到音频指纹：

F (n, m) = \{\begin{matrix} 1 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) > 0 \\ 0 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) \leq 0 \end{matrix}

其中，F(n,m)表示音频数据中的第n帧的第m个频带对应的数值，E(n,m)-E(n,m+1)表示第n帧中第m个频带与第m+1个频带的能量变化，E(n-1,m)-E(n-1,m+1)表示第n-1帧中第m个频带与第m+1个频带的能量变化。利用该公式，可以得到当前帧的相邻频带的能量变化和当前帧的前一帧的相同的相邻频带的能量变化。

如果当前帧的相邻频带的能量变化大于当前帧的前一帧的相同的相邻频带的能量变化，即E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))＞0，则当前帧中相邻频带的前一个频带对应的数值为1；

二、将音频流翻译成文字，与不良文字内容进行比对。

首先，收集大量的不良文字样本。

获得不良文字样本的方式可以与获得不良语音样本的方式类似，例如：可以收集线上或线下的不良文字，并对其内容属性附加标识信息；或者，可以人工方式收集，通过训练方式机器收集。将这些收集到的不良文字样本存入不良文字样本库中。

其次，获取需要进行语音屏蔽的音频流，无论是谈话类节目、影视节目还是语音通话，可以基于端点检测技术进行句子或词语的切分，具体实现可以参考上述不良语音的句子或词语的切分。然后，将切分后的句子或词语的音频转化为文字信息，建立切分后的句子或词语的音频与文字信息的对应关系表。

或者，不进行音频流的切分，直接将需要进行语音屏蔽的音频流转换为文字信息，建立需要进行语音屏蔽的音频流与文字信息的对应关系表。

其中，将音频转化为文字可以采用现有的音频转文字技术，本领域技术人员可以进行相应的开发设计即可实现，本申请在此不做赘述。

然后，将转化成的文字信息与不良文字样本库中的不良文字样本进行比对，以识别需要屏蔽的文字信息。具体实施中，如果是未切分的音频转化成的文字信息，可以做包含关系的分析和比对；如果是切分后的句子或词语的音频转化为文字信息，可以做相同或相似关系的分析和比对。进一步，还可以根据不良文字样本的标识信息为需要进行语音屏蔽的句子或词语添加内容属性标签，对获得的各种需要进行语音屏蔽的句子或词语，根据其内容属性标签进行训练和处理，并存入文字文件样本库中。

最后，根据对应关系表，将识别出的文字信息对应到输入的音频流中需要进行语音屏蔽的句子或词语上，识别出不良语音。

在具体实施中，在识别出不良语音后，还可以通过人工干预处理等提高准确度，或者在自动识别过程中，设置相似度门限，以保证识别的全面性和准确性。

第二步，不良语音的屏蔽或者智能替换。

根据第一步识别出的需要进行屏蔽的句子或词语，定位到该音频文件时间轴的相应时间段中。对识别出的不良语音可以有以下处理方式：

1)将相应时间段中的音频直接进行屏蔽(这段时间内不播放声音)；

2)对所有的不良语音用同一段时长相同的语音代替，例如：“滴”声、嗡嗡声等；

3)将被屏蔽的句子或词语之后的音频流提前与其之前的音频流进行衔接；

4)将不良语音部分用比它所持续的时长短的声音代替；

在具体实施中还可以有其他的处理方式，本申请对此不作限制。

为了满足更好的用户体验，本申请实施例还可以对第一步识别出的需要进行语音屏蔽的句子或词语，直接根据样本库中设置的语音获得替换语音(在音频文件样本库或文字文件样本库中，相应的音频文件样本或文字文件样本预先设置了对应标识和对应的替换语音。可以人工设置，也可以基于训练的方法获得)；或者，对需要进行语音屏蔽的句子或词语进行语义分析，并根据语义分析结果进行近义词替换和/或句子的重构。

例如：将“我靠”预先设置了替换语音，其替换语音为“哇～”，则可以将所有不良语音出现“我靠”的部分均替换为“哇～”；

上述替换是根据预设的替换关系表来实现的，替换内容比较固定，本申请实施例还提出可以根据语义进行智能替换。离线时，可以根据不良语音前后的语义进行智能替换；在线时，则可以根据前文语义进行预测从而实现替换。

例如：“我靠”在不同语境下可能表示不同的意思，通过语速、节奏、上下文等内容的分析，确定出更文明的方式来替换。

本申请实施例中，为了实现平滑的过渡，可以根据语义分析结果，进行语音、语调等的模仿，以确保替换的语音与原语音相似或相近。

例如：为了语音的连贯，可以检测说话人的基音，然后根据说话人的基音对库里的预设替换语音进行转换，从而得到与说话人同基音、同语调的替换语音，确保“我靠”和“哇～”的语音被认为是同一个人发出的，而不是被替换的语音。

除此之外，与节目音频(节目录制完，再形成音频文件后播出，这一过程具有滞后性)的实现相比，实现在语音通话中的语音屏蔽和替换，需要更高的实时性。因此，可以选择在本地终端建立样本库以缩短比对时间，或者可以模糊初步比对以减小比对的计算量，又或者设置一定的通话延时等。

基于同一发明构思，本申请实施例中还提供了一种语音处理装置，由于这些设备解决问题的原理与一种语音处理方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

图2示出了本申请实施例中语音处理装置的结构示意图，如图所示，所述语音处理装置可以包括：

获取模块201，用于获取待处理语音的音频流；

识别模块202，用于将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频；

替换模块203，用于将所述需要处理的第一音频替换成第二音频；

输出模块204，用于输出将第一音频替换成第二音频后的音频流。

实施中，所述装置可以进一步包括：

切分模块，用于在所述将所述待处理语音的音频流与预存样本进行比对之前，将所述待处理语音的音频流进行切分。

实施中，所述识别模块具体可以用于将切分后的音频与预设样本库中的语音样本进行比对，识别出所述待处理语音中需要处理的第一音频。

实施中，所述识别模块具体可以包括：

指纹计算单元，用于对切分后的音频和语音样本中的每一帧，利用如下公式得到音频指纹：

F (n, m) = \{\begin{matrix} 1 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) > 0 \\ 0 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) \leq 0 \end{matrix},

比对识别单元，用于将所述切分后的音频的音频指纹与所述语音样本的音频指纹进行比对，识别出所述待处理语音中需要处理的第一音频。

实施中，所述识别模块具体可以包括：

转换单元，用于将切分后的音频转换成文字；

文字比对单元，用于将转换得到的文字与预设样本库中的文字样本进行比对，得到需要处理的文字片段；

对应单元，用于将所述文字片段对应到所述待处理语音的音频流中，得到需要处理的第一音频。

实施中，所述切分模块具体可以包括：

第一切分单元，用于根据所述待处理语音中不同说话者的声纹特征，将所述待处理语音的音频流切分为不同说话者的音频；

第二切分单元，用于通过对同一说话者的音频的语义分析，将所述同一说话者的音频切分为句子或词语的音频。

实施中，所述替换模块具体可以用于屏蔽所述需要处理的第一音频或者将所述第一音频进行音频转换。

实施中，所述装置可以进一步包括：

音频确定模块，用于根据预设的替换关系表确定所述第二音频，或者，通过对所述待处理语音的前文和/或后文进行语义分析，根据语义分析结果确定所述第二音频。

实施中，所述装置可以进一步包括：

检测模块，用于在将所述需要处理的第一音频替换成第二音频之前，检测所述第一音频的基音；

模仿模块，用于对所述第一音频的语调进行模仿；

所述替换模块具体用于将所述需要处理的第一音频替换成与所述第一音频同基音、同语调的第二音频。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

Claims

1.一种语音处理方法，其特征在于，包括如下步骤：

获取待处理语音的音频流；

将所述需要处理的第一音频替换成第二音频；

输出将第一音频替换成第二音频后的音频流。

2.如权利要求1所述的方法，其特征在于，在所述将所述待处理语音的音频流与预存样本进行比对之前，进一步包括：

对所述待处理语音的音频流进行切分。

3.如权利要求2所述的方法，其特征在于，所述将所述待处理语音的音频流与预存样本进行比对，具体为：

将切分后的音频与预设样本库中的语音样本进行比对。

4.如权利要求3所述的方法，其特征在于，所述将切分后的音频与语音样本进行比对，具体为：

F (n, m) = \{\begin{matrix} 1 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) > 0 \\ 0 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) \leq 0 \end{matrix},

5.如权利要求2所述的方法，其特征在于，所述将所述待处理语音的音频流与预存样本进行比对，识别出所述待处理语音中需要处理的第一音频，具体为：

将切分后的音频转换成文字；

6.如权利要求2所述的方法，其特征在于，所述对所述待处理语音的音频流进行切分，具体为：

7.如权利要求1所述的方法，其特征在于，所述将所述需要处理的第一音频替换成第二音频具体为屏蔽所述需要处理的第一音频或者将所述第一音频进行音频转换。

8.如权利要求1所述的方法，其特征在于，所述第二音频具体为：

根据预设的替换关系表确定的；

或者，

通过对所述音频流的前文和/或后文进行语义分析，根据语义分析结果确定的。

9.如权利要求1所述的方法，其特征在于，在将所述需要处理的第一音频替换成第二音频之前，进一步包括：检测所述第一音频的基音，对所述第一音频的语调进行模仿；

10.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待处理语音的音频流；

11.如权利要求10所述的装置，其特征在于，进一步包括：

12.如权利要求11所述的装置，其特征在于，所述识别模块具体用于将切分后的音频与预设样本库中的语音样本进行比对，识别出所述待处理语音中需要处理的第一音频。

13.如权利要求12所述的装置，其特征在于，所述识别模块具体包括：

F (n, m) = \{\begin{matrix} 1 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) > 0 \\ 0 & i f & E (n, m) - E (n, m + 1) - (E (n - 1, m) - E (n - 1, m + 1)) \leq 0 \end{matrix},

14.如权利要求11所述的装置，其特征在于，所述识别模块具体包括：

转换单元，用于将切分后的音频转换成文字；

15.如权利要求11所述的装置，其特征在于，所述切分模块具体包括：

16.如权利要求10所述的装置，其特征在于，所述替换模块具体用于屏蔽所述需要处理的第一音频或者将所述第一音频进行音频转换。

17.如权利要求10所述的装置，其特征在于，进一步包括：

18.如权利要求10所述的装置，其特征在于，进一步包括：

模仿模块，用于对所述第一音频的语调进行模仿；