CN102915730B

CN102915730B - 语音处理方法及系统

Info

Publication number: CN102915730B
Application number: CN201210402550.7A
Authority: CN
Inventors: 黑吉昌; 丁兆刚
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd; Dongguan Yulong Telecommunication Technology Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd; Dongguan Yulong Telecommunication Technology Co Ltd
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2015-04-08
Anticipated expiration: 2032-10-19
Also published as: CN102915730A

Abstract

本发明涉及一种语音处理方法，其步骤如下：获取用户通话过程中的语音数据；检测所述语音数据中的词语；按预定要求提取所述词语供用户选取；将用户选取的词语作为候选词语加入到语音数据样本库中；在通话过程中如果检测到所述候选词语则进行提示。上述语音处理方法，按预定要求提取所述词语供用户选取并将用户选取的词语加入到语音样本数据库中，在通话过程中如果检测到所述候选词语则进行提示，由此可以根据实际的通话过程中的语音数据来确定候选词语，不会漏掉某些不易被察觉的口头禅，从而避免疏漏，更好地帮助用户改善不良的语言习惯。此外，还提出一种语音处理系统。

Description

语音处理方法及系统

技术领域

本发明涉及语音识别技术领域，特别是涉及一种基于语音识别技术的语音处理方法及系统。

背景技术

在日常通话中，每个人或多或少都会有一些经常挂在口头上而无多大实际意义的词，这种词人们称为口头禅。口头禅的形成大致跟使用者的性格、生活遭遇或是精神状态有关，可以算是个人标志，是个人习惯用语的代名词，往往不经过大脑直接说出。日常通话中口头禅的无意识使用，往往影响着他人对使用者的感觉或印象。如果口头禅是不够积极向上的，特别是如果某些口头禅被大众认为是脏话，则往往使他人对说话者造成误解，甚至会发生一些不必要的纠纷，还可能因此丧失一些机会。因此，人们普遍希望能够发现自己的口头禅、进而纠正自己不好的说话习惯。

早期，人们普遍采取由他人提醒的方式，但这种方式不太适合语音通话，因为人们很难要求对话对象来提醒自己。为此，传统技术中提出了一种在语音通话过程中检测脏话的方法，其方式为：预先输入几个语音数据作为检测样本，一旦检测到与样本相匹配的语音，便通过蜂鸣器予以提示，警示用户说脏话。

上述脏话检测方法，只能根据用户预先输入的语音数据作为样本，这样可能会漏掉某些不易被察觉的口头禅，这些被漏掉的口头禅很难被补充进语音数据样本库中，由此导致上述检测方法的使用效果有限。

发明内容

基于此，有必要针对根据用户预先输入的语音数据作为样本，会漏掉某些不易被察觉的口头禅的问题，提供一种能够对语音数据样本库进行完善的语音处理方法。

一种语音处理方法，包括如下步骤：

获取用户通话过程中的语音数据；

检测所述语音数据中的词语；

按预定要求提取所述词语供用户选取；

将用户选取的词语作为候选词语加入到语音数据样本库中；

在通话过程中如果检测到所述候选词语则进行提示。

在其中一个实施例中，所述在通话过程中如果检测到所述候选词语则进行提示的步骤包括：

检测用户通话过程中出现的词语；

将检测到的词语与所述语音数据样本库中的候选词语进行对比；

判断检测到的词语为候选词语时发出提示。

在其中一个实施例中，语音数据样本库中的同一个候选词语允许出现的上限次数的剩余少于N时，更改提示方式。

在其中一个实施例中，语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为0时结束通话。

在其中一个实施例中，当获取到的语音数据的容量大小超过预设内存空间时停止所述获取用户通话过程中的语音数据的步骤。

在其中一个实施例中，在按预定要求提取所述词语供用户选取的步骤中，统计出现频率大于设定频率的词语并提取供用户选取，或统计所述词语的出现频率并按频率排序后供用户选取。

在其中一个实施例中，记录供用户选取但未被选取的词语，将其标记为正常使用词语，在下次统计所述词语的出现频率中不予统计。

此外，还提出一种语音处理系统，包括：

获取模块，获取用户通话过程中的语音数据；

检测模块，检测所述语音数据中的词语；

提取模块，按预定要求提取所述词语供用户选取；

加入模块，将用户选取的词语作为候选词语加入到语音数据样本库中；

提示模块，在通话过程中如果检测到所述候选词语则进行提示。

在其中一个实施例中，所述提示模块包括检测单元、比对单元和提示单元，所述检测单元检测用户通话过程中出现的词语，所述比对单元将检测到的词语与所述语音数据样本库中的候选词语进行对比；所述提示单元在判断检测到的词语为候选词语时发出提示。

在其中一个实施例中，所述提示模块还包括计数单元，用以累积检测到所述候选词语的次数，当同一个候选词语允许出现的上限次数的剩余少于N时，所述计数单元通知所述提示单元更改提示方式。

在其中一个实施例中，所述提示模块还包括通话结束单元，在所述计数单元统计到语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为0时，所述通话结束单元结束通话。

在其中一个实施例中，所述提取模块包括统计单元，所述统计单元统计出现频率大于设定频率的词语并提取供用户选取，或者统计所述词语的出现频率并按频率排序后供用户选取。

在其中一个实施例中，所述加入模块包括加入单元和记录单元，所述加入单元用以将用户选取的词语作为候选词语加入到语音数据样本库中，所述记录单元将记录供用户选取但未被选取的词语，将其标记为正常使用词语并通知所述统计单元在下次统计所述词语的出现频率中不予统计。

在其中一个实施例中，还包括容量检测模块，所述容量检测模块在所述获取模块获取到的语音数据的容量大小超过预设内存空间时停止所述获取模块继续获取用户通话过程中的语音数据。

上述语音处理方法及系统，按预定要求提取所述词语供用户选取并将用户选取的词语加入到语音样本数据库中，在通话过程中如果检测到所述候选词语则进行提示，由此可以根据实际的通话过程中的语音数据来确定候选词语，不会漏掉某些不易被察觉的口头禅，从而避免疏漏，更好地帮助用户改善不良的语言习惯。

附图说明

图1为实施方式一的语音处理方法的工作流程图；

图2为实施方式二的语音处理方法的工作流程图；

图3为语音处理系统的模块图。

具体实施方式

以下本实施方式的语音处理方法能够利用实际的通话过程，对语音样本数据库进行完善，以保证通话过程中检测的全面性，有效帮助用户改善不良的语言习惯。

如图1所示，实施方式一的语音处理方法包括如下步骤：

步骤S110，获取用户通话过程中的语音数据。本步骤中，可以通过麦克风采集语音获取语音数据。而这里的语音数据，可以是只获取单次通话的语音数据，也可以是获取多次通话的语音数据并进行累计存储。获取到的语音数据可以存储在手机自身内存中，也可以存储在扩展卡中。在其中一个实施例中，用户可以根据需要预设用以存储获取到的语音数据的存储空间的容量上限作为预设内存空间，避免占据手机过多内存，导致后续清理难度增大。当获取到的语音数据的容量大小超过预设内存空间时停止本步骤，即停止获取用户通话过程中的语音数据。当然，也可以采用自动删除的方式，即自动删除早前存储的语音数据。另外，也可以不设置容量上限。

步骤S120，检测所述语音数据中的词语。本步骤中，可以采用语音识别技术获得语音数据中的词语。由于语音识别数据已经广泛使用，在此不再详述。如果步骤S110中获得的是单次通话的语音数据，则检测该单次通话的语音数据中的词语，还可以进一步统计检测到的词语的出现频率；如果步骤S 110中获得的是多次通话的语音数据，则获得每次通话的语音数据中的词语并累计后得到词语的出现频率。检测出来词语后可以删掉原始语音数据，仅保留文本词语，节省存储空间。用户可以自定义统计基准，例如可以是：统计每分钟（或每两分钟内等）同一词语的出现频率。统计的对象可以是语音数据中的所有词语，也可以是除某些特定词语之外的所有词语，即排除掉一些因为专业问题需要常说的词语，比如“专利”。

步骤S130，按预定要求提取所述词语供用户选取。这里的预定要求可以是词语的出现频率大于设定频率，这个设定频率可以是默认值或是用户根据需要自行修改，用户可以设定将出现频率大于设定频率的词语全部提取或排序后提取前几名；预定要求还可以是直接按照词语的出现频率进行排序，将排序后的词语供用户选取，而不需要大于设定频率，这里可以预先设定提取排序靠前的要求，如提取排序前三、前五等。

本步骤中，供用户选取的方式可以是：将提取到的词语显示在用户终端屏幕上，或语音询问用户是否选择将该提取到的词语设为语音数据样本，然后通过语音识别技术获取用户选择的词语并设为语音数据样本。语音询问可以在通话结束后进行，也可以在通话过程中即时询问。

步骤S140，将用户选取的词语作为候选词语加入到语音数据样本库中。

候选词语加入到语音数据样本库中后，即成为语音数据样本库中的语音数据样本。如果用户同时选取了多个候选词语，则同时将多个候选词语加入到语音数据样本库中。可以理解，由于人的个体差异，语音数据样本库中将可能存在一个或多个语音数据样本。

步骤S150，在通话过程中如果检测到所述候选词语则进行提示。本步骤中，可以一检测到就即刻提示，也可以是检测到预定次数后才提示，即允许用户说预定次数的候选词语。预定次数可以是系统的默认值，也可以由用户自行设定。也可以在通话结束后显示本次通话过程中检测到候选词语的次数。

本实施方式中，步骤S150包括：检测用户通话过程中出现的词语；将检测到的词语与所述语音数据样本库中的候选词语进行对比；及判断检测到的词语为候选词语时发出提示。

语音数据样本库中可能有一个或多个候选词语。当只有一个候选词语时，可以是判断每出现一次该候选词语便通过蜂鸣器发声予以提示，同一候选词语出现次数增多时，可以采取蜂鸣器发声音量提高、频率改变或连响等方式予以用户不同程度的警示。例如，用户自定义某个候选词语允许出现的上限次数，语音数据样本库中的同一个候选词语每出现一次，蜂鸣器响一次；语音数据样本库中的同一个候选词语允许出现的上限次数的剩余少于N时，更改提示方式，例如可以采取蜂鸣器发声音量提高、频率改变或连响，还可以改为震动等方式予以用户不同程度的警示；语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为0时结束通话。前述的N是自然数，用户可自定义设置，如设置N等于2或3。同一个候选词语允许出现的上限次数的剩余少于N时，此时N可能大于1，这样可以给予用户一定的缓冲。也可以采取更为简单的方式：设定某个候选词语出现次数达到设定值时，蜂鸣器发声予以提示，当该候选词语再次出现时即强制结束通话。

当语音数据样本库中有多个候选词语时，不同的候选词语出现时，蜂鸣器均发声予以提示。为了区别，本步骤中，不同的候选词语出现时，蜂鸣器发声音量不同；或发声频率不同，以发出不同声音；或采取不同的连响方式。不同的候选词语允许出现的上限次数可以设置成不同，也可以相同。

提示方式还可以是手机发出震动、屏幕闪烁、在屏幕上显示提示信息等。

如图2所示，实施方式二的语音处理方法包括如下步骤：

步骤S210，获取用户通话过程中的语音数据。本步骤中，可以通过麦克风采集语音获取语音数据。而这里的语音数据，可以是只获取单次通话的语音数据，也可以是获取多次通话的语音数据并进行累计存储。获取到的语音数据可以存储在手机自身内存中，也可以存储在扩展卡中。用户可以根据需要预设用以存储获取到的语音数据的存储空间的容量上限作为预设内存空间，避免占据手机过多内存，导致后续清理难度增大。当获取到的语音数据的容量大小超过预设内存空间时停止本步骤，即停止获取用户通话过程中的语音数据。

步骤S220，检测所述语音数据中的词语。本步骤中，使用语音识别技术获取语音数据中的词语。由于语音识别数据已经广泛使用，在此不再详述。本步骤中，检测的所述语音数据中的词语可能是单次通话的语音数据中的词语，也可能累计存储的多次通话的语音数据中的词语。

步骤S230，判断是否为需要统计的词语，是则进入步骤S240。本步骤中，检测到语音数据中的词语后，首先判断该词语是否为需要统计的词语。因为有些词语根据之前用户的操作确定为不需要统计的词语、有的词语是积极向上的或者可能是特定场合下需要被多次谈到的词语，如奥运，这些词不应当被统计到。用户自定义一个或多个不需要统计的多个词语，如此，检测结果将更为准确快捷。如果判断某词语与预先设定的不需统计的词语相符合，则不统计该词语。如此，能提高对语音数据的处理效率。

步骤S240，统计所述词语的出现频率。如果步骤S210中获得的是单次通话的语音数据，则检测该单次通话的语音数据中的词语，还可以进一步统计检测到侧词语的出现频率；如果步骤S210中获得的是多次通话的语音数据，则获得每次通话的语音数据中的词语并累计后得到词语的出现频率。本步骤中，用户可以自定义统计标准，例如可以是：统计每分钟（或每两分钟内等）同一词语的出现频率。统计的对象可以是语音数据中的所有词语，如果步骤S230中有设定一些不需统计的词语，则统计的对象是除某些特定词语之外的所有词语。

步骤S250，按预定要求提取所述词语供用户选取。这里的预定要求可以是词语的出现频率大于设定频率，这个设定频率可以是默认值或是用户根据需要自行修改，用户可以设定将出现频率大于设定频率的词语全部提取或排序后提取前几名；预定要求还可以是直接按照词语的出现频率进行排序，将排序靠前的提供给用户选取，而不需要大于设定频率。

本步骤中，供用户选取的方式可以是：将提取到的词语显示在用户终端屏幕上，或者语音询问用户意见是否选择将该提取到的词语设为语音数据样本，然后通过语音识别技术将用户选择的词语设为语音数据样本。语音询问可以在通话结束后进行，也可以在通话过程中即时询问。

步骤S260，将用户选取的词语作为候选词语加入到语音数据样本库中。本步骤中，将用户选择的一个或多个词语作为候选词语加入到语音数据样本库中。这里可以是用户直接选取候选词语，其他词语默认为正常使用词语；还可以是用户选择需要标记为正常使用状态的词语，其他词语则自动加入到语音数据样本库中。

步骤S270，记录供用户选取但未被选取的词语，将其标记为正常使用词语。由于供用户选取的候选词语可能有多个，但不一定都是需要纠正的，用户不会选取这类的候选词语。因此记录供用户选取但未被选取的词语，将其标记为正常使用词语，如此在下次统计词语的出现频率时不予统计（步骤S230判断为不需要统计的词语）。由此，能够降低统计量，减少操作次数。本步骤中，还可以同时将准备标记为正常使用的词语予以提示，供用户进行确认，防止步骤S260中用户漏掉应该选取的词语。

步骤S280，在通话过程中如果检测到所述候选词语则进行提示。

本实施方式中，步骤S280包括：检测用户通话过程中出现的词语；将检测到的词语与所述语音数据样本库中的候选词语进行对比；及判断检测到的词语为候选词语时发出提示。语音数据样本库中有一个或多个候选词语时，蜂鸣器发声方法可以参照实施方式一进行，不再赘述。

步骤S290，通话结束后清理获取到的语音数据。

通话结束后，自动清理获取到的语音数据，此时这些语音数据的容量大小可能超过或未超过预设内存空间，都可以免除用户手工操作的辛苦。这里的语音数据可能是单次通话的语音数据，也可能是多次通话累计的语音数据。本步骤中，可以是按照通话时间的顺序删除一些较早的数据，使预设内存空间可利用部分增大，未被删除的数据在后续的通话中可能被再次使用，使得统计同一词语出现频率时有更为客观的基础，不被某次对话所局限。由于某些特定场合会出现多个被反复提及的词语，但这些词语均不需要被纠正，也有一些词语用户可能不够确定，因此本步骤中，还会给出提示，征求用户意见是否删除获取的当前通话的语音数据，并根据用户的选择将其删除，如此可避免特定场合的通话数据被再次使用作为检测对象，由此避免产生误报，影响体验。

实施方式二的语音处理方法与实施方式一处理流程相比，进一步增加了判断是否为需要统计的词语的步骤、增加了记录供用户选取但未被选取的词语，将其标记为正常使用词语的步骤，及增加了通话结束后自动清理获取到的语音数据的步骤，这些步骤的设置能够进一步降低处理量、减少对存储空间的要求及减少用户的操作。

另外，请参考图3，还提出了一种语音处理系统，包括获取模块310、检测模块320、提取模块330、加入模块340及提示模块350。

获取模块310获取用户通话过程中的语音数据。获取模块310可以通过麦克风采集语音获取语音数据。而这里的语音数据，可以是只获取单次通话的语音数据，也可以是获取多次通话的语音数据并进行累计存储。获取到的语音数据可以存储在手机自身内存中，也可以存储在扩展卡中。在其中一个实施例中，用户可以根据需要预设用以存储获取到的语音数据的存储空间的容量上限作为预设内存空间，避免占据手机过多内存，导致后续清理难度增大。此时，语音处理系统还包括容量检测模块360，容量检测模块360在获取模块310获取到的语音数据的容量大小超过预设内存空间时停止获取模块310继续获取用户通话过程中的语音数据。当然，也可以采用自动删除的方式，即自动删除早前存储的语音数据。另外，也可以不设置容量上限。

检测模块320检测所述语音数据中的词语。检测模块320可以采用语音识别技术获得语音数据中的词语。由于语音识别数据已经广泛使用，在此不再详述。如果获取模块310获得的是单次通话的语音数据，则检测模块320检测该单次通话的语音数据中的词语，还可以进一步统计检测到侧词语的出现频率；如果获取模块310中获得的是多次通话的语音数据，则检测模块320获得每次通话的语音数据中的词语并累计后得到词语的出现频率。检测出来词语后可以删掉原始语音数据，仅保留文本词语，节省存储空间。用户可以自定义统计基准，例如可以是：统计每分钟（或每两分钟内等）同一词语的出现频率。统计的对象可以是语音数据中的所有词语，也可以是除某些特定词语之外的所有词语，即排除掉一些因为专业问题需要常说的词语，比如“专利”。

提取模块330按预定要求提取所述词语供用户选取。这里的预定要求可以是词语的出现频率大于设定频率，这个设定频率可以是默认值或是用户根据需要自行修改，用户可以设定将出现频率大于设定频率的词语全部提取或排序后提取前几名；预定要求还可以是直接按照词语的出现频率进行排序，将排序后的词语供用户选取，而不需要大于设定频率，这里可以预先设定提取排序靠前的要求，如提取排序前三、前五等。供用户选取的方式可以是：将提取到的词语显示在用户终端屏幕上，或语音询问用户是否选择将该提取到的词语设为语音数据样本，然后通过语音识别技术获取用户选择的词语并设为语音数据样本。语音询问可以在通话结束后进行，也可以在通话过程中即时询问。

在其中一个实施例中，提取模块330包括统计单元，统计单元统计出现频率大于设定频率的词语并提取供用户选取，或者统计所述词语的出现频率并按频率排序后供用户选取。通过这种方式可以方面用户确定哪些是高频的口头禅。当然也可以按频率排序，即可以省略统计单元。

加入模块340将用户选取的词语作为候选词语加入到语音数据样本库中。候选词语加入到语音数据样本库中后，即成为语音数据样本库中的语音数据样本。如果用户同时选取了多个候选词语，则同时将多个候选词语加入到语音数据样本库中。可以理解，由于人的个体差异，语音数据样本库中将可能存在一个或多个语音数据样本。

在其中一个实施例中，加入模块包括加入单元和记录单元，所述加入单元将用户选取的词语作为候选词语加入到语音数据样本库中，所述记录单元将记录供用户选取但未被选取的词语，将其标记为正常使用词语并通知所述统计单元在下次统计所述词语的出现频率中不予统计。由于供用户选取的候选词语可能有多个，但不一定都是需要纠正的，用户不会选取这类的候选词语。因此记录供用户选取但未被选取的词语，将其标记为正常使用词语，如此在下次统计词语的出现频率时不予统计。由此，能够降低统计量，减少操作次数。

提示模块350在通话过程中如果检测到所述候选词语则进行提示。提示模块350可以一检测到就即刻提示，也可以是检测到预定次数后才提示，即允许用户说预定次数的候选词语。预定次数可以是系统的默认值，也可以由用户自行设定。提示的方式可以是声音提示，还可以是手机发出震动、屏幕闪烁、在屏幕上显示提示信息等。

在其中一个实施例中，提示模块350包括检测单元、比对单元和提示单元。检测单元检测用户通话过程中出现的词语，比对单元将检测到的词语与所述语音数据样本库中的候选词语进行对比，提示单元在判断检测到的词语为候选词语时发出提示。提示模块350还可以包括计数单元，用以累积检测到所述候选词语的次数，当同一个候选词语允许出现的上限次数的剩余少于N时，所述计数单元通知所述提示单元更改提示方式。例如可以采取蜂鸣器发声音量提高、频率改变或连响，还可以改为震动等方式予以用户不同程度的警示。例如，用户自定义某个候选词语允许出现的上限次数，语音数据样本库中的同一个候选词语每出现一次，蜂鸣器响一次；语音数据样本库中的同一个候选词语允许出现的上限次数的剩余少于N时，蜂鸣器发声音量提高且连续响两次以上。提示模块还可以包括通话结束单元，在所述计数单元统计到语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为0时，所述通话结束单元结束通话。前述的N是自然数，用户可自定义设置，如设置N等于2或3。

当语音数据样本库中有多个候选词语时，不同的候选词语出现时，蜂鸣器均发声予以提示。为了区别，不同的候选词语出现时，提示模块350控制蜂鸣器发声音量不同；或发声频率不同，以发出不同声音；或采取不同的连响方式。不同的候选词语允许出现的上限次数可以设置成不同，也可以相同。

上述语音处理方法和系统，能够根据实际的通话过程中的语音数据来确定候选词语，不会漏掉某些不易被察觉的口头禅，从而避免疏漏，更好地帮助用户改善不良的语言习惯。

当然，语音数据样本除了可以通过从用户通话语音中采集外，还可以通过其它方式获取，例如：

1、用户手动录入到数据库中；

2、系统预先设置语音样本数据库，在样本数据库中预置有语音数据样本；

3、在网络服务器中设置语音样本数据库，终端从网络服务器中获取语音数据样本；终端可以向服务器上传自定义的语音数据样本，也可以从服务器中更新样本数据。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音处理方法，其特征在于，包括如下步骤：

获取用户通话过程中的语音数据，所述语音数据是单次通话的语音数据或多次通话的语音数据；

检测所述语音数据中的词语；

按预定要求提取所述词语供用户选取；在按预定要求提取所述词语供用户选取的步骤中，统计出现频率大于设定频率的词语并提取供用户选取，或统计所述词语的出现频率并按频率排序后供用户选取；将用户选取的词语作为候选词语加入到语音数据样本库中；

在通话过程中如果检测到所述候选词语则进行提示。

2.根据权利要求1所述的语音处理方法，其特征在于，所述在通话过程中如果检测到所述候选词语则进行提示的步骤包括：

检测用户通话过程中出现的词语；

判断检测到的词语为候选词语时发出提示。

3.根据权利要求2所述的语音处理方法，其特征在于，语音数据样本库中的同一个候选词语允许出现的上限次数的剩余少于N时，更改提示方式。

4.根据权利要求1所述的语音处理方法，其特征在于，还包括以下步骤：记录供用户选取但未被选取的词语，将其标记为正常使用词语，在下次统计所述词语的出现频率中不予统计。

5.一种语音处理系统，其特征在于，包括：

获取模块，获取用户通话过程中的语音数据，所述语音数据是单次通话的语音数据或多次通话的语音数据；

检测模块，检测所述语音数据中的词语；

提取模块，按预定要求提取所述词语供用户选取；所述提取模块包括统计单元，所述统计单元统计出现频率大于设定频率的词语并提取供用户选取，或者统计所述词语的出现频率并按频率排序后供用户选取；

6.根据权利要求5所述的语音处理系统，其特征在于，所述提示模块包括检测单元、比对单元和提示单元，所述检测单元检测用户通话过程中出现的词语，所述比对单元将检测到的词语与所述语音数据样本库中的候选词语进行对比；所述提示单元在判断检测到的词语为候选词语时发出提示。

7.根据权利要求6所述的语音处理系统，其特征在于，所述提示模块还包括计数单元，用以累积检测到所述候选词语的次数，当同一个候选词语允许出现的上限次数的剩余少于N时，所述计数单元通知所述提示单元更改提示方式。

8.根据权利要求5所述的语音处理系统，其特征在于，所述加入模块包括加入单元和记录单元，所述加入单元用以将用户选取的词语作为候选词语加入到语音数据样本库中，所述记录单元将记录供用户选取但未被选取的词语，将其标记为正常使用词语并通知所述统计单元在下次统计所述词语的出现频率中不予统计。