CN101262524A

CN101262524A - 垃圾语音过滤的方法及系统

Info

Publication number: CN101262524A
Application number: CNA2008100942426A
Authority: CN
Inventors: 陈剑; 闻英友; 罗铭; 胡骏; 李大鹏
Original assignee: SHENYANG DONGRUAN SOFTWARE CO Ltd
Current assignee: SHENYANG DONGRUAN SOFTWARE CO Ltd; Neusoft Medical Systems Co Ltd
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2008-09-10

Abstract

本发明公开了一种垃圾语音的过滤方法，包括：获取语音数据包，提取所述语音数据包中的发送方标识信息；若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则获取所述语音数据包的声纹特征；将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则将所述发送方标识信息添加至所述黑名单数据库中；否则，对所述发送方标识信息添加灰名单标签。本发明可以简单、实时、准确地进行垃圾语音过滤，有效避免非黑/白名单用户首次呼叫的攻击，提高应用SIP协议的业务安全性。

Description

垃圾语音过滤的方法及系统

技术领域

本发明涉及网络语音通信领域，特别涉及一种垃圾语音过滤的方法、一种垃圾语音过滤的系统、一种语音邮件系统及一种基于信令交互的垃圾语音过滤装置。

背景技术

为充分利用资源、降低运营成本、丰富业务样式，使得用户无论在固定还是移动环境中，都可以享受同样的服务，FMC(Fixed MobileConvergence，固定与移动网络融合)目前已成为网络发展的必然趋势。FMC是指网络的业务提供与接入技术和终端设备相独立。从用户角度看，FMC的目的是使用户通过不同接入网络，享受相同的服务，获得相同的业务。其主要特征是用户订阅的业务与接入点和终端无关，也就是允许用户从固定或移动终端通过任何合适的接入点使用同一业务。FMC可以使得用户在一个终端、一个帐号的前提下，在办公室或家里使用固定网络进行通信，而在户外，则通过无线/移动网络进行通信。FMC同时也包含了这样一个概念，就是在固定网络和移动网络之间，终端能够无缝漫游。对于用户而言，这也意味着简单和方便。

在FMC的这种大趋势下，具有实现简单、扩展性好、多媒体会话提供能力强等特点的SIP协议(Session Initiation Protocol，会话初始协议)成为了当前应用的主流。SIP协议是基于IP的一个应用层控制协议，也是一个基于纯文本的信令协议，可以管理不同接入网络上的会晤等。会晤可以是终端设备之间任何类型的通信，如视频会晤、即时信息处理或协作会晤等。支持SIP协议的网络将提供一个网桥，以扩展向互联网和无线网络的各种设备提供融合业务能力。这将允许运营商为其移动用户提供大量的信息处理业务，通过SMS互通能力与固定用户和2G无线用户交互。SIP也是在UMTS3GPP R5/R6版本中使用的信令协议，因此可以保护运营商目前的投资而极具技术优势和商业价值。

然而，由于SIP协议在设计之初缺乏完善的安全机制，导致垃圾语音信息(Spam over Internet Telephony，SPIT)作为一种非预期的语音发送行为，成为基于SIP协议的应用中(如VoIP，(Voice over IP，基于IP的语音技术))一种重要的安全威胁。

一种常见的SPIT攻击方式为，通过伪造和篡改发送方URI的方式对被叫方实施攻击。现有技术中，通常采用“黑名单”和/或“白名单”的垃圾语音防护机制，即每次接收到语音呼叫，则提取该呼叫用户URI，如果该呼叫用户URI属于“黑名单”的用户列表，则阻止该语音呼叫；如果该呼叫用户URI属于“白名单”的用户列表，则接收该语音呼叫。但这种黑/白名单机制存在的缺点在于：不能正确鉴别首次出现的呼叫用户，即“黑名单”机制的采用不能对一些首次呼叫的垃圾语音信息进行过滤；而“白名单”机制对于首次呼叫的IP语音用户会造成应用上的困难；如果垃圾语音攻击者通过伪造或篡改发送方URI的方式，使当前URI发生改变，成为首次呼叫的用户，则很容易达到实施攻击的目的，

所以，目前需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新的提出一种垃圾语音的过滤机制，用以简单、实时、准确地进行垃圾语音过滤，有效避免非黑/白名单用户首次呼叫的攻击，提高应用SIP协议的业务安全性。

发明内容

本发明所要解决的技术问题是提供一种垃圾语音的过滤方法及系统，用以简单、实时、准确地进行垃圾语音过滤，有效避免非黑/白名单用户首次呼叫的攻击，提高应用SIP协议的业务安全性。

本发明还提供了一种语音邮件系统和一种基于信令交互的垃圾语音过滤装置，用以保证上述方法及装置在实际中的实现及应用。

为解决上述技术问题，本发明实施例公开了一种垃圾语音的过滤方法，包括：

获取语音数据包，提取所述语音数据包中的发送方标识信息；

若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则获取所述语音数据包的声纹特征；

将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则将所述发送方标识信息添加至所述黑名单数据库中；否则，对所述发送方标识信息添加灰名单标签。

优选的，所述获取语音数据包为接收并缓存语音数据包，所述的方法还包括：

将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至接收方。

优选的，所述获取语音数据包的步骤包括：接收方向发送方发起语音数据获取请求，发送方依据该请求向接收方发送语音数据包；

所述的方法还包括：

所述接收方接收所述具有灰名单标签的发送方发送的语音数据包。

优选的，所述获取语音数据包的步骤还包括：接收方在向发送方发起语音数据获取请求的同时启动计时程序，监控是否超过预置时间阈值；

所述的方法还包括：

若超过预置时间阈值，则将所述发送方标识信息添加至所述黑名单数据库中。

优选的，所述的方法，还包括：

依据接收方的垃圾语音鉴别信息将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。

优选的，所述的方法，还包括：

提取所述黑名单数据库中发送方所发语音数据包的声纹特征，添加至垃圾语音声纹特征库。

优选的，所述语音数据包的获取为从VoIP网络中实时获取。

优选的，所述的方法，还包括：

所述具有灰名单标签的发送方标识信息形成灰名单数据库。

优选的，所述的方法，还包括：

若所述发送方标识信息在所述黑名单数据库存在匹配项，则过滤所述语音数据包；

若所述发送方标识信息在所述白名单数据库存在匹配项，则接收所述语音数据包。

本发明实施例还公开了一种垃圾语音的过滤系统，所述过滤系统包括用于存储黑名单用户标识信息的黑名单数据库、用于存储白名单用户标识信息的白名单数据库、以及用于存储垃圾语音声纹特征的垃圾语音声纹特征库，所述的过滤系统还包括：

语音数据获取单元，用于获取语音数据包；

发送方标识提取单元，用于提取所述语音数据包中的发送方标识信息；

匹配单元，用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项；

声纹特征提取单元，用于在所述发送方标识信息在所述黑名单数据库和白名单数据库中不存在匹配项时，获取所述语音数据包的声纹特征；

声纹特征匹配单元，用于将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加单元；若未获得匹配项，则触发灰名单标识单元；

黑名单添加单元，用于将所述发送方标识信息添加至所述黑名单数据库中；

灰名单标识单元，用于对所述发送方标识信息添加灰名单标签。

优选的，所述语音数据获取单元包括用于接收并缓存语音数据包的缓存子单元，所述系统还包括：

转移单元，用于将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至接收方。

优选的，所述语音数据获取单元包括：

接收方请求子单元，用于向发送方发起语音数据获取请求；

发送方发送子单元，用于依据该请求向接收方发送语音数据包；

所述的系统还包括：

接收方接收单元，用于接收所述具有灰名单标签的发送方发送的语音数据包。

优选的，所述语音数据获取单元还包括：

计时子单元，用于在向发送方发起语音数据获取请求的同时启动计时器，监控是否超过预置时间阈值，若超过预置时间阈值，则触发黑名单添加单元。

优选的，所述的系统，还包括：

数据库更新单元，用于依据接收方的垃圾语音鉴别信息，将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。

优选的，所述的系统，还包括：

声纹特征库添加单元，用于提取所述黑名单数据库中发送方所发语音数据包的声纹特征，添加至垃圾语音声纹特征库。

优选的，所述的系统，还包括：

灰名单数据库，用于存储所述具有灰名单标签的发送方标识信息。

优选的，所述的系统，还包括：

过滤单元，用于在所述发送方标识信息在所述黑名单数据库存在匹配项时，过滤所述语音数据包；

保留单元，用于在所述发送方标识信息在所述白名单数据库存在匹配项时，接收所述语音数据包。

优选的，所述系统位于服务器端或客户端。

本发明实施例还公开了一种语音邮件系统，包括：

接口判断模块，用于接收并缓存语音邮件，并判断所述语音邮件的发送方是否为新用户，若是，则触发垃圾语音过滤组件；

所述垃圾语音过滤组件包括：

发送方标识提取模块，用于提取所述语音邮件中的发送方标识信息；

匹配模块，用于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项；

声纹特征提取模块，用于在所述发送方标识信息在所述黑名单用户列表和白名单用户列表中不存在匹配项时，获取所述语音数据包的声纹特征；

声纹特征匹配模块，用于将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加模块；若未获得匹配项，则触发灰名单标识模块；

黑名单添加模块，用于将所述发送方标识信息添加至所述黑名单用户列表中；

灰名单标识模块，用于对所述发送方标识信息添加灰名单标签。

优选的，所述的系统还包括老用户邮件处理组件，所述老用户邮件处理组件包括：

鉴别模块，用于在所述接口判断模块判断所述语音邮件的发送方为老用户时，鉴别所述老用户发送的语音邮件是否为垃圾邮件；如果是，则触发所述黑名单添加模块和声纹特征库添加模块；如果否，则触发白名单添加模块；

声纹特征库添加模块，用于提取所述老用户所发语音数据包的声纹特征，添加至垃圾语音声纹特征库。

白名单添加模块，用于将所述老用户的标识信息添加至所述白名单用户列表中。

优选的，所述的系统，还包括：

转移模块，用于将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至邮件接收方。

本发明实施例还公开了一种基于信令交互的垃圾语音过滤装置，包括：

接收方请求模块，用于向发送方发起语音数据获取请求；

发送方发送模块，用于依据该请求向接收方发送语音数据包；

发送方标识提取模块，用于提取所述语音数据包中的发送方标识信息；

匹配模块，用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项；

声纹特征提取模块，用于在所述发送方标识信息在所述黑名单数据库和白名单数据库中不存在匹配项时，获取所述语音数据包的声纹特征；

优选的，所述的装置，还包括：

与现有技术相比，本发明实施例具有以下优点：

首先，本发明通过对既不属于黑名单用户，也不属于白名单用户的发送方所发送的语音数据包进行声纹检测，判断是否为垃圾语音，从语音内容上对垃圾语音进行防范，提高垃圾语音的识别率，并能避免垃圾语音消息语义级别翻译所造成的复杂度，获得了实时的效果。

再者，本发明利用声纹特征的唯一性进行垃圾语音识别，能够有效防止基于身份伪造和篡改的垃圾语音攻击，具有更普遍的适用性和有效性。

此外，本发明的垃圾语音过滤可以在接收方接收语音数据包前过滤，也可以在接收方接收语音数据包后过滤，可以适用于实际中的各种应用情形，具有很好的通用性。

最后，本发明对于服务提供商来说，技术实现简单，无技术障碍，无特殊保密算法，成本和风险较低。

附图说明

图1是本发明的一种垃圾语音的过滤方法实施例1的流程图；

图2是本发明的一种垃圾语音的过滤方法实施例2的流程图；

图3是本发明的一种垃圾语音的过滤方法实施例3的流程图；

图4是本发明的一种垃圾语音的过滤方法实施例4的流程图；

图5是本发明的一种垃圾语音的过滤系统实施例1的结构框图；

图6是本发明的一种语音邮件系统实施例的结构框图；

图7是应用图6所示的优选实施例进行邮件处理的流程图；

图8是本发明的一种基于信令交互的垃圾语音过滤装置实施例的结构框图；

图9是应用图8所示的优选实施例进行垃圾语音过滤的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明实施例的核心构思之一在于，将IP语音的声纹特征过滤方式与改进的黑白名单控制机制相结合，来完成语音数据包的分类和处理。设计核心在于，在发送方既不属于黑名单用户，也不属于白名单用户的情况下，采用对其语音信息通过声纹特征提取及匹配的方法，对垃圾语音进行过滤，从垃圾语音的内容程度上对其进行防范。从而避免垃圾语音消息语义级别翻译所造成的复杂度，达到实时的效果。且利用声纹特征的唯一性，能够有效防止基于身份伪造和篡改的垃圾语音攻击，因此具有更普遍的适用性和有效性。

参考图1，示出了本发明的一种垃圾语音的过滤方法实施例1的流程图，可以包括以下步骤：

步骤101、获取语音数据包，提取所述语音数据包中的发送方标识信息；

步骤102、若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则获取所述语音数据包的声纹特征；

步骤103、将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则执行步骤104；若不存在匹配项，则执行步骤105；

步骤104、将所述发送方标识信息添加至所述黑名单数据库中；

步骤105、对所述发送方标识信息添加灰名单标签。

由于网络上可用的每种资源，例如，HTML文档、图像、视频片段、程序等，都可以通过一个通用资源标志符(Universal Resource Identifier，URI)进行定位，因而所述标识信息可以为URI。在这种情况下，所述黑名单数据库与白名单数据库可以由黑名单URI列表或白名单URI列表构成。在判断发送方标识信息在预置的黑名单数据库和白名单数据库中是否存在匹配项时，则可以判断邮件发送者的URI，是否全部或部分与黑名单URI列表和白名单URI列表中的某个URI匹配，如果是，则为存在匹配项；否则为不存在匹配项。当然，以上仅仅作为一种示例，本领域技术人员采用任一种用户标识信息按照任一匹配规则进行处理都是可行的，本发明对此无需作出限定。

如果发送方的标识信息在黑名单数据库中不存在匹配项，在白名单数据库中也不存在匹配项，则需要对该发送方所发送的语音数据包进行声纹检测。进行声纹检测的主要目的在于，判断该用户是否为已有的黑名单用户通过篡改、伪造呼叫用户URI的方式对被叫用户进行重复骚扰，从而避免这种伪造身份的用户首次呼叫的攻击。

所谓声纹(Voiceprint)，是用电声学仪器显示的、携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。声纹识别有两个关键问题，一是声纹特征提取，二是声纹模式匹配。

(一)声纹特征提取：

声纹特征提取的任务是提取并选择对语音数据的声纹具有可分性强、稳定性高等特性的声学或语言特征。该特征能有效地区分不同说话人的语音数据，且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和声纹识别系统性能的评价问题。目前主要对较低层次的声学特征进行识别。说话人特征大体归为以下几类：

1.基音轮廓、共振峰频率带宽及其轨迹。基于发声器官生理结构提取的特征参数。

2.谱包络参数。声音通过滤波器组输出，并以合适的速率对输出抽样作为声纹识别特征。

3，听觉特性参数。模拟人耳对声音频率感知特性而提出的，如美倒谱系数、感知线性预测等。

4.线性预测系数。线性预测与声道参数模型相符合，由它导出的各种参数，如反射系数、自相关系数、线性预测系数等作为识别特征，效果较好。

(二)声纹模式匹配：

目前常用的匹配方式包括：

1.矢量量化。通过把每个人的特定文本编成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。其识别精度较高，判断速度较快。

2.概率统计。考虑到短时间内声音信息相对平稳，通过对稳态特征如基音、声门增益、低队反射系数的统计分析，利用均值、方差等统计量和概率密度函数进行判决。其优点是不用对特征参量在时域上进行规整，适合文本无关的说话人识别。

3.动态时间规整。说话人声音信息既有稳定的因素如发声习惯、发声器官结构，又有时变的因素如请速、语调、重音、韵律等。将识别模板与参考模板进行时间对比，并按照某种距离测定得出两模板间的相似程度。常用方法是基于最近邻原则的动态对间规整DTW。

4.人工神经网络。这种分布式并行处理结构的网络模型在某种程度上模拟生物感知特性，具有自组织和自学习能力、很强的复杂分类边界区分能力，及对不完全信息的鲁棒性，其性能近似理想的分类器。缺点是训练时间长、动态时间规整能力弱，且网络规模可能随说话人数目增加到难以训练的程度。

5.隐马尔可夫模型。这种基于转移概率和传输概率的随机模型，最早被美国的IBM公司用于声音识别。它把声音看成由可观察到的符号序列组成的随机过程，该序列是发声系统状态序列的输出。识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。具体应用时，计算未知声音在状态转移过程中最大概率，根据最大概率对应的模型进行判决。它不需时间规整，可节约判决的计算时间和存储量。这是目前广泛采用的一种技术，其缺点是训练时的计算量较大。

优选的，本发明的声纹检测过程可以包括以下子步骤：

子步骤A1、提取语音数据包的声纹特征，所述声纹特征包括：线性预测倒谱系数LPCC以及美尔倒数谱MFCC。

具体地，序列的傅氏变换取复对数后的傅氏反变换结果称为复倒谱。如果将序列的傅氏变换的模取对数后再计算傅氏反变换，得到的序列称为原序列的倒谱(Cepstrum)。所述LPCC倒谱系数的提取过程为：

a1、将原始语音信号切割成多个独立帧(frame)；

a2、对每帧语音信号通过一阶高通滤波器进行预加重处理；

a3、将预加重后的取样值进行加窗处理，通常为对取样值乘以一个汉明窗；

a4、利用Durbin轮回程序求出线性预估系数LPC；

a5、利用线性预估系数求出倒频谱系数LPCC；

a6、计算差分LPCC；

a7、输出保存。

Mel倒谱是说话人识别中另一个最常用的声纹特征参量，其计算是基于语音信号的滤波器组分析。

所述Mel倒谱的提取过程为：

b1、原始语音信号s(n)经过预加重、分帧、加窗等处理，得到每个语音帧的时域信号x(n)；

b2、将时域信号x(n)后补若干0以形成长为N(一般取N＝512)的序列，然后经过离散傅立叶变换(DFT)后得到线性频谱X(k)，转换公式为：

X (k) = Σ_{n - 0}^{N - 1} x (n) e^{- j 2 πnk / N} (0 \leq n, k \leq N - 1);

b3、将上述线性频谱X(k)通过Mel频率滤波器组得到Mel频谱并通过对数能量的处理，得到对数频谱S(m)。

S (m) = \ln (Σ_{k = 0}^{M - 1} | X (k) | H_{m} (k)) (0 \leq m \leq M);

b4、将上述对数频谱S(m)经过离散余弦变换(DCT)变换到倒频谱域，即可得到Mel频率倒谱系数(MFCC参数)c(n)，

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (\frac{πn (m + 1 / 2)}{M}) (0 \leq m \leq M) .

子步骤A2、采用混合高斯模型GMM以及矢量量化(VQ)方法对上述声纹特征进行建模以及匹配。

具体地，基于矢量量化的声纹特征处理方法为：

矢量量化用于声纹识别，是将说话人的语音作为信源，利用矢量量化技术对其建模，由训练n维特征参数序列聚类，生成矢量量化码书，建立说话人和码书一一对应的关系；在辨别时，用所有的码书对测试的特征序列进行编码，计算平均失真进行比较，取失真最小的码书对应的说话人为辨别结果；在鉴别时，则取测试者声明的身份所对应的码书对测试特征序列进行失真度计算，与失真阈值比较，若大于则接受，否则拒绝。

例如，设X＝{x1，x2，...，xT}是灰名单用户的特征矢量，共有T帧。在训练阶段所形成的码书为：{B 1，B2，...，BN}(N表示黑名单用户数目)。则对于灰名单用户声纹匹配的具体步骤如下：

c1、设i＝1根据第i个码书Bi依据最小距离原则对X进行聚类，即求出：

\min_{m &Element; M} d (x_{j}, B_{m}^{j}),

其中j表示X中第j(j＝1，2，...，T)帧的特征向量，m表示第i个说话人的第m个码字，共有M个码字，d为欧氏距离测度。

c2、按照平均失真测度

D_{i} = \frac{1}{T} Σ_{j = 1}^{T} \min_{1 \leq m \leq M} [d (x_{j}, B_{m}^{j})]

计算X到第i个码书的平均失真距离Di。如果小于某一阈值，则予以确认，否则拒绝，执行步骤c3；

c3、i＝i+1，计算D(i+1)，直到i＝N，求出所有的D1，D2，...，DN。

本发明中使用的码书设计算法可以为LBG算法，LBG算法是一个迭代的算法，其基本思想是在每次迭代时都用最小距离准则对训练样本重新分类，使每次迭代后总的量化失真减小。例如，可以包括以下步骤：

Step1：设置量化失真阀值s、初始量化失真d(o)及最大迭代次数Max以及码字初值C_j(0)(j=1，...，M)；

Step2：设迭代次数m＝1；

Step3：以码字为中心，根据最近邻准则将Y分成M类S₁ ^(m)，...，S_M ^(m)，若

d (yi, C_{j}^{(m)}) \leq d (yi, C_{k}^{(m)}) &ForAll; k &NotEqual; j

则把yi归入S_j ^(m)，且

d_{i} = d (y_{i}, C_{j}^{(m)});

其中，上标m表示迭代次数。距离d(.)表示某种距离度量，一般可以采用欧氏距离。

Step4：计算总量化失真d；

Step5：计算量化失真改进量Δd^(m)的相对值，其中

δ^{(m)} = \frac{{Δd}^{(m)}}{d^{(m)}} = \frac{| d^{(m)} - d^{(m - 1)} |}{d^{(m)}} .

基于混合高斯模型的声纹特征处理方法为：

在基于GMM的说话人识别系统中，训练阶段首先用高斯混合模型为系统中的每个说话人建立概率模型；在识别阶段，利用系统中所有人的GMM模型计算待识别矢量集的对数似然函数，根据最大似然准则作出判决。基于GMM模型的说话人辨识系统结构框图如图5所示。

GMM以M个垃圾语音发送者的密度函数的加权和表示，

p (X | λ) = Σ_{i = 1}^{M} a_{i} b_{i} (X); Σ_{i = 1}^{M} a_{i} = 1 .

其中X是D维随机向量，b_i(X)表示为成员密度；a_i表示混合权重。每个成员密度是一个D维变量的高斯分布函数，为

b_{i} (X) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - u_{i})}^{t} Σ_{i}^{- 1} (x - u_{i})} .

训练阶段首先用高斯混合模型为系统中的每个说话人建立概率模型；在识别阶段，利用系统中所有人的GMM模型计算待识别矢量集的对数似然函数，根据最大似然准则作出判决。

d1、将原始声音信号经过声纹特征提取得到声纹特征序列X；

d2、将声纹特征序列X输入混合高斯模型GMM中，寻找黑名单用户i^*，其对应的模型λ_i ^* ，可以使待测语音特征矢量组X具有最大后验概率p(λ_i|X)，且该最大后验概率大于门限值，则判定为垃圾语音发送者。

当然，本领域技术人员采用任一种声纹检测的方法都是可行的，本发明对此不作限制。

当检测出声纹特征在预置的垃圾语音声纹特征库中存在匹配项时，则可以判定该发送方属于黑名单用户，所以需要将所述发送方标识信息添加至黑名单数据库中；当检测出声纹特征在预置的垃圾语音声纹特征库中不存在匹配项时，则可以判定该发送方发送的是有效信息，但对于其是否为白名单用户，最好是由经过进一步鉴别后再将其添加至白名单数据库，所以暂时只对该发送方标识信息添加灰名单标签。

可以理解，所述垃圾语音声纹特征库中至少包含所有黑名单用户发送过的语音数据包的声纹特征。在这种情况下易于得知，所述垃圾语音声纹特征库的生成和更新方法可以为：提取所述黑名单数据库中发送方所发语音数据包的声纹特征，添加至垃圾语音声纹特征库。

优选的，在本实施例中，还可以依据接收方的垃圾语音鉴别信息，将所述具有灰名单标签的发送方标识信息添加至黑名单数据库或白名单数据库。本实施例可以应用于对具有灰名单标签的发送方用户进一步鉴别的情形，例如，尽管当前发送方用户依据上述流程被添加灰名单标签，但接收方用户仍认为其发送的内容是不想要获得的内容，那么，则可以判定该发送方是垃圾语音发送方，在这种情况下，就将该发送方URI添加至黑名单数据库；反之，在用户鉴别当前发送方用户为合法语音发送方的情况下，就可以将发送方URI添加至白名单数据库。简而言之，本发明还可以依据用户针对具有灰名单标签的发送方标识信息的，垃圾语音发起者或合法语音发起者的鉴别，将相应的发送方标识信息添加至黑名单数据库或白名单数据库中。

优选的是，在将垃圾语音发起者的发送方标识信息添加至黑名单数据库的同时，还可以提取其所发送语音数据包的声纹特征，添加至垃圾语音声纹特征库，以实时更新所述垃圾语音声纹特征库。

参考图2，示出了本发明的一种垃圾语音的过滤方法实施例2的流程图，可以包括以下步骤：

步骤201、获取语音数据包，提取所述语音数据包中的发送方标识信息；

在实际中，所述语音数据包的获取为可以从VoIP网络中实时获取。

步骤202、判断所述发送方标识信息在所述黑名单数据库是否存在匹配项，如果是，则执行步骤203；如果否，则执行步骤204；

步骤203、过滤所述语音数据包；

步骤204、判断所述发送方标识信息在所述白名单数据库是否存在匹配项；如果是，则执行步骤205；如果否，则执行步骤206；

步骤205、接收所述语音数据包；

步骤206、获取所述语音数据包的声纹特征；

步骤207、将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则执行步骤208；若不存在匹配项，则执行步骤209；

步骤208、将所述发送方标识信息添加至所述黑名单数据库中；

步骤209、对所述发送方标识信息添加灰名单标签。

参考图3，示出了本发明的一种垃圾语音的过滤方法实施例3的流程图，可以包括以下步骤：

步骤301、接收并缓存语音数据包，提取所述语音数据包中的发送方标识信息；

步骤302、若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则获取所述语音数据包的声纹特征；

步骤303、将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则执行步骤304；若不存在匹配项，则执行步骤305；

步骤304、将所述发送方标识信息添加至所述黑名单数据库中；

步骤305、对所述发送方标识信息添加灰名单标签；

步骤306、将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至接收方。

其中，所述接收方标识信息可以从所述语音数据包中获得，在实际中，为满足传输需求，语音数据包中都会包含相应的发送方和接收方的标识信息。

参考图4，示出了本发明的一种垃圾语音的过滤方法实施例4的流程图，可以包括以下步骤：

步骤401、接收方向发送方发起语音数据获取请求，发送方依据该请求向接收方发送语音数据包；

步骤402、从所述语音数据包中提取发送方标识信息，判断所述发送方标识信息在预置的黑名单数据库和白名单数据库中是否存在匹配项；若所述发送方标识信息在所述黑名单数据库存在匹配项，则过滤所述语音数据包；若所述发送方标识信息在所述白名单数据库存在匹配项，则接收所述语音数据包；若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则执行步骤403；

步骤403、获取所述语音数据包的声纹特征；

步骤404、将所述声纹特征在预置的垃圾语音声纹特征库中进行匹配，若存在匹配项，则执行步骤405；若不存在匹配项，则执行步骤406；

步骤405、将所述发送方标识信息添加至所述黑名单数据库中；

步骤406、对所述发送方标识信息添加灰名单标签；

步骤407、所述接收方接收所述具有灰名单标签的发送方发送的语音数据包。

优选的，本实施例还可包括以下步骤：

接收方在向发送方发起语音数据获取请求的同时启动计时程序，监控是否超过预置时间阈值；若超过预置时间阈值，则执行步骤405。

在本发明的方法实施例中，还可以包括将所述具有灰名单标签的发送方标识信息整理至灰名单数据库中的步骤，以便于后续应用。

需要说明的是，在本发明的实施例中，对各个实施例的描述都各有侧重，每个实施例重点说明的都是与其他实施例的不同之处，某个实施例中没有详述的部分，参见其他实施例的相关描述即可。再者，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参考图5，示出了本发明的一种垃圾语音的过滤系统实施例1的结构框图，所述过滤系统可以包括用于存储黑名单用户标识信息的黑名单数据库、用于存储白名单用户标识信息的白名单数据库和用于存储垃圾语音声纹特征的垃圾语音声纹特征库，所述的过滤系统还可以包括以下单元：

语音数据获取单元501，用于获取语音数据包；

发送方标识提取单元502，用于提取所述语音数据包中的发送方标识信息；

黑白名单匹配单元503，用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项；

声纹特征提取单元504，用于在所述发送方标识信息在所述黑名单数据库和白名单数据库中不存在匹配项时，获取所述语音数据包的声纹特征；

可以理解的是，若所述发送方标识信息在所述黑名单数据库和白名单数据库中存在匹配项时，还可以按照现有技术中的黑/白名单处理机制进行处理，本发明对此不作限制。

声纹特征匹配单元505，用于将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加单元506；若未获得匹配项，则触发灰名单标识单元507；

黑名单添加单元506，用于将所述发送方标识信息添加至所述黑名单数据库中；

灰名单标识单元507，用于对所述发送方标识信息添加灰名单标签。

应用所述系统实施例1进行垃圾语音过滤的过程可以对应前述方法实施例1的描述，在此就不赘述了。

作为本发明的一种垃圾语音的过滤系统实施例2，所述语音数据获取单元可以包括用于接收并缓存语音数据包的缓存子单元，在这种情况下，所述系统还可以包括以下单元：

应用所述系统实施例2进行垃圾语音过滤的过程可以对应前述方法实施例3的描述，在此就不赘述了。

作为本发明的一种垃圾语音的过滤系统实施例3，所述语音数据获取单元可以包括以下子单元：

接收方请求子单元，用于向发送方发起语音数据获取请求；

在这种情况下，所述的系统还可以包括接收方接收单元，用于接收所述具有灰名单标签的发送方发送的语音数据包。

在本实施例3中，所述语音数据获取单元还可以包括：

应用所述系统实施例3进行垃圾语音过滤的过程可以对应前述方法实施例4的描述，在此就不赘述了。

优选的，在本发明的系统实施例中，还可以包括以下单元：

和/或，

在实际应用中，可以所述系统设置于服务器端，也可以设置于客户端，本发明对此不作限制。

对于系统实施例而言，由于其基本相应于方法实施例，所以描述的比较简单，相关之处可以参见方法实施例的部分说明。本领域技术人员易于想到的是：上述实施例中相应单元的任意组合应用都是可行的，都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

参考图6，示出了本发明的一种语音邮件系统实施例的结构框图，可以包括以下模块：

接口判断模块601，用于接收并缓存语音邮件，并判断所述语音邮件的发送方是否为新用户，若是，则触发垃圾语音过滤组件602；

所述垃圾语音过滤组件可以包括：

黑白名单匹配模块，用于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项；

优选的，所述语音邮件系统还可以包括老用户邮件处理组件603，所述老用户邮件处理组件可以包括以下模块：

优选的，所述语音邮件系统还可以包括转移模块，用于将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至邮件接收方。

在实际中，可以将所述垃圾语音过滤组件作为插件添加至服务器中，从而实现对灰名单用户所发送语音邮件的声纹检测，从内容级别上对垃圾语音邮件进行防范。再者，应用本实施例的服务器还可以根据鉴别模块的处理对于语音邮件的反馈，提供垃圾语音声纹库与黑白名单的修改。优选的，所述鉴别模块可设置在邮箱客户端。

可以看出，所述语音邮件系统中定义了两种消息，第一种为新用户发送的语音邮件的提示信息，如果邮件系统接收到新用户发送的语音邮件，则调用垃圾语音过滤组件进行处理；如果邮件系统接收到老用户发送的语音邮件，则调用老用户处理组件进行处理。参考图7，示出了应用图6所示的优选实施例进行邮件处理的流程图，具体可以包括以下步骤：

步骤701、接口判断模块接收并缓存语音邮件，并判断所述语音邮件的发送方是否为新用户，若是，则触发垃圾语音过滤组件执行步骤702-708；若否，则触发鉴别模块执行步骤709-711；

步骤702、发送方标识提取模块提取所述语音邮件中的发送方标识信息和接收方标识信息；

步骤703、黑白名单匹配模块于判断所述发送方标识信息在所述黑名单用户列表和白名单用户列表中是否存在匹配项；若所述发送方标识信息在所述黑名单数据库存在匹配项，则过滤所述语音数据包；若所述发送方标识信息在所述白名单数据库存在匹配项，则接收所述语音数据包；若所述发送方标识信息在预置的黑名单数据库和白名单数据库中不存在匹配项，则执行步骤704；

步骤704、声纹特征提取模块获取所述语音数据包的声纹特征；

步骤705、声纹特征匹配模块将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加模块执行步骤706；若未获得匹配项，则触发灰名单标识模块执行步骤707；

步骤706、黑名单添加模块将所述发送方标识信息添加至所述黑名单用户列表中；

步骤707、灰名单标识模块对所述发送方标识信息添加灰名单标签。

步骤708、转移模块将所述具有灰名单标签的发送方标识信息发送的语音数据包，从缓存转移至邮件接收方。

鉴别模块主要通过对发送语音邮件的老用户进行鉴别，从而对已有的黑白灰名单用户以及垃圾语音声纹特征库进行修改。

步骤709、鉴别模块鉴别所述老用户发送的语音邮件是否为垃圾邮件；如果是，则触发所述黑名单添加模块和声纹特征库添加模块执行步骤710；如果否，则触发白名单添加模块执行步骤711；

步骤710、黑名单添加模块将所述老用户的标识信息添加至所述黑名单用户列表中，声纹特征库添加模块提取所述老用户所发语音数据包的声纹特征，添加至垃圾语音声纹特征库；

步骤711、白名单添加模块将所述老用户的标识信息添加至所述白名单用户列表中。

采用本发明的语音邮件系统，可以有效防止通过篡改、伪造发送方URI方式的垃圾语音邮件的传播，由于在垃圾语音声纹特征库中添加了所有被识别为垃圾语音的声纹特征，因此，仅通过更改发送方URI方式的垃圾语音邮件将无法达到垃圾语音传播的目的。并且，所述语音邮件系统实施例还可以应用于客户端，从而到达更细粒度级别上的垃圾语音防范。

基于声纹信息的唯一性，本发明还可以通过将声纹鉴别引入信令交互流程，达到从源头上防范垃圾语音传播的目的。参考图8，示出了本发明的一种基于信令交互的垃圾语音过滤装置实施例的结构框图，由于信令交互过程中并没有发送方的多媒体数据流，因此，在判断发送方URI时，需要在声纹特征获取过程中向发送方发起声纹获取请求，等待发送方发送含有IP语音的数据包后，再进行声纹特征提取，具体可以包括以下模块：

接收方请求模块801，用于向发送方发起语音数据获取请求；

发送方发送模块802，用于依据该请求向接收方发送语音数据包；

发送方标识提取模块803，用于提取所述语音数据包中的发送方标识信息；

黑白名单匹配模块804，用于判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项；

声纹特征提取模块805，用于在所述发送方标识信息在所述黑名单数据库和白名单数据库中不存在匹配项时，获取所述语音数据包的声纹特征；

声纹特征匹配模块806，用于将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加模块807；若未获得匹配项，则触发灰名单标识模块808；

黑名单添加模块807，用于将所述发送方标识信息添加至所述黑名单数据库中；

灰名单标识模块808，用于对所述发送方标识信息添加灰名单标签。

优选的，在本实施例中，还可以包括：

在实施例，所述装置可以设置于服务器端。

参考图9，示出了应用图8所示的优选实施例进行垃圾语音过滤的流程图，具体可以包括以下步骤：

步骤9011、接收方请求模块向发送方发起语音数据获取请求，并执行步骤9012；

步骤9012、通过计时子单元在向发送方发起语音数据获取请求的同时启动计时器，监控是否超过预置时间阈值，若超过预置时间阈值，则直接触发黑名单添加单元执行步骤907；

步骤902、发送方发送模块依据该请求向接收方发送语音数据包；

步骤903、发送方标识提取模块提取所述语音数据包中的发送方标识信息；

步骤904、黑白名单匹配模块判断所述发送方标识信息在所述黑名单数据库和白名单数据库中是否存在匹配项，如果不存在，则触发声纹特征提取模块执行步骤905；

步骤905、声纹特征提取模块获取所述语音数据包的声纹特征；

步骤906、声纹特征匹配单元将所述声纹特征在所述垃圾语音声纹特征库中进行匹配，若获得匹配项，则触发黑名单添加单元执行步骤907；若未获得匹配项，则触发灰名单标识单元执行步骤908；

步骤907、黑名单添加单元将所述发送方标识信息添加至所述黑名单数据库中；

步骤908、灰名单标识单元对所述发送方标识信息添加灰名单标签；

步骤909、接收方接收单元接收所述具有灰名单标签的发送方发送的语音数据包。

本说明书中的各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、装置或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、装置或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、装置或者系统中还存在另外的相同要素。

以上对本发明所提供的一种垃圾语音过滤的方法、一种垃圾语音过滤的系统、一种语音邮件系统及一种基于信令交互的垃圾语音过滤装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种垃圾语音的过滤方法，其特征在于，包括：

2、如权利要求1所述的方法，其特征在于，所述获取语音数据包为接收并缓存语音数据包，所述的方法还包括：

3、如权利要求1所述的方法，其特征在于，所述获取语音数据包的步骤包括：接收方向发送方发起语音数据获取请求，发送方依据该请求向接收方发送语音数据包；

所述的方法还包括：

4、如权利要求3所述的方法，其特征在于，所述获取语音数据包的步骤还包括：接收方在向发送方发起语音数据获取请求的同时启动计时程序，监控是否超过预置时间阈值；

所述的方法还包括：

5、如权利要求1、2或3所述的方法，其特征在于，还包括：

6、如权利要求5所述的方法，其特征在于，还包括：

7、如权利要求1所述的方法，其特征在于，所述语音数据包的获取为从VoIP网络中实时获取。

8、如权利要求1所述的方法，其特征在于，还包括：

所述具有灰名单标签的发送方标识信息形成灰名单数据库。

9、如权利要求1所述的方法，其特征在于，还包括：

10、一种垃圾语音的过滤系统，其特征在于，所述过滤系统包括用于存储黑名单用户标识信息的黑名单数据库、用于存储白名单用户标识信息的白名单数据库、以及用于存储垃圾语音声纹特征的垃圾语音声纹特征库，所述的过滤系统还包括：

语音数据获取单元，用于获取语音数据包；

11、如权利要求10所述的系统，其特征在于，所述语音数据获取单元包括用于接收并缓存语音数据包的缓存子单元，所述系统还包括：

12、如权利要求10所述的系统，其特征在于，所述语音数据获取单元包括：

接收方请求子单元，用于向发送方发起语音数据获取请求；

所述的系统还包括：

13、如权利要求12所述的系统，其特征在于，所述语音数据获取单元还包括：

14、如权利要求10、11或12所述的系统，其特征在于，还包括：

15、如权利要求14所述的系统，其特征在于，还包括：

16、如权利要求10所述的系统，其特征在于，还包括：

17、如权利要求10所述的系统，其特征在于，还包括：

18、如权利要求10所述的系统，其特征在于，所述系统位于服务器端或客户端。

19、一种语音邮件系统，其特征在于，包括：

所述垃圾语音过滤组件包括：

20、如权利要求19所述的系统，其特征在于，还包括老用户邮件处理组件，所述老用户邮件处理组件包括：

声纹特征库添加模块，用于提取所述老用户所发语音数据包的声纹特征，添加至垃圾语音声纹特征库；

21、如权利要求19所述的系统，其特征在于，还包括：

22、一种基于信令交互的垃圾语音过滤装置，其特征在于，包括：

接收方请求模块，用于向发送方发起语音数据获取请求；

23、如权利要求22所述的装置，其特征在于，还包括：

24、如权利要求23所述的装置，其特征在于，还包括：