CN108234485B

CN108234485B - 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统

Info

Publication number: CN108234485B
Application number: CN201711488505.7A
Authority: CN
Inventors: 李涛; 姚稳; 周文财; 封期冬; 蒋超强; 唐荔; 莫嘉宝
Original assignee: Centnet Technologies Co ltd
Current assignee: Centnet Technologies Co ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2020-09-01
Anticipated expiration: 2037-12-30
Also published as: CN108234485A

Abstract

本发明涉及通话安全技术领域，特别涉及基于VOIP平台的诈骗声纹获取装置以及利用该装置来拦截诈骗电话的方法、系统，对于基于VOIP平台的诈骗声纹获取装置以及利用该装置来拦截诈骗电话的方法，可以通过建立功能模块，组合成功能模块构架，由存储在计算机可读存储介质中的计算机程序来实施。通过上述基于VOIP平台的诈骗声纹获取装置可以准确获取诈骗分子的声纹特征，基于该装置获取的声纹信息构建声纹库，利用不同人的声纹是唯一的特性，就可以对通话中是否有诈骗分子进行识别，通过声纹来识别诈骗分子的方法比其他的诈骗分子识别方法要更准确而且识别的模型更简单，可以实现更方便有效的诈骗电话拦截。

Description

基于VOIP平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统

技术领域

本发明涉及通话安全技术领域，特别涉及基于VOIP平台的诈骗声纹获取装置以及利用该装置来拦截诈骗电话的方法、系统，对于基于VOIP平台的诈骗声纹获取装置以及利用该装置来拦截诈骗电话的方法，可以通过建立功能模块，组合成功能模块构架，由存储在计算机可读存储介质中的计算机程序来实施。

背景技术

VoIP即网络电话或IP电话，是指将模拟的声音讯号引经过压缩与封包之后，以数据封包的形式在IP网络进行语音讯号的传输的通信方式。由于VoIP网络电话可以在互联网环境下进行免费的或是资费很低的语音、传真、视频和数据传送等业务，在方便正常通信的同时，也使得利用VoIP网络电话进行诈骗的行为频繁发生。而目前的诈骗电话拦截主要基于警方的报警信息，或者一些常规的语音、话单判断方法，存在诈骗识别成功率较低的问题。

发明内容

本发明的目的在于：准确获取诈骗分子的声纹特征，提供更方便有效的诈骗电话拦截方法及系统。

提供基于VOIP平台的诈骗声纹获取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时依次实现如下步骤：

步骤S1，获取网络数据包，预先设有与实时传送协议相匹配的过滤条件，判断网络数据包的报文的结构特征是否满足过滤条件，根据判断结果得到基于实时传送协议的RTP声纹数据；

步骤S2，对上述RTP声纹数据进行分流处理，对其中属于同一通话的RTP声纹数据进行相同的分流处理；

步骤S3，对分流处理后的RTP声纹数据做抖动处理和解码还原处理，得到PCM格式的PCM声纹数据；

步骤S4，根据通话的话单数据判断该通话是否为诈骗电话；

步骤S5，若判断通话为诈骗电话，则识别该通话中的诈骗行为发起方，标记与该诈骗行为发起方对应的PCM声纹数据为诈骗分子声纹。

优选地，在步骤S1中，过滤条件包括以下条件中的一个或多个，若判断结果都为是则拒绝该网络数据包：

a)判断报文负载数据长度是否小于或等于12字节；

b)判断报文首部的第一个字节中的第7比特位是否为1、第8比特为是否为0，若其中一项不符合则判断结果为是；

c)判断报文首部的第一个字节中的第6比特位是否为1，如果是，把有效负载的最后一个字节数据加上12，然后拿该加上12后的最后一个字节数据和有效负载长度做比较，如果前者大于后者则判断结果为是；

d)把报文首部的第一个字节中的第1～4比特位数据左移两位，再加上12，记计算结果为r1，然后拿r1和负载长度做比较，如果前者大于后者则判断结果为是；

e)判断报文首部的第一个字节中的第5比特位是否为1，如果是，拿d)中的r1加上4的结果和负载长度做比较，如果前者大于后者则判断结果为是；

f)如果e)中前者小于或等于后者，获取报文首部的第r1+2字节的前两字节的数据，计为r2，用r2加上r1，再加4，拿上述计算的结果与负载长度做比较，如果前者大于后者则判断结果为是。

优选地，在步骤S2中，基于四元组哈希对称算法对上述RTP报文数据进行分流处理，该四元组哈希对称算法的对称哈希值通过如下步骤获取：

数据转换步骤，把四元组共12个字节数据每两相邻依次存放在12字节缓冲区中，通过左移、异或、取模中的一种或者多种运算方式把12字节数据转换为4字节数据A；

数据对调步骤，把四元组共12个字节数据对称调换后执行数据转换步骤，得到4字节数据B；

哈希值计算步骤，把数据转换步骤和数据对调步骤得到的4字节数据A、B相加得到32位数据，对这个32位数据的高16位和低16位进行异或运算得到该网络四元组的对称哈希值。

优选地，在步骤S3中，抖动处理包括如下步骤：

缓冲池初始化步骤，初始化抖动处理缓冲池，其设有N1个均包括缓存队列、排序队列和结果队列的抖动缓冲处理单元，缓存队列默认初始化入队N2个动态分配的内存单元，排序队列、结果队列初始化为空；

处理单元分配步骤，把新流入抖动处理缓冲池的RTP声纹数据分配给一个空闲状态的抖动缓冲处理单元J1，把该抖动缓冲处理单元J1标记为忙碌状态；

数据拷贝步骤，抖动缓冲处理单元J1的缓存队列出队，把RTP声纹数据拷贝至出队的存储单元中；

排序步骤，如果抖动缓冲处理单元J1的排序队列为空，直接入队；如果抖动缓冲处理单元J1的排序队列不为空，从抖动缓冲处理单元J1的排序队列尾部到头部，找到比当前存储单元中的RTP声纹数据的时间戳要小的已入队的缓存结点，把当前存储单元插入到此结点之后；

结算步骤，如果抖动缓冲处理单元J1的排序队列长度到达预设的上限L1，L1<N2，抖动缓冲处理单元J1的排序队列从头部出队，并把出队的存储单元从尾部插入J1的结果队列中；如果抖动缓冲处理单元J1的结果队列长度到达预设的上限L2＝N2-L1，立即出队J1的排序队列所有结点并入队抖动缓冲处理单元J1的结果队列；

处理单元回收步骤，每处理抖动缓冲处理单元J1的结果队列中的一个结点立即入队回收到抖动缓冲处理单元J1的存储队列，如果抖动缓冲处理单元J1的存储队列长度为N2，则标记抖动缓冲处理单元J1为空闲状态。

优选地，在处理单元分配步骤中，如果当前没有标记为空闲状态的抖动缓冲处理单元，则自动拓展抖动处理缓冲池来增加N1个抖动缓冲处理单元，然后从新增加的N1个抖动缓冲处理单元中返回一个作为抖动缓冲处理单元J1。

优选地，把自动拓展抖动处理缓冲池来增加的N1个抖动缓冲处理单元定义为增加组，如果该增加组的所有抖动缓冲处理单元都为空闲状态，则释放回收该组所有缓存。

优选地，步骤S4中的话单数据包括以下数据中的一个或者多个：主叫号码、被叫号码、终端标识、通话时长、通话起始时间、通话结束时间。

还提供基于VOIP平台的诈骗声纹获取装置来拦截诈骗电话的方法，包括如下步骤：

声纹库构建步骤，根据上述任意一项获取的诈骗分子声纹构建诈骗声纹库；

声纹比对步骤，把比较当前通话的音频的声纹与诈骗声纹库中存储的诈骗分子声纹相比较；

诈骗电话判断步骤，若诈骗声纹库中存在与当前通话的音频的声纹相匹配的声纹，则判断当前通话为诈骗电话。

对于上述基于VOIP平台的诈骗声纹获取装置来拦截诈骗电话的方法，可以通过建立功能模块，组合成功能模块构架，由存储在计算机可读存储介质中的计算机程序来实施。

该基于VOIP平台的诈骗声纹获取装置来拦截诈骗电话的方法通过具有功能模块构架，能够录入实施该功能模块构架的计算机程序的系统来实现。

通过上述基于VOIP平台的诈骗声纹获取装置可以准确获取诈骗分子的声纹特征，基于该装置获取的声纹信息构建声纹库，利用不同人的声纹是唯一的特性，就可以对通话中是否有诈骗分子进行识别，通过声纹来识别诈骗分子的方法比其他的诈骗分子识别方法要更准确而且识别的模型更简单，可以实现更方便有效的诈骗电话拦截。

具体实施方式

为了实现对诈骗电话的拦截，先获取的诈骗分子声纹构建诈骗声纹库，在判断一则通话中是否有诈骗分子参与时，把比较当前通话的音频的声纹与诈骗声纹库中存储的诈骗分子声纹相比较，如果诈骗声纹库中存在与当前通话的音频的声纹相匹配的声纹，则判断有诈骗分子参与了该通话，当前通话为诈骗电话。

在构建诈骗声纹库时，一方面可以存储公安机关采集的诈骗分子的声纹，另一方面可以通过基于VOIP平台的诈骗声纹获取方法获取声纹：在国家关口局主干网或者是省级主干网上部署基于VOIP平台的诈骗声纹获取装置，先排除网络上大量的非VOIP相关的网络数据包，留下对声纹捕捉和还原有用的数据包；然后对RTP声纹数据进行分流处理，最后在送入声纹数据提取和还原单元进行处理，并且基于已有的诈骗电话识别方法，判断该通话是否为诈骗电话，在当前通话是诈骗电话的基础上，再把与该通话中的诈骗分子对应的PCM声纹数据标记为诈骗分子声纹，存储到诈骗声纹库里。

基于VOIP平台的诈骗声纹获取方法的具体步骤如下：

步骤S1，获取网络数据包，预先设有与实时传送协议相匹配的过滤条件，判断网络数据包的报文的结构特征是否满足所述过滤条件，根据判断结果得到基于实时传送协议的RTP声纹数据。

步骤S2，对上述RTP声纹数据进行分流处理，对其中属于同一通话的RTP声纹数据进行相同的分流处理。系统部署采用集群的方式来处理海量的VoIP数据，考虑到负载均衡的特性，针对网络四元组采用随机性的四元组哈希对称算法，把VoIP数据流量分流到不同的主机上网口上，其中属于同一通话的RTP媒体数据都会在同一台主机上做处理。并且，使用传统方法在网卡捕获数据很容易出现大量丢包的情况，该系统使用Intel 82576芯片系列的网卡，采用PF_RING NAPI技术，可高速捕获经过网卡的网络数据；另外，普通网卡接受网络数据包采用硬件中断的方式，而系统网卡使用多个缓存队列采用软件轮训的方式接受数据包，并且将多个缓存队列分别映射到不同的CPU核上做读写处理，极大的提高I/O数据吞吐量，提升了处理速度。

步骤S3，对分流处理后的RTP声纹数据做抖动处理和解码还原处理，得到PCM格式的PCM声纹数据。使用队列缓存声纹数据四元组对称的两路RTP流直到通话结束，另外，由于网络原因，接受到的声纹网络分片包可能乱序，所以需要对接受的媒体数据做抖动处理。抖动处理后，对RTP声纹数据做解码还原：将已经完成抖动处理的RTP缓存数据结点依次出队，通过RTP的PT值判断RTP声纹数据采用的压缩格式，然后根据压缩格式进行解压编码，还原出PCM流，再把还原的PCM格式的声纹数据依序追加写入内存缓冲区中。最后，还可以通过归一化混音算法进行混音处理，把互相通话的主叫和被叫各自的声纹数据使用的RTP流合成同一路流。把这些RTP流的数据按wav文件格式保存，就可以得到诈骗分子声纹。

步骤S4，根据通话的话单数据判断该通话是否为诈骗电话。

其中，在步骤S1中，过滤条件包括以下条件中的一个或多个，若判断结果都为是则拒绝该网络数据包：

a)判断报文负载数据长度是否小于或等于12字节。由于RTP报文头部长度为12字节，如果报文负载长度小于或等于12字节，则说明报文一定不是RTP报文。

b)判断报文首部的第一个字节中的第7比特位是否为1、第8比特为是否为0，若其中一项不符合则判断结果为是。假设此报文是RTP包，判断RTP协议版本号是否为2，目前RTP协议版本都使用此版本，如果不为2，则不是RTP报文。

c)判断报文首部的第一个字节中的第6比特位是否为1，如果是，把有效负载的最后一个字节数据加上12，然后拿该加上12后的最后一个字节数据和有效负载长度做比较，如果前者大于后者则判断结果为是。假设此报文是RTP包，判断RTP报文是否有填充数据，如果有，在不包含RTP负载的媒体数据长度的情况下，判断填充数据长度与RTP报文头部长度之和是否超过整个RTP报文长度，如果是，则该报文不是RTP包。

d)把报文首部的第一个字节中的第1～4比特位数据左移两位，再加上12，记计算结果为r1，然后拿r1和负载长度做比较，如果前者大于后者则判断结果为是。假设此报文是RTP包，在不包含RTP负载的媒体数据长度的情况下，判断RTP报文CSRC项长度与RTP报文首部长度之和是否超过RTP报文整个长度，如果是，则该报文不是RTP包。

e)判断报文首部的第一个字节中的第5比特位是否为1，如果是，拿d)中的r1加上4的结果和负载长度做比较，如果前者大于后者则判断结果为是；f)如果e)中前者小于或等于后者，获取报文首部的第r1+2字节的前两字节的数据，计为r2，用r2加上r1，再加4，拿上述计算的结果与负载长度做比较，如果前者大于后者则判断结果为是。假设此报文是RTP包，如果RTP固定头部包含拓展头部，在不包含RTP负载的媒体数据长度的情况下，判断RTP拓展头部长与RTP报文首部长度之和是否超过RTP报文整个长度，如果是，则该该报文不是RTP包。

其中，在步骤S2中，基于四元组哈希对称算法对上述RTP报文数据进行分流处理，该四元组哈希对称算法的对称哈希值通过如下步骤获取：

由于绝大部分VoIP数据是由UDP协议传输，和网络五元组计算哈希值算法相比，该四元组哈希对称算法不包含三层协议类型，在计算哈希值时，减少了计算量而减少系统时间开销。并且，在计算对称哈希值时，该哈希算法完美支持对称性，同一则通话的上行数据和下行数据都会被分拣到同一通道，从而达到同源同宿的目的，不会造成数据混淆。该哈希算法计算的哈希值范围更宽，包含65536只哈希桶，一般系统内存开销都能满足，这样可以大大降低哈希冲突，从而提高系统查找数据效率。另外，该哈希算法采用大量位运算，可以在一定程度上提高运算效率。

其中，在步骤S3中，抖动处理包括如下步骤：

缓冲池初始化步骤，初始化抖动处理缓冲池，其设有N1＝64个均包括缓存队列、排序队列和结果队列的抖动缓冲处理单元，缓存队列默认初始化入队N2＝1024个动态分配的内存单元，该内存单元的大小为2KB，排序队列、结果队列初始化为空；

处理单元分配步骤，把新流入抖动处理缓冲池的RTP声纹数据分配给一个空闲状态的抖动缓冲处理单元J1，把该抖动缓冲处理单元J1标记为忙碌状态；如果当前没有标记为空闲状态的抖动缓冲处理单元，则自动拓展抖动处理缓冲池来增加N1个抖动缓冲处理单元，然后从新增加的N1个抖动缓冲处理单元中返回一个作为抖动缓冲处理单元J1。其中，把自动拓展抖动处理缓冲池来增加的N1个抖动缓冲处理单元定义为增加组，如果该增加组的所有抖动缓冲处理单元都为空闲状态，则释放回收该组所有缓存。

结算步骤，如果抖动缓冲处理单元J1的排序队列长度到达预设的上限L1＝50，L1<N2，抖动缓冲处理单元J1的排序队列从头部出队，并把出队的存储单元从尾部插入J1的结果队列中；如果抖动缓冲处理单元J1的结果队列长度到达预设的上限L2＝N2-L1，立即出队J1的排序队列所有结点并入队抖动缓冲处理单元J1的结果队列；

处理单元回收步骤，每处理抖动缓冲处理单元J1的结果队列中的一个结点立即入队回收到抖动缓冲处理单元J1的存储队列，如果抖动缓冲处理单元J1的存储队列长度为N2，则标记抖动缓冲处理单元J1为空闲状态，

其中，步骤S4中的话单数据包括以下数据中的一个或者多个：主叫号码、被叫号码、终端标识、通话时长、通话起始时间、通话结束时间。

对于基于上述VOIP平台的诈骗声纹获取来拦截诈骗电话的方法，可以通过建立功能模块，组合成功能模块构架，由存储在计算机可读存储介质中的计算机程序来实施。

该基于上述VOIP平台的诈骗声纹获取来拦截诈骗电话的方法通过具有功能模块构架，能够录入实施该功能模块构架的计算机程序的系统来实现。

通过上述基于VOIP平台的诈骗声纹获取装置可以准确获取诈骗分子的声纹特征，基于该装置还可以实现更方便有效的诈骗电话拦截。

Claims

1.基于VOIP平台的诈骗声纹获取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时依次实现如下步骤：

步骤S1，获取网络数据包，预先设有与实时传送协议相匹配的过滤条件，判断网络数据包的报文的结构特征是否满足所述过滤条件，根据判断结果得到基于实时传送协议的RTP声纹数据；

步骤S2，对上述RTP声纹数据进行分流处理，对其中属于同一通话的RTP声纹数据进行相同的分流处理，具体地，在步骤S2中，基于四元组哈希对称算法对上述RTP报文数据进行分流处理，该四元组哈希对称算法的对称哈希值通过如下步骤获取：

哈希值计算步骤，把数据转换步骤和数据对调步骤得到的4字节数据A、B相加得到32位数据，对这个32位数据的高16位和低16位进行异或运算得到该网络四元组的对称哈希值；

步骤S4，根据通话的话单数据判断该通话是否为诈骗电话；

2.根据权利要求1所述的基于VOIP平台的诈骗声纹获取装置，其特征在于，在步骤S1中，过滤条件包括以下条件中的一个或多个，若判断结果都为是则拒绝该网络数据包：

a)判断报文负载数据长度是否小于或等于12字节；

3.根据权利要求1所述的基于VOIP平台的诈骗声纹获取装置，其特征在于，在步骤S3中，抖动处理包括如下步骤：

4.根据权利要求3所述的基于VOIP平台的诈骗声纹获取装置，其特征在于，在处理单元分配步骤中，如果当前没有标记为空闲状态的抖动缓冲处理单元，则自动拓展抖动处理缓冲池来增加N1个抖动缓冲处理单元，然后从新增加的N1个抖动缓冲处理单元中返回一个作为抖动缓冲处理单元J1。

5.根据权利要求4所述的基于VOIP平台的诈骗声纹获取装置，其特征在于，把自动拓展抖动处理缓冲池来增加的N1个抖动缓冲处理单元定义为增加组，如果该增加组的所有抖动缓冲处理单元都为空闲状态，则释放回收该组所有缓存。

6.根据权利要求1所述的基于VOIP平台的诈骗声纹获取装置，其特征在于，步骤S4中的话单数据包括以下数据中的一个或者多个：主叫号码、被叫号码、终端标识、通话时长、通话起始时间、通话结束时间。

7.基于VOIP平台的诈骗声纹获取装置来拦截诈骗电话的方法，其特征在于，包括如下步骤：

声纹库构建步骤，根据权利要求1～6中任意一项获取的诈骗分子声纹构建诈骗声纹库；

8.基于VOIP平台的诈骗声纹获取来拦截诈骗电话的装置，其特征在于，包括如下模块：

声纹库构建模块，其根据权利要求1～6中任意一项获取的诈骗分子声纹构建诈骗声纹库；

声纹比对模块，其把比较当前通话的音频的声纹与诈骗声纹库中存储的诈骗分子声纹相比较；

诈骗电话判断模块，若诈骗声纹库中存在与当前通话的音频的声纹相匹配的声纹，则其判断当前通话为诈骗电话。

9.用于基于VOIP平台的诈骗声纹获取装置来拦截诈骗电话的系统，包括处理器，其特征在于，所述处理器执行权利要求7所述的拦截诈骗电话的方法，或者所述处理器具有权利要求8所述的拦截诈骗电话的装置。