CN103778917A

CN103778917A - 一种在电话满意度调查中检测身份冒充的系统与方法

Info

Publication number: CN103778917A
Application number: CN201410012277.6A
Authority: CN
Inventors: 李稀敏; 肖龙源
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2014-05-07
Anticipated expiration: 2034-01-10
Also published as: CN103778917B

Abstract

本发明提出一种在电话满意度调查中检测身份冒充的系统与方法，解决了以往电话满意度调查中身份冒充检测只能针对单通道电话语音进行检测且处理语音的方式比较粗糙，电话调查语音中存在噪音、回铃音等多种非有效语音等问题。本发明由待检测语音库101、预处理模块102、说话人语音分割模块103、调查对象声纹库104、声纹训练模块105、调查对象语音库106、验证语音选取模块107、调查对象验证语音库108、声纹验证模块109、得分统计分析模块110和检测报告生成模块111组成。利用声纹识别技术和说话人语音分割技术，检测身份冒充情况，并最终给出清晰可读的身份冒充检测报告，以反映在电话满意度调查中调查数据的真实性。

Description

一种在电话满意度调查中检测身份冒充的系统与方法

技术领域

本发明涉及声纹识别技术领域，特别是一种在电话满意度调查中检测身份冒充的系统与方法。

背景技术

在电话满意度调查中，存在调查对象以一充多的身份冒充情况，即调查对象A在不同的电话调查中，分别冒充了B、C、D等其他人的身份。这样的情况会直接影响调查数据的可信度，损害调查任务委托方的利益。以汽车用户满意度调查为例。汽车厂商在渠道管理方面的工作之一便是对经销商进行满意度调查，考核结果直接与经销商利益相关，因为考核分数高的话，厂商会给经销商适当的返利。而某些与经销商发生冲突或对经销商不满意的车主的调查会直接影响经销商在客户满意度方面的最终得分，所以经销商在给厂商的车主档案里会进行这样一些有意的回避或造假。经销商造假的方式之一便是指派一人接听不同电话接受厂商调查，以冒充那些发生冲突或者不满意车主的身份。

目前，市场上大部分调查公司仍在依靠人工审查录音记录来排查身份冒充问题，不仅费时费力，而且还难以确保排查结果的准确性。此外，在部分满意度调查案例中，由于涉及到的调查对象数目巨大，人工排查的方式已无法解决问题。

随着技术的发展，科学家已发现，人的声音跟人的指纹一样具有唯一性，而声音的这种唯一性特征，我们称之为“声纹”。声纹识别技术属于生物识别技术的一种，是一项根据语音波形中反应说话人生理和行为特征的语音参数，自动识别说话人身份的技术。声纹识别有两类，即说话人辨认和说话人确认。前者用以判断某段语音时若干人中的哪一个人所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如从多人中找到某个特定人时需要辨认技术，而做交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。我们能利用声纹识别技术从人的声音中识别人的身份信息，而一旦能够从人的声音中识别其身份信息，我们就能解决上述电话满意度调查中的身份冒充问题。

近年来，说话人语音分割技术也得到了快速发展，在对广播语音和会议语音的自动分类整理任务中，获得了良好的性能。所谓说话人语音分割，即在一段同时包含N个说话人的录音中，给出“谁在什么时候说话”的信息。说话人语音分割技术的发展，使得对多通道录音资料的处理成为可能。

目前市场上，已有部分软件系统基于声纹识别技术对电话满意度调查中的语音进行身份冒充检测，但是存在如下几个问题：

1、只能针对单通道电话语音进行检测。但是绝大多数电话录音系统都是进行双轨录音的，即录音文件中包含调查员与调查对象双方的语音。（所谓调查员，在本发明中是指电话满意度调查中主动发起电话调查的工作人员，其不作为身份冒充的检车对象；所谓调查对象，是指调查员调查的对象，也是身份冒充的检测对象。）

2、处理语音的方式比较粗糙，直接对整段语音进行登记和识别，为精细化处理。电话调查语音中，可能存在噪音、回铃音、挂机音等多种非有效语音，也可能因未能完整分离单通道语音而存在调查员的声音。

发明内容

本发明提出一种在电话满意度调查中检测身份冒充的系统与方法，解决了以往电话满意度调查中身份冒充检测只能针对单通道电话语音进行检测且处理语音的方式比较粗糙，电话调查语音中存在噪音、回铃音等多种非有效语音等问题。

为解决上述技术问题，本发明公开了一种在电话满意度调查中检测身份冒充的系统，该系统组成如下：

一种在电话满意度调查中检测身份冒充的系统，包括：

语音处理模块，用于对待检测语音库内的音频进行处理，包括去除待检测语音中的非有效语音；

检验分析模块，用于对处理过的待检验语音库中的语音进行验证语音选取和声纹训练，从而通过声纹验证来检测身份冒充情况，对冒充检测结果进行统计分析；

检测报告模块，用于将检验分析模块得到的结果生成检验报告。

进一步的，所述语音处理模块包括预处理模块；

预处理模块，用于对待检测语音进行分贝归一化、去“零漂”处理，去除待检测语音库中的非有效语音。

更进一步的，所述语音处理模块还包括说话人语音分割模块；

说话人语音分割模块，当待检测语音库为双通道语音时，该模块用来分离待检测语音中调查员和调查对象的语音，该模块的最终输出为调查对象语音库。

进一步的，所述说话人语音分割模块包括调查员声纹库、说话人分割引擎和声纹识别引擎；

调查员声纹库，为预先为调查员建立的声纹库；

说话人分割引擎，用于对待检测语音库进行处理，生成调查员和调查对象语音库；

声纹识别引擎，利用调查员声纹库，从调查员和调查对象语音库中选出调查对象语音库。

进一步的，所述检验分析模块包括声纹训练模块、验证语音库选取模块、声纹验证模块以及得分统计分析模块；

声纹训练模块，利用声纹识别技术，根据所述调查对象语音库训练得到调查对象声纹库；

验证语音库选取模块，用于从调查对象语音库中选取用于进行声纹验证的语音库，生成调查对象验证语音库；

声纹验证模块，利用声纹识别技术，根据调查对象验证语音库和调查对象声纹库，自动检测调查对象身份归属信息；

得分统计分析模块，根据声纹验证模块的处理结果，分析待检测语音库中的身份冒充情况。

进一步的，所述检测报告模块包括检测报告分析模块；

检测报告分析模块，根据得分统计分析模块的输出，自动生成身份冒充检测报告。

为解决上述技术问题，本发明公开了一种在电话满意度调查中检测身份冒充的方法，该方法包括：

一种在电话满意度调查中检测身份冒充的方法，包括：

步骤1、针对待检测语音库进行预处理，得到调查对象声纹库和调查对象验证语音库；

步骤2、通过声纹验证模块进行身份冒充检测，然后通过得分统计分析模块对所得结果进行分析，检验出待检测语音库中的身份冒充情况；

步骤3、由步骤2中得到的身份冒充情况生成检测报告。

进一步的，所述步骤1针对待检测语音库进行处理进一步包括：

步骤1.1、先对待检测语音进行分贝归一化、去“零漂”处理，然后去除待检测语音库中的非有效语音；

步骤1.2、如果待检测语音为单通道语音，则跳过此步骤，直接进行下一步处理，同时将处理过的待检测语音库置为调查对象语音库；如果待检测语音为双通道语音，需对处理过的待检测语音库进行说话人语音分割处理，分割得到仅包含调查对象语音的语音库，并将其置为调查对象语音库；

步骤1.3、根据调查对象语音库训练得到调查对象声纹库，同时从调查对象语音库中选取语音，以组成调查对象验证语音库。

进一步的，所述步骤1.2中对处理过的待检测语音库进行说话人语音分割处理进一步还包括：

步骤1.2.1、建立调查员声纹库；

步骤1.2.2、利用说话人分割引擎将已处理的待检测语音库内的语音进行语音分割，得到调查员和调查对象语音库；

步骤1.2.3、将步骤1.2.2中调查员和调查对象语音库与步骤1.2.1中调查员声纹库通过声纹识别引擎进行声纹识别，筛选出调查对象语音库。

进一步的，所述步骤2对处理过的待检测语音库进行身份冒充检测进一步包括：

步骤2.1、根据步骤1.3将生成的调查对象声纹库和调查对象验证语音库，用声纹验证模块对语音库进行身份冒充检测，得到相似度，再与预设的阈值比较，确认是接受用户还是拒绝用户，从而完成声纹验证过程；

步骤2.2、将声纹验证模块的处理结果送入得分统计模块，得到冒充检测得分报表。

由上述对本发明的描述可知，和现有技术相比，本发明具有如下优点：

一、本发明针对以往电话满意度调查中身份冒充检测方法的缺点，提出了一个基于声纹识别技术和说话人语音分割技术的解决方案，相对于传统的人工排查身份冒充的方法，极大的提高了检测效率、降低了检测错误率，并且使得在调查对象人数众多的电话满意度调查中进行身份冒充的自动检测成为可能。

二、相对于目前市场上已有的利用声纹识别技术进行身份冒充检测的方法，本发明在两个方面做了改进：其一，本发明利用说话人语音分割技术，针对双通道电话语音进行语音分离，并且事先为调查员建立声纹库，在此基础上有效分离出调查对象的语音，而现有的方法未能有效解决多通道语音中的身份冒充检测问题；其二，本发明对待检测语音库进行了精细化处理，包括去除噪音、回铃音等非有效语音，在此基础上，将调查对象语音库分割长训练语音库和验证语音库，并且二者不重合，以确保检测结果的客观性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所涉及的一种在电话满意度调查中检测身份冒充系统的结构框图；

图2为图1所示结构框图中说话人语音分割系统的结构框图；

图3为本发明所涉及的一种在电话满意度调查中检测身份冒充的方法的流程框图；

图4为本发明中得分统计模块工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的核心思想是：在电话满意度调查中，利用声纹识别技术和说话人语音分割技术，检测身份冒充情况，并最终给出清晰可读的身份冒充检测报告，以反映满意度调查数据的真实性。

图1描述了本发明所涉及的一种在电话满意度调查中检测身份冒充系统的结构框图，在图1中，本发明由待检测语音库101、预处理模块102、说话人语音分割模块103、调查对象声纹库104、声纹训练模块105、调查对象语音库106、验证语音选取模块107、调查对象验证语音库108、声纹验证模块109、得分统计分析模块110和检测报告生成模块111组成。

待检测语音库101，当所述待检测语音为单通道语音时，待检测语音库由多个调查对象的录音资料组成；当所述待检测语音为双通道语音时，它由多个包含调查员和调查对象语音的录音资料组成。在本发明中，待检测语音专指电话调查录音资料。

预处理模块102，该模块用于对语音进行分贝归一化、去“零漂”等处理，去除待检测语音中包含的噪音、回铃音等非有效语音，剔除有效语音过短的待检测语音。

说话人语音分割模块103，该模块仅当所述待检测语音为双通道语音时才生效。

说话人语音分割模块103的内部系统如图2所示，它由已处理的待检测语音库201、说话人语音分割引擎202、调查员和调查对象语音库203、声纹识别引擎205、调查对象语音库204以及调查员声纹库206组成。

其中，已处理的待检测语音库201就是所述预处理模块102的输出；说话人语音分割引擎202，有较多的成熟算法可以参考，本发明优选清华大学的博士论文--《电话信道下多说话人识别研究》（清华大学学位论文服务系统）中公开的技术方案，此技术方案可以高效地进行双通道的语音分割；所述调查员和调查对象语音库203，就是所述说话人语音分割引擎202的处理结果；所述声纹识别引擎205，利用所述调查员声纹库206，从所述调查员和调查对象语音库203中选出调查对象语音库204。

本发明中引入调查员声纹库的优点为：其一，对双通道语音进行有监督的分离，准确性远远高于非监督的语音分离方式，而极大的简化了语音分割流程；其二，调查员的语音获取方便，便于为其建立声纹库，而且调查员声纹库可以在相对一段较长的时间内连续使用。

调查对象语音库106，用于提供身份冒充检测的语音库，当所述待检验语音库101为双通道语音时，所述调查对象语音库106是从预处理过的所述待检测语音库中经说话人语音分割模块分离出来的。

声纹训练模块105，利用声纹识别技术，根据所述调查对象语音库106训练调查对象声纹库。所述声纹训练模块105是整个系统的核心模块之一，它基于目前较为成熟的声纹识别技术，根据说话人的语音提取说话人的身份信息，保存在声纹库中。

调查对象声纹库104，由所述调查对象语音库106训练而来，保存了每个调查对象的声纹信息。

验证语音选取模块107，用于从所述调查对象语音库106中选取用于进行声纹验证的语音库。该模块遵循两个原则：一、确保验证语音库与训练语音库不重叠；二、验证语音的有效时长不宜大于对应的训练语音时长，也不宜过短。如果在所述调查对象语音库中，某个调查对象所对应的全部有效语音时长过短，则将该调查对象分离出来单独分析。本发明中，所述验证语音时长以1分钟左右有效语音时长为佳。满足上述原则的调查对象语音，都被分割成两段语音，即训练语音和验证语音，我们将此处的验证语音称之为“调查对象本人参考语音”。

调查对象验证语音库108，由所述验证语音选取模块107从所述调查对象语音库106中选取而来，该语音库为本发明中对所述待检测语音库101的精细化处理。相比于现有方法中将整段语音进行训练和验证的处理方式，这样做的好处是，调查对象本人参考语音对本人的声纹验证得分可以为得分统计模块110提供一个额外的参考得分。

声纹验证模块109，利用声纹识别技术，根据调查对象验证语音库和调查对象声纹库，自动检测调查对象身份归属信息。该模块是整个系统的核心模块之一，其性能的好坏直接影响到身份冒充检测的效果。

得分统计分析模块110，该模块根据声纹验证模块109的处理结果，分析待检测语音库101中的身份冒充情况。

检测报告生成模块111，根据得分统计模块110输出的分析结果，自动生成可读性强的身份冒充检测报告；本发明中，检测报告生成模块111至少需要生成所述待检测语音库101中每个调查对象的基本信息及其身份冒充记录，以及对应的冒充对象的基本信息及被冒充的可能性大小，检测报告中会清晰地描述有哪些调查对象冒充了不同的人、冒充的是哪些人。

一种在电话满意度调查中检测身份冒充的方法，包括：

步骤3、由步骤2中得到的身份冒充情况生成检测报告。

对于非有效语音的检测方法，有非常多的成熟算法可以参考，本发明中优选专利文献--《基于非监督学习的噪声谱估计和语音活动度检测方法》（中国专利公开号：101853661A,公开日期：2010-10-06）中公开的技术方案，该技术方案提出了一种基于非监督学习框架的噪声功率谱估计与语音活动度检测方法，非监督学习框架的最大特点是噪声和语音信息的模型以一种非监督的方式建立，无论在模型的初始化还是在更新过程中，都不依赖于人工标注的信息。具体地，它具有以下几个特点：1、在初始化阶段，不依赖于噪声起始假设，所以该发明的应用范围比一般的解决方案应用更加宽泛；2、在更新过程中，不需要反馈信息，因此，错误积累的问题可以在一定程度上得到缓解；3、同时给出语音活动度的信息和噪声功率谱的信息，他们之间是紧耦合的关系，只需要通过少数几个参数就可以调节系统。因此，本发明中优选此方法用以有效地去除噪音、回铃音等非有效语音。

对调查对象进行语音训练，即为调查对象构建特定的声纹模型，其建模方法通常有概率统计方法（HMM/GMM-UBM）、神经网络方法（ANN）、矢量量化方法（VQ）、动态时间规整（DTW）、支持向量机（SVM）等，本发明优选采用GSV-SVM建模方法，该方法有以下优点：第一、识别时速度非常快；第二、模型的训练非常方便；第三、能处理跨信道问题。

步骤1.2.1、建立调查员声纹库；

本发明所述声纹识别引擎205具有较成熟的算法，具体实现优选参考法国的一个开源声纹识别引擎Alize（Alize Project是由法国阿维尼翁大学发起的一个开源项目，主要目的是为促进声纹识别技术的学术研究和工业应用，Alize提供了一个有效的、模块化的、易用的声纹识别开发平台）。

步骤2.1、根据步骤1.3生成的调查对象声纹库和调查对象验证语音库，用声纹验证模块对语音库进行身份冒充检测，得到相似度，再与预设的阈值比较，确认是接受用户还是拒绝用户，从而完成声纹验证过程；具体的实现优选参考法国的开源声纹识别引擎Alize（如上所述）。本发明中将声纹验证的输出得分归一化到[0.0，1.0]的得分区间上；

步骤2.2、将声纹验证模块的处理结果送入得分统计模块，得到冒充检测得分报表；

图4为得分统计模块工作流程图，在得分统计模块中，设置一个高阈值H和一个低阈值L，与调查对象本人参考语音对其本人的声纹验证得分S一起，构成得分统计模块中的3个阈值；由于得分S不固定，有可能比H或L小，本发明中，S=MAX{H，S}，即在H和S之间取最大值；本人参考语音得分S用于确认冒充用户，高阈值用于确认可疑冒充用户，低阈值用于确认非冒充用户；大于S的声纹验证得分对应的用户，被认为是冒充用户；大于H且小于S之间的声纹验证得分对应的用户，被认为是高可疑冒充用户；小于H且大于L的声纹验证得分对应的用户，被认为是可疑冒充用户；小于L的声纹验证得分对应的用户，被认为是非冒充用户（此处所述冒充用户是指同时冒充多个人的调查对象；高可疑用户是指非常可能同时冒充多个人的调查对象；可疑冒充用户是指有可能同时冒充多个人的调查对象；非冒充用户是指完全不可能同时冒充多个人的调查对象）；其中本高阈值H取值为0.6，低阈值L取值为0.4。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在电话满意度调查中检测身份冒充的系统，其特征在于，包括：

2.如权利要求1所述的一种在电话满意度调查中检测身份冒充的系统，其特征在于，所述语音处理模块包括预处理模块；

3.如权利要求2所述的一种在电话满意度调查中检测身份冒充的系统，其特征在于，所述语音处理模块还包括说话人语音分割模块；

4.如权利要求3所述的一种在电话满意度调查中检测身份冒充的系统，其特征在于，所述说话人语音分割模块包括调查员声纹库、说话人分割引擎和声纹识别引擎；

调查员声纹库，为预先为调查员建立的声纹库；

5.如权利要求2或3中任一项所述的一种在电话满意度调查中检测身份冒充的系统，其特征在于，所述检验分析模块包括声纹训练模块、验证语音库选取模块、声纹验证模块以及得分统计分析模块；

6.如权利要求2或3中任一项所述的一种在电话满意度调查中检测身份冒充的系统，其特征在于，所述检测报告模块包括检测报告分析模块；

7.一种在电话满意度调查中检测身份冒充的方法，其特征在于，包括：

步骤3、由步骤2中得到的身份冒充情况生成检测报告。

8.如权利要求7所述的一种在电话满意度调查中检测身份冒充的方法，其特征在于，所述步骤1针对待检测语音库进行处理进一步包括：

9.如权利要求8所述的一种在电话满意度调查中检测身份冒充的方法，其特征在于，所述步骤1.2中对处理过的待检测语音库进行说话人语音分割处理进一步还包括：

步骤1.2.1、建立调查员声纹库；

10.如权利要求7所述的一种在电话满意度调查中检测身份冒充的方法，其特征在于，所述步骤2对处理过的待检测语音库进行身份冒充检测进一步包括：