CN116863938A - 一种基于语音的异常检测方法、装置、设备及存储介质 - Google Patents
一种基于语音的异常检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116863938A CN116863938A CN202310791225.2A CN202310791225A CN116863938A CN 116863938 A CN116863938 A CN 116863938A CN 202310791225 A CN202310791225 A CN 202310791225A CN 116863938 A CN116863938 A CN 116863938A
- Authority
- CN
- China
- Prior art keywords
- voice
- processed
- features
- voiceprint
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000005856 abnormality Effects 0.000 title claims abstract description 29
- 230000008451 emotion Effects 0.000 claims abstract description 137
- 238000004458 analytical method Methods 0.000 claims abstract description 119
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012360 testing method Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 23
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 22
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000003993 interaction Effects 0.000 description 11
- 238000012502 risk assessment Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000000586 desensitisation Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种基于语音的异常检测方法、装置、设备及存储介质,可应用于金融领域或其他领域,该方法包括:对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。本申请实施例将声纹识别技术和情感分析技术相结合,通过声纹识别对用户身份进行认证,通过情感分析可以更好地理解用户的情感状态,提高了身份识别和欺诈检测能力,可以确保用户数据的安全性,提高异常检测的效率。
Description
技术领域
本申请涉及语音处理领域,尤其涉及一种基于语音的异常检测方法、装置、设备及存储介质。
背景技术
随着网络、通讯、计算机技术的发展,企业呈现出电子化、远程化、虚拟化、网络化的特点,更多的线上服务大量涌现。而客户与企业之间的通信与对话,也由面对面的咨询、交涉发展到基于网络、电话等远程手段的交流和沟通。在此背景下,基于电话的客服中心成为企业与用户交互的一个重要途径。客服中心每天都面对着大量的电话语音服务,处理客户多样化的服务需求,包括售前咨询、购买、售后、投诉等。
在现实生活中,金融企业的客服中心可能会遇到欺诈分子使用他人的身份信息和语音信息来获取他人的账户资金,即金融业在客服服务中可能存在欺诈问题。目前客服中心会对通话内容进行声纹识别,以确定客户的身份,从而防止欺诈行为的发生,但是传统的声纹识别技术对噪声、语调等方面的变化比较敏感,导致实际应用中声纹识别的准确率难以满足需求,不能准确对客户进行身份认证,进而无法保证客户的资金安全。
发明内容
有鉴于此,本申请的目的在于提供了一种基于语音的异常检测方法、装置、设备及存储介质,以提高身份识别和欺诈检测能力,提高异常检测效率,保障用户数据安全,其具体技术方案如下:
第一方面,本申请提供了一种基于语音的异常检测方法,所述方法包括:
对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;
将所述待处理声纹特征和所述待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;
基于所述声纹识别结果和所述情感分析结果,生成所述待处理语音的异常检测结果。
在一种可能的实现方式中,所述分析模型的训练过程,包括:
获取语音样本集合,所述语音样本集合中的每个语音样本都携带有声纹和情感标签;
对所述语音样本进行特征提取,得到样本声纹特征和样本情感特征;
利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,得到测试结果;
根据所述分析模型对应的测试结果更新所述分析模型,并继续执行所述利用所述样本声纹特征和所述样本情感特征训练所述分析模型,直至所述测试结果达到预设条件。
在一种可能的实现方式中,所述将所述待处理声纹特征输入预先训练好的分析模型,得到声纹识别结果,包括:
将所述待处理声纹特征输入所述分析模型,使所述分析模型将所述待处理声纹特征与声纹库中的预设声纹特征进行匹配,得到所述声纹识别结果。
在一种可能的实现方式中,在所述生成所述待处理语音的异常检测结果之后,所述方法还包括:
若所述异常检测结果为正常,获取所述待处理语音的语义信息;
基于所述语义信息,生成所述待处理语音的响应信息。
在一种可能的实现方式中,在所述对待处理语音进行特征提取之前,所述方法还包括:
对所述待处理语音进行预处理,所述预处理包括降噪和/或去除冗余片段;
则所述对待处理语音进行特征提取,包括:
对预处理后的待处理语音进行特征提取。
第二方面,本申请还提供了一种基于语音的异常检测装置,所述装置包括:
特征提取模块,用于对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;
特征分析模块,用于将所述待处理声纹特征和所述待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;
结果生成模块,用于基于所述声纹识别结果和所述情感分析结果,生成所述待处理语音的异常检测结果。
在一种可能的实现方式中,所述装置还包括:模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取语音样本集合,所述语音样本集合中的每个语音样本都携带有声纹和情感标签;
特征提取单元,用于对所述语音样本进行特征提取,得到样本声纹特征和样本情感特征;
模型训练单元,用于利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,得到测试结果;
模型更新单元,用于根据所述分析模型对应的测试结果更新所述分析模型,并继续执行所述利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,直至所述测试结果达到预设条件。
在一种可能的实现方式中,所述装置还包括:
语义获取模块,用于若所述异常检测结果为正常,获取所述待处理语音的语义信息;
响应生成模块,用于基于所述语义信息,生成所述待处理语音的响应信息。
第三方面,本申请还提供了一种基于语音的异常检测设备,包括:处理器以及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行上述第一方面或第一方面任一项所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的方法。
在本申请实施例中,对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。本申请实施例将声纹识别技术和情感分析技术相结合,通过声纹识别对用户身份进行认证,通过情感分析更好地理解用户的情感状态,提高了身份识别和欺诈检测能力,可以确保用户数据的安全性,提高异常检测的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种基于语音的异常检测方法实施例的流程图;
图2示出了本申请实施例提供的另一种基于语音的异常检测方法实施例的流程图;
图3示出了本申请实施例提供的一种基于语音的异常检测装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请实施例中可能出现的一些名词进行解释。
智能语音客服:银行智能语音客服系统主要应用于电话银行、语音导航等场景,客户可以通过拨打电话或语音交互设备与智能语音客服进行交互。智能语音客服系统可以自动识别客户的语音信息,理解客户需求并提供相应服务,例如查询账户余额、办理转账、挂失等操作。
SCNN算法:一种基于深度学习的声纹识别算法,该算法使用了时频图像卷积神经网络(SpectrogramConvolutionalNeuralNetwork,SCNN),算法结合了声音的时域和频域信息,能够提高声纹识别的准确性。
情感分析:一个自然语言处理(naturallanguageprocessing,NLP)的分支,它使用机器学习来分析和分类文本数据的情感基调。基本模型主要专注于积极、消极和中立的分类,但也可能包含发言者的潜在情感(愉悦、生气、侮辱等)。该技术主要应用于情感交互、社交媒体分析、用户行为分析等领域。传统的情感分析算法通常基于文本数据进行分析,例如通过分析评论、微博等文本信息,识别情感极性。但是,在语音交互等场景中,文本信息往往不够完备或者不存在,因此基于声纹的情感分析技术逐渐得到关注。基于声纹的情感分析算法可以对语音信号进行情感极性识别,例如对话的开头、结束、重点等进行情感分类,从而识别可能存在的欺诈行为。同时,SCNN算法也具备声纹情感分析能力。
声纹识别:一种通过分析语音特征识别说话人身份的技术。通过建立语音模型,声纹识别系统可以比较准确地区分不同说话人的语音特征。对于银行智能语音客服系统,声纹识别可以用于识别客户的身份。与传统的身份验证方式(如密码、证件等)相比,具有较高的安全性和便利性。声纹识别技术在语音识别、人机交互、安全验证等领域都有着广泛的应用。目前,常用的声纹识别技术包括高斯混合模型-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)、身份认证向量(identity-vector,i-vector)、深度神经网络(DeepNeuralNetworks,DNN)等,但在大规模语音识别任务中,这些传统算法的性能和效率有限。因此,基于深度学习的声纹识别技术正在逐渐得到应用和发展,其中,SCNN算法是近年来被广泛采用的一种声纹识别算法。
在现实生活中,一些欺诈分子可能会使用他人的身份信息和语音信息,以获得他人账户资金。目前虽然会使用声纹识别技术对用户进行身份认证,但是传统的声纹识别技术的准确率有限,传统的声纹识别技术对噪声、语调等方面的变化比较敏感,因此在实际应用中准确率难以满足需求。传统情感分析算法主要基于文本,无法对语音信号进行准确的情感识别。在用户与智能客服的交互中,文本信息可能不够完备或者不存在,这就使得传统的情感分析算法难以准确判断客户情感状态。
本申请实施例旨在解决智能语音客服服务中可能存在的欺诈问题,可以通过采用基于深度学习的具有声纹识别和情感分析能力的分析模型,对用户进行身份认证和欺诈检测,从而防止欺诈行为的发生,提高金融行业服务的安全性和可靠性,保护用户财产安全。
请参见图1,示出了本申请实施例提供的一种基于语音的异常检测方法实施例的流程图,本申请实施例至少包括以下步骤:
S1,对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征。
当用户通过拨打电话或通过语音交互设备与智能语音客服进行交互时,获取交互时用户的语音内容作为待处理语音,将待处理语音进行特征提取,以便将得到的待处理声纹特征和待处理情感特征作为分析模型的输入。
本申请实施例可以利用梅尔频谱系数(Mel-frequencycepstralcoefficients,MFCC)、线性预测编码(LinearPredictiveCoding,LPC)等方法提取待处理声纹特征。待处理情感特征可以使用类似的频谱特征或者其他与情感相关的特征。需要说明的是,本申请实施例不限定特征提取的具体方法,能够得到声纹特征和情感特征即可。
在对待处理语音进行特征提取之前,本申请实施例还可以对待处理语音进行预处理,预处理包括降噪和/或去除冗余片段。那么对待处理语音进行特征提取即对预处理后的待处理语音进行特征提取。对待处理语音进行预处理,可以提高特征提取的准确率。
S2,将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果。
在得到待处理声纹特征和待处理情感特征后,可以将待处理声纹特征和待处理情感特征输入预先训练好的分析模型中,使得分析模型对待处理声纹特征和待处理情感特征进行处理,得到声纹识别结果和情感分析结果。
其中,将待处理声纹特征输入分析模型,得到声纹识别结果的一种实现方式可以是,将待处理声纹特征输入分析模型,使分析模型将待处理声纹特征与声纹库中的预设声纹特征进行匹配,得到声纹识别结果。
在本申请实施例中,预先建立声纹库,以便作为对用户进行身份验证的依据,提高身份验证的准确率。本申请实施例的声纹库的建立过程,可以包括以下步骤:
S201,获取用户的用户信息和预先设置的声音样本;
S202,对声音样本进行预处理,得到预处理样本;
S203,对预处理样本进行特征提取,得到预设声纹特征;
S204,将预设声纹特征以及对应的用户信息存储至声纹库。
本申请实施例对声音样本进行预处理,可以包括对声音样本进行噪、去除背景噪声、标准化音频等,以提高后续特征提取的质量。本申请实施例可以利用梅尔频谱系数(Mel-frequencycepstralcoefficients,MFCC)、线性预测编码(LinearPredictiveCoding,LPC)等方法提取样本声纹特征。样本情感特征可以使用类似的频谱特征或者其他与情感相关的特征。需要说明的是,本申请实施例不限定特征提取的具体方法,能够得到声纹特征和情感特征即可。
在本申请实施例中,得到预设声纹特征后,还可以对预设声纹特征进行建模,得到预设声纹模型。声纹模型是对用户声纹特征进行建模和存储的表示。本申请实施例利用抽象的预设声纹特征,通过训练神经网络的方式,将预设声纹特征映射到一个低维的声纹空间,该声纹空间即上述的声纹模型,声纹空间可以用来表示每个用户的声纹特征,并作为声纹识别的基础。
若建立预设声纹模型,将预设声纹模型也存储至声纹库,使得分析模型将待处理声纹特征与声纹库中的预设声纹模型进行匹配。
声纹特征属于敏感信息,需要进行保护,防止未经授权的访问和使用。用户的用户信息可以包括姓名、电话号码等个人身份信息,也可以包括历史交易记录等个人交易信息,也是需要采取措施确保其安全性和隐私性的。因此,本申请实施例为了保障用户的隐私信息和数据安全,对声纹库中的数据采用数据脱敏、加密、权限控制等手段进行保护,并遵守相关法律法规和隐私政策要求。
通过数据脱敏技术,将敏感信息进行处理,使得数据不再直接关联到具体个人身份。常见的脱敏方法包括将个人身份信息进行部分隐藏、替换、删除等操作,以保护个人隐私。
对敏感数据采用加密算法进行加密,确保数据在传输和存储过程中不易被窃取或篡改。可以采用对称加密或非对称加密算法,确保数据的机密性和完整性。
通过权限控制机制,对数据访问进行严格控制。只有经过授权的人员或系统才能访问和使用敏感数据。可以通过角色授权、访问控制列表等方式实现权限控制,确保只有合法的用户才能获取相关数据。
本申请实施例的分析模型的训练过程,可以包括以下步骤:
S21,获取语音样本集合,语音样本集合中的每个语音样本都携带有声纹和情感标签。
本申请实施例可以获取大量带有声纹和情感标签的语音样本集合,语音样本集合中需要包含不同人的语音样本以及与之相关联的声纹和情感标签。
S22,对语音样本进行特征提取,得到样本声纹特征和样本情感特征。
本申请实施例可以利用梅尔频谱系数(Mel-frequencycepstralcoefficients,MFCC)、线性预测编码(LinearPredictiveCoding,LPC)等方法提取样本声纹特征。样本情感特征可以使用类似的频谱特征或者其他与情感相关的特征。需要说明的是,本申请实施例不限定特征提取的具体方法,能够得到声纹特征和情感特征即可。
S23,利用样本声纹特征和样本情感特征对分析模型进行训练和测试,得到测试结果。
分析模型可以采用SCNN模型,本申请实施例的SCNN模型可以包括用于声纹识别和情感分析的共享卷积层和声纹识别、情感分析各自的专用分类层。共享卷积层用于提取共享的语音特征,而各自的分类层分别用于识别声纹和分析情感。
语音样本集合中的语音样本可以被拆分为训练集和测试集。训练集用于对模型进行训练,测试集用于对训练好的模型进行测试。
使用独立的测试集对训练得到的SCNN模型进行测试,测试结果可以包括声纹识别的准确率、声纹识别的召回率,以及情感分析的准确率、情感分类的F1值。F1值为准确率和召回率的调和平均数,计算公式为F1=2*(准确率*召回率)/(准确率+召回率)。
S24,根据分析模型对应的测试结果更新分析模型,并继续执行利用样本声纹特征和样本情感特征训练分析模型,直至测试结果达到预设条件。
训练过程中,通过反向传播算法和优化方法(如随机梯度下降)调整模型参数,使得模型能够准确地进行声纹识别和情感分析,也可以通过网格搜索等算法遍历不同的参数组合,尝试各种可能的参数取值,以找到最佳的参数组合。模型参数可以包括卷积核的大小、池化层参数、激活函数参数和损失函数参数。
在本申请实施例中,预设条件与测试结果中的参数对应,具体的预设条件的数值本申请实施例不做限定。
通过以上训练过程,SCNN模型可以提取共享的语音特征,并通过专用的分类层对声纹和情感进行识别和分类,这样,SCNN模型就能够同时实现声纹识别和情感分析的功能。
本申请实施例主要依靠声纹识别技术和情感分析技术解决智能语音客服服务中可能存在的欺诈问题。声纹识别技术可以通过对用于语音进行特征提取和匹配,对用户进行身份认证,确保用户的身份信息的真实性。而情感分析技术则可以通过对用户语音的情感状态进行分析和识别,探测可能存在的欺诈行为,例如语气不自然、语速异常等,从而及时发现和防止欺诈行为的发生。
S3,基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。
若声纹库中存在与待处理声纹特征相匹配的预设声纹特征,则确定声纹识别结果为正常;若声纹库中不存在与待处理声纹特征相匹配的预设声纹特征,则确定声纹识别结果为异常。
若声纹识别结果和情感分析结果都为正常,则异常检测结果为正常;若声纹识别结果和/或情感分析结果为异常,则异常检测结果为异常。当声纹识别结果为正常时,该异常检测结果可以包括待处理声纹特征对应的用户信息。
若异常检测结果为正常,说明不存在欺诈行为,则本申请实施例还可以获取待处理语音的语义信息,基于语义信息,生成待处理语音的响应信息。若语义信息为用户提出的问题,则响应信息为问题对应的回答;若语义信息为用户的交易请求,则响应信息为对交易处理后的结果。
在本申请实施例中,可以利用自然语言处理技术对待处理语音进行分析、理解和处理,得到语义信息和响应信息,以使智能语音客服能够与用户进行自然且流畅的交流和对话。自然语言处理技术用于实现对自然语言的理解和处理,能够更好地与用户进行交互,并提供准确的、有针对性的回应和服务。自然语音处理技术包括语法分析、语义理解等,从语音中提取语义信息和意图,并将其转化为机器可理解和处理的形式。通过分析可以理解用户的提问、需求或意图,为后续的响应和交互提供基础。
若异常检测结果为异常,说明可能存在欺诈行为,则本申请实施例可以生成待处理语音的响应信息,该响应信息包括拒绝响应、额外请求身份验证、进行额外的安全措施或者采取其他风险管理策略。情感分析结果为异常,即用户可能处于紧张、痛苦、恐惧等负面情绪中,所以当异常检测结果异常时,本申请实施例还可以进行报警。
响应信息可以通过电话、短信、邮件等多种方式传送给用户。当声纹识别结果为正常时,响应信息可以通过用户预留的通信方式传送给用户;当声纹识别结果为异常时,响应信息可以通过电话或短信传送给用户。
本申请实施例当情感分析结果为异常时,情感分析结果还可以包括用户的情绪或情感倾向,情绪或情感倾向例如紧张、痛苦、恐惧、愤怒等。如果用户表达了不满或愤怒的情绪,响应信息可以是令智能语音客服系统及时转接到专业的人工客服人员,或采取更为紧急的处理措施,以解决用户的问题或提供适当的支持。
其中,基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果的一种实现方式可以是,将声纹识别结果和情感分析结果输入风险评估模型,使得风险评估模型利用用户的历史交易信息对当前交易信息进行风险评估,基于风险评估模型输出的风险评估结果生成待处理语音的异常检测结果。
若声纹识别结果为正常,那么声纹库中存在与待处理声纹特征相匹配的预设声纹特征,风险评估模型就可以从声纹库中获取预设声纹特征对应的用户信息,用户信息可以包括用户的历史交易信息。
本申请实施例分析声纹数据的特征和变化,如基频、频率范围、共振峰等,可以揭示声纹数据中的个体特征、情感表达的参数。通过对声纹数据的处理和分析,能够有效地识别用户身份,为智能语音客服系统提供更准确和个性化的服务。
在本申请另一实施例中,用户也可以通过文字形式与智能语音客服系统进行交互。本申请实施例可以获取用户提供的文本信息,对文本信息进行文本预处理,文本预处理包括文本清洗、分词、词性标注等。文本预处理操作有助于提取文本中的关键信息,并有助于后续的分析和应用。对文本信息进行解析,可以采用自然语言处理技术,包括语法分析、语义理解等,从文本信息中提取语义信息和意图,并将其转化为机器可理解和处理的形式。通过解析,可以理解用户的提问、需求或意图,为后续的响应和交互提供基础。还可以根据用户的提问、需求或意图生成相应的回复或响应,包括根据意图进行信息查询、推荐产品或服务、提供问题解答等,生成的响应内容可以是文本形式的回复,也可以转化为语音形式进行播放。
在本申请实施例中,对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。本申请实施例将声纹识别技术和情感分析技术相结合,通过声纹识别对用户身份进行认证,通过情感分析更好地理解用户的情感状态,提高了身份识别和欺诈检测能力,可以确保用户数据的安全性,提高异常检测的效率。
本申请实施例提供的(一种基于语音的异常检测方法)可用于金融领域或其他领域,例如,可用于金融领域中的银行智能客服应用场景。其他领域为除金融领域之外的任意领域,例如,数据处理领域。上述仅为示例,并不对本申请实施例提供的(一种基于语音的异常检测方法)的应用领域进行限定。
为了便于进一步理解本申请实施例提供的技术方案,下面以本申请实施例提供的一种基于语音的异常检测方法应用于针对银行智能客服系统场景为例,对本申请实施例提供的一种基于语音的异常检测方法进行整体示例性介绍。
请参见图2,示出了本申请提供的另一种基于语音的异常检测方法的流程图,银行智能客服系统包括声纹库管理模块、声纹识别和情感分析模块、对话处理模块、风险评估模块和智能客服模块。
声纹库管理模块用于采集、存储和管理客户的声纹数据,并对声纹数据进行处理和分析,以提高声纹识别的准确性。
声纹识别和情感分析模块,一是对客户的声音进行特征提取和匹配,以确定客户的身份和识别是否为欺诈行为;二是对客户的声音进行情感分析,以判断客户是否处于紧张、兴奋、恐惧等情绪中,以便为客户提供更加个性化的服务。
对话处理模块用于处理客户与智能客服之间的对话信息,包括文本和语音信息的处理、解析和生成。
风险评估模块用于根据声纹识别和情感识别的结果,结合客户的历史交易记录和风险评估模型,对客户的交易行为进行风险评估,并作出相应的决策。
智能客服模块将定制化服务响应和异常行为警报提示传送给客户或报警,通过电话、短信、邮件等多种方式实现。
这些模块相互连接和相互工作,以完成银行智能客服的欺诈防范功能。具体来说,客户首先通过与智能语音客服进行语音交互,智能客服会将客户的声音数据传递给声纹识别和情感分析模块进行处理。对话处理模块负责处理客户的话语,并生成相应的回复。风险评估模块评估客户的交易行为是否存在欺诈风险,并作出相应的决策。所有模块的数据和结果都通过云服务器进行传输和存储。
接下来对本申请提供的一种基于语音的异常检测装置进行介绍,下文介绍的一种基于语音的异常检测装置与上文介绍的一种基于语音的异常检测方法可相互对应参照。
请参见图3,示出了本申请提供的一种基于语音的异常检测装置的结构示意图,所述装置包括:
特征提取模块301,用于对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;
特征分析模块302,用于将所述待处理声纹特征和所述待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;
结果生成模块303,用于基于所述声纹识别结果和所述情感分析结果,生成所述待处理语音的异常检测结果。
在本申请实施例中,所述装置还包括:模型训练模块,
所述模型训练模块包括:
样本获取单元,用于获取语音样本集合,所述语音样本集合中的每个语音样本都携带有声纹和情感标签;
特征提取单元,用于对所述语音样本进行特征提取,得到样本声纹特征和样本情感特征;
模型训练单元,用于利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,得到测试结果;
模型更新单元,用于根据所述分析模型对应的测试结果更新所述分析模型,并继续执行所述利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,直至所述测试结果达到预设条件。
在本申请实施例中,所述特征分析模块302在将所述待处理声纹特征输入预先训练好的分析模型,得到声纹识别结果时,具体用于:
将所述待处理声纹特征输入所述分析模型,使所述分析模型将所述待处理声纹特征与声纹库中的预设声纹特征进行匹配,得到所述声纹识别结果。
在本申请实施例中,所述装置还包括:
语义获取模块,用于若所述异常检测结果为正常,获取所述待处理语音的语义信息;
响应生成模块,用于基于所述语义信息,生成所述待处理语音的响应信息。
在本申请实施例中,所述装置还包括:
预处理模块,用于对所述待处理语音进行预处理,所述预处理包括降噪和/或去除冗余片段;
所述特征提取模块301,具体用于对预处理后的待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征。
在本申请实施例中,特征提取模块,用于对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;特征分析模块,用于将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;结果生成模块,用于基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。本申请实施例将声纹识别技术和情感分析技术相结合,通过声纹识别对用户身份进行认证,通过情感分析可以更好地理解用户的情感状态,提高了身份识别和欺诈检测能力,可以确保用户数据的安全性,提高异常检测的效率。
本申请实施例还提供了一种基于语音的异常检测设备,设备包括:处理器以及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行上述方法实施例所述的方法。
本申请实施例还提供了一种计算机可读存储介质,存储有指令,当其在计算机上运行时,使得计算机执行上述方法实施例所述的方法。
需要说明的是,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于语音的异常检测方法,其特征在于,所述方法包括:
对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;
将所述待处理声纹特征和所述待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;
基于所述声纹识别结果和所述情感分析结果,生成所述待处理语音的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述分析模型的训练过程,包括:
获取语音样本集合,所述语音样本集合中的每个语音样本都携带有声纹和情感标签;
对所述语音样本进行特征提取,得到样本声纹特征和样本情感特征;
利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,得到测试结果;
根据所述分析模型对应的测试结果更新所述分析模型,并继续执行所述利用所述样本声纹特征和所述样本情感特征训练所述分析模型,直至所述测试结果达到预设条件。
3.根据权利要求1所述的方法,其特征在于,所述将所述待处理声纹特征输入预先训练好的分析模型,得到声纹识别结果,包括:
将所述待处理声纹特征输入所述分析模型,使所述分析模型将所述待处理声纹特征与声纹库中的预设声纹特征进行匹配,得到所述声纹识别结果。
4.根据权利要求1所述的方法,其特征在于,在所述生成所述待处理语音的异常检测结果之后,所述方法还包括:
若所述异常检测结果为正常,获取所述待处理语音的语义信息;
基于所述语义信息,生成所述待处理语音的响应信息。
5.根据权利要求1至3任一项所述的方法,其特征在于,在所述对待处理语音进行特征提取之前,所述方法还包括:
对所述待处理语音进行预处理,所述预处理包括降噪和/或去除冗余片段;
则所述对待处理语音进行特征提取,包括:
对预处理后的待处理语音进行特征提取。
6.一种基于语音的异常检测装置,其特征在于,所述装置包括:
特征提取模块,用于对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;
特征分析模块,用于将所述待处理声纹特征和所述待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;
结果生成模块,用于基于所述声纹识别结果和所述情感分析结果,生成所述待处理语音的异常检测结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取语音样本集合,所述语音样本集合中的每个语音样本都携带有声纹和情感标签;
特征提取单元,用于对所述语音样本进行特征提取,得到样本声纹特征和样本情感特征;
模型训练单元,用于利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,得到测试结果;
模型更新单元,用于根据所述分析模型对应的测试结果更新所述分析模型,并继续执行所述利用所述样本声纹特征和所述样本情感特征对所述分析模型进行训练和测试,直至所述测试结果达到预设条件。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
语义获取模块,用于若所述异常检测结果为正常,获取所述待处理语音的语义信息;
响应生成模块,用于基于所述语义信息,生成所述待处理语音的响应信息。
9.一种基于语音的异常检测设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791225.2A CN116863938A (zh) | 2023-06-30 | 2023-06-30 | 一种基于语音的异常检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791225.2A CN116863938A (zh) | 2023-06-30 | 2023-06-30 | 一种基于语音的异常检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863938A true CN116863938A (zh) | 2023-10-10 |
Family
ID=88222725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310791225.2A Pending CN116863938A (zh) | 2023-06-30 | 2023-06-30 | 一种基于语音的异常检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863938A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711444A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于口才表达的互动方法、装置、设备及存储介质 |
-
2023
- 2023-06-30 CN CN202310791225.2A patent/CN116863938A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711444A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于口才表达的互动方法、装置、设备及存储介质 |
CN117711444B (zh) * | 2024-02-05 | 2024-04-23 | 新励成教育科技股份有限公司 | 一种基于口才表达的互动方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842740B2 (en) | Seamless authentication and enrollment | |
US8145562B2 (en) | Apparatus and method for fraud prevention | |
US7054811B2 (en) | Method and system for verifying and enabling user access based on voice parameters | |
US20150142446A1 (en) | Credit Risk Decision Management System And Method Using Voice Analytics | |
US11625467B2 (en) | Authentication via a dynamic passphrase | |
Qian et al. | Speech sanitizer: Speech content desensitization and voice anonymization | |
Shim et al. | Phonetic analytics technology and big data: real-world cases | |
Duraibi | Voice biometric identity authentication model for iot devices | |
CN116863938A (zh) | 一种基于语音的异常检测方法、装置、设备及存储介质 | |
Saquib et al. | Voiceprint recognition systems for remote authentication-a survey | |
Orken et al. | Development of security systems using DNN and i & x-vector classifiers | |
Zhang et al. | Volere: Leakage resilient user authentication based on personal voice challenges | |
Al-Karawi et al. | Using combined features to improve speaker verification in the face of limited reverberant data | |
Revathi et al. | Person authentication using speech as a biometric against play back attacks | |
Nasersharif et al. | Evolutionary fusion of classifiers trained on linear prediction based features for replay attack detection | |
Li | Speaker authentication | |
Saleema et al. | Voice biometrics: the promising future of authentication in the internet of things | |
CN113064983B (zh) | 语义检测方法、装置、计算机设备及存储介质 | |
WO2022236386A1 (en) | Access control system | |
Kuznetsov et al. | Methods of countering speech synthesis attacks on voice biometric systems in banking | |
Kruthika et al. | Speech Processing and Analysis for Forensics and Cybercrime: A Systematic Review | |
Yadava et al. | Improvements in spoken query system to access the agricultural commodity prices and weather information in Kannada language/dialects | |
Tashan et al. | Speaker verification using heterogeneous neural network architecture with linear correlation speech activity detection | |
Aloufi et al. | On-Device Voice Authentication with Paralinguistic Privacy | |
Cortez | Testing VOCALISE spoof detection capabilities based on CQT dilated ResNet model between authentic and synthetic voice samples by VocaliD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |