CN117037796A

CN117037796A - 基于多元特征的aigc语音欺诈风控方法、介质及设备

Info

Publication number: CN117037796A
Application number: CN202310737786.4A
Authority: CN
Inventors: 阳成文; 孙勇军; 周斌; 王志伟
Original assignee: Shanghai Shizhuang Information Technology Co ltd
Current assignee: Shanghai Shizhuang Information Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-11-10

Abstract

本申请提供一种基于多元特征的AIGC语音欺诈风控方法、介质及设备。所述方法包括：获取输入的待识别语音信息；对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。本申请实施例提供的基于多元特征的AIGC语音欺诈风控方法，通过对语音信息进行语义分析和多远特征提取，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗AIGC语音欺诈。

Description

基于多元特征的AIGC语音欺诈风控方法、介质及设备

技术领域

本申请属于语音控制技术领域，特别是涉及一种基于多元特征的AIGC语音欺诈风控方法、介质及设备。

背景技术

当下随着ChatGPT的热潮，各种AIGC(AI Generated Content，人工智能生成内容)也泛滥起来。AIGC是一种人工智能语音技术，可以模拟人类语音，实现自动语音识别和语音合成。诈骗分子利用AIGC技术，制作出伪造的语音信息，通过电话等方式，欺骗受害人的个人信息、银行卡密码等敏感信息，从而实施诈骗行为。

现有对语音识别中，多数基于MFCC(梅尔频率倒谱系数)进行语音特征提取，采集语音频率，对非线性梅尔的对数能量频谱，线性变换得到。提取到了频谱图(物理学语音是一种波)，然后频谱图的横向叠加组成语谱图，通过语谱图更直观地看出共振峰频率的变化。语谱图是语音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的语音的基频及谐频在语谱图上表现为一条一条的亮线，因为不同的人发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面不一样，语音也就不一样，语谱图也就不一样，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。

现有常见的语音非法攻击模式如图1所示，一种是重放攻击，另一种是语音合成攻击。重放攻击是一种常见的语音识别攻击方式，攻击者会录制目标人员的语音并保存为语音文件，然后将文件播放到语音识别系统附近，让系统误认为是目标人员在进行语音认证。语音识别系统会将重放的语音录入系统，提取语音特征，并与语音库中的语音特征进行相似度计算。如果相似度高于阈值，语音识别系统就会通过语音认证，从而使攻击者获得非法权限。语音合成，是一种将文本信息转化为语音输出的技术，可以用于生成具有目标人物音色特征和语音特征的语音数据，从而实现语音识别系统的攻击。具体过程如下：首先，将目标人物的语音特征Y注册到语音识别系统的语音库中。然后，通过大量的语音数据训练语音合成算法，生成语音合成模型model。接着，使用目标人物的语音数据集对模型进行fine-tuning，得到新的模型model’。使用模型model’生成语音识别系统需要验证的语音数据，并进行播放。语音识别系统将播放的语音录入系统，提取语音特征Y’，并与语音库中的语音特征Y进行相似度计算。如果相似度高于阈值，语音识别系统就会通过语音认证，从而使攻击者获得非法权限。

现有技术场景抵抗手段较单一，存在较多风险漏放过的情况，错误率较高例如：例如录制的语音进行重放时，当前语音检测系统无法识别出来，或者录制语音后，使用合成软件合成语音，概率性可以绕过检测。

发明内容

本申请提供一种基于多元特征的AIGC语音欺诈风控方法、介质及设备，用于提高语音欺诈风控的性能。

第一方面，本申请实施例提供一种基于多元特征的AIGC语音欺诈风控方法，包括：获取输入的待识别语音信息；对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。

在所述第一方面的一种实现方式中，还包括训练所述情感模型；训练所述情感模型包括：获取不同情感状态下的语音数据，作为训练集；对所述训练集中的语音数据进行语音特征提取，并为提取的所述语音特征标注对应的情感状态，形成标签训练数据；将所述标签训练数据输入到网络模型进行训练，获取能够识别语音不同情感状态的情感模型。

在所述第一方面的一种实现方式中，所述对所述待识别语音信息进行语音识别，获取语音语义特征包括：获取预设帧间隔的待识别语音信息；基于预设声学模型、预设语言模型、预设词汇模型、解码器中的多种对所述待识别语音信息进行分析处理，将待识别语音信息转换为对应的语义语句。

在所述第一方面的一种实现方式中，所述对所述待识别语音信息进行多元特征提取，获取语音情感特征包括：提取所述待识别语音信息的相位信息；将所述相位信息输入到预先训练的特征提取模型，提取与各所述相位信息对应的多元特征，所述多元特征包括时间、场景、位移中的任一种或多种组合。

在所述第一方面的一种实现方式中，所述提取所述待识别语音信息的相位信息包括：调用用于读取、处理音频文件的多个库工具；将多个所述库工具封装为一个处理函数；基于所述处理函数提取所述待识别语音信息的相位信息。

在所述第一方面的一种实现方式中，预先训练所述特征提取模型包括：提取音频相位特征；为所述音频相位特征配置标签，并将所述标签映射为对应的数字编码；将所述音频相位特征和所述数字编码转换为numpy的数组格式，形成数据集；基于所述数据集对神经网络模型进行训练，获取所述特征提取模型。

在所述第一方面的一种实现方式中，还包括：对语音信息进行多介质分级存储：用户预先注册的语音信息通过云空间进行存储，对所述待识别语音信息进行语音识别和多元特征提取的处理数据通过数据库进行存储，对符合数据活跃度阈值的数据通过内存进行存储；其中，通过定时任务，定期将部分活跃数据加载到内存中存储，同时定期将非活跃数据从内存中释放。

在所述第一方面的一种实现方式中，还包括：配置多级风险防控策略，所述多级风险防控策略中包括错误拒绝率，错误接受率以及准确率；基于所述待识别语音信息为用户预先注册的语音信息的概率确定对应等级的风险防控策略。

第二方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面中任一项所述的基于多元特征的AIGC语音欺诈风控方法。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面中任一项所述的基于多元特征的AIGC语音欺诈风控方法。

本申请实施例提供的基于多元特征的AIGC语音欺诈风控方法，通过对语音信息进行语义分析和多远特征提取，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗AIGC语音欺诈。

附图说明

图1显示为现有技术中语音非法攻击模式的示意图。

图2显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法的应用场景示意图。

图3显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法的流程图。

图4显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法中多介质分级存储的示意图。

图5显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法中多介质存储的应用示意图。

图6显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法中语音识别的原理示意图。

图7显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法的实施过程示意图。

图8显示为本申请一实施例中电子设备的结构示意图。

元件标号说明

100 电子设备

101 存储器

102 处理器

103 显示器

S100～S400 步骤

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

诈骗分子利用AIGC技术，制作出伪造的语音信息，通过电话等方式，欺骗受害人的个人信息、银行卡密码等敏感信息，从而实施诈骗行为。本申请实施例提供一种基于多元特征的AIGC语音欺诈风控方法，用于提高语音欺诈风控的性能。

图2显示为本申请一实施例的基于多元特征的AIGC语音欺诈风控方法的应用场景示意图。如图2所示，本实施例的AIGC语音欺诈风控方法，用户预先注册语音，在注册语音时利用时间、场景、位移等构造出多元特征场景，用户录制语音，然后采集语音中的多元特征，并进行存储。检测未知用户语音时，通过语音识别语义，并对语音进行多元特征分解，通过情感模型进行对比分析，获取语音信息为用户预先注册的语音信息的概率。本申请采用多级风控方式，根据业务场景的业务量级、时效需求、功能性质和资金大小等构造不同安全风险等级的语音检测模式，可进行实时的风控策略升级，通过创建风控检测流程引导用户输入构造多元特征，增强风控检测手段。本实施例提供的基于多元特征的AIGC语音欺诈风控方法，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗AIGC语音欺诈。

下面将结合本申请实施例中的附图3至附图7，对本申请实施例基于多元特征的AIGC语音欺诈风控方法、介质及设备的技术方案进行详细描述。使本领域技术人员不需要创造性劳动即可理解本实施例的基于多元特征的AIGC语音欺诈风控方法、介质及设备。

图3显示为本申请实施例中基于多元特征的AIGC语音欺诈风控方法的流程图。如图2所示，本申请实施例提供的基于多元特征的AIGC语音欺诈风控方法包括以下步骤S100至S400。

步骤S100，获取输入的待识别语音信息；

步骤S200，对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；

步骤S300，将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；

步骤S400，将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。

以下对本实施例的基于多元特征的AIGC语音欺诈风控方法的步骤S100至S400进行具体说明。

本实施例中，在识别未知用户的语音信息之前，用户需要预先注册语音信息。本实施例中预先注册语音信息采用多元特征构造的方式。

当前语音识别系统都是提取语音信号的特征。通过提取语音信号的相关特征，有助于识别出相关的语音信息，将背景噪声、情感等信息剔除。单纯得到语谱图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。通过这种方式识别语音较单一，存在被绕过风控防御的可能性。

多元特征是通过将多个单一特征组合在一起来构造。这些单一特征可以是数值型、类别型、文本型等不同类型的特征，它们通常都是对同一对象或事件的不同的描述。本实施例利用时间、场景、位移等构造出多元特征，能够提升准确率(Accuracy，ACC)、减少错误拒绝率(False Rejection Rate,FRR)和错误接受率(False Acceptance Rate，FAR)。

多元特征的构造方法有多种，本实施例采用组合特征和交叉特征的方式构造多元特征。

所述组合特征即是将多个数值型特征相加、相乘或相除，得到一个新的数值型特征。所述交叉特征是将不同的特征组合起来，得到一个新的特征。

在音源数据采集的过程，尽可能最大化的构造多元特征。本实施例采用融合时间维度、融合位置维度、融合情绪维度的方式构造多元特征。

1)融合时间维度多元特征的语音源采集

由不同长短单词或字组成的句子。

例如要求用户录入音频：今天的天气真晴朗

又要求用户录入音频：天非常的蓝，微风轻拂，阳光明媚、没有一丝云彩，今天的天气真晴朗。

同等长度单词或字构造的句子不同的时间录制。

要求用户录入音频：这件衣服真好看，我很喜欢。(请在2-3秒说完)。

要求用户录入音频：这件衣服真好看，我很喜欢。(请在4-5秒说完)。

2)融合位置维度

这里的位置指的是声源到采声点的位置(距离、方向等空间相对参数)，将声源的位置信息融入多元特征。

要求用户录入音频：今天是周六，本实施例准备去公园散步。(请保持头部不变，将手机置于右手侧约1米处录制)。

要求用户录入音频：今天是周六，本实施例准备去公园散步。(请保持头部不变，将手机置于左手侧约1米处录制)。

要求用户录入音频：今天是周六，本实施例准备去公园散步。(请保持头部不变，将手机置于背后录制)。

3)融合情绪维度

在声学里，同一段语音。当情绪不同时声波、频谱等都会有所不同。

频率：高兴的语音通常会比悲伤的语音更高频，因为高频语音会让人感到轻松愉悦，而低频语音则往往会让人感到沉重和悲伤。

声调：愤怒的语音通常会比平静的语音更加尖锐和刺耳，因为这种语音可以让人感到紧张和不安。

音量：害怕的语音通常会比自信的语音更加柔和和低沉，因为这种语音可以让人感到温暖和安慰。

节奏：兴奋的语音通常会比沮丧的语音更加快速和有节奏感，因为这种语音可以让人感到兴奋和热情。

因此在语音采集的时候将利用情绪构造多元特征场景录入，帮助风控分析。

要求用户录入音频：这次考试我考了满分，真是太爽了！(高兴)。

要求用户录入音频：最近我失恋了，感觉整个世界都崩塌了！(悲伤)。

要求用户录入音频：大雄又欺负了我弟弟，之前多次劝说还是不听。今天我一定要揍他一顿(愤怒)。

要求用户录入音频：晚上路过一片废弃的厂房，了无人烟，漆黑一片路灯也坏了，太恐怖了！(害怕)。

语音识别中，语音存储是非常重要的一环，它直接影响到语音识别的准确性和效率。语音存储一般包括语音采集、语音压缩和语音格式等方面。语音的存储介质和存储方式的不同又决定了解析识别的性能和效率。采用多元特征构造的方式预先注册语音信息后，对语音数据进行存储。

在本实施例的一种实现方式中，对语音信息进行多介质分级存储：用户预先注册的语音信息通过云空间进行存储，对所述待识别语音信息进行语音识别和多元特征提取的处理数据通过数据库进行存储，对符合数据活跃度阈值的数据通过内存进行存储；其中，通过定时任务，定期将部分活跃数据加载到内存中存储，同时定期将非活跃数据从内存中释放。

以下对本实施例的多介质分级存储进行详细说明。

语音采集是指将语音信号转换成数字信号的过程。在语音识别中，一般使用麦克风等设备对语音进行采集。采集到的语音信号需要经过模拟到数字的转换，即模数转换(ADC)，将语音信号转换成数字信号，以便于计算机进行处理。

语音压缩是指将语音数据压缩成较小的文件大小，以便于传输和储存。在语音识别中，语音压缩可以减少数据传输和储存的成本，提高系统的效率和性能。常用的语音压缩算法包括MP3、FLAC、OGG等。这些算法可以将语音数据压缩到不同的文件大小，同时保持语音的质量和完整性。

语音格式是指语音数据在计算机中的存储格式。常用的语音格式包括WAV、MP3、FLAC、OGG等。不同的格式有不同的特点和优劣势，选择哪种格式取决于具体的需求和应用场景。在语音识别中，常用的语音格式包括WAV和FLAC。WAV格式适合用于音频制作和后期处理，FLAC格式适合用于音频储存和传输。

为了提升解析时效和准确率，本实施例在语音存储和格式选择分别上做了有效的处理。

首先是音频格式的选择：WAV采用PCM编码方式存储音频数据，因此文件大小与时间、采样频率和声道数有关，而与音频信息量无关。采样频率指的是在A/D转换中，单位时间内对模拟信号采样的次数，采样位数则表示每一次内A/D转换时，转换后的信号所被抽取的位数。WAV格式的采样数据为16位的INT值，高八位代表左声道，低八位代表右声道，因此可以把它看做8＊2。WAV文件在未压缩的PCM编码下，可以完整保留所有语音信息，无论是空白音频还是唱歌，都可以被一视同仁保存下来。相比之下，其他格式的音频数据可能会经过精简压缩，导致部分信息丢失。

然后是存储空间和存储方式采用多介质分级存储。如图4所示，存储空间上本实施例采取多介质分级存储，最上层是内存存储、第二层是关系数据库，下层是云空间。通过利用存储介质不同的特性来储存音频采集识别过程中不同的数据形态，大大提升了解析效率。

通过预加载处理分离原始音源数据和预分析数据存储，缩短解析流程。如图5所示，利用多介质分级存储将“注册音源提取——注册音源解析——多维向量计算”这一过程进行预处理。

云空间会保存“注册音源提取”的数据，注册的时候，录制用户的源数据文件会保存在云空间，如sound1.wav、sound2.wav、sound3.wav。因为这些数据占用空间大，且需要无限扩展，但是对时间响应没有很高的性能要求，这些都是云空间所具备的良好特性

关系型数据库会存储“注册音源解析——多维特征向量”计算过程的数据，将wav的源音频文件进行一系列计算解析，为了保持系统性能的活跃，常调用数据的“热加载”，就会把解析的数学结果(也就是特征向量)存在在关系型数据库中，因为随时可能直接调用它，所以会用外键关系结构化的数据设计将其和源文件关联起来。

核心计算都会发生在内存中，所以为了提升速度和性能，外部请求“活跃数据“的特征向量数据会上层到内存中进行存储，这些特征会被计算机程序转换成对象存在0x00000000、0x00000001、0x00000002这些内存地址中。

多介质分级存储的具体实现如下：

配置三张表：注册语音源表，注册特征向量表，注册人信息表。注册语音源表用于存储用户注册时提供的语音源信息，包括用户ID、语音ID、语音文件路径、标签、备注和创建时间。其中，user_id列是外键，引用了用户信息表中的id列；voice_id列是外键，引用了注册特征向量表中的voice_id列。注册特征向量表用于存储语音源的特征向量信息，包括语音ID、特征向量和创建时间。其中，voice_id列是外键，引用了注册语音源表中的voice_id列。注册人信息表用于存储用户的个人信息，包括用户ID、姓名、年龄、性别、地址和创建时间。这三张表通过音源ID、用户ID外键两两关联，通过表的关联。本实施例将注册音频经过语音分析提取的特征成功的保存在了关系型数据库中。

通过数据活跃度进行内存加载。随着系统中的音频特征数据越来越多，关系型数据库的来回调用会大量占用IO，导致数据提取超时。因此本实施例通过定时任务，定期将部分活跃数据上升加载到内存中存储，同时定期将非活跃数据从内存中释放。通过这个方法，注册特征信息与待检测语音进行特征计算的时候更加快速和高效了。

本实施例中配置一个指标累计(flink实时大数据)，外部用户每次发起一次请求的时候指标会+1，时间窗口例如有7天、15天和30天。关系数据库设计定义了声源ID、UserId和特征向量值Id的对应关系，时间段内请求的次数多的就意味着数据活跃，会上升到内存中存储，方便最快的计算。同时因为计算机内存资源有限，不可能无限扩展。所以时间段内请求较少的数据就会释放出内存。

步骤S100，获取输入的待识别语音信息。

步骤S200，对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征。

在本实施例的一种实现方式中，所述对所述待识别语音信息进行语音识别，获取语音语义特征包括：

1)获取预设帧间隔的待识别语音信息。

语音输入后的数字化过程中，首先要确定语音的起始和结束，然后进行降噪和滤波(除人声外还有许多噪声)，以保证计算机能够识别滤波后的语音信息。为了进一步处理，还需要对音频信号帧进行处理。同时，从微观的角度来看，人们的语音信号一般在一段时间内是相对稳定的，这就是所谓的短期平稳性，因此需要对语音信号进行帧间处理，以便于处理。

通常一帧需要20～50ms，帧间存在重叠冗余，避免了帧两端信号的弱化，影响识别精度。接下来是关键特征提取。由于对原始波形的识别不能达到很好的识别效果，需要通过频域变换提取特征参数。本实施例采用的变换方法是提取MFCC特征，并根据人耳的生理特性将每帧波形变换为原始波形向量矩阵。

2)基于预设声学模型、预设语言模型、预设词汇模型、解码器中的多种对所述待识别语音信息进行分析处理，将待识别语音信息转换为对应的语义语句。

如图6所示，将待识别语音信息转换为对应的语义语句的过程中的语音信号处理包括但不限于分帧，预加重，加窗；FFT(快速傅里叶变换)，对复数取绝对值或平方值，Mel滤波，取对数，DTC(离散余弦变换)，计算动态特征(Delta MFCC)。

也就是依据声学基础理论，通过声学模型、语言模型和解码器等组成模块，将语音(频率、音调、音量、语速、语义等)转换为计算机能够理解的数据。

本实施例中，根据语音的基本状态和概率，尝试获取不同人群、年龄、性别、口音、说话速度的语音语料，同时尝试采集各种安静、嘈杂、遥远的语音语料来生成声学模型。为了达到更好的效果，不同的语言和方言会采用不同的声学模型来提高精度，减少计算量。本实施例采用的声学模型不具体限定。

语言模型对单词句子的语义进行分析，所述语言模型通过大量的文本训练生成。如果语言模型中只有“今天星期一”和“明天星期二”两句话，则只能识别这两句话。如果想语言模型识别更多的句子，需要覆盖足够的语料库，本实施例中采用的语音模型不具体限定。

词汇模型是对语言模型的补充，是一个语言词典和不同发音的注释。例如，地名、人名、歌曲名、热门词汇、某些领域的特殊词汇等都会定期更新。目前，已有许多简化但有效的计算方法，如HMM隐马尔可夫模型。隐马尔可夫模型主要基于两个假设：一是内部状态转移只与前一状态相关，二是输出值只与当前状态(或当前状态转移)相关。简化了问题，也就是说，一个句子中一个词序列的概率只与前一个词相关，因此计算量大大简化。

常规的语音识别和声纹检查算法单一，尤其会将与用户基础行为习惯的语音特征损失掉，这些被损失的“噪声”，本实施例可以提炼有效部分组成符合多元特征的分析数据，进行风控模型的分析和语音风险管控。以下有当前不足的例子：

例如场景一：同一句话在不同的声源位置采集检测时，检测结果错误率高。尤其是相对位置差异大的情况。同样，非法分子通过当前拟声软件构造的语音数据，相位谱高度相似。与实际场景复杂多变的相位环境不符，理应被检测出来。

原因分析：当前大多检测方案只采集了频谱，忽略了相位谱。从而在声源位移变化的时候，特征检测失败

例如场景二：基于当前市面的检测方案，通常只适用于平静情感下的语音检测。当同一个用户，在高兴愉快的场景下和悲伤的场景下发声时，检测的结果误差较大，也容易失败。且当前拟声软件普遍缺乏语音情感构造的能力，非法分子拟声出的低真实度情感语音理应被风控。

原因分析：大多技术方案基于MFCC类似算法方案，背景噪声、情感等无关信息被剔除掉了，损失了部分用户行为或环境特征。

在本实施例的一种实现方式中，所述对所述待识别语音信息进行多元特征提取，获取语音情感特征包括：

1)提取所述待识别语音信息的相位信息。

在本实施例的一种实现方式中，所述提取所述待识别语音信息的相位信息包括：调用用于读取、处理音频文件的多个库工具；将多个所述库工具封装为一个处理函数；基于所述处理函数提取所述待识别语音信息的相位信息。

例如python代码使用numpy、soundfile、librosa等库封装一个函数，然后传入wav音频就可以得到相位谱。

具体地，首先导入必要的库NumPy、soundfile和librosa，然后创建一个空字典info用于存储有关相位信息的元数据。接着使用soundfile库读取名为’speech_demo.wav’的音频文件并将其存储在clean_sig变量中，同时将采样率存储在sr变量中。使用librosa库的stft函数将干净信号clean_sig转换为复杂的短时傅里叶变换(clean_spec)，例如使用320个样本的窗口长度(win_length)和160个样本的跳跃长度(hop_length)进行计算。n_fft参数设置为320，以便使用与win_length相同的值。接下来使用NumPy库的angle函数计算clean_spec的相位(phase)，并将相位信息以字符串形式存储在info字典的’内容’键中，将相位信息的形状以字符串形式存储在info字典的’形状’键中，将相位信息的数据类型以字符串形式存储在info字典的’类型’键中。这样就计算出了相位信息。

2)将所述相位信息输入到预先训练的特征提取模型，提取与各所述相位信息对应的多元特征，所述多元特征包括时间、场景、位移中的任一种或多种组合。

低级特征数量有限、提取耗资且不能完整描述语音信号，尝试从低级特征中进一步提取高级特征或直接批量处理原始音频，自动提取高级特征，利用深度学习就能提取出情绪特征，所述特征提取模型如采用卷积神经网络(convolutional neural network,CNN)、深度信念网络(deep belief network,DBN)、深度神经网络(deep neural network,DNN)。

在本实施例的一种实现方式中，预先训练所述特征提取模型包括：提取音频相位特征；为所述音频相位特征配置标签，并将所述标签映射为对应的数字编码；将所述音频相位特征和所述数字编码转换为numpy的数组格式，形成数据集；基于所述数据集对神经网络模型进行训练，获取所述特征提取模型。

例如，用LibROSA库来提取音频文件的特征。然后，使用pandas库将特征和标签分别存储在trainfeatures、trainlabel、testfeatures和testlabel变量中。接着，使用LabelEncoder将标签映射为数字编码，并使用np_utils.to_categorical将编码后的标签转换为二进制形式。最后，将特征和标签转换为numpy array格式，并分别存储在X_train、y_train、X_test和y_test变量中，用于训练和测试模型。通过不断的数据输入最终得到本实施例需要的数据输出，这样特征提取模型就构建完成了。

步骤S300，将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链。

在本实施例的一种实现方式中，还包括训练所述情感模型；训练所述情感模型包括：获取不同情感状态下的语音数据，作为训练集；对所述训练集中的语音数据进行语音特征提取，并为提取的所述语音特征标注对应的情感状态，形成标签训练数据；将所述标签训练数据输入到网络模型进行训练，获取能够识别语音不同情感状态的情感模型。

本实施例尽可能的逆向分析用户行为和习惯特征，计算这些多元特征达到风险。例如用户在不同的情感下说出相同语句或者不同用户在同情感下说出相同语句，这些语音特征都是不一样的。在这个情况下隐马尔可夫算法可以很好的计算这个问题：

马尔可夫性，可以通俗的理解为：现在决定未来，现在的状态(f(n-1))决定未来的状态f(n)。HMM模型定义：隐马尔可夫模型(Hidden Markov Model，HMM)是一种基于马尔可夫过程的统计模型，用于建模具有隐含状态的随机过程。HMM模型由三个部分组成：状态序列、观测序列和模型参数。观测序列是由一个不可见的马尔可夫链产生的，而马尔可夫链的状态是不可见的，状态序列只能通过观测数据来推断。每个状态都有一个概率分布，表示该状态下产生观测数据的可能性。在这里用户说的一大段文本根据时间的序列，由若干个句子组成。随着时间，句子的情感特征只基于前几句话的内容决定，这一现象恰恰符号HMM(马尔科夫)。

本实施例中，情感模型的构造过程包括数据收集、特征提取、数据标注、模型训练、模型测试、模型优化和应用部署。首先需要收集一定量的语音数据，包括不同情感状态下的语音数据，如高兴、悲伤、愤怒等。然后对收集到的语音数据进行特征提取，常用的特征包括音频频率、能量等。对提取出的特征进行标注，即将每个语音文件与对应的情感状态进行关联，以便训练模型时使用。使用支持向量机、神经网络等算法，对标注好的语音数据进行训练，构建出一个能够识别不同情感状态的情感模型。对训练好的情感模型进行测试，使用一些未见过的语音数据进行验证，以检验模型的准确性和泛化能力。根据测试结果，对模型进行优化，如调整参数、增加训练数据等，提升模型的性能。最后将优化后的模型部署到实际应用中。

例如，设置语义状态链的观测序列X，X＝(x1,x2,x3...xn)，语音情感状态链的隐藏序列Y，Y＝(y1,y2,y3...yn)。在观测序列X的情况下，序列Y的概率。

概率计算过程的一种python代码具体实现如下：

上述代码中，a表示状态转移矩阵，b表示发射矩阵，obs表示观测序列。函数中，首先计算出状态转移矩阵的维度nStates和观测序列的长度T。然后，初始化beta矩阵，beta[s,t]表示在时刻t处于状态s的概率。初始化beta矩阵的最后一列为1.0，即在最后一个时刻，任何状态的概率都是1.0。接着，从T-2时刻开始，逐个计算beta矩阵。对于每个时刻t和每个状态s，计算beta[s,t]的值，即上述公式的beta_t(i)。最后，根据公式P(Ο|λ)＝np.sum(pi*b[:,obs[0]]*beta[:,0])，计算得到了给定观测序列下的概率。

本实施例可以根据业务场景的业务量级、时效需求、功能性质和资金大小等构造不同安全风险等级的语音检测模式，可进行实时的风控策略升级，通过创建风控检测流程引导用户输入构造多元特征，增强风控检测手段。

当前很多检测产品，都存在一个问题。通俗讲就是过于"松"或者过于"严"，对于实际用户的体验不太友好。因此本实施例兼顾用户的良好体验，配置多级风险防控策略，所述多级风险防控策略中包括错误拒绝率，错误接受率以及准确率；基于所述待识别语音信息为用户预先注册的语音信息的概率确定对应等级的风险防控策略。

错误拒绝率(False Rejection Rate,FRR)：若两个样本为同类(同一个人)，却被系统误认为异类(非同一个人)，则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。

错误接受率(False Acceptance Rate,FAR)：若两个样本为异类(非同一个人)，却被系统误认为同类(同一个人)，则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。

准确率(Accuracy，ACC)：调整阈值，使得FAR+FRR最小，1减去这个值即为识别准确率，即ACC＝1-min(FAR+FRR)。

当判断该业务风险级别小(不涉及资损)(选择的模型阈值-优先顾及模型错误接受率)；当判断该业务风险级别大(涉及资金安全)+经过初检测该人能识别的概率极大的时候较宽松语音检测(选择的模型阈值-优先顾及模型错误拒绝率)；当用户的检测结果不清晰或疑似概率大时将实时升级风控检测策略；

本实施例可以设置风险通道等级(例如1级-5级，平台业务自定义)。

某场景一：平台语音动态发布，唱歌或主播活动，如果商家活动成功且没作弊会得到礼品。这个场景不涉及C端用户资金安全，且属于平台运营鼓励性质。系统分配的检测通道资源较下，模型简单，风控规则宽松，只会检测下语音分析。

某场景二：平台金融体现转账或者商品交易语音支付，这块业务密切设计C端用户的资金安全和身份合法性。模型会通过音源位置相位谱、情感检测等多种检测手段综合分析。

场景三：当用户在某场景检测下，被识别为风险用户或者其它环境原因检测结果不确定时。原本的模型策略等级会上升一级。

本申请实施例所述的基于多元特征的AIGC语音欺诈风控方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请任一实施例提供的基于多元特征的AIGC语音欺诈风控方法。

本申请实施例中，可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本申请实施例还提供一种电子设备。图8显示为本申请实施例提供的电子设备100的结构示意图。在一些实施例中，电子设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等终端设备。本申请实施例对基于多元特征的AIGC语音欺诈风控方法的具体应用场景不作任何限制。

如图8所示，本申请实施例提供的电子设备100包括存储器101和处理器102。

存储器101用于存储计算机程序；优选地，存储器101包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

具体地，存储器101可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器。电子设备100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器101可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

处理器102与存储器101相连，用于执行存储器101存储的计算机程序，以使电子设备100执行本申请任一实施例中提供的基于多元特征的AIGC语音欺诈风控方法。

可选地，处理器102可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中电子设备100还可以包括显示器103。显示器103与存储器101和处理器102通信相连，用于显示基于多元特征的AIGC语音欺诈风控方法的相关GUI交互界面。

综上所述，本申请实施例提供的基于多元特征的AIGC语音欺诈风控方法，通过对语音信息进行语义分析和多远特征提取，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗AIGC语音欺诈。因此，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于多元特征的AIGC语音欺诈风控方法，其特征在于，包括：

获取输入的待识别语音信息；

对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；

将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；

将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。

2.根据权利要求1所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，还包括训练所述情感模型；训练所述情感模型包括：

获取不同情感状态下的语音数据，作为训练集；

对所述训练集中的语音数据进行语音特征提取，并为提取的所述语音特征标注对应的情感状态，形成标签训练数据；

将所述标签训练数据输入到网络模型进行训练，获取能够识别语音不同情感状态的情感模型。

3.根据权利要求1所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，所述对所述待识别语音信息进行语音识别，获取语音语义特征包括：

获取预设帧间隔的待识别语音信息；

基于预设声学模型、预设语言模型、预设词汇模型、解码器中的多种对所述待识别语音信息进行分析处理，将待识别语音信息转换为对应的语义语句。

4.根据权利要求2所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，所述对所述待识别语音信息进行多元特征提取，获取语音情感特征包括：

提取所述待识别语音信息的相位信息；

将所述相位信息输入到预先训练的特征提取模型，提取与各所述相位信息对应的多元特征，所述多元特征包括时间、场景、位移中的任一种或多种组合。

5.根据权利要求4所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，所述提取所述待识别语音信息的相位信息包括：

调用用于读取、处理音频文件的多个库工具；

将多个所述库工具封装为一个处理函数；

基于所述处理函数提取所述待识别语音信息的相位信息。

6.根据权利要求4所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，预先训练所述特征提取模型包括：

提取音频相位特征；

为所述音频相位特征配置标签，并将所述标签映射为对应的数字编码；

将所述音频相位特征和所述数字编码转换为numpy的数组格式，形成数据集；

基于所述数据集对神经网络模型进行训练，获取所述特征提取模型。

7.根据权利要求1所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，还包括：

对语音信息进行多介质分级存储：用户预先注册的语音信息通过云空间进行存储，对所述待识别语音信息进行语音识别和多元特征提取的处理数据通过数据库进行存储，对符合数据活跃度阈值的数据通过内存进行存储；其中，通过定时任务，定期将部分活跃数据加载到内存中存储，同时定期将非活跃数据从内存中释放。

8.根据权利要求1所述的基于多元特征的AIGC语音欺诈风控方法，其特征在于，还包括：

配置多级风险防控策略，所述多级风险防控策略中包括错误拒绝率，错误接受率以及准确率；基于所述待识别语音信息为用户预先注册的语音信息的概率确定对应等级的风险防控策略。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于多元特征的AIGC语音欺诈风控方法。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至8中任一项所述的基于多元特征的AIGC语音欺诈风控方法。