CN113314103B

CN113314103B - 基于实时语音情感分析的非法信息识别方法及装置

Info

Publication number: CN113314103B
Application number: CN202110603389.9A
Authority: CN
Inventors: 涂晴宇; 倪晓平; 林露丝; 王玲亚
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-03-03
Anticipated expiration: 2041-05-31
Also published as: CN113314103A

Abstract

本发明提供了基于实时语音情感分析的非法信息识别方法及装置，方法包括：从获取的语音原始数据中提取情感特征；将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。通过建立鲁棒性情感分析模型，对通话人的语音进行情感分析，对语音的可信度进行打分，如果打分超过预设值时，预设值可以为两道，当低于最低预设值时，可及时引导客户到柜台办理相关业务，通过银行柜员有效防止诈骗事实的发生，本申请对受诈可信度的不同分别提醒引导，能大大降低客户的实际受诈率，保证客户资金安全，提高银行专业可信度。

Description

基于实时语音情感分析的非法信息识别方法及装置

技术领域

本申请属于语音情感分析技术领域，具体地讲，涉及一种基于实时语音情感分析的非法信息识别方法及装置。

背景技术

随着互联网应用和通讯技术的迅速发展，普通个人客户的小额转账大多采用线上方式完成，但是大额转账业务目前仍是以柜台和ATM机办理为主。当前，有非法冒充银行客服电话引诱储户进行转账的诈骗行为，且大多数诈骗者会将受骗人引导至ATM自助转账设备进行转账操作以图躲过银行柜员对受骗人行为的警觉。因此，需要对非法信息进行识别来预防电信诈骗的发生。

发明内容

本申请基于实时语音情感分析的非法信息识别方法及装置，以至少解决当前在ATM机办理业务时因电信诈骗而遭受损失的问题。

根据本申请的第一个方面，提供了一种基于实时语音情感分析的非法信息识别方法，包括：

从获取的语音原始数据中提取情感特征；

将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；

根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。

在一实施例中，从获取的语音原始数据中提取情感特征，包括：

对获取的语音原始数据中的语音信号进行预加重；

对预加重后的语音信号进行分帧处理并提取每一帧的情感特征。

在一实施例中，根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息，包括：

如果可信度数值高于第一阈值但小于第二阈值，则将语音原始数据划分为疑似非法信息并向用户发出提示；

如果可信度数值高于第二阈值，则终止后续业务流程并进行预警。

在一实施例中，鲁棒性情感分析模型的训练步骤包括：

提取标注后的历史语音数据中的情感特征；

将预先分类的情感类别与历史语音数据中的情感特征进行匹配生成情感类别与情感特征之间的映射关系；

根据映射关系建立多级网络模型；

通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

在一实施例中，通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型，包括：

计算多级网络模型中各个子节点的基尼系数；

根据各个子节点的基尼系数计算分裂的基尼系数；

根据分裂的基尼系数构建多颗输入样本不同的决策树，通过多颗决策树构建分类判断的随机森林；

利用随机森林及标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

根据本申请的第二个方面，还提供了一种基于实时语音情感分析的非法信息识别装置，包括：

情感特征提取单元，用于从获取的语音原始数据中提取情感特征；

可信度数值输出单元，用于将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；

非法信息判定单元，用于根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。

在一实施例中，情感特征提取单元包括：

预加重模块，用于对获取的语音原始数据中的语音信号进行预加重；

分帧模块，用于对预加重后的语音信号进行分帧处理并提取每一帧的情感特征。

在一实施例中，非法信息判定单元包括：

第一判断模块，用于如果可信度数值高于第一阈值但小于第二阈值，则将语音原始数据划分为疑似非法信息并向用户发出提示；

第二判断模块，用于如果可信度数值高于第二阈值，则终止后续业务流程并进行预警。

在一实施例中，还包括一鲁棒性情感分析模型的训练装置包括：

特征提取单元，用于提取标注后的历史语音数据中的情感特征；

映射关系生成单元，用于将预先分类的情感类别与历史语音数据中的情感特征进行匹配生成情感类别与情感特征之间的映射关系；

多级网络模型建立单元，用于根据映射关系建立多级网络模型；

鲁棒情感分析模型生成单元，用于通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

在一实施例中，鲁棒情感分析模型生成单元包括：

基尼系数计算模块，用于计算多级网络模型中各个子节点的基尼系数；

分裂基尼系数计算模块，用于根据各个子节点的基尼系数计算分裂的基尼系数；

随机森林建立模块，用于根据分裂的基尼系数构建多颗输入样本不同的决策树，通过多颗决策树构建分类判断的随机森林；

训练模块，用于利用随机森林及标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

根据本申请的第三个方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现基于实时语音情感分析的非法信息识别方法的步骤。

根据本申请的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现基于实时语音情感分析的非法信息识别方法的步骤。

由上述技术方案可知，本申请提供的一种基于实时语音情感分析的非法信息识别方法及装置，方法包括：从获取的语音原始数据中提取情感特征；将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。由于正规的银行客服人员均受过严格的通话情感表达与话术培训，语音的情感比普通人更自然和稳定，而诈骗者在面对受骗人的设问时，较容易出现暂时的迟疑、紧张等情绪，因此通过ATM设备对电话人的语音情感进行分析，可进行初步的可疑诈骗判断。通过建立鲁棒性情感分析模型，对通话人的语音进行情感分析，对语音的可信度进行打分，如果打分超过预设值时，预设值可以为两道，当低于最低预设值时，可及时引导客户到柜台办理相关业务，通过银行柜员有效防止诈骗事实的发生，本申请建立的多级网络模型通过各情感类别及其对应的特征组合，将7种情感类别构建按序分层识别网络，以先区分情感差别明显的大类、后区分情感差别不明显的小类为原则，减小相关性不大的情感类别间的相互干扰，该步骤为使每一类情感类别的特征组合发挥关键作用，采取不同情感类别的特征组合赋予识别权重分数的方法，即特征的重要性进行评分，这样可使每层网络更关键的特征发挥更大的分类作用，提高情感的分类准确率，然后参考语音情感识别领域较为成熟的结论，在网络前两层人为选取先进行情感区分的平静、无聊和恐惧三个类别，选取的原则是该类情感与其余情感差异性更大，这种分类方式将使特征集合减少出现分类误判的情况，从而提高情感识别的分类正确率，得到基于一般语音的有效鲁棒性情感分析模型。采用该模型可以通过有效的语音情感识别方法，对受诈可信度的不同分别提醒引导，能大大降低客户的实际受诈率，保证客户资金安全，提高银行专业可信度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于实时语音情感分析的非法信息识别方法流程图。

图2为本申请实施例中从获取的语音原始数据中提取情感特征的方法流程图。

图3为本申请实施例中非法信息判断方法流程图。

图4为本申请实施例中鲁棒性情感分析模型的训练步骤。

图5为本申请实施例中鲁棒性情感分析模型的获取过程。

图6为本申请实施例中网络结构构造多级随机森林网络的示意图。

图7为本申请提供的一种基于实时语音情感分析的非法信息识别装置结构框图。

图8为本申请实施例中情感特征提取单元的结构框图。

图9为本申请实施例中非法信息判定单元的结构框图。

图10为本申请实施例中鲁棒性情感分析模型的训练装置的结构框图。

图11为本申请实施例中鲁棒情感分析模型生成单元的结构框图。

图12为用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了防止电信诈骗的发生，用户在接听电话并在ATM机进行转账操作时，通过ATM设备的语音收录装置，实时采集电话通过过程中的音频流数据，并通过音频数据流的语音情感分析，识别电话另一端的诈骗者。对有涉嫌金融诈骗的转账交易，通过ATM设备的扬声器装置，及时提醒客户可能受诈，并引导客户到柜台办理业务，后台将信息同步到柜台，以向接待柜员展示详细的风险信息。

基于此，本申请分别提供了一种基于实时语音情感分析的非法信息识别方法、基于实时语音情感分析的非法信息识别装置、电子设备和计算机可读存储介质，通过建立鲁棒性情感分析模型，对通话人的语音进行情感分析，对语音的可信度进行打分，如果打分超过预设值时，预设值可以为两道，当低于最低预设值时，可及时引导客户到柜台办理相关业务，通过银行柜员有效防止诈骗事实的发生，本申请建立的多级网络模型通过各情感类别及其对应的特征组合，将7种情感类别构建按序分层识别网络，以先区分情感差别明显的大类、后区分情感差别不明显的小类为原则，减小相关性不大的情感类别间的相互干扰，该步骤为使每一类情感类别的特征组合发挥关键作用，采取不同情感类别的特征组合赋予识别权重分数的方法，即特征的重要性进行评分，这样可使每层网络更关键的特征发挥更大的分类作用，提高情感的分类准确率，然后参考语音情感识别领域较为成熟的结论，在网络前两层人为选取先进行情感区分的平静、无聊和恐惧三个类别，选取的原则是该类情感与其余情感差异性更大，这种分类方式将使特征集合减少出现分类误判的情况，从而提高情感识别的分类正确率，得到基于一般语音的有效鲁棒性情感分析模型。采用该模型可以通过有效的语音情感识别方法，对受诈可信度的不同分别提醒引导，能大大降低客户的实际受诈率，保证客户资金安全，提高银行专业可信度。

基于上述内容，本申请还提供一种用于实现本申请一个或多个实施例中提供的基于实时语音情感分析的非法信息识别方法的基于实时语音情感分析的非法信息识别装置，该装置可以自行或通过第三方服务器等与客户端设备之间通信连接，并将识别结果返回给客户端。

可以理解的是，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在另一种实际应用情形中，前述的基于实时语音情感分析的非法信息识别装置进行基于实时语音情感分析的非法信息识别的部分可以在如上述内容的服务器中执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于基于实时语音情感分析的非法信息识别的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例及应用实例分别进行详细说明。

为了防止用户在使用ATM机进行业务操作时受到电信诈骗的诱导，本申请提供了一种基于实时语音情感分析的非法信息识别方法，如图1所示，包括：

S101：从获取的语音原始数据中提取情感特征。

S102：将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值。

S103：根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。

在一具体实施例中，ATM机前置平台通过通信接口与AI算法平台进行通信，AI算法平台为区域内统一的模型部署平台，用于对语音数据流的预处理、特征提取和情感分析，对于流入的语音流数据，平台可依据语音文本大小自动分配资源，利用已训练好的模型在数秒内得到语音情感分类的可信度，并通过通信接口反传报文给前置平台。银行网点可预先通过ATM系统设置语音情感模型的阀值，对AI平台返回的情感可信度进行初步判断，以便于引导后续业务处理流程，网点需预先设置两个阀值参数，分别为“提醒阀值(第一阈值)”和“引导阀值(第二阈值)”，“提醒阀值”主要用于控制ATM设备语音诈骗警示的灵敏度，“引导阀值”主要主要用于控制ATM设备引导客户到柜台办理业务的灵敏度。在模型部署平台和由ATM设备采集的语音流数据先流入ATM前置平台，ATM前置平台将语音数据流传送到AI算法平台，该平台可在数秒内通过对方通话人的语音情感分析，得出客户可能受诈的可信度，并将可信度结果反传给ATM前置平台接口。网点参数配置好后，客户的通话可通过ATM机的语音采集设备转化为语音数据流。ATM系统的业务处理层拿到可信度结果后，会与预先设置的参数阀值大小进行比较，系统会根据不同的比对结果获取不同的业务处理逻辑。

在一实施例中，从获取的语音原始数据中提取情感特征，如图2所示，包括：

S201：对获取的语音原始数据中的语音信号进行预加重。

S202：对预加重后的语音信号进行分帧处理并提取每一帧的情感特征。

在一具体实施例中，输入语音原始文本数据Sn。对语音原始文本进行预处理，包括通过语音一阶滤波器进行语音信号的预加重，以提升高频语音的分辨率；对语音文本进行分帧处理，以便于提取每一帧的特征参数；对每一帧的语音流加窗处理，以强调采样点语音的波形特点等。对语音文本进行端点检测，主要目的是准确定位语音数据流的起点和结束点，排除无声段的噪声干扰，提高语音信号的处理效率和准确率。

在一实施例中，根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息，如图3所示，包括：

S301：如果可信度数值高于第一阈值但小于第二阈值，则将语音原始数据划分为疑似非法信息并向用户发出提示。

S302：如果可信度数值高于第二阈值，则终止后续业务流程并进行预警。

在一具体实施例中，判断受诈可信度小于“提醒阀值”时，系统不做任何处理，客户可直接通过ATM设备正常办理业务。判断受诈可信度大于“提醒阀值”且小于“引导阀值”时，ATM前置系统会将预录制好的防诈骗提醒语音数据流传至ATM设备，ATM设备播放防诈骗语音。客户可正常办理业务，业务处理不受防诈骗语音的影响。判断受诈可信度大于“引导阀值”时，ATM前置系统终止客户输入的交易指令，停止业务办理过程，并将客户的实时语音流和已操作的交易指令详情传送到柜台处理系统，由柜员进行下一步判断和确认，ATM设备终止交易后，提示客户到柜台继续办理业务。

在本申请的一个具体实施例中，ATM设备报文及流数据交互的过程，包括如下步骤：

步骤201：AI平台为集中式的人工智能算法平台，内置语音流数据的情感分析算法，实时的语音数据流文本传入平台后，可通过预先训练好的模型反传受诈可信度的结果，该平台一个显著的优势是与实际交易指令并行处理，算法平台的处理流程不影响交易本身效率和结果，只有当平台反传结果后才参与交易业务流程。一般而言，对于不同的应用场景需调用不同的AI平台内置算法，对于ATM联机场景，考虑到实时交易的快速响应特性，语音流防诈骗分析采用ML领域的决策树随机森林算法，可达到令人满意的处理效率。

步骤202：ATM前置为消息分发平台，包括从ATM系统接受语音数据流转发到AI平台，以及从AI平台接收受诈可信度结果反传到ATM系统。

步骤203：接出通讯为ATM系统与ATM前置的交互通讯区。

步骤204：业务处理层可进行简单的门判断，银行网点人员可预先在业务处理层配置“提醒阀值”和“引导阀值”两个参数，受诈可信度从ATM前置反传到ATM系统时，在业务处理层与参数值进行比对判断，以分情况处理下一步的业务流程。

步骤205：接入通讯为ATM系统与ATM设备的交互通讯区。

步骤206：ATM设备通常为ATM机，作为直接面对客户的交互设备，并可通过收音装置实时采集客户通话的对话人语音流数据。

在一实施例中，如图4所示，鲁棒性情感分析模型的训练步骤包括：

S401：提取标注后的历史语音数据中的情感特征。

S402：将预先分类的情感类别与历史语音数据中的情感特征进行匹配生成情感类别与情感特征之间的映射关系。

S403：根据映射关系建立多级网络模型。

S404：通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

在一实施例中，通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型，如图5所示，包括：

S501：计算多级网络模型中各个子节点的基尼系数。

S505：根据各个子节点的基尼系数计算分裂的基尼系数。

S503：根据分裂的基尼系数构建多颗输入样本不同的决策树，通过多颗决策树构建分类判断的随机森林。

S504：利用随机森林及标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

在一具体实施例中，情感特征计算主要分为两个部分，一部分是声学模型普遍认知的对语音情感有效的56种语音特征，包括语音振幅、基频频率等；另一部分是56种特征的简单重组，以构建基于基本特征的引申特征，提高情感识别的准确性。

情感分类即依据语音情感特征，通过大数据量的已标注语音文本特征提取，将所有可能情感类别与特征相对应，即得出每一种情感类别对应的特征组合，其中，情感类别采用语音模型较公认且应用广泛的7种情感模型，包括平静、无聊、厌恶、恐惧、愤怒、高兴和悲伤7种情感，各情感类别可基于语音特征做出区分。

多级网络模型即已训练好的语音情感分析识别算法模型，该模型通过各情感类别及其对应的特征组合，将7种情感类别构建按序分层识别网络，以先区分情感差别明显的大类、后区分情感差别不明显的小类为原则，减小相关性不大的情感类别间的相互干扰，该步骤为使每一类情感类别的特征组合发挥关键作用，采取不同情感类别的特征组合赋予识别权重分数的方法，即特征的重要性进行评分，这样可使每层网络更关键的特征发挥更大的分类作用，提高情感的分类准确率，其基本步骤如下：

a)将实验选取所有维的特征随机按序归为集合：{a1，a2，…，an}；

b)利用模型的训练过程，对某一类已标注样本集，按信息增益的思想得到每一维特征对该样本分类的重要性评分，评分原则为所有维分数小于1，越重要特征分数越高，将分数按降序归为集合{b1，b2，…，bn}；

c)利用归一化思想，将集合{b1，b2，…，bn}转化为所有分数和为1，且单特征分数小于1的降序排列集合{c1，c2，…，cn}；

d)对每一层网络均通过a)～c)三个步骤，确定每一层网络的带权特征集。

多级模型确定后，依据决策树快速响应的特点，通过多棵决策树构造随机森林语音识别算法，对已有的标注语音文本进行算法训练，得到基于一般语音的有效鲁棒性情感分析模型。

本算法参考语音情感识别领域较为成熟的结论，在网络前两层人为选取先进行情感区分的平静、无聊和恐惧三个类别，选取的原则是该类情感与其余情感差异性更大，这种分类方式将使特征集合减少出现分类误判的情况，从而提高情感识别的分类正确率。

多级网络的每一层分类决策树均按基尼系数(Gini)决定分割点，其计算方法主要包括两个步骤：

步骤1：计算各个子节点的基尼系数。假设子类有K个，样本点属于第K类的概率为p_k，则概率分布的基尼系数为：

设每个子节点分类含Success和Failure两部分，则计算两者概率的平方和：

P(Success)²+P(Failure)² (2)

步骤2：计算分裂的基尼系数，即各个子节点基尼系数的加权平均值，若节点总数为N，分类A数量为N₁，分类B的数量为N₂。

子节点A的基尼系数为：

子节点B的基尼系数为:

则节点按某类分裂的基尼系数为：

通过以上两步，子节点每一次分裂后都会使得其下一代子节点的纯度增加，纯度越高即分类的效果越明显，基尼方法下的决策树在每一次分裂时都会选择能使纯度最高的分裂方式，多棵输入样本不同的决策树构成分类判断的随机森林。

含重要性评分的多级随机森林算法的训练基本步骤如下：

算法训练采用CASIA汉语语音情感数据库的语音情感文本数据，该数据语料均为带标签的语音文件，语音文本训练就是通过读取音频.wav文件名中的标签字符进行标签归类，来确定每个音频文本的情感种类。

算法相关的语音基本特征集，由短时平均能量、基音频率、共振峰和梅尔倒谱系数相关特征等构成，共计56个特征如下表1所示。

表1

按照图6所示的网络结构构造多级随机森林网络，数据源为已标注好的CASIA汉语语音情感数据库。为了使网络的每一层都达到最佳的分类效果，需要先确定好每层的特定重要性评分赋权特征集，对每一层网络的特征集进行重要性评分排序，得到未降序的三层网络的56个特征重要性评分：

[0.021197,0.004648,0.035157,0.037444,...,0.012690,0.009482,0.008111,0.015431]

将降序排列后的重要性评分特征集做归一化处理，得到56个范围在0到1之间的赋权特征，记每层网络的特征集为C1、C2和C3，即针对每层网络构建的赋权特征集。

对多级随机森林网络的语音情感识别实验，采取十折交叉验证方法，计算各次情感识别正确率的平均值。通过比对数据源各样本的标注标签，得到各类情感的平均识别正确率如下表2所示：

表2

在算法的识别效率方面，通过四次试验，从模型开始训练到得出结果期间计算机记录时间差值作为模型耗时，四次记录如下表3(单位：ms)：

表3

可看出多级分层的随机森林算法识别情感的平均用时为1063.585毫秒，效率较高，完全符合ATM设备业务处理及实时提醒要求。

基于同一发明构思，本申请实施例还提供了一种基于实时语音情感分析的非法信息识别装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于实时语音情感分析的非法信息识别装置解决问题的原理与基于实时语音情感分析的非法信息识别方法相似。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

根据本申请的第二个方面，还提供了一种基于实时语音情感分析的非法信息识别装置，如图7所示，包括：

情感特征提取单元701，用于从获取的语音原始数据中提取情感特征；

可信度数值输出单元702，用于将提取的情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；

非法信息判定单元703，用于根据可信度数值与预设的第一阈值和第二阈值的大小关系判断语音原始数据是否为非法信息。

在一实施例中，如图8所示，情感特征提取单元701包括：

预加重模块801，用于对获取的语音原始数据中的语音信号进行预加重；

分帧模块802，用于对预加重后的语音信号进行分帧处理并提取每一帧的情感特征。

在一实施例中，如图9所示，非法信息判定单元703包括：

第一判断模块901，用于如果可信度数值高于第一阈值但小于第二阈值，则将语音原始数据划分为疑似非法信息并向用户发出提示；

第二判断模块902，用于如果可信度数值高于第二阈值，则终止后续业务流程并进行预警。

在一实施例中，如图10所示，还包括一鲁棒性情感分析模型的训练装置包括：

特征提取单元1001，用于提取标注后的历史语音数据中的情感特征；

映射关系生成单元1002，用于将预先分类的情感类别与历史语音数据中的情感特征进行匹配生成情感类别与情感特征之间的映射关系；

多级网络模型建立单元1003，用于根据映射关系建立多级网络模型；

鲁棒情感分析模型生成单元1004，用于通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

在一实施例中，如图11所示，鲁棒情感分析模型生成单元1004包括：

基尼系数计算模块1101，用于计算多级网络模型中各个子节点的基尼系数；

分裂基尼系数计算模块1102，用于根据各个子节点的基尼系数计算分裂的基尼系数；

随机森林建立模块1103，用于根据分裂的基尼系数构建多颗输入样本不同的决策树，通过多颗决策树构建分类判断的随机森林；

训练模块1104，用于利用随机森林及标注后的历史语音数据对多级网络模型进行训练，获得鲁棒性情感分析模型。

P(Success)²+P(Failure)² (2)

子节点A的基尼系数为：

子节点B的基尼系数为：

则节点按某类分裂的基尼系数为：

含重要性评分的多级随机森林算法的训练基本步骤如下：

算法相关的语音基本特征集，由短时平均能量、基音频率、共振峰和梅尔倒谱系数相关特征等构成，共计56个特征如下表4所示:

表4

[0.021197,0.004648,0.035157,0.037444,...,0.012690,0.009482,0.008111,0.015431]

对多级随机森林网络的语音情感识别实验，采取十折交叉验证方法，计算各次情感识别正确率的平均值。通过比对数据源各样本的标注标签，得到各类情感的平均识别正确率如下表5所示：

表5

在算法的识别效率方面，通过四次试验，从模型开始训练到得出结果期间计算机记录时间差值作为模型耗时，四次记录如下表6(单位：ms)：

表6

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图12，所述电子设备具体包括如下内容：

处理器(processor)1201、内存1202、通信接口(Communications Interface)1203、总线1204和非易失性存储器1205；

其中，所述处理器1201、内存1202、通信接口1203通过所述总线1204完成相互间的通信；

所述处理器1201用于调用所述内存1202和非易失性存储器1205中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S101：从获取的语音原始数据中提取情感特征。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S101：从获取的语音原始数据中提取情感特征。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种基于实时语音情感分析的非法信息识别方法，其特征在于，包括：

从获取的语音原始数据中提取情感特征；

将提取的所述情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；

根据所述可信度数值与预设的第一阈值和第二阈值的大小关系判断所述语音原始数据是否为非法信息；

所述从获取的语音原始数据中提取情感特征，包括：

对获取的语音原始数据中的语音信号进行预加重；

对预加重后的语音信号进行分帧处理并提取每一帧的情感特征；

所述根据所述可信度数值与预设的第一阈值和第二阈值的大小关系判断所述语音原始数据是否为非法信息，包括：

如果所述可信度数值高于第一阈值但小于第二阈值，则将所述语音原始数据划分为疑似非法信息并向用户发出提示；

如果所述可信度数值高于第二阈值，则终止后续业务流程并进行预警。

2.根据权利要求1所述的基于实时语音情感分析的非法信息识别方法，其特征在于，鲁棒性情感分析模型的训练步骤包括：

提取标注后的历史语音数据中的情感特征；

根据所述映射关系建立多级网络模型；

通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对所述多级网络模型进行训练，获得所述鲁棒性情感分析模型。

3.根据权利要求2所述的基于实时语音情感分析的非法信息识别方法，其特征在于，所述通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对所述多级网络模型进行训练，获得所述鲁棒性情感分析模型，包括：

计算多级网络模型中各个子节点的基尼系数；

根据各个子节点的基尼系数计算分裂的基尼系数；

利用随机森林及标注后的历史语音数据对所述多级网络模型进行训练，获得所述鲁棒性情感分析模型。

4.一种基于实时语音情感分析的非法信息识别装置，其特征在于，包括：

可信度数值输出单元，用于将提取的所述情感特征输入预先训练的鲁棒性情感分析模型中获得语音原始数据的可信度数值；

非法信息判定单元，用于根据所述可信度数值与预设的第一阈值和第二阈值的大小关系判断所述语音原始数据是否为非法信息；

所述情感特征提取单元包括：

分帧模块，用于对预加重后的语音信号进行分帧处理并提取每一帧的情感特征；

所述非法信息判定单元包括：

第一判断模块，用于如果所述可信度数值高于第一阈值但小于第二阈值，则将所述语音原始数据划分为疑似非法信息并向用户发出提示；

第二判断模块，用于如果所述可信度数值高于第二阈值，则终止后续业务流程并进行预警。

5.根据权利要求4所述的基于实时语音情感分析的非法信息识别装置，其特征在于，还包括一鲁棒性情感分析模型的训练装置包括：

多级网络模型建立单元，用于根据所述映射关系建立多级网络模型；

鲁棒情感分析模型生成单元，用于通过多棵决策树构造随机森林语音识别算法，并利用标注后的历史语音数据对所述多级网络模型进行训练，获得所述鲁棒性情感分析模型。

6.根据权利要求5所述的基于实时语音情感分析的非法信息识别装置，其特征在于，所述鲁棒情感分析模型生成单元包括：

训练模块，用于利用随机森林及标注后的历史语音数据对所述多级网络模型进行训练，获得所述鲁棒性情感分析模型。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3任一项所述的基于实时语音情感分析的非法信息识别方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至3任一项所述的基于实时语音情感分析的非法信息识别方法的步骤。