CN111639584A - 基于多分类器的风险识别方法、装置及计算机设备 - Google Patents

基于多分类器的风险识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN111639584A
CN111639584A CN202010457551.6A CN202010457551A CN111639584A CN 111639584 A CN111639584 A CN 111639584A CN 202010457551 A CN202010457551 A CN 202010457551A CN 111639584 A CN111639584 A CN 111639584A
Authority
CN
China
Prior art keywords
classifier
training data
user
video data
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010457551.6A
Other languages
English (en)
Inventor
熊玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010457551.6A priority Critical patent/CN111639584A/zh
Priority to PCT/CN2020/103795 priority patent/WO2021237907A1/zh
Publication of CN111639584A publication Critical patent/CN111639584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Educational Administration (AREA)

Abstract

本发明公开了基于多分类器的风险识别方法、装置、计算机设备及存储介质,涉及智能决策技术领域,包括若检测到用户端发送的事项办理指令,获取用户视频数据;获取其对应的用户身份信息以判断是否通过用户身份核验;若通过则获取当前办理事项流程中的当前视频数据;提取当前视频数据中的情感信息和内容信息;调用由若干个非线性分类器和线性分类器组成的组合分类器;将当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;若当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。该方法实现了基于组合分类器对用户视频数据进行用户风险类别进行判断,提升了识别准确率。

Description

基于多分类器的风险识别方法、装置及计算机设备
技术领域
本发明涉及智能决策技术领域,尤其涉及一种基于多分类器的风险识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,现有的许多金融机构也开始推广或者试行在线办理金融业务,以提升客户办理金融业务的便利性和廉洁度。
但金融业务存在高风险的特殊性,在线上办理过程中必须提供及时的阻断机制以规避风险,避免客户或者金融机构蒙受损失(例如客户受欺诈或者胁迫时及时进行阻断)。在传统的客户与客服人员之间一对一进行沟通时,可以依赖客服人员的经验和判断来及时的进行阻断。但这样的效率较低,也无法达到24小时服务的要求。
如何通过计算机程序,令计算机可以自动的识别其中的风险是当前研究的热点问题。对于计算机而言,对风险的识别判断实际上被认为是一个分类任务。亦即,根据视频和语音中的情感信息和内容信息,确定其属于风险过高的类别还是属于风险正常的类别。
现有技术中可以用于实现该分类任务的分类器包括:基于逻辑回归的线性分类器,基于聚类算法的分类器,决策树模型以及基于核函数的非线性分类器-支持向量机(SVM)。
其中,使用基于逻辑回归的线性分类器,基于聚类算法的分类器,决策树模型会使得分类效果倾斜或者偏向于样本数量较大的类别(亦即属于风险正常的类别)。但是,实际使用过程期待检出的是哪些异常的,处于风险过高的部分,与实际使用情况不契合。
而且,情感信息和内容信息都是一些高维数据,基于逻辑回归的线性分类器,基于聚类算法的分类器以及决策树模型都无法对非线性问题进行分类。因此,其经过训练后的泛化能力较差,容易受到异常点的影响和干扰。
支持向量机虽然可以处理非线性分类问题。但支持向量机在对较大的样本数据量和维度较多的特征进行处理时,需要非常长的处理训练时间,效率很低(大量的非支持向量被加入到了凸二次规划问题中)。
而且,支持向量机使用时需要选择使用特定的核函数。不同的核函数对于不同类型的样本数据具有不同的效果,但是却没有行之有效的核函数选择方式,更多的依赖于技术人员的经验或者灵感。而在进行业务风险评价时,情感信息和内容信息是比较庞杂的,没有非常特殊或者显著的数据类型特征,仅使用一种核函数难以获得非常好的准确率,支持向量机不能取得良好的识别效果。
因此,如何针对风险识别的数据特点(样本数据之间的差异较大,分布零散而且容易存在特征缺失,是高维度的非线性可分数据),提供一种合适的分类器执行分类任务,及时并且准确的识别风险是一个迫切需要解决的技术问题。
发明内容
本发明实施例提供了一种基于多分类器的风险识别方法、装置、计算机设备及存储介质,旨在解决现有技术中事项在线办理系统中对用户在事项办理过程中进行用户风险识别是基于单分类器,导致识别率较低的问题。
第一方面,本发明实施例提供了一种基于多分类器的风险识别方法,其包括:
若检测到用户端发送的事项办理指令,获取用户视频数据;
获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验;
若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据;
提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息;
调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器;
将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;
判断所述当前视频数据对应的用户风险类别是否属于高风险类别;以及
若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
第二方面,本发明实施例提供了一种基于多分类器的风险识别装置,其包括:
用户视频数据获取单元,用于若检测到用户端发送的事项办理指令,获取用户视频数据;
用户身份核验单元,用于获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验;
当前视频数据获取单元,用于若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据;
视频信息提取单元,用于提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息;
组合分类器调用单元,用于调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器;
用户分类单元,用于将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;
类别判断单元,用于判断所述当前视频数据对应的用户风险类别是否属于高风险类别;以及
高风险类别处理单元,用于若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于多分类器的风险识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多分类器的风险识别方法。
本发明实施例提供了一种基于多分类器的风险识别方法、装置、计算机设备及存储介质,包括若检测到用户端发送的事项办理指令,获取用户视频数据;获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验;若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据;提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息;调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器;将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;判断所述当前视频数据对应的用户风险类别是否属于高风险类别;以及若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。该方法实现了基于组合分类器对用户视频数据进行用户风险类别进行判断,提升了识别准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于多分类器的风险识别方法的应用场景示意图;
图2为本发明实施例提供的基于多分类器的风险识别方法的流程示意图;
图3为本发明实施例提供的基于多分类器的风险识别装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于多分类器的风险识别方法的应用场景示意图;图2为本发明实施例提供的基于多分类器的风险识别方法的流程示意图,该基于多分类器的风险识别方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S180。
S110、若检测到用户端发送的事项办理指令,获取用户视频数据。
在本实施例中,以用户是在线办理事项(如在线购买某产品)为场景来说明。客户可以根据在用户端(如智能手机、平板电脑等)浏览得到的产品相关信息和自身的需要,选择点击办理相应的购买操作时。在服务器接收到用户端发送的事项办理指令后,可以触发用户端的摄像头等相关的交互设备以进行客户与服务器之间的视频交互。
S120、获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验。
在本实施例中,为保证用户的数据安全,需要在在线办理事项前,核验客户的真实身份。在实际操作中,具体可以通过多种方式完成对用户身份信息的核验,包括但不限于身份证信息、人脸识别、指纹和虹膜信息等等。
例如,在用户身份信息过程中,可以提示客户输入身份证信息(也可以直接通过拍摄身份证获得)。然后,根据身份证信息,调取对应的生物验证信息(包括人脸、虹膜和指纹等),匹配判断是否为客户本人。
在一些实施例中,还可以通过语音播报等形式,提示和引导客户做出眨眼,点头等等一系列的动作,以确定客户身份的真实有效。
S130、若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据。
在本实施例中,服务器获取了用户视频数据并完成了对用户身份核验后,此时在获取用户在办理事项时的当前视频数据,以当前视频数据为分析用户风险等级的数据基础。
服务器在获取当前视频数据的过程中,可以通过播报语音信息的形式来实现引导,从而模拟客服人员的操作。当然,为了满足不同客户的个性化需求,还可以提供多种播报选项,如播报的声音类型,播报语速等等。用户可以根据自己的需要,选择使用适合自己的语言或者语速等进行播报。
S140、提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息。
在本实施例中,“情感信息”是指客户在办理事项流程中所体现出的情感状态,可以反映客户在办理事项时的状态。具体而言,情感信息可以通过标签化的方式来表示,例如可以设置为“开心”,“厌恶”,“压制”,“惊奇”以及“其他”这样的五个不同类别的情感标签。通过微表情或者语音情感识别或者其两者的结合,输出上千视频数据所属的情感类别,并打上相应的情感标签。
“内容信息”是指办理视频中客户具体反馈的信息。其具体是根据业务办理流程播报的语音信息所决定的。针对不同类型的客户反馈信息,可以采用相应的方式来从回答视频中获取具体的内容信息。
例如,当服务器推送至用户端播报的语音信息是一个判断性问题时(是否曾经办理过本项业务),可以通过语音识别的方式,提取确定用户的回答为肯定回答还是否定回答(是或者否)。而当系统播报的语音信息是一个描述性问题时(请说明当前的收入情况),可以通过语义分析技术,将客户回答语义转换为文本信息以后,基于自然语言处理的方式,获得文本信息表达的真实含义(工资收入xxx,额外的租金收入xxx)。
在一实施例中,步骤S140中提取所述当前视频数据中的情感信息,包括:
通过微表情识别模型获取所述当前视频数据中的情感信息。
在本实施例中,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取来获取所述当前视频数据中的包括微表情的图像帧,并结合微表情的图像帧及微表情识别模型获取所述当前视频数据中的情感信息。
其中,光流算法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。
在一实施例中,步骤S140中提取所述当前视频数据中的内容信息,包括:
通过N-gram模型获取所述当前视频数据中音频数据对应的文本信息;
根据所述文本信息中是或否对应的关键词获取所述视频数据中的内容信息。
在本实施例中,N-gram模型为预先训练的N元模型,是一种常用的语音识别模型。通过N-gram模型获取所述当前视频数据中音频数据对应的文本信息后,即可判断其中是否包括有“是”或“否”对应的关键词获取所述视频数据中的内容信息。
S150、调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器。
在本实施例中,为了提高基于用户的当前视频数据来进行风险等级识别的准确率,此时可以调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器。具体选择使用的非线性分类器和线性分类器可以根据实际的事项流程所确定。
在一实施例中,步骤S150之前还包括:
构建由若干个非线性分类器和线性分类器组成的初始组合分类器;
通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。
在本实施例中,先是根据预先设置的默认权重系数对若干个非线性分类器和线性分类器分别赋值,以组成初始组合分类器。之后,通过训练数据集合,不断优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。优化权重系数后额组合分类器,更加有利于准确对用户风险等级进行分类。
在一实施例中,所述初始组合分类器包括5个基于支持向量机的非线性分类器和1个基于逻辑回归的线性分类器;其中,5个基于支持向量机的非线性分类器分别记为U1至U5,基于逻辑回归的线性分类器记为U6;U1对应的非线性分类器用于识别第一类型情感,U2对应的非线性分类器用于识别第二类型情感,U3对应的非线性分类器用于识别第三类型情感,U4对应的非线性分类器用于识别第是类型情感,U5对应的非线性分类器用于识别第五类型情感,U6对应的线性分类器用于识别判断性问题。
在本实施例中,该组合分类器由5个基于SVM的非线性分类器以及1个基于逻辑回归的线性分类器组成。
其中,5个非线性分类器使用不同的核函数,分别由具有相应情感标签(“开心”,“厌恶”,“压制”,“惊奇”以及“其他”)的训练数据子集训练获得。亦即,每个非线性分类器关注某一项情感信息来进行风险识别。
1个基于逻辑回归的线性分类器是通过内容信息为判断性问题的回答(亦即“是否”或者包含唯一选项的问题)的训练数据子集而训练获得。
在一实施例中,所述通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器,包括:
获取所述训练数据集合中情感信息对应各类型情感的子集,分别记为第一训练数据子集Y1、第二训练数据子集Y2、第三训练数据子集Y3、第四训练数据子集Y4、第五训练数据子集Y5;
获取所述训练数据集合中内容信息对应判断性问题的子集,以得到第六训练数据子集Y6;
对训练数据集合中的每个训练数据赋予初始化权重1/K;其中,K为训练数据集合中训练数据的总数量,第一训练数据子集Y1中训练数据对应第一总数量K1、第二训练数据子集Y2中训练数据对应第二总数量K2、第三训练数据子集Y3中训练数据对应第三总数量K3、第四训练数据子集Y4中训练数据对应第四总数量K4、第五训练数据子集Y5中训练数据对应第五总数量K5、第六训练数据子集Y6中训练数据对应第六总数量K6
通过
Figure BDA0002509829730000081
计算获取U1至U6分别对应的分类损失;其中,Lossj表示初始组合分类器中第j个分类器对应的分类损失,Wi是第i个训练数据的权重,Ii是第i个训练数据对应的指针函数且取值为0或1;
获取U1至U6分别对应的分类损失中的最小值对应的子分类器以作为最优子分类器,调用预设的权重系数调整策略获取所述最优子分类器对应的权重系数;
根据所述最优子分类器对应的权重系数及调用预先存储的权重更新策略,对应调整所述训练数据集合中每个训练数据的初始化权重,以得到每个训练数据对应的当前权重;
根据每个训练数据对应的当前权重,及
Figure BDA0002509829730000082
计算获取U1至U6分别对应的当前分类损失;其中,Loss′j表示初始组合分类器中第j个分类器对应的当前分类损失,W'i是第i个训练数据的当前权重,I'i为第i个训练数据对应的当前指针函数且取值为0或1;
调用预设的权重系数获取策略获取U1至U6分别对应的当前权重系数;
由U1至U6及U1至U6分别对应的当前权重系数,组成组合分类器。
在本实施例中,所述非线性分类器和线性分类器统称为组合分类器中的子分类器。每个子分类器都赋予对应的权重系数。组合分类器最终的输出为所有子分类器输出的加权求和值。
在一实施例中,所述权重系数调整策略对应的公式为:
Figure BDA0002509829730000091
Figure BDA0002509829730000092
其中Loss最优子分类器为U1至U6分别对应的分类损失中分类损失最小值;
所述权重更新策略对应的公式为:
Figure BDA0002509829730000093
其中Zk为归一化因子,UpdateWi为第i个训练数据的当前权重;
所述权重系数获取策略对应的公式为:
Figure BDA0002509829730000094
假设存在一个训练数据集合Y。该训练数据集合Y中包含有多个不同的样本数据Xi。每个样本数据具有对应的情感标签以及内容信息,并且已知用户风险类别(通过用户风险类别字段来标记,如用户风险类别过高的标记为1,用户风险类别正常的标记为0)。
根据情感标签以及内容信息,选取训练数据集合Y训练数据中的分别与5种情感标签对应的训练数据作为训练数据子集Y1至Y5(例如训练数据子集Y1是情感标签为“开心”的所有样本数据组成的集合)以及训练数据子集Y6(内容信息为判断性问题的回答)。
分别通过训练数据子集Y1至Y6,训练获得子分类器U1至U6。U1至U5为基于SVM的非线性分类器,使用的核函数种类为高斯核函数,U6为基于逻辑回归的线性分类器。U1至U6组合形成一个组合分类器U。
在已知了训练数据子集Y1至Y6后,先对训练数据集合Y中的每个训练数据赋予初始化权重1/K,K为训练数据集合中训练数据的总数量。即令每个训练数据的初始权重都相同。
然后计算出U1至U6分别对应的分类损失,并以其中的最小值对应的子分类器作为最优子分类器,调用预设的权重系数调整策略获取所述最优子分类器对应的权重系数。分类损失最小的那个子分类器作为最优子分类器,并据此确定该子分类器的权重系数。权重系数的计算思路是:当分类损失越小时,权重系数越高,而当分类损失越大时,权重系数则越小。
之后获取了所述最优子分类器对应的权重系数,调用预先存储的权重更新策略,对应调整所述训练数据集合中每个训练数据的初始化权重,以得到每个训练数据对应的当前权重。更新训练数据的权重系数是希望训练样本数据在上一次被最优子分类器分类错误时,可以得到更多的重视(即权重变大)。而在上一次被最优子分类器分类正确时,则减少其重视程度(即权重变小)。
最后,再对各子分类器的当前权重系数进行调整,即可由U1至U6及U1至U6分别对应的当前权重系数,组成组合分类器。
通过上述调整各子分类器的权重系数的过程,能实现对用户风险类别更精准的识别。
S160、将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别。
在本实施例中,当获取了组合分类器和当前视频数据对应的情感信息以及内容信息后,即可将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别。
本实施例中采用的组合分类器,整合了不同核函数的非线性分类器和线性分类器,充分利用各个子分类器的优势(构造的每个子分类器都有自己较为擅长的识别方向),可以提升分类器的性能和识别准确率,能够全面的反映情感信息和内容信息与业务风险之间的关联。另外,将样本数据切分为多种分别进行处理,减少每个支持向量机训练优化时所需要处理的样本数据量,可以提升支持向量机的实际应用效率。
S170、判断所述当前视频数据对应的用户风险类别是否属于高风险类别。
在本实施例中,获取了用户风险类别后,需要快速的判断该用户风险类别是否属于高风险类别,从而确定后续的事项办理流程。
S180、若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
在本实施例中,若所述当前视频数据对应的用户风险类别属于高风险类别,表示用户可能在非正常情况(例如在非自愿受他人威胁的情况下)办理事项,此时为了确保用户数据安全,需终止与用户端的连接并进行终止事项办理的提示。
若所述当前视频数据对应的用户风险类别属于正常风险类别,无需终止与用户端的连接,服务器继续根据事项办理流程对应向用户端推送流程数据进行交互即可。
该方法实现了基于包括若干个非线性分类器和线性分类器的组合分类器对用户视频数据进行用户风险类别进行判断,提升了识别准确率。
本发明实施例还提供一种基于多分类器的风险识别装置,该基于多分类器的风险识别装置用于执行前述基于多分类器的风险识别方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于多分类器的风险识别装置的示意性框图。该基于多分类器的风险识别装置100可以配置于服务器中。
如图3所示,基于多分类器的风险识别装置100包括:用户视频数据获取单元110、用户身份核验单元120、当前视频数据获取单元130、视频信息提取单元140、组合分类器调用单元150、用户分类单元160、类别判断单元170、高风险类别处理单元180。
用户视频数据获取单元110,用于若检测到用户端发送的事项办理指令,获取用户视频数据。
在本实施例中,以用户是在线办理事项(如在线购买某产品)为场景来说明。客户可以根据在用户端(如智能手机、平板电脑等)浏览得到的产品相关信息和自身的需要,选择点击办理相应的购买操作时。在服务器接收到用户端发送的事项办理指令后,可以触发用户端的摄像头等相关的交互设备以进行客户与服务器之间的视频交互。
用户身份核验单元120,用于获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验。
在本实施例中,为保证用户的数据安全,需要在在线办理事项前,核验客户的真实身份。在实际操作中,具体可以通过多种方式完成对用户身份信息的核验,包括但不限于身份证信息、人脸识别、指纹和虹膜信息等等。
例如,在用户身份信息过程中,可以提示客户输入身份证信息(也可以直接通过拍摄身份证获得)。然后,根据身份证信息,调取对应的生物验证信息(包括人脸、虹膜和指纹等),匹配判断是否为客户本人。
在一些实施例中,还可以通过语音播报等形式,提示和引导客户做出眨眼,点头等等一系列的动作,以确定客户身份的真实有效。
当前视频数据获取单元130,用于若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据。
在本实施例中,服务器获取了用户视频数据并完成了对用户身份核验后,此时在获取用户在办理事项时的当前视频数据,以当前视频数据为分析用户风险等级的数据基础。
服务器在获取当前视频数据的过程中,可以通过播报语音信息的形式来实现引导,从而模拟客服人员的操作。当然,为了满足不同客户的个性化需求,还可以提供多种播报选项,如播报的声音类型,播报语速等等。用户可以根据自己的需要,选择使用适合自己的语言或者语速等进行播报。
视频信息提取单元140,用于提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息。
在本实施例中,“情感信息”是指客户在办理事项流程中所体现出的情感状态,可以反映客户在办理事项时的状态。具体而言,情感信息可以通过标签化的方式来表示,例如可以设置为“开心”,“厌恶”,“压制”,“惊奇”以及“其他”这样的五个不同类别的情感标签。通过微表情或者语音情感识别或者其两者的结合,输出上千视频数据所属的情感类别,并打上相应的情感标签。
“内容信息”是指办理视频中客户具体反馈的信息。其具体是根据业务办理流程播报的语音信息所决定的。针对不同类型的客户反馈信息,可以采用相应的方式来从回答视频中获取具体的内容信息。
例如,当服务器推送至用户端播报的语音信息是一个判断性问题时(是否曾经办理过本项业务),可以通过语音识别的方式,提取确定用户的回答为肯定回答还是否定回答(是或者否)。而当系统播报的语音信息是一个描述性问题时(请说明当前的收入情况),可以通过语义分析技术,将客户回答语义转换为文本信息以后,基于自然语言处理的方式,获得文本信息表达的真实含义(工资收入xxx,额外的租金收入xxx)。
在一实施例中,视频信息提取单元140,包括:
情感信息提取单元,用于通过微表情识别模型获取所述当前视频数据中的情感信息。
在本实施例中,可以使用基于光流的特征提取或者基于LBP-TOP算子的特征提取来获取所述当前视频数据中的包括微表情的图像帧,并结合微表情的图像帧及微表情识别模型获取所述当前视频数据中的情感信息。
其中,光流算法是在一定约束条件下估算视频图像序列中的光流从而识别出客户面部的细微运动,实现对微表情的特征提取。而LBP-TOP算子(即时空局部纹理)则是在局部二值模式(LBP算子)的基础上发展而来的,用于反映像素在视频图像序列中的空间分布的特征。
在一实施例中,视频信息提取单元140还包括:
文本信息提取单元,用于通过N-gram模型获取所述当前视频数据中音频数据对应的文本信息;
内容信息提取单元,用于根据所述文本信息中是或否对应的关键词获取所述视频数据中的内容信息。
在本实施例中,N-gram模型为预先训练的N元模型,是一种常用的语音识别模型。通过N-gram模型获取所述当前视频数据中音频数据对应的文本信息后,即可判断其中是否包括有“是”或“否”对应的关键词获取所述视频数据中的内容信息。
组合分类器调用单元150,用于调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器。
在本实施例中,为了提高基于用户的当前视频数据来进行风险等级识别的准确率,此时可以调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器。具体选择使用的非线性分类器和线性分类器可以根据实际的事项流程所确定。
在一实施例中,基于多分类器的风险识别装置100还包括:
初始分类器构建单元,用于构建由若干个非线性分类器和线性分类器组成的初始组合分类器;
分类器优化单元,用于通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。
在本实施例中,先是根据预先设置的默认权重系数对若干个非线性分类器和线性分类器分别赋值,以组成初始组合分类器。之后,通过训练数据集合,不断优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。优化权重系数后额组合分类器,更加有利于准确对用户风险等级进行分类。
在一实施例中,所述初始组合分类器包括5个基于支持向量机的非线性分类器和1个基于逻辑回归的线性分类器;其中,5个基于支持向量机的非线性分类器分别记为U1至U5,基于逻辑回归的线性分类器记为U6;U1对应的非线性分类器用于识别第一类型情感,U2对应的非线性分类器用于识别第二类型情感,U3对应的非线性分类器用于识别第三类型情感,U4对应的非线性分类器用于识别第是类型情感,U5对应的非线性分类器用于识别第五类型情感,U6对应的线性分类器用于识别判断性问题。
在本实施例中,该组合分类器由5个基于SVM的非线性分类器以及1个基于逻辑回归的线性分类器组成。
其中,5个非线性分类器使用不同的核函数,分别由具有相应情感标签(“开心”,“厌恶”,“压制”,“惊奇”以及“其他”)的训练数据子集训练获得。亦即,每个非线性分类器关注某一项情感信息来进行风险识别。
1个基于逻辑回归的线性分类器是通过内容信息为判断性问题的回答(亦即“是否”或者包含唯一选项的问题)的训练数据子集而训练获得。
在一实施例中,所述分类器优化单元,包括:
第一子集划分单元,用于获取所述训练数据集合中情感信息对应各类型情感的子集,分别记为第一训练数据子集Y1、第二训练数据子集Y2、第三训练数据子集Y3、第四训练数据子集Y4、第五训练数据子集Y5;
第二子集划分单元,用于获取所述训练数据集合中内容信息对应判断性问题的子集,以得到第六训练数据子集Y6;
权重初始化赋值单元,用于对训练数据集合中的每个训练数据赋予初始化权重1/K;其中,K为训练数据集合中训练数据的总数量,第一训练数据子集Y1中训练数据对应第一总数量K1、第二训练数据子集Y2中训练数据对应第二总数量K2、第三训练数据子集Y3中训练数据对应第三总数量K3、第四训练数据子集Y4中训练数据对应第四总数量K4、第五训练数据子集Y5中训练数据对应第五总数量K5、第六训练数据子集Y6中训练数据对应第六总数量K6
初始分类损失获取单元,用于通过
Figure BDA0002509829730000141
计算获取U1至U6分别对应的分类损失;其中,Lossj表示初始组合分类器中第j个分类器对应的分类损失,Wi是第i个训练数据的权重,Ii是第i个训练数据对应的指针函数且取值为0或1;
最优子分类器获取单元,用于获取U1至U6分别对应的分类损失中的最小值对应的子分类器以作为最优子分类器,调用预设的权重系数调整策略获取所述最优子分类器对应的权重系数;
当前权重获取单元,用于根据所述最优子分类器对应的权重系数及调用预先存储的权重更新策略,对应调整所述训练数据集合中每个训练数据的初始化权重,以得到每个训练数据对应的当前权重;
当前分类损失获取单元,用于根据每个训练数据对应的当前权重,及
Figure BDA0002509829730000151
Figure BDA0002509829730000152
计算获取U1至U6分别对应的当前分类损失;其中,Loss′j表示初始组合分类器中第j个分类器对应的当前分类损失,W'i是第i个训练数据的当前权重,I'i为第i个训练数据对应的当前指针函数且取值为0或1;
当前权重系数获取单元,用于调用预设的权重系数获取策略获取U1至U6分别对应的当前权重系数;
分类器组合单元,用于由U1至U6及U1至U6分别对应的当前权重系数,组成组合分类器。
在本实施例中,所述非线性分类器和线性分类器统称为组合分类器中的子分类器。每个子分类器都赋予对应的权重系数。组合分类器最终的输出为所有子分类器输出的加权求和值。
在一实施例中,所述权重系数调整策略对应的公式为:
Figure BDA0002509829730000153
Figure BDA0002509829730000154
其中Loss最优子分类器为U1至U6分别对应的分类损失中分类损失最小值;
所述权重更新策略对应的公式为:
Figure BDA0002509829730000155
其中Zk为归一化因子,UpdateWi为第i个训练数据的当前权重;
所述权重系数获取策略对应的公式为:
Figure BDA0002509829730000156
假设存在一个训练数据集合Y。该训练数据集合Y中包含有多个不同的样本数据Xi。每个样本数据具有对应的情感标签以及内容信息,并且已知用户风险类别(通过用户风险类别字段来标记,如用户风险类别过高的标记为1,用户风险类别正常的标记为0)。
根据情感标签以及内容信息,选取训练数据集合Y训练数据中的分别与5种情感标签对应的训练数据作为训练数据子集Y1至Y5(例如训练数据子集Y1是情感标签为“开心”的所有样本数据组成的集合)以及训练数据子集Y6(内容信息为判断性问题的回答)。
分别通过训练数据子集Y1至Y6,训练获得子分类器U1至U6。U1至U5为基于SVM的非线性分类器,使用的核函数种类为高斯核函数,U6为基于逻辑回归的线性分类器。U1至U6组合形成一个组合分类器U。
在已知了训练数据子集Y1至Y6后,先对训练数据集合Y中的每个训练数据赋予初始化权重1/K,K为训练数据集合中训练数据的总数量。即令每个训练数据的初始权重都相同。
然后计算出U1至U6分别对应的分类损失,并以其中的最小值对应的子分类器作为最优子分类器,调用预设的权重系数调整策略获取所述最优子分类器对应的权重系数。分类损失最小的那个子分类器作为最优子分类器,并据此确定该子分类器的权重系数。权重系数的计算思路是:当分类损失越小时,权重系数越高,而当分类损失越大时,权重系数则越小。
之后获取了所述最优子分类器对应的权重系数,调用预先存储的权重更新策略,对应调整所述训练数据集合中每个训练数据的初始化权重,以得到每个训练数据对应的当前权重。更新训练数据的权重系数是希望训练样本数据在上一次被最优子分类器分类错误时,可以得到更多的重视(即权重变大)。而在上一次被最优子分类器分类正确时,则减少其重视程度(即权重变小)。
最后,再对各子分类器的当前权重系数进行调整,即可由U1至U6及U1至U6分别对应的当前权重系数,组成组合分类器。
通过上述调整各子分类器的权重系数的过程,能实现对用户风险类别更精准的识别。
用户分类单元160,用于将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别。
在本实施例中,当获取了组合分类器和当前视频数据对应的情感信息以及内容信息后,即可将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别。
本实施例中采用的组合分类器,整合了不同核函数的非线性分类器和线性分类器,充分利用各个子分类器的优势(构造的每个子分类器都有自己较为擅长的识别方向),可以提升分类器的性能和识别准确率,能够全面的反映情感信息和内容信息与业务风险之间的关联。另外,将样本数据切分为多种分别进行处理,减少每个支持向量机训练优化时所需要处理的样本数据量,可以提升支持向量机的实际应用效率。
类别判断单元170,用于判断所述当前视频数据对应的用户风险类别是否属于高风险类别。
在本实施例中,获取了用户风险类别后,需要快速的判断该用户风险类别是否属于高风险类别,从而确定后续的事项办理流程。
高风险类别处理单元180,用于若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
在本实施例中,若所述当前视频数据对应的用户风险类别属于高风险类别,表示用户可能在非正常情况(例如在非自愿受他人威胁的情况下)办理事项,此时为了确保用户数据安全,需终止与用户端的连接并进行终止事项办理的提示。
若所述当前视频数据对应的用户风险类别属于正常风险类别,无需终止与用户端的连接,服务器继续根据事项办理流程对应向用户端推送流程数据进行交互即可。
该装置实现了基于包括若干个非线性分类器和线性分类器的组合分类器对用户视频数据进行用户风险类别进行判断,提升了识别准确率。
上述基于多分类器的风险识别装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于多分类器的风险识别方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于多分类器的风险识别方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于多分类器的风险识别方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于多分类器的风险识别方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于多分类器的风险识别方法,其特征在于,包括:
若检测到用户端发送的事项办理指令,获取用户视频数据;
获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验;
若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据;
提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息;
调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器;
将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;
判断所述当前视频数据对应的用户风险类别是否属于高风险类别;以及
若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
2.根据权利要求1所述的基于多分类器的风险识别方法,其特征在于,所述提取所述当前视频数据中的情感信息,包括:
通过微表情识别模型获取所述当前视频数据中的情感信息;
所述提取所述当前视频数据中的内容信息,包括:
通过N-gram模型获取所述当前视频数据中音频数据对应的文本信息;
根据所述文本信息中是或否对应的关键词获取所述视频数据中的内容信息。
3.根据权利要求1所述的基于多分类器的风险识别方法,其特征在于,还包括:
构建由若干个非线性分类器和线性分类器组成的初始组合分类器;
通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。
4.根据权利要求3所述的基于多分类器的风险识别方法,其特征在于,所述初始组合分类器包括5个基于支持向量机的非线性分类器和1个基于逻辑回归的线性分类器;其中,5个基于支持向量机的非线性分类器分别记为U1至U5,基于逻辑回归的线性分类器记为U6;U1对应的非线性分类器用于识别第一类型情感,U2对应的非线性分类器用于识别第二类型情感,U3对应的非线性分类器用于识别第三类型情感,U4对应的非线性分类器用于识别第是类型情感,U5对应的非线性分类器用于识别第五类型情感,U6对应的线性分类器用于识别判断性问题。
5.根据权利要求4所述的基于多分类器的风险识别方法,其特征在于,所述通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器,包括:
获取所述训练数据集合中情感信息对应各类型情感的子集,分别记为第一训练数据子集Y1、第二训练数据子集Y2、第三训练数据子集Y3、第四训练数据子集Y4、第五训练数据子集Y5;
获取所述训练数据集合中内容信息对应判断性问题的子集,以得到第六训练数据子集Y6;
对训练数据集合中的每个训练数据赋予初始化权重1/K;其中,K为训练数据集合中训练数据的总数量,第一训练数据子集Y1中训练数据对应第一总数量K1、第二训练数据子集Y2中训练数据对应第二总数量K2、第三训练数据子集Y3中训练数据对应第三总数量K3、第四训练数据子集Y4中训练数据对应第四总数量K4、第五训练数据子集Y5中训练数据对应第五总数量K5、第六训练数据子集Y6中训练数据对应第六总数量K6
通过
Figure FDA0002509829720000021
计算获取U1至U6分别对应的分类损失;其中,Lossj表示初始组合分类器中第j个分类器对应的分类损失,Wi是第i个训练数据的权重,Ii是第i个训练数据对应的指针函数且取值为0或1;
获取U1至U6分别对应的分类损失中的最小值对应的子分类器以作为最优子分类器,调用预设的权重系数调整策略获取所述最优子分类器对应的权重系数;
根据所述最优子分类器对应的权重系数及调用预先存储的权重更新策略,对应调整所述训练数据集合中每个训练数据的初始化权重,以得到每个训练数据对应的当前权重;
根据每个训练数据对应的当前权重,及
Figure FDA0002509829720000022
计算获取U1至U6分别对应的当前分类损失;其中,Loss′j表示初始组合分类器中第j个分类器对应的当前分类损失,W'i是第i个训练数据的当前权重,I'i为第i个训练数据对应的当前指针函数且取值为0或1;
调用预设的权重系数获取策略获取U1至U6分别对应的当前权重系数;
由U1至U6及U1至U6分别对应的当前权重系数,组成组合分类器。
6.根据权利要求5所述的基于多分类器的风险识别方法,其特征在于,所述权重系数调整策略对应的公式为:
Figure FDA0002509829720000031
其中Loss最优子分类器为U1至U6分别对应的分类损失中分类损失最小值;
所述权重更新策略对应的公式为:
Figure FDA0002509829720000032
其中Zk为归一化因子,UpdateWi为第i个训练数据的当前权重;
所述权重系数获取策略对应的公式为:
Figure FDA0002509829720000033
7.一种基于多分类器的风险识别装置,其特征在于,包括:
用户视频数据获取单元,用于若检测到用户端发送的事项办理指令,获取用户视频数据;
用户身份核验单元,用于获取所述用户视频数据对应的用户身份信息,以判断所述用户身份信息是否通过用户身份核验;
当前视频数据获取单元,用于若所述用户身份信息通过用户身份核验,获取当前办理事项流程中的当前视频数据;
视频信息提取单元,用于提取所述当前视频数据中的情感信息,并提取所述当前视频数据中的内容信息;
组合分类器调用单元,用于调用预先构建的由若干个非线性分类器和线性分类器组成的组合分类器;
用户分类单元,用于将所述当前视频数据的情感信息以及内容信息输入组合分类器,得到对应的用户风险类别;
类别判断单元,用于判断所述当前视频数据对应的用户风险类别是否属于高风险类别;以及
高风险类别处理单元,用于若所述当前视频数据对应的用户风险类别属于高风险类别,终止与用户端的连接并进行终止事项办理的提示。
8.根据权利要求7所述的基于多分类器的风险识别装置,其特征在于,还包括:
初始分类器构建单元,用于构建由若干个非线性分类器和线性分类器组成的初始组合分类器;
分类器优化单元,用于通过训练数据集合,优化每个所述非线性分类器和线性分类器在所述初始组合分类器中的权重系数,以训练得到对应的组合分类器。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于多分类器的风险识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于多分类器的风险识别方法。
CN202010457551.6A 2020-05-26 2020-05-26 基于多分类器的风险识别方法、装置及计算机设备 Pending CN111639584A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010457551.6A CN111639584A (zh) 2020-05-26 2020-05-26 基于多分类器的风险识别方法、装置及计算机设备
PCT/CN2020/103795 WO2021237907A1 (zh) 2020-05-26 2020-07-23 基于多分类器的风险识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457551.6A CN111639584A (zh) 2020-05-26 2020-05-26 基于多分类器的风险识别方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN111639584A true CN111639584A (zh) 2020-09-08

Family

ID=72331057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457551.6A Pending CN111639584A (zh) 2020-05-26 2020-05-26 基于多分类器的风险识别方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN111639584A (zh)
WO (1) WO2021237907A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465626A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于客户端分类聚合的联合风险评估方法及相关设备
CN112487295A (zh) * 2020-12-04 2021-03-12 中国移动通信集团江苏有限公司 5g套餐推送方法、装置、电子设备及计算机存储介质
CN112767967A (zh) * 2020-12-30 2021-05-07 深延科技(北京)有限公司 语音分类方法、装置及自动语音分类方法
CN113313575A (zh) * 2021-06-08 2021-08-27 支付宝(杭州)信息技术有限公司 一种风险识别模型的确定方法及装置
CN115730233A (zh) * 2022-10-28 2023-03-03 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、可读存储介质以及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723269A (zh) * 2022-03-31 2022-07-08 支付宝(杭州)信息技术有限公司 一种事件的风险防控方法、装置及设备
CN117094184B (zh) * 2023-10-19 2024-01-26 上海数字治理研究院有限公司 基于内网平台的风险预测模型的建模方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766792A (zh) * 2017-06-23 2018-03-06 北京理工大学 一种遥感图像舰船目标识别方法
US20180285343A1 (en) * 2017-04-03 2018-10-04 Uber Technologies, Inc. Determining safety risk using natural language processing
CN109165685A (zh) * 2018-08-21 2019-01-08 南京邮电大学 基于表情和动作的监狱服刑人员潜在性风险监测方法和系统
CN109711297A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于面部图片的风险识别方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567914B2 (en) * 2003-04-30 2009-07-28 Genworth Financial, Inc. System and process for dominance classification for insurance underwriting suitable for use by an automated system
CN104200804B (zh) * 2014-09-19 2017-05-17 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN110309840B (zh) * 2018-03-27 2023-08-11 创新先进技术有限公司 风险交易识别方法、装置、服务器及存储介质
CN110147321B (zh) * 2019-04-19 2020-11-24 北京航空航天大学 一种基于软件网络的缺陷高风险模块的识别方法
CN110097020B (zh) * 2019-05-10 2023-04-07 山东大学 一种基于联合稀疏字典学习的微表情识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285343A1 (en) * 2017-04-03 2018-10-04 Uber Technologies, Inc. Determining safety risk using natural language processing
CN107766792A (zh) * 2017-06-23 2018-03-06 北京理工大学 一种遥感图像舰船目标识别方法
CN109165685A (zh) * 2018-08-21 2019-01-08 南京邮电大学 基于表情和动作的监狱服刑人员潜在性风险监测方法和系统
CN109711297A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于面部图片的风险识别方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465626A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于客户端分类聚合的联合风险评估方法及相关设备
CN112465626B (zh) * 2020-11-24 2023-08-29 平安科技(深圳)有限公司 基于客户端分类聚合的联合风险评估方法及相关设备
CN112487295A (zh) * 2020-12-04 2021-03-12 中国移动通信集团江苏有限公司 5g套餐推送方法、装置、电子设备及计算机存储介质
CN112767967A (zh) * 2020-12-30 2021-05-07 深延科技(北京)有限公司 语音分类方法、装置及自动语音分类方法
CN113313575A (zh) * 2021-06-08 2021-08-27 支付宝(杭州)信息技术有限公司 一种风险识别模型的确定方法及装置
CN113313575B (zh) * 2021-06-08 2022-06-03 支付宝(杭州)信息技术有限公司 一种风险识别模型的确定方法及装置
CN115730233A (zh) * 2022-10-28 2023-03-03 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、可读存储介质以及电子设备
CN115730233B (zh) * 2022-10-28 2023-07-11 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、可读存储介质以及电子设备

Also Published As

Publication number Publication date
WO2021237907A1 (zh) 2021-12-02

Similar Documents

Publication Publication Date Title
CN111639584A (zh) 基于多分类器的风险识别方法、装置及计算机设备
US20190005359A1 (en) Method and system for predicting personality traits, capabilities and suggested interactions from images of a person
WO2022142006A1 (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN110222554A (zh) 欺诈识别方法、装置、电子设备及存储介质
US11915298B2 (en) System and method for intelligent context-based personalized beauty product recommendation and matching
AU2020345605B2 (en) Metamodeling for confidence prediction in machine learning based document extraction
CN107145857A (zh) 人脸属性识别方法、装置和模型建立方法
CN110298245B (zh) 兴趣收集方法、装置、计算机设备及存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
Khanal et al. Performance analysis of microsoft's and google's emotion recognition api using pose-invariant faces
CN113011884A (zh) 账户特征的提取方法、装置、设备及可读存储介质
Kyriakou et al. Emotion-based stereotypes in image analysis services
Deeb et al. Human facial emotion recognition using improved black hole based extreme learning machine
Babnik et al. DifFIQA: Face image quality assessment using denoising diffusion probabilistic models
Kübler et al. Machine learning and big data
Zhao et al. Multi-view dimensionality reduction via subspace structure agreement
WO2023192808A1 (en) Authentication of age, gender, and other biometric data from live images of users
Wang et al. Using age information as a soft biometric trait for face image analysis
TWI764827B (zh) 輔助情緒判別的客服裝置與方法
Kalimuthu et al. Semantic-based facial image-retrieval system with aid of adaptive particle swarm optimization and squared Euclidian distance
Hristova et al. RatingBot: A Text Mining Based Rating Approach.
Gunarathne et al. Racial Bias in Social Media Customer Service: Evidence from Twitter
Ismail et al. AN EXPLORATORY STUDY OF HUMAN BEHAVIOR TOWARDS INTENTION TO USE FACIAL BIOMETRIC PAYMENT AMONG MALAYSIAN CONSUMERS
AU2021100211A4 (en) Predict Gender: Detect Faces and Predict their Gender, Age and Country Using Machine Learning Programming
Yang et al. Patch based face recognition via fast collaborative representation based classification and expression insensitive two-stage voting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200908