CN116112630A - 一种智能视频面签的切换方法 - Google Patents

一种智能视频面签的切换方法 Download PDF

Info

Publication number
CN116112630A
CN116112630A CN202310348852.9A CN202310348852A CN116112630A CN 116112630 A CN116112630 A CN 116112630A CN 202310348852 A CN202310348852 A CN 202310348852A CN 116112630 A CN116112630 A CN 116112630A
Authority
CN
China
Prior art keywords
face
real
time
virtual
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310348852.9A
Other languages
English (en)
Other versions
CN116112630B (zh
Inventor
王小东
吕文勇
周智杰
朱羽
康钰于
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu New Hope Finance Information Co Ltd
Original Assignee
Chengdu New Hope Finance Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu New Hope Finance Information Co Ltd filed Critical Chengdu New Hope Finance Information Co Ltd
Priority to CN202310348852.9A priority Critical patent/CN116112630B/zh
Publication of CN116112630A publication Critical patent/CN116112630A/zh
Application granted granted Critical
Publication of CN116112630B publication Critical patent/CN116112630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • H04N2005/2726Means for inserting a foreground image in a background image, i.e. inlay, outlay for simulating a person's appearance, e.g. hair style, glasses, clothes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供一种智能视频面签的切换方法,对未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户实时计算转接虚拟人的概率,在转接虚拟人的概率较小时,可以将面签任务放入真人面签的排队中,仅当转接虚拟人的概率足够大时,将面签任务转接虚拟人面签服务,避免用户的等待时间过长,以及尽量满足需要真人面签服务的用户,从而提高了用户体验,提高了整体的服务质量。

Description

一种智能视频面签的切换方法
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种智能视频面签的切换方法。
背景技术
随着金融科技的快速发展,以及对非接触式服务的推动和引导,传统金融机构营业厅存在服务半径有限、客户需上门办理业务、客户服务体验差等问题,驱动着银行、证券等金融机构服务触点和业务模式由线下实体化向线上化进行转变,金融机构需要建设全新的虚拟营业厅,借助远程视频设备连通客户和远程坐席,由客户口述和确认业务需要,远程坐席代为操作的“一点接入、全程响应”式金融服务。
目前主流的视频面签有基于坐席人工的面签和基于AI算法的虚拟人自助面签,这两种面签各有各的优势,用户体验和优缺点各不相同。人工面签存在无法提供24小时服务,无法及时服务客户,面签申请量大于坐席人数时,就会存在长时间的排队,服务体验差等问题,但是其优势也很明显,人工面签可以处理很复杂的面签问题,可以更加准确的理解用户意图,可以和用户精准的交流。虚拟人面签存在复杂的面签业务无法智能化的完成,语音识别和意图识别等不准的问题,但是其优势也很多,可以24小时为用户服务,可以对海量的面签请求快速响应,可以用户自助完成无需排队等。
现有的同时提供真人面签和虚拟人面签的系统中,在人工坐席繁忙时,通常将新的面签任务大量分配到虚拟人面签服务,仅在虚拟人面签服务过程中,由用户主动发起要求转接真人面签时才会进行转接,导致大量用户体验较差,降低了整体的服务质量。
发明内容
本申请实施例的目的在于提供一种智能视频面签的切换方法,用以解决现有的同时提供真人面签和虚拟人面签的系统中,存在用户体验较差,整体服务质量较低的问题。
本申请实施例提供的一种智能视频面签的切换方法,包括:
对任一未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户,计算转接虚拟人的概率;
判断转接虚拟人的概率是否大于设定阈值,若是,则将对应的面签任务转接虚拟人面签。
上述技术方案中,对未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户实时计算转接虚拟人的概率,在转接虚拟人的概率较小时,可以将面签任务放入真人面签的排队中,仅当转接虚拟人的概率足够大时,将面签任务转接虚拟人面签服务,避免用户的等待时间过长,以及尽量满足需要真人面签服务的用户,从而提高了用户体验,提高了整体的服务质量。
其中,转接虚拟人的概率y:
y=w0×seat_real_rate+w1×bus_count+w2×cus_avg_wait+w3×bus_cpmpx+w4×cus_quene_time+w5×is_vip
其中,seat_real_rate为坐席实时接通率,其值为坐席接通数与面签任务总数的比值;
bus_count为业务每日实时量,其值为根据历史的业务每日量和业务今日量进行预测得到的预测值;
cus_avg_wait为当前客户平均等待时长;
bus_cpmpx为面签任务复杂性,其值为根据面签任务的复杂性进行量化得到的值;
cus_quene_time为用户实时排队时长,其值为当前所有客户的总等待时长的平均值;
is_vip为客户是否为VIP客户,若客户是VIP客户,其值为1;若客户不是VIP客户,其值为0;
w0,w1,w2,w3,w4,w5分别为坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户对应的系数。
在一些可选的实施方式中,w0,w1,w2,w3,w4,w5的计算,包括:
利用梯度下降法求目标函数的最优预测概率参数,得到w0,w1,w2,w3,w4,w5的值。
上述技术方案中,利用梯度下降法计算概率,概率的值是随着数据参数变化而变化的,因此,使用梯度下降法可以求最优预测概率参数。为此,首先定义目标函数y=w0×seat_real_rate+w1×bus_count+w2×cus_avg_wait+w3×bus_cpmpx+w4×cus_quene_time+w5×is_vip+B,B为特征项,目标函数用来衡量预测值与真实值之间的差异,本实施例中损失函数采用均方损失函数,然后根据梯度下降法通过使损失函数逐步减小来求得最优的预测概率参数。
在一些可选的实施方式中,虚拟人面签的方法,包括:
采集坐席的人像照片;
获取驱动视频;
根据驱动视频和人像照片,生成面签任务所需的虚拟人视频。
具体的,将坐席的人像照片和驱动视频中的人像进行视频生成,先进行表情姿态迁移,将坐席人像迁移到驱动视频里,对驱动视频进行分帧解析,基于解析出来的视频人像,用人像生成算法把坐席人像融合到视频人像中,对融合替换后的人像进行视频合成,生成姿态表情人脸迁移后的坐席视频。其次,对坐席视频进行嘴型矫正,保证说话内容和坐席视频同步,对说话语音文本进行梅尔频谱处理,对坐席视频进行分帧处理,将时序坐席人像和梅尔频谱图输入到编解码生成模型里,采用唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。此外,通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。最终生成具有根据说话内容驱动的坐席人脸虚拟人视频。其中,对应不同的面签任务,虚拟人视频中坐席人脸的微动作可以与驱动视频中人脸的微动作在时序上一致,只需根据面签任务所需的张嘴、嘴型等嘴部变化进行调整。
在一些可选的实施方式中,采集坐席的人像照片之后,还包括:
识别人像清晰度、进行脸部遮挡识别判断以及人脸POSE估计,仅当人像清晰度大于清晰度阈值、脸部无遮挡且人脸的俯仰角、偏航角和翻滚角都在对应的阈值范围内时,将人像照片用于生成虚拟人视频。
上述技术方案中,识别人像清晰度可以采用高斯滤波器、特征点检测和区域特征提取、深度学习等方式。脸部遮挡识别判断,通过检测图像中可能存在的人脸,然后检测出的人脸进行更多人脸细节特征的检测,例如是否存在鼻梁、眼睛、眉毛等特征,若这些特征都存在,则判断该图像中人脸不存在遮挡,也可以根据深度学习,对常见的口罩,墨镜,手捂住脸,喝水等遮挡通过物体检测算法进行识别,从而确定是否有脸部遮挡。通过头部姿态估计模型进行人脸POSE估计,将得到的人脸的俯仰角、偏航角和翻滚角与对应的设定角度进行比较,若角度在15度内的人脸可用于设置虚拟人面签。
在一些可选的实施方式中,驱动视频,满足:
张嘴动作的次数、眨眼动作的次数、微表情的次数和姿态动作的次数均大于相应的阈值。
上述技术方案中,有了坐席的虚拟人形象(即坐席的人像照片),还需要设置一段嘴型和姿态可以自然动作的驱动视频,去让虚拟人可以模拟这段驱动视频的表情和姿态,从而达到看起来更像真人。这段视频可以来源于对真人的拍摄,并根据校验规则对拍摄的视频进行校验,确定视频是否合格。校验规则为:对视频进行图像解析,针对每张图像,识别眼睛状态,嘴巴状态,Pose姿态,微表情状态。统计张嘴次数,眨眼次数,以及头部左偏,右偏,抬头,点头次数,微表情次数。针对每一类动作当次数达到一定阈值T,则认为眨眼发生,张嘴发生,头部有表情变化,姿态有变化,从而确定该驱动视频是满足姿态和表情变化的。其中,识别Pose姿态例如使用FSA-Net模型进行姿态估计得到人脸的俯仰角、偏航角和翻滚角,进一步的,头部左偏、右偏、抬头和点头的识别可以利用姿态角基于对应阈值进行判断识别;识别微表情状态,例如通过微表情模型(face_classification模型)进行恐惧、愤怒、厌恶、惊讶、轻视、悲伤和欢乐识别;张嘴和眨眼的识别可以利用Alexnet模型实现。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:
对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,将对应用户的面签任务放入优先转人工的队列。
上述技术方案中,通过分析语音特征来识别不同的方言,例如,可以根据语音中的单词、句子、音调等来识别不同的方言特征,若识别为方言,则认为当前面签任务继续采用虚拟人面签可能存在服务质量问题,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。同样的,若是虚拟人面签过程中多次无法识别用户意图,表示当前的服务质量较低,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:
对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介/黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,将对应用户的面签任务放入优先转人工的队列。
上述技术方案中,根据用户视频中的多帧图像,对用户做情绪识别,包括喜悦、惊讶、轻蔑、厌恶、愤怒、恐惧、悲伤等,当用户的情绪从积极情绪变为消极情绪时,例如由喜悦变为愤怒,由惊讶变为愤怒,则表示用户情绪变坏,此时应该转接真人面签服务,实现人文关怀,提高用户体验。根据用户视频中出现的背景进行背景识别,若是识别出视频图像中出现中介/黑产背景,则应该优先进行真人面签。根据用户视频中图像进行人像翻拍识别,若是存在反光,人脸周围存在屏幕、边框等,则可以存在人像翻拍的可能,则应该转真人面签,由人工进行进一步判断。根据用户视频中人脸进行年龄和性别的识别,若是识别出的年龄性别与证件上的信息不符合,则应该转真人面签,由人工进行进一步判断。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:
当同一用户的面签任务的失败次数大于对应阈值时,将对应用户的面签任务放入优先转人工的队列。
上述技术方案中,在一定时间内,若是同一用户的面签任务多次失败,则应该转真人面签,由人工引导用户完成面签任务,提高用户体验,提高服务质量。
在一些可选的实施方式中,生成面签任务所需的虚拟人视频,包括:
获取坐席设置的背景;
将虚拟人视频每帧图像,分割出虚拟人像;
将虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
上述技术方案中,坐席设置的背景可以通过摄像头实时采集坐席人脸照片,并检测照片中人脸的位置,得到人脸框距离图像顶部、底部、左边和右边的距离,并基于这些距离判断坐席人脸照片中的位置和虚拟人图像中的人脸位置是否一致,若不一致,则需要通过对图像进行补全或裁剪,最终得到坐席设置的背景。之后,将虚拟人图像的虚拟人像分割出来,与坐席设置的背景进行图像融合,得到背景替换后的虚拟人视频。
本申请实施例提供的一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如以上任一所述的方法。
本申请实施例提供的一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如以上任一所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种智能视频面签的切换方法步骤流程图;
图2为本实施例提供的转接虚拟人的概率y的计算示意图;
图3为本申请实施例提供的驱动视频的校验步骤流程图;
图4为本申请实施例在虚拟人面签转真人面签的流程示意图;
图5为本申请实施例提供的电子设备的一种可能的结构示意图。
图标:1-处理器,2-存储器,3-通信接口,4-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参照图1,图1为本申请实施例提供的一种智能视频面签的切换方法步骤流程图,包括:
步骤100、对任一未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户,计算转接虚拟人的概率;
步骤200、判断转接虚拟人的概率是否大于设定阈值,若是,则进入步骤300;
步骤300、将对应的面签任务转接虚拟人面签。
本申请实施例中,对未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户实时计算转接虚拟人的概率,在转接虚拟人的概率较小时,可以将面签任务放入真人面签的排队中,仅当转接虚拟人的概率足够大时,将面签任务转接虚拟人面签服务,避免用户的等待时间过长,以及尽量满足需要真人面签服务的用户,从而提高了用户体验,提高了整体的服务质量。
其中,请参照图2,图2为本实施例提供的转接虚拟人的概率y的计算示意图:
y=w0×seat_real_rate+w1×bus_count+w2×cus_avg_wait+w3×bus_cpmpx+w4×cus_quene_time+w5×is_vip
其中,seat_real_rate为坐席实时接通率,其值为坐席接通数与面签任务总数的比值;bus_count为业务每日实时量,其值为根据历史的业务每日量和业务今日量进行预测得到的预测值;cus_avg_wait为当前客户平均等待时长;bus_cpmpx为面签任务复杂性,其值为根据面签任务的复杂性进行量化得到的值;cus_quene_time为用户实时排队时长,其值为当前所有客户的总等待时长的平均值;is_vip为客户是否为VIP客户,若客户是VIP客户,其值为1;若客户不是VIP客户,其值为0;w0,w1,w2,w3,w4,w5分别为坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户对应的系数。
在一些可选的实施方式中,w0,w1,w2,w3,w4,w5的计算,包括:利用梯度下降法求目标函数的最优预测概率参数,得到w0,w1,w2,w3,w4,w5的值。
本申请实施例中,利用梯度下降法计算概率,概率的值是随着数据参数变化而变化的,因此,使用梯度下降法可以求最优预测概率参数。为此,首先定义目标函数y=w0×seat_real_rate+w1×bus_count+w2×cus_avg_wait+w3×bus_cpmpx+w4×cus_quene_time+w5×is_vip+B,B为特征项,目标函数用来衡量预测值与真实值之间的差异,本实施例中损失函数采用均方损失函数,然后根据梯度下降法通过使损失函数逐步减小来求得最优的预测概率参数。
在一些可选的实施方式中,虚拟人面签的方法,包括:采集坐席的人像照片;获取驱动视频;根据驱动视频和人像照片,生成面签任务所需的虚拟人视频。
具体的,将坐席的人像照片和驱动视频中的人像进行视频生成,先进行表情姿态迁移,将坐席人像迁移到驱动视频里,对驱动视频进行分帧解析,基于解析出来的视频人像,用人像生成算法把坐席人像融合到视频人像中,对融合替换后的人像进行视频合成,生成姿态表情人脸迁移后的坐席视频。其次,对坐席视频进行嘴型矫正,保证说话内容和坐席视频同步,对说话语音文本进行梅尔频谱处理,对坐席视频进行分帧处理,将时序坐席人像和梅尔频谱图输入到编解码生成模型里,采用唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。此外,通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。最终生成具有根据说话内容驱动的坐席人脸虚拟人视频。其中,对应不同的面签任务,虚拟人视频中坐席人脸的微动作可以与驱动视频中人脸的微动作在时序上一致,只需根据面签任务所需的张嘴、嘴型等嘴部变化进行调整。
在一些可选的实施方式中,采集坐席的人像照片之后,还包括:识别人像清晰度、进行脸部遮挡识别判断以及人脸POSE估计,仅当人像清晰度大于清晰度阈值、脸部无遮挡且人脸的俯仰角、偏航角和翻滚角都在对应的阈值范围内时,将人像照片用于生成虚拟人视频。
上述技术方案中,识别人像清晰度可以采用高斯滤波器、特征点检测和区域特征提取、深度学习等方式。脸部遮挡识别判断,通过检测图像中可能存在的人脸,然后检测出的人脸进行更多人脸细节特征的检测,例如是否存在鼻梁、眼睛、眉毛等特征,若这些特征都存在,则判断该图像中人脸不存在遮挡,也可以根据深度学习,对常见的口罩,墨镜,手捂住脸,喝水等遮挡通过物体检测算法进行识别,从而确定是否有脸部遮挡。通过头部姿态估计模型进行人脸POSE估计,将得到的人脸的俯仰角、偏航角和翻滚角与对应的设定角度进行比较,若角度在15度内的人脸可用于设置虚拟人面签。
在一些可选的实施方式中,驱动视频,满足:张嘴动作的次数、眨眼动作的次数、微表情的次数和姿态动作的次数均大于相应的阈值。
本申请实施例中,有了坐席的虚拟人形象(即坐席的人像照片),还需要设置一段嘴型和姿态可以自然动作的驱动视频,去让虚拟人可以模拟这段驱动视频的表情和姿态,从而达到看起来更像真人。这段视频可以来源于对真人的拍摄,并根据校验规则对拍摄的视频进行校验,确定视频是否合格。校验规则为:对视频进行图像解析,针对每张图像,识别眼睛状态,嘴巴状态,Pose姿态,微表情状态。统计张嘴次数,眨眼次数,以及头部左偏,右偏,抬头,点头次数,微表情次数。针对每一类动作当次数达到一定阈值T,则认为眨眼发生,张嘴发生,头部有表情变化,姿态有变化,从而确定该驱动视频是满足姿态和表情变化的。其中,识别Pose姿态例如使用FSA-Net模型进行姿态估计得到人脸的俯仰角、偏航角和翻滚角,进一步的,头部左偏、右偏、抬头和点头的识别可以利用姿态角基于对应阈值进行判断识别;识别微表情状态,例如通过微表情模型(face_classification模型)进行恐惧、愤怒、厌恶、惊讶、轻视、悲伤和欢乐识别;张嘴和眨眼的识别可以利用Alexnet模型实现。
本实施例中,如图3所示,图3为本申请实施例提供的驱动视频的校验步骤流程图,在检测出人脸后,进行检测人脸的动作,其中对张嘴动作、眨眼动作、微表情动作和姿势动作均满足至少一次,即可作为驱动视频。
请参照图4,图4为本申请实施例在虚拟人面签转真人面签的流程示意图。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,将对应用户的面签任务放入优先转人工的队列。
本申请实施例中,通过分析语音特征来识别不同的方言,例如,可以根据语音中的单词、句子、音调等来识别不同的方言特征,若识别为方言,则认为当前面签任务继续采用虚拟人面签可能存在服务质量问题,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。同样的,若是虚拟人面签过程中多次无法识别用户意图,表示当前的服务质量较低,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介/黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,将对应用户的面签任务放入优先转人工的队列。
本申请实施例中,根据用户视频中的多帧图像,对用户做情绪识别,包括喜悦、惊讶、轻蔑、厌恶、愤怒、恐惧、悲伤等,当用户的情绪从积极情绪变为消极情绪时,例如由喜悦变为愤怒,由惊讶变为愤怒,则表示用户情绪变坏,此时应该转接真人面签服务,实现人文关怀,提高用户体验。根据用户视频中出现的背景进行背景识别,若是识别出视频图像中出现中介/黑产背景,则应该优先进行真人面签。根据用户视频中图像进行人像翻拍识别,若是存在反光,人脸周围存在屏幕、边框等,则可以存在人像翻拍的可能,则应该转真人面签,由人工进行进一步判断。根据用户视频中人脸进行年龄和性别的识别,若是识别出的年龄性别与证件上的信息不符合,则应该转真人面签,由人工进行进一步判断。
在一些可选的实施方式中,将对应的面签任务转接虚拟人面签之后,还包括:当同一用户的面签任务的失败次数大于对应阈值时,将对应用户的面签任务放入优先转人工的队列。
本申请实施例中,在一定时间内,若是同一用户的面签任务多次失败,则应该转真人面签,由人工引导用户完成面签任务,提高用户体验,提高服务质量。
在一些可选的实施方式中,生成面签任务所需的虚拟人视频,包括:获取坐席设置的背景;将虚拟人视频每帧图像,分割出虚拟人像;将虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
本申请实施例中,坐席设置的背景可以通过摄像头实时采集坐席人脸照片,并检测照片中人脸的位置,得到人脸框距离图像顶部、底部、左边和右边的距离,并基于这些距离判断坐席人脸照片中的位置和虚拟人图像中的人脸位置是否一致,若不一致,则需要通过对图像进行补全或裁剪,最终得到坐席设置的背景。之后,将虚拟人图像的虚拟人像分割出来,与坐席设置的背景进行图像融合,得到背景替换后的虚拟人视频。
图5示出了本申请实施例提供的电子设备的一种可能的结构。参照图5,电子设备包括:处理器1、存储器2和通信接口3,这些组件通过通信总线4和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器2包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器1以及其他可能的组件可对存储器2进行访问,读和/或写其中的数据。
处理器1包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器1可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-network Processing Unit,简称NPU)、图形处理器(Graphics Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器1为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
通信接口3包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口3可以包括进行有线和/或无线通信的接口。
在存储器2中可以存储一个或多个计算机程序指令,处理器1可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。
可以理解的,图5所示的结构仅为示意,电子设备还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图5中电子设备中的存储器2。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种智能视频面签的切换方法,其特征在于,包括:
对任一未接起的面签任务,根据坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户,计算转接虚拟人的概率;
判断所述转接虚拟人的概率是否大于设定阈值,若是,则将对应的面签任务转接虚拟人面签。
2. 如权利要求1所述的方法,其特征在于,所述转接虚拟人的概率y:
y=w0×seat_real_rate+w1×bus_count+w2×cus_avg_wait+w3×bus_cpmpx+w4×cus_quene_time+w5×is_vip
其中,seat_real_rate为坐席实时接通率,其值为坐席接通数与面签任务总数的比值;
bus_count为业务每日实时量,其值为根据历史的业务每日量和业务今日量进行预测得到的预测值;
cus_avg_wait为当前客户平均等待时长;
bus_cpmpx为面签任务复杂性,其值为根据面签任务的复杂性进行量化得到的值;
cus_quene_time为用户实时排队时长,其值为当前所有客户的总等待时长的平均值;
is_vip为客户是否为VIP客户,若客户是VIP客户,其值为1;若客户不是VIP客户,其值为0;
w0,w1,w2,w3,w4,w5分别为坐席实时接通率、业务每日实时量、当前客户平均等待时长、面签任务复杂性、用户实时排队时长以及客户是否为VIP客户对应的系数。
3.如权利要求2所述的方法,其特征在于,所述w0,w1,w2,w3,w4,w5的计算,包括:
利用梯度下降法求目标函数的最优预测概率参数,得到w0,w1,w2,w3,w4,w5的值。
4.如权利要求1所述的方法,其特征在于,所述虚拟人面签的方法,包括:
采集坐席的人像照片;
获取驱动视频;
根据所述驱动视频和人像照片,生成面签任务所需的虚拟人视频。
5.如权利要求4所述的方法,其特征在于,所述采集坐席的人像照片之后,还包括:
识别人像清晰度、进行脸部遮挡识别判断以及人脸POSE估计,仅当人像清晰度大于清晰度阈值、脸部无遮挡且人脸的俯仰角、偏航角和翻滚角都在对应的阈值范围内时,将所述人像照片用于生成所述虚拟人视频。
6.如权利要求4所述的方法,其特征在于,所述驱动视频,满足:
张嘴动作的次数、眨眼动作的次数、微表情的次数和姿态动作的次数均大于相应的阈值。
7.如权利要求4所述的方法,其特征在于,所述生成面签任务所需的虚拟人视频,包括:
获取坐席设置的背景;
将虚拟人视频每帧图像,分割出虚拟人像;
将虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
8.如权利要求1所述的方法,其特征在于,所述将对应的面签任务转接虚拟人面签之后,还包括:
对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,将对应用户的面签任务放入优先转人工的队列。
9.如权利要求1所述的方法,其特征在于,所述将对应的面签任务转接虚拟人面签之后,还包括:
对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介/黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,将对应用户的面签任务放入优先转人工的队列。
10.如权利要求1所述的方法,其特征在于,所述将对应的面签任务转接虚拟人面签之后,还包括:
当同一用户的面签任务的失败次数大于对应阈值时,将对应用户的面签任务放入优先转人工的队列。
CN202310348852.9A 2023-04-04 2023-04-04 一种智能视频面签的切换方法 Active CN116112630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310348852.9A CN116112630B (zh) 2023-04-04 2023-04-04 一种智能视频面签的切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310348852.9A CN116112630B (zh) 2023-04-04 2023-04-04 一种智能视频面签的切换方法

Publications (2)

Publication Number Publication Date
CN116112630A true CN116112630A (zh) 2023-05-12
CN116112630B CN116112630B (zh) 2023-06-23

Family

ID=86265791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310348852.9A Active CN116112630B (zh) 2023-04-04 2023-04-04 一种智能视频面签的切换方法

Country Status (1)

Country Link
CN (1) CN116112630B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510233A (zh) * 2017-12-01 2018-09-07 平安科技(深圳)有限公司 远程面签匹配坐席方法、电子装置及计算机可读存储介质
JP2018207143A (ja) * 2017-05-30 2018-12-27 沖電気工業株式会社 顧客応対システム、顧客応対方法、顧客応対装置、及びプログラム
CN109919001A (zh) * 2019-01-23 2019-06-21 深圳壹账通智能科技有限公司 基于情绪识别的客服监测方法、装置、设备和存储介质
CN110659575A (zh) * 2019-08-22 2020-01-07 中国平安财产保险股份有限公司 在线客服服务方法、装置、计算机装置及存储介质
CN111860394A (zh) * 2020-07-28 2020-10-30 成都新希望金融信息有限公司 一种基于姿态估计和动作检测的动作活体识别方法
CN112860877A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 客服作业处理方法、装置、电子设备及存储介质
CN113344469A (zh) * 2021-08-02 2021-09-03 成都新希望金融信息有限公司 欺诈识别方法、装置、计算机设备及存储介质
WO2021175007A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 在线客服咨询方法、装置、介质及电子设备
US20210334761A1 (en) * 2020-04-28 2021-10-28 Milind Kishor Thombre Video-Bot based System and Method for Continually improving the Quality of Candidate Screening Process, Candidate Hiring Process and Internal Organizational Promotion Process, using Artificial Intelligence, Machine Learning Technology and Statistical Inference based Automated Evaluation of responses that employs a scalable Cloud Architecture
CN113837595A (zh) * 2021-09-22 2021-12-24 中国银联股份有限公司 面签方式分配方法、装置、设备及存储介质
CN114677634A (zh) * 2022-05-30 2022-06-28 成都新希望金融信息有限公司 面签识别方法、装置、电子设备及存储介质
US11425215B1 (en) * 2017-08-24 2022-08-23 United Services Automobile Association (Usaa) Methods and systems for virtual assistant routing
CN115511704A (zh) * 2022-11-22 2022-12-23 成都新希望金融信息有限公司 一种虚拟客服生成方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018207143A (ja) * 2017-05-30 2018-12-27 沖電気工業株式会社 顧客応対システム、顧客応対方法、顧客応対装置、及びプログラム
US11425215B1 (en) * 2017-08-24 2022-08-23 United Services Automobile Association (Usaa) Methods and systems for virtual assistant routing
CN108510233A (zh) * 2017-12-01 2018-09-07 平安科技(深圳)有限公司 远程面签匹配坐席方法、电子装置及计算机可读存储介质
CN109919001A (zh) * 2019-01-23 2019-06-21 深圳壹账通智能科技有限公司 基于情绪识别的客服监测方法、装置、设备和存储介质
CN110659575A (zh) * 2019-08-22 2020-01-07 中国平安财产保险股份有限公司 在线客服服务方法、装置、计算机装置及存储介质
WO2021175007A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 在线客服咨询方法、装置、介质及电子设备
US20210334761A1 (en) * 2020-04-28 2021-10-28 Milind Kishor Thombre Video-Bot based System and Method for Continually improving the Quality of Candidate Screening Process, Candidate Hiring Process and Internal Organizational Promotion Process, using Artificial Intelligence, Machine Learning Technology and Statistical Inference based Automated Evaluation of responses that employs a scalable Cloud Architecture
CN111860394A (zh) * 2020-07-28 2020-10-30 成都新希望金融信息有限公司 一种基于姿态估计和动作检测的动作活体识别方法
CN112860877A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 客服作业处理方法、装置、电子设备及存储介质
CN113344469A (zh) * 2021-08-02 2021-09-03 成都新希望金融信息有限公司 欺诈识别方法、装置、计算机设备及存储介质
CN113837595A (zh) * 2021-09-22 2021-12-24 中国银联股份有限公司 面签方式分配方法、装置、设备及存储介质
CN114677634A (zh) * 2022-05-30 2022-06-28 成都新希望金融信息有限公司 面签识别方法、装置、电子设备及存储介质
CN115511704A (zh) * 2022-11-22 2022-12-23 成都新希望金融信息有限公司 一种虚拟客服生成方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MICHAL JOACHIMCZAK 等: "Downsizing: The Effect of Mixed-Reality Person Representations on Stress and Presence in Telecommunication", 《IEEE》 *
李梦霄;顾心诚;裴佳翔;邢腾飞;郑小云;: "深度学习在银行业的应用", 中国金融电脑, no. 09 *
汪芮: "商业银行数字信用卡风险管理研究", 《硕士电子期刊》 *
陈建光;: "后疫情时代,数字化转型成金融机构生死大考", 中国金融电脑, no. 05 *

Also Published As

Publication number Publication date
CN116112630B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
WO2021078157A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN105512624B (zh) 一种人脸图像的笑脸识别方法及其装置
WO2019119505A1 (zh) 人脸识别的方法和装置、计算机装置及存储介质
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
WO2019095571A1 (zh) 人物情绪分析方法、装置及存储介质
US20210158036A1 (en) Databases, data structures, and data processing systems for counterfeit physical document detection
CN109359548A (zh) 多人脸识别监控方法及装置、电子设备及存储介质
TW202004637A (zh) 一種風險預測方法、存儲介質和伺服器
CN113221771B (zh) 活体人脸识别方法、装置、设备、存储介质及程序产品
WO2021196721A1 (zh) 一种舱内环境的调整方法及装置
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN107911643B (zh) 一种视频通信中展现场景特效的方法和装置
CN113361603A (zh) 训练方法、类别识别方法、装置、电子设备以及存储介质
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
WO2023138376A1 (zh) 动作识别方法、模型训练方法、装置及电子设备
CN113570689B (zh) 人像卡通化方法、装置、介质和计算设备
WO2023040146A1 (zh) 基于图像融合的行为识别方法、装置、电子设备及介质
WO2024060951A1 (zh) 一种业务服务方法及装置
WO2024032159A1 (zh) 多人机交互场景下的说话对象检测
WO2024001539A1 (zh) 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品
CN113205002A (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
RU2768797C1 (ru) Способ и система для определения синтетически измененных изображений лиц на видео
CN116112630B (zh) 一种智能视频面签的切换方法
CN116110080B (zh) 一种真人面签和虚拟人面签的切换方法
CN115565097A (zh) 交易场景人员行为是否合规检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant