CN116110080B - 一种真人面签和虚拟人面签的切换方法 - Google Patents

一种真人面签和虚拟人面签的切换方法 Download PDF

Info

Publication number
CN116110080B
CN116110080B CN202310348857.1A CN202310348857A CN116110080B CN 116110080 B CN116110080 B CN 116110080B CN 202310348857 A CN202310348857 A CN 202310348857A CN 116110080 B CN116110080 B CN 116110080B
Authority
CN
China
Prior art keywords
virtual
seat
image
face
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310348857.1A
Other languages
English (en)
Other versions
CN116110080A (zh
Inventor
王小东
吕文勇
周智杰
廖浩
王其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu New Hope Finance Information Co Ltd
Original Assignee
Chengdu New Hope Finance Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu New Hope Finance Information Co Ltd filed Critical Chengdu New Hope Finance Information Co Ltd
Priority to CN202310348857.1A priority Critical patent/CN116110080B/zh
Publication of CN116110080A publication Critical patent/CN116110080A/zh
Application granted granted Critical
Publication of CN116110080B publication Critical patent/CN116110080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)
  • Display Devices Of Pinball Game Machines (AREA)

Abstract

本申请提供一种真人面签和虚拟人面签的切换方法,当虚拟人切换真人时,为了使用户感知不到切换的变化,需要将坐席视频和虚拟人视频中的背景保持一致。为此,本实施例首先在生成虚拟人视频时,将虚拟人的背景设置为坐席设置的背景。在虚拟人面签转真人面签时,首先对真实的坐席视频的每帧图像分割出坐席人像,再将坐席人像与坐席设置的背景进行图像融合,坐席视频的背景被替换为了坐席设置的背景,也就是说,坐席视频中的背景与虚拟人视频中的背景一致,再由于虚拟人形象即为坐席本人,用户难以感知虚拟人和真人在进行切换,从而提高了用户体验。

Description

一种真人面签和虚拟人面签的切换方法
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种真人面签和虚拟人面签的切换方法。
背景技术
随着金融科技的快速发展,以及对非接触式服务的推动和引导,传统金融机构营业厅存在服务半径有限、客户需上门办理业务、客户服务体验差等问题,驱动着银行、证券等金融机构服务触点和业务模式由线下实体化向线上化进行转变,金融机构需要建设全新的虚拟营业厅,借助远程视频设备连通客户和远程坐席,由客户口述和确认业务需要,远程坐席代为操作的“一点接入、全程响应”式金融服务。
目前主流的视频面签有基于坐席人工的面签和基于AI算法的虚拟人自助面签,这两种面签各有各的优势,用户体验和优缺点各不相同。人工面签存在无法提供24小时服务,无法及时服务客户,面签申请量大于坐席人数时,就会存在长时间的排队,服务体验差等问题,但是其优势也很明显,人工面签可以处理很复杂的面签问题,可以更加准确的理解用户意图,可以和用户精准的交流。虚拟人面签存在复杂的面签业务无法智能化的完成,语音识别和意图识别等不准的问题,但是其优势也很多,可以24小时为用户服务,可以对海量的面签请求快速响应,可以用户自助完成无需排队等。
现有的同时提供真人面签和虚拟人面签的系统中,若需要进行虚拟人面签和真人面签的切换,则需要用户主动发起,无法自动进行切换,并且用户能够明确的感知虚拟人和真人在进行切换,导致用户体验差。
发明内容
本申请实施例的目的在于提供一种真人面签和虚拟人面签的切换方法,用以解决现有的同时提供真人面签和虚拟人面签的系统中,若需要进行虚拟人面签和真人面签的切换,则需要用户主动发起,无法自动进行切换,并且用户能够明确的感知虚拟人和真人在进行切换,导致用户体验差的问题。
本申请实施例提供的一种真人面签和虚拟人面签的切换方法,包括:
在虚拟人面签时,虚拟人视频每帧图像的背景为坐席设置的背景;
在虚拟人面签转真人面签时,对坐席视频每帧图像,分割出坐席人像;
将坐席人像与坐席设置的背景进行图像融合,得到背景替换后的坐席视频。
上述技术方案中,当虚拟人切换真人时,为了使用户感知不到切换的变化,需要将坐席视频和虚拟人视频中的背景保持一致。为此,本实施例首先在生成虚拟人视频时,将虚拟人的背景设置为坐席设置的背景。在虚拟人面签转真人面签时,首先对真实的坐席视频的每帧图像分割出坐席人像,再将坐席人像与坐席设置的背景进行图像融合,坐席视频的背景被替换为了坐席设置的背景,也就是说,坐席视频中的背景与虚拟人视频中的背景一致,再由于虚拟人形象即为坐席本人,用户难以感知虚拟人和真人在进行切换,从而提高了用户体验。
在一些可选的实施方式中,在虚拟人面签时,还包括:
获取坐席设置的背景;
获取坐席对应的虚拟人视频;
对坐席对应的虚拟人视频每帧图像,分割出虚拟人像;
将虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
上述技术方案中,在进行虚拟人面签时,使用背景替换后的虚拟人视频,具体包括:首先坐席可自由设置视频的背景,然后获取事先生成的该坐席的虚拟人视频,将虚拟人视频中虚拟人像分割出来与设置的背景进行融合,得到与坐席对应的且指定背景的虚拟人视频。
在一些可选的实施方式中,获取坐席设置的背景,包括:
获取坐席所在位置的实时图像;
对实时图像进行人脸检测,判断实时图像是否存在人脸;
若检测出人脸,则将实时图像的人脸和背景进行分割,得到背景图像,并将背景图像中之前人脸所在的位置,利用附近点的像素进行填充,得到坐席设置的背景;
若未检测出人脸,则直接将实时图像作为坐席设置的背景。
上述技术方案中,坐席设置的背景通常通过拍摄坐席所在工位的实时图像得到,对实时图像进行人脸检测,若存在人脸,则将实时图像的背景分割出来,并将人脸所在位置的像素利用附近点的像素进行填充,以便于后续进行人像与背景的图像融合。若实时图像中未检测出人脸,则可以将该实时图像直接作为背景使用。
在一些可选的实施方式中,获取坐席对应的虚拟人视频,包括:
采集坐席的人像照片;
获取驱动视频;
根据驱动视频和人像照片,生成面签任务所需的虚拟人视频。
其中,有了坐席的虚拟人形象(即坐席的人像照片),还需要设置一段嘴型和姿态可以自然动作的驱动视频,去让虚拟人可以模拟这段驱动视频的表情和姿态,从而达到看起来更像真人。这段视频可以来源于对真人的拍摄,并根据校验规则对拍摄的视频进行校验,确定视频是否合格。校验规则为:对视频进行图像解析,针对每张图像,识别眼睛状态,嘴巴状态,Pose姿态,微表情状态。统计张嘴次数,眨眼次数,以及头部左偏,右偏,抬头,点头次数,微表情次数。针对每一类动作当次数达到一定阈值T,则认为眨眼发生,张嘴发生,头部有表情变化,姿态有变化,从而确定该驱动视频是满足姿态和表情变化的。
上述技术方案中,将坐席的人像照片和驱动视频进行视觉混合,对人像照片使用深度学习技术来辨认脸部特征,从而检测出视频中的人脸位置和特征,最后将人脸照片的像素注入驱动视频帧中人脸对应特征的位置,并根据实际面签任务,最终生成具有坐席人脸的虚拟人视频。其中,对应不同的面签任务,虚拟人视频中坐席人脸的微动作可以与驱动视频中人脸的微动作在时序上一致,只需根据面签任务所需的张嘴、嘴型等嘴部变化进行调整。
在一些可选的实施方式中,对坐席对应的虚拟人视频每帧图像,分割出虚拟人像之前,还包括:
对虚拟人视频中图像,检测出虚拟人脸框,并得到虚拟人脸框高与图像高的比值,虚拟人脸框宽与图像宽的比值,虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比;
对坐席视频中图像,检测出坐席人脸框,并得到坐席人脸框高与图像高的比值,坐席人脸框宽与图像宽的比值,坐席人脸距离图像图像顶部、底部、左边距和右边距的距离比;
通过对坐席视频中图像进行补全或裁剪,以及对坐席人脸框进行拉伸或缩放,使坐席人脸框高与图像高的比值、坐席人脸框宽与图像宽的比值、坐席人脸距离图像图像顶部、底部、左边距和右边距的距离比,分别与虚拟人脸框高与图像高的比值、虚拟人脸框宽与图像宽的比值、虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比一致。
上述技术方案中,在将坐席视频的背景与虚拟人视频的背景保持一致的前提下,将坐席视频中的人脸与虚拟人视频中的人脸也保持一致,包括人脸框的高度和宽度一致,以及人脸框相对于图像中的位置也保持一致,避免在虚拟人切换真人时出现脸部突变或脸部位置突变的情况,使用户对虚拟人和真人的切换无感知,进一步提高用户体验。
在一些可选的实施方式中,在虚拟人面签转真人面签时,还包括:
识别出面签任务需要从虚拟人面签转为真人面签;
判断虚拟人面签对应的坐席是否空闲;
若虚拟人面签对应的坐席空闲,则进行虚拟人视频流到坐席视频流的切换;
若虚拟人面签对应的坐席繁忙,则将面签任务放置到优先人工的排队中,直到虚拟人面签对应的坐席空闲时进行虚拟人视频流到坐席视频流的切换。
在一些可选的实施方式中,虚拟人视频流到坐席视频流的切换,包括:
在后台新建一个流媒体服务;其中,流媒体服务的地址用于将坐席端的坐席视频流推送到该地址对应的服务器,流媒体服务的地址还作为用户视频流推流的地址;
将坐席视频流实时推送到流媒体服务的地址;
用户端从流媒体服务的地址拉流显示坐席视频,并更新用户端的用户视频推流的地址。
在一些可选的实施方式中,识别出面签任务需要从虚拟人面签转为真人面签,包括:
对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,则确认面签任务需要从虚拟人面签转为真人面签。
上述技术方案中,通过分析语音特征来识别不同的方言,例如,可以根据语音中的单词、句子、音调等来识别不同的方言特征,若识别为方言,则认为当前面签任务继续采用虚拟人面签可能存在服务质量问题,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。同样的,若是虚拟人面签过程中多次无法识别用户意图,表示当前的服务质量较低,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。
在一些可选的实施方式中,识别出面签任务需要从虚拟人面签转为真人面签,包括:
对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介或黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,则确认面签任务需要从虚拟人面签转为真人面签。
上述技术方案中,根据用户视频中的多帧图像,对用户做情绪识别,包括喜悦、惊讶、轻蔑、厌恶、愤怒、恐惧、悲伤等,当用户的情绪从积极情绪变为消极情绪时,例如由喜悦变为愤怒,由惊讶变为愤怒,则表示用户情绪变坏,此时应该转接真人面签服务,实现人文关怀,提高用户体验。根据用户视频中出现的背景进行背景识别,若是识别出视频图像中出现中介或黑产背景,则应该优先进行真人面签。根据用户视频中图像进行人像翻拍识别,若是存在反光,人脸周围存在屏幕、边框等,则可以存在人像翻拍的可能,则应该转真人面签,由人工进行进一步判断。根据用户视频中人脸进行年龄和性别的识别,若是识别出的年龄性别与证件上的信息不符合,则应该转真人面签,由人工进行进一步判断。
在一些可选的实施方式中,识别出面签任务需要从虚拟人面签转为真人面签,包括:
当同一用户的面签任务的失败次数大于对应阈值时,则确认面签任务需要从虚拟人面签转为真人面签。
上述技术方案中,在一定时间内,若是同一用户的面签任务多次失败,则应该转真人面签,由人工引导用户完成面签任务,提高用户体验,提高服务质量。
本申请实施例提供的一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如以上任一所述的方法。
本申请实施例提供的一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如以上任一所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种真人面签和虚拟人面签的切换方法步骤流程图;
图2为本申请实施例提供的虚拟人面签步骤流程图;
图3为本申请实施例提供的获取坐席设置的背景的步骤流程图;
图4为本申请实施例提供的背景图像;
图5为本申请实施例提供的获取坐席对应的虚拟人视频步骤流程图;
图6为本申请实施例提供的虚拟人流切换到真人坐席流步骤流程图;
图7为本申请实施例提供的电子设备的一种可能的结构示意图。
图标:1-处理器,2-存储器,3-通信接口,4-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参照图1,图1为本申请实施例提供的一种真人面签和虚拟人面签的切换方法步骤流程图,具体包括:
步骤100、在虚拟人面签时,虚拟人视频每帧图像的背景为坐席设置的背景;
步骤200、在虚拟人面签转真人面签时,对坐席视频每帧图像,分割出坐席人像;
步骤300、将坐席人像与坐席设置的背景进行图像融合,得到背景替换后的坐席视频。
本申请实施例中,当虚拟人切换真人时,为了使用户感知不到切换的变化,需要将坐席视频和虚拟人视频中的背景保持一致。为此,本实施例首先在生成虚拟人视频时,将虚拟人的背景设置为坐席设置的背景。在虚拟人面签转真人面签时,首先对真实的坐席视频的每帧图像分割出坐席人像,再将坐席人像与坐席设置的背景进行图像融合,坐席视频的背景被替换为了坐席设置的背景,也就是说,坐席视频中的背景与虚拟人视频中的背景一致,再由于虚拟人形象即为坐席本人,用户难以感知虚拟人和真人在进行切换,从而提高了用户体验。
在一些可选的实施方式中,请参照图2,图2为本申请实施例提供的虚拟人面签步骤流程图,具体包括:
步骤110、获取坐席设置的背景;获取坐席对应的虚拟人视频;
步骤120、对坐席对应的虚拟人视频每帧图像,分割出虚拟人像;
步骤130、将虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
本申请实施例中,在进行虚拟人面签时,使用背景替换后的虚拟人视频,具体包括:首先坐席可自由设置视频的背景,然后获取事先生成的该坐席的虚拟人视频,将虚拟人视频中虚拟人像分割出来与设置的背景进行融合,得到与坐席对应的且指定背景的虚拟人视频。
在一些可选的实施方式中,请参照图3,图3为本申请实施例提供的获取坐席设置的背景的步骤流程图,具体包括:
步骤111、获取坐席所在位置的实时图像;
步骤112、对实时图像进行人脸检测,判断实时图像是否存在人脸;若是,则进入步骤113;若否,则进入步骤114;
步骤113、将实时图像的人脸和背景进行分割,得到背景图像(如图4),并将背景图像中之前人脸所在的位置,利用附近点的像素进行填充,得到坐席设置的背景;
步骤114、直接将实时图像作为坐席设置的背景。
本申请实施例中,坐席设置的背景通常通过拍摄坐席所在工位的实时图像得到,对实时图像进行人脸检测,若存在人脸,则将实时图像的背景分割出来,并将人脸所在位置的像素利用附近点的像素进行填充,以便于后续进行人像与背景的图像融合。若实时图像中未检测出人脸,则可以将该实时图像直接作为背景使用。
在一些可选的实施方式中,请参照图5,图5为本申请实施例提供的获取坐席对应的虚拟人视频步骤流程图,具体包括:
步骤115、采集坐席的人像照片;
步骤116、获取驱动视频;
步骤117、根据驱动视频和人像照片,生成面签任务所需的虚拟人视频。
其中,有了坐席的虚拟人形象(即坐席的人像照片),还需要设置一段嘴型和姿态可以自然动作的驱动视频,去让虚拟人可以模拟这段驱动视频的表情和姿态,从而达到看起来更像真人。这段视频可以来源于对真人的拍摄,并根据校验规则对拍摄的视频进行校验,确定视频是否合格。校验规则为:对视频进行图像解析,针对每张图像,识别眼睛状态,嘴巴状态,Pose姿态,微表情状态。统计张嘴次数,眨眼次数,以及头部左偏,右偏,抬头,点头次数,微表情次数。针对每一类动作当次数达到一定阈值T,则认为眨眼发生,张嘴发生,头部有表情变化,姿态有变化,从而确定该驱动视频是满足姿态和表情变化的。
本申请实施例中,将坐席的人像照片和驱动视频进行视觉混合,对人像照片使用深度学习技术来辨认脸部特征,从而检测出视频中的人脸位置和特征,最后将人脸照片的像素注入驱动视频帧中人脸对应特征的位置,并根据实际面签任务,最终生成具有坐席人脸的虚拟人视频。其中,对应不同的面签任务,虚拟人视频中坐席人脸的微动作可以与驱动视频中人脸的微动作在时序上一致,只需根据面签任务所需的张嘴、嘴型等嘴部变化进行调整。
在一些可选的实施方式中,对坐席对应的虚拟人视频每帧图像,分割出虚拟人像之前,还需要利用拍摄坐席视频的摄像头进行智能调整,使坐席视频中的人脸位置和大小与虚拟人视频中一致,具体包括:对虚拟人视频中图像,检测出虚拟人脸框,并得到虚拟人脸框高与图像高的比值,虚拟人脸框宽与图像宽的比值,虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比;对坐席视频中图像,检测出坐席人脸框,并得到坐席人脸框高与图像高的比值,坐席人脸框宽与图像宽的比值,坐席人脸距离图像图像顶部、底部、左边距和右边距的距离比;通过对坐席视频中图像进行补全或裁剪,以及对坐席人脸框进行拉伸或缩放,使坐席人脸框高与图像高的比值、坐席人脸框宽与图像宽的比值、坐席人脸距离图像图像顶部、底部、左边距和右边距的距离比,分别与虚拟人脸框高与图像高的比值、虚拟人脸框宽与图像宽的比值、虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比一致。
本申请实施例中,在将坐席视频的背景与虚拟人视频的背景保持一致的前提下,将坐席视频中的人脸与虚拟人视频中的人脸也保持一致,包括人脸框的高度和宽度一致,以及人脸框相对于图像中的位置也保持一致,避免在虚拟人切换真人时出现脸部突变或脸部位置突变的情况,使用户对虚拟人和真人的切换无感知,进一步提高用户体验。
在一些可选的实施方式中,在虚拟人面签转真人面签时,还包括:识别出面签任务需要从虚拟人面签转为真人面签;判断虚拟人面签对应的坐席是否空闲;若虚拟人面签对应的坐席空闲,则进行虚拟人视频流到坐席视频流的切换;若虚拟人面签对应的坐席繁忙,则将面签任务放置到优先人工的排队中,直到虚拟人面签对应的坐席空闲时进行虚拟人视频流到坐席视频流的切换。
在一些可选的实施方式中,虚拟人视频流到坐席视频流的切换,包括:在后台新建一个流媒体服务;其中,流媒体服务的地址用于将坐席端的坐席视频流推送到该地址对应的服务器,流媒体服务的地址还作为用户视频流推流的地址;将坐席视频流实时推送到流媒体服务的地址;用户端从流媒体服务的地址拉流显示坐席视频,并更新用户端的用户视频推流的地址。
为了让用户能平滑的从虚拟人流切换到真人坐席流,需要使用流平滑技术实现无缝切换,请参照图6,图6为本申请实施例提供的虚拟人流切换到真人坐席流步骤流程图,具体包括:
根据切换规则,识别出需要从虚拟人面签转为真人面签的面签任务,如果这个时候该虚拟人对应的坐席是有空的,则进入下一步;
后台起一个流媒体服务,比如地址是:rtmp://10.23.8.190:2002,该地址用于人工坐席将PC端的音视频流推送到该台服务器,同时该地址也可以作为C端用户推流的地址;
将真人坐席的流实时推送到上述流媒体服务地址,用流控制服务实时从流媒体服务拉流,针对拉取的流做实时背景替换,替换成和虚拟人面签背景一样的背景;
利用拍摄坐席视频的摄像头进行智能调整,使坐席视频中的人脸位置和大小与虚拟人视频中一致,将调整后的图像流写入流媒体服务地址里;
C端从新的流媒体地址拉流显示坐席人像和背景,同时将老的C端 推流地址切换到新的流媒体地址,PC端从新的流媒体地址拉取用户的音视频流用于PC端的显示。
其中,根据切换规则,可以识别出哪些面签任务需要从虚拟人面签转为真人面签。具体的切换规则包括:
对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,则确认面签任务需要从虚拟人面签转为真人面签。本申请实施例中,通过分析语音特征来识别不同的方言,例如,可以根据语音中的单词、句子、音调等来识别不同的方言特征,若识别为方言,则认为当前面签任务继续采用虚拟人面签可能存在服务质量问题,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。同样的,若是虚拟人面签过程中多次无法识别用户意图,表示当前的服务质量较低,则将该面签任务放入优先转人工的队列,或者当前坐席空闲直接转到真人面签服务。
对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介或黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,则确认面签任务需要从虚拟人面签转为真人面签。本申请实施例中,根据用户视频中的多帧图像,对用户做情绪识别,包括喜悦、惊讶、轻蔑、厌恶、愤怒、恐惧、悲伤等,当用户的情绪从积极情绪变为消极情绪时,例如由喜悦变为愤怒,由惊讶变为愤怒,则表示用户情绪变坏,此时应该转接真人面签服务,实现人文关怀,提高用户体验。根据用户视频中出现的背景进行背景识别,若是识别出视频图像中出现中介或黑产背景,则应该优先进行真人面签。根据用户视频中图像进行人像翻拍识别,若是存在反光,人脸周围存在屏幕、边框等,则可以存在人像翻拍的可能,则应该转真人面签,由人工进行进一步判断。根据用户视频中人脸进行年龄和性别的识别,若是识别出的年龄性别与证件上的信息不符合,则应该转真人面签,由人工进行进一步判断。
当同一用户的面签任务的失败次数大于对应阈值时,则确认面签任务需要从虚拟人面签转为真人面签。本申请实施例中,在一定时间内,若是同一用户的面签任务多次失败,则应该转真人面签,由人工引导用户完成面签任务,提高用户体验,提高服务质量。
综上所述,本实施例提供了一种虚拟人面签和坐席人工面签的无缝切换方法,在虚拟人面签时,通过坐席设置自己的虚拟形象,利用虚拟形象代替真人进行面签业务办理。在虚拟人坐席切换到真人坐席时,通过切换规则实时判断是否切换真人坐席,通过实时背景替换和流切换技术,确保虚拟人切换真人时,其背景图像是一致的,视频流不打断,用户无感是否是切换到了真人。该方案可有效解决人工坐席服务有限,虚拟人面签针对复杂场景服务体验差的问题,为有效的人机协同提供了解决方案,最大化的利用虚拟人,人工面签的优势,为用户提供最大限度的服务。
图7示出了本申请实施例提供的电子设备的一种可能的结构。参照图7,电子设备包括:处理器1、存储器2和通信接口3,这些组件通过通信总线4和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器2包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器1以及其他可能的组件可对存储器2进行访问,读和/或写其中的数据。
处理器1包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器1可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-network Processing Unit,简称NPU)、图形处理器(Graphics Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器1为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
通信接口3包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口3可以包括进行有线和/或无线通信的接口。
在存储器2中可以存储一个或多个计算机程序指令,处理器1可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。
可以理解的,图7所示的结构仅为示意,电子设备还可以包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的结构。图7中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图7中电子设备中的存储器2。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种真人面签和虚拟人面签的切换方法,其特征在于,包括:
在虚拟人面签时,虚拟人视频每帧图像的背景为坐席设置的背景;
在虚拟人面签转真人面签时,对坐席视频每帧图像,分割出坐席人像;
将所述坐席人像与坐席设置的背景进行图像融合,得到背景替换后的坐席视频;
其中,所述在虚拟人面签转真人面签时,还包括:识别出面签任务需要从虚拟人面签转为真人面签;判断虚拟人面签对应的坐席是否空闲;若虚拟人面签对应的坐席空闲,则进行虚拟人视频流到坐席视频流的切换;若虚拟人面签对应的坐席繁忙,则将面签任务放置到优先人工的排队中,直到虚拟人面签对应的坐席空闲时进行虚拟人视频流到坐席视频流的切换;
所述虚拟人视频流到坐席视频流的切换,包括:在后台新建一个流媒体服务;其中,所述流媒体服务的地址用于将坐席端的坐席视频流推送到该地址对应的服务器,所述流媒体服务的地址还作为用户视频流推流的地址;将坐席视频流实时推送到所述流媒体服务的地址;用户端从所述流媒体服务的地址拉流显示坐席视频,并更新用户端的用户视频推流的地址。
2.如权利要求1所述的方法,其特征在于,所述在虚拟人面签时,还包括:
获取坐席设置的背景;
获取坐席对应的虚拟人视频;
对坐席对应的虚拟人视频每帧图像,分割出虚拟人像;
将所述虚拟人像与背景进行图像融合,得到背景替换后的虚拟人视频。
3.如权利要求2所述的方法,其特征在于,所述获取坐席设置的背景,包括:
获取坐席所在位置的实时图像;
对所述实时图像进行人脸检测,判断所述实时图像是否存在人脸;
若检测出人脸,则将所述实时图像的人脸和背景进行分割,得到背景图像,并将所述背景图像中之前人脸所在的位置,利用附近点的像素进行填充,得到坐席设置的背景;
若未检测出人脸,则直接将所述实时图像作为坐席设置的背景。
4.如权利要求2所述的方法,其特征在于,所述获取坐席对应的虚拟人视频,包括:
采集坐席的人像照片;
获取驱动视频;
根据所述驱动视频和人像照片,生成面签任务所需的虚拟人视频。
5.如权利要求2所述的方法,其特征在于,所述对坐席对应的虚拟人视频每帧图像,分割出虚拟人像之前,还包括:
对虚拟人视频中图像,检测出虚拟人脸框,并得到虚拟人脸框高与图像高的比值,虚拟人脸框宽与图像宽的比值,虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比;
对坐席视频中图像,检测出坐席人脸框,并得到坐席人脸框高与图像高的比值,坐席人脸框宽与图像宽的比值,坐席人脸距离图像顶部、底部、左边距和右边距的距离比;
通过对坐席视频中图像进行补全或裁剪,以及对坐席人脸框进行拉伸或缩放,使坐席人脸框高与图像高的比值、坐席人脸框宽与图像宽的比值、坐席人脸距离图像顶部、底部、左边距和右边距的距离比,分别与虚拟人脸框高与图像高的比值、虚拟人脸框宽与图像宽的比值、虚拟人脸框距离图像顶部、底部、左边距和右边距的距离比一致。
6.如权利要求1所述的方法,其特征在于,所述识别出面签任务需要从虚拟人面签转为真人面签,包括:
对用户语音进行识别,当识别出用户说出转人工关键词,或识别不出用户意图的次数超过对应阈值,或识别出用户语音为方言时,则确认面签任务需要从虚拟人面签转为真人面签。
7.如权利要求1所述的方法,其特征在于,所述识别出面签任务需要从虚拟人面签转为真人面签,包括:
对用户视频中图像进行分析,当识别出图像中用户人像出现情绪波动,或识别出图像中出现中介或黑产背景、人像翻拍、人脸为数据库中风险人脸以及性别年龄与真实不符时,则确认面签任务需要从虚拟人面签转为真人面签。
8.如权利要求1所述的方法,其特征在于,所述识别出面签任务需要从虚拟人面签转为真人面签,包括:
当同一用户的面签任务的失败次数大于对应阈值时,则确认面签任务需要从虚拟人面签转为真人面签。
CN202310348857.1A 2023-04-04 2023-04-04 一种真人面签和虚拟人面签的切换方法 Active CN116110080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310348857.1A CN116110080B (zh) 2023-04-04 2023-04-04 一种真人面签和虚拟人面签的切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310348857.1A CN116110080B (zh) 2023-04-04 2023-04-04 一种真人面签和虚拟人面签的切换方法

Publications (2)

Publication Number Publication Date
CN116110080A CN116110080A (zh) 2023-05-12
CN116110080B true CN116110080B (zh) 2023-07-04

Family

ID=86254664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310348857.1A Active CN116110080B (zh) 2023-04-04 2023-04-04 一种真人面签和虚拟人面签的切换方法

Country Status (1)

Country Link
CN (1) CN116110080B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006120489A1 (en) * 2005-05-12 2006-11-16 Mta Számitástechnikai És Automatizálási Kutató Intézet Procedure for the insertion of a virtual image into real environment and device for the execution of the procedure
CN102035950A (zh) * 2009-09-30 2011-04-27 华为技术有限公司 坐席业务处理方法及ip坐席终端
CN102082884A (zh) * 2009-11-30 2011-06-01 中国移动通信集团四川有限公司 一种基于3g的音视频协作方法及系统
CN106383587A (zh) * 2016-10-26 2017-02-08 腾讯科技(深圳)有限公司 一种增强现实场景生成方法、装置及设备
CN108269204A (zh) * 2018-01-15 2018-07-10 北京点聚信息技术有限公司 电子合同在线签约过程动作记录方法
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
CN108959167A (zh) * 2018-07-03 2018-12-07 威创集团股份有限公司 一种坐席系统管理方法、装置及坐席系统
CN111314787A (zh) * 2020-02-26 2020-06-19 维沃移动通信有限公司 一种视频信息的处理方法及电子设备
CN113157371A (zh) * 2021-04-26 2021-07-23 平安科技(深圳)有限公司 人工客服切换方法、装置、存储介质和计算机设备
CN114554240A (zh) * 2022-02-25 2022-05-27 广州博冠信息科技有限公司 直播中的交互方法及装置、存储介质、电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162258A (zh) * 2018-07-03 2019-08-23 腾讯数码(天津)有限公司 个性化场景图像的处理方法及装置
CN110942501B (zh) * 2019-11-27 2020-12-22 深圳追一科技有限公司 虚拟形象切换方法、装置、电子设备及存储介质
CN111242962A (zh) * 2020-01-15 2020-06-05 中国平安人寿保险股份有限公司 远程培训视频的生成方法、装置、设备及存储介质
US11336840B2 (en) * 2020-09-02 2022-05-17 Cisco Technology, Inc. Matching foreground and virtual background during a video communication session
CN112135158B (zh) * 2020-09-17 2022-10-25 重庆虚拟实境科技有限公司 基于混合现实的直播方法及相关设备
CN113903338A (zh) * 2021-10-18 2022-01-07 深圳追一科技有限公司 面签方法、装置、电子设备和存储介质
CN114422647A (zh) * 2021-12-24 2022-04-29 上海浦东发展银行股份有限公司 基于数字人的坐席服务方法、装置、设备、介质和产品
CN114866506A (zh) * 2022-04-08 2022-08-05 北京百度网讯科技有限公司 展示虚拟形象的方法、装置及电子设备
CN115035042A (zh) * 2022-05-17 2022-09-09 网易(杭州)网络有限公司 动作迁移模型的评价方法、装置、电子设备及存储介质
CN115511704B (zh) * 2022-11-22 2023-03-10 成都新希望金融信息有限公司 一种虚拟客服生成方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006120489A1 (en) * 2005-05-12 2006-11-16 Mta Számitástechnikai És Automatizálási Kutató Intézet Procedure for the insertion of a virtual image into real environment and device for the execution of the procedure
CN102035950A (zh) * 2009-09-30 2011-04-27 华为技术有限公司 坐席业务处理方法及ip坐席终端
CN102082884A (zh) * 2009-11-30 2011-06-01 中国移动通信集团四川有限公司 一种基于3g的音视频协作方法及系统
CN106383587A (zh) * 2016-10-26 2017-02-08 腾讯科技(深圳)有限公司 一种增强现实场景生成方法、装置及设备
CN108269204A (zh) * 2018-01-15 2018-07-10 北京点聚信息技术有限公司 电子合同在线签约过程动作记录方法
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
CN108959167A (zh) * 2018-07-03 2018-12-07 威创集团股份有限公司 一种坐席系统管理方法、装置及坐席系统
CN111314787A (zh) * 2020-02-26 2020-06-19 维沃移动通信有限公司 一种视频信息的处理方法及电子设备
CN113157371A (zh) * 2021-04-26 2021-07-23 平安科技(深圳)有限公司 人工客服切换方法、装置、存储介质和计算机设备
CN114554240A (zh) * 2022-02-25 2022-05-27 广州博冠信息科技有限公司 直播中的交互方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN116110080A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
WO2021135509A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2020211388A1 (zh) 基于预测模型的行为预测方法、装置、设备及存储介质
US20210279503A1 (en) Image processing method, apparatus, and device, and storage medium
WO2021078157A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
TW202004637A (zh) 一種風險預測方法、存儲介質和伺服器
CN111783620A (zh) 表情识别方法、装置、设备及存储介质
US20220083153A1 (en) System and method of determining input characters based on swipe input
WO2020244074A1 (zh) 表情交互方法、装置、计算机设备及可读存储介质
US20230095182A1 (en) Method and apparatus for extracting biological features, device, medium, and program product
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
WO2021139316A1 (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
WO2023040146A1 (zh) 基于图像融合的行为识别方法、装置、电子设备及介质
CN114821734A (zh) 一种驱动虚拟人物表情的方法和装置
WO2021169616A1 (zh) 非活体人脸的检测方法、装置、计算机设备及存储介质
WO2021179719A1 (zh) 人脸活体检测方法、装置、介质及电子设备
WO2024060951A1 (zh) 一种业务服务方法及装置
CN112149599B (zh) 表情追踪方法、装置、存储介质和电子设备
CN116110080B (zh) 一种真人面签和虚拟人面签的切换方法
WO2024001539A1 (zh) 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品
WO2023197648A1 (zh) 截图处理方法及装置、电子设备和计算机可读介质
CN111274447A (zh) 基于视频的目标表情生成方法、装置、介质、电子设备
CN108334821B (zh) 一种图像处理方法及电子设备
CN116112630B (zh) 一种智能视频面签的切换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant