CN113903338A - 面签方法、装置、电子设备和存储介质 - Google Patents
面签方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113903338A CN113903338A CN202111212802.5A CN202111212802A CN113903338A CN 113903338 A CN113903338 A CN 113903338A CN 202111212802 A CN202111212802 A CN 202111212802A CN 113903338 A CN113903338 A CN 113903338A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- user
- signing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims description 23
- 238000000034 method Methods 0.000 claims abstract description 98
- 230000014509 gene expression Effects 0.000 claims description 38
- 230000009471 action Effects 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 64
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Image Processing (AREA)
Abstract
本公开实施例公开了一种面签方法、装置、电子设备和存储介质。上述方法包括:获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;基于上述数字人视频,对待面签用户进行面签。本公开实施例可以通过数字人视频实现面签,无需人工坐席进行远程面签,节省了面签成本、提高了面签效率、丰富了远程面签的方式。
Description
技术领域
本公开涉及面签技术领域,尤其是一种面签方法、装置、电子设备和存储介质。
背景技术
随着信息技术的高速发展,以往线下传统的业务开始逐渐迁移至线上,而且已经形成一种不可逆转的趋势。
例如远程面签,其主要用于帮助使馆、银行等机构开展业务。目前,对于银行而言,可以通过远程视频来保障签约的真实性以及合法有效性。通常,远程面签的主要功能包含:手机端客户信息的录入及面签的发起、面签后台包含角色权限的控制、客服面签以及面签信息的管理调用等等。
目前,远程面签通常基于人工坐席的方式来实现。
发明内容
鉴于此,为解决如上部分或全部技术问题,本公开实施例提供一种面签方法、装置、电子设备和存储介质。
第一方面,本公开实施例提供一种面签方法,该方法包括:
获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;
基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;
基于上述数字人视频,对待面签用户进行面签。
可选地,在本公开任一实施例的方法中,上述基于上述数字人视频,对待面签用户进行面签,包括:
在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频;
基于上述回复音频,对上述待面签用户进行面签。
可选地,在本公开任一实施例的方法中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
可选地,在本公开任一实施例的方法中,在上述回复音频不符合上述预设音频重识别条件的情况下,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签;
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
可选地,在本公开任一实施例的方法中,上述预设音频重识别条件包括以下至少一项:
上述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
上述待面签用户使用的用户终端获取到的回复音频无法识别。
可选地,在本公开任一实施例的方法中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
可选地,在本公开任一实施例的方法中,上述方法应用于上述用户终端;以及
上述方法还包括:
以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
可选地,在本公开任一实施例的方法中,上述目标语音包括预设面签开场语,上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置;以及
在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音。
可选地,在本公开任一实施例的方法中,在上述基于上述数字人视频,对待面签用户进行面签之前,上述方法还包括:
在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
可选地,在本公开任一实施例的方法中,上述基于上述数字人视频,对待面签用户进行面签,包括:
如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
可选地,在本公开任一实施例的方法中,上述人脸识别条件包括以下至少一项:
上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
可选地,在本公开任一实施例的方法中,上述基于上述目标语音和上述目标人物图像,生成数字人视频,包括:
提取上述目标语音的音频特征;
基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息;
基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
可选地,在本公开任一实施例的方法中,上述目标语音经由文本转化获得;上述目标人物图像为二维图像或三维图像。
第二方面,本公开实施例提供一种面签装置,上述装置包括:
获取单元,被配置成获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;
生成单元,被配置成基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;
面签单元,被配置成基于上述数字人视频,对待面签用户进行面签。
可选地,在本公开任一实施例的装置中,上述面签单元进一步被配置成:
在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频;
基于上述回复音频,对上述待面签用户进行面签。
可选地,在本公开任一实施例的装置中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
可选地,在本公开任一实施例的装置中,在上述回复音频不符合上述预设音频重识别条件的情况下,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签;
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
可选地,在本公开任一实施例的装置中,上述预设音频重识别条件包括以下至少一项:
上述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
上述待面签用户使用的用户终端获取到的回复音频无法识别。
可选地,在本公开任一实施例的装置中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
可选地,在本公开任一实施例的装置中,上述装置应用于上述用户终端;以及
上述装置还包括:
以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
可选地,在本公开任一实施例的装置中,上述目标语音包括预设面签开场语,上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置;以及
在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音。
可选地,在本公开任一实施例的装置中,上述装置还包括:
识别单元,被配置成在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
可选地,在本公开任一实施例的装置中,上述面签单元进一步被配置成:
如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
可选地,在本公开任一实施例的装置中,上述人脸识别条件包括以下至少一项:
上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
可选地,在本公开任一实施例的装置中,上述生成单元进一步被配置成:
提取上述目标语音的音频特征;
基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息;
基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
可选地,在本公开任一实施例的装置中,上述目标语音经由文本转化获得;上述目标人物图像为二维图像或三维图像。
第三方面,本公开实施例提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述第一方面的面签方法中任一实施例的方法。
第四方面,本公开实施例提供一种计算机可读介质,该计算机程序被处理器执行时,实现如上述第一方面的面签方法中任一实施例的方法。
第五方面,本公开实施例提供一种计算机程序,该计算机程序包括计算机可读代码,当该计算机可读代码在设备上运行时,使得该设备中的处理器执行用于实现如上述第一方面的面签方法中任一实施例的方法中各步骤的指令。
基于本公开上述实施例提供的面签方法,通过获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像,之后,基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音,最后,基于上述数字人视频,对待面签用户进行面签。由此,可以通过数字人视频实现面签,无需人工坐席进行远程面签,节省了面签成本、提高了面签效率、丰富了远程面签的方式。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开实施例提供的一种面签方法或一种面签装置的示例性系统架构图;
图2是本公开实施例提供的一种面签方法的流程图;
图3是针对图2的实施例的一个应用场景的示意图;
图4A是本公开实施例提供的另一种面签方法的流程图;
图4B是本公开实施例中的一个系统架构的示意图;
图4C-图4E是本公开实施例提供的一种面签方法的用户终端的呈现页面示意图;
图4F是本公开实施例提供的一种面签方法的执行过程示意图。
图4G是本公开实施例提供的又一种面签方法的流程图;
图5是本公开实施例提供的一种面签装置的结构示意图;
图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象,既不代表任何特定技术含义,也不表示它们之间的逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1是本公开实施例提供的一种面签方法或一种面签装置的示例性系统架构图。
如图1所示,系统架构100可以包括终端设备101、102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送数据(例如目标语音和目标人物图像)等。终端设备101、102上可以安装有各种客户端应用,例如音视频处理软件等。
终端设备101、102可以是硬件,也可以是软件。当终端设备101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不作具体限定。
服务器104可以是提供各种服务的服务器,例如对终端设备101、102发送的数据进行处理的后台服务器。作为示例,服务器104可以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不作具体限定。
还需要说明的是,本公开的实施例所提供的面签方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,面签装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当面签方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括面签方法运行于其上的电子设备(例如服务器或终端设备)。
图2示出了本公开实施例提供的一种面签方法的流程200。该面签方法,包括以下步骤:
步骤201,获取目标语音和目标人物图像。
在本实施例中,面签方法的执行主体(例如图1所示的服务器或终端设备)可以从其他电子设备或者本地,获取目标语音和目标人物图像。
其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像。
目标语音,可以是对面签问题对应的文字的语音。作为示例,如果面签问题对应的文字是“此次贷款您知道用途吗?”,那么,目标语音,可以是“此次贷款您知道用途吗?”的语音。
可选的,目标语音,也可以是采用语音形式来表达的面签问题。例如,目标语音可以通过相关人员发出面签问题指示的声音,而录音获得。
在本实施例的一些可选的实现方式中,上述目标语音经由文本转化获得。
可以理解,上述可选的实现方式中,可以采用文本转化的形式,来获得目标语音,由此,提高了目标语音的获得效率、降低了目标语音的获得成本。
目标人物图像,可以是包含人物的各种图像,其可以是卡通人物图像、真人相片,也可以是对卡通图像或真人相片进行合成、修图等操作而得到的人物图像。
在本实施例的一些可选的实现方式中,上述目标人物图像为二维图像或三维图像。
可以理解,上述可选的实现方式中,通过将二维图像或三维图像,作为目标人物图像,丰富了目标人物图像的呈现种类。
步骤202,基于上述目标语音和上述目标人物图像,生成数字人视频。
在本实施例中,上述执行主体可以基于上述目标语音和上述目标人物图像,生成数字人视频。其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音。
作为示例,上述执行主体可以采用如下方式,来执行上述步骤202,以便基于上述目标语音和上述目标人物图像,生成数字人视频:
针对上述目标语音中的音频帧,将该音频帧输入至预先训练的人脸关键点模型,得到与该音频帧相对应的人脸关键点。其中,上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系。
具体而言,可以将该音频帧输入至预先训练的人脸关键点模型,得到与该音频帧相对应的第一数量个人脸关键点。
其中,第一数量,可以是预先确定的任意正整数,作为示例,该第一数量,可以是81、68等等。
在此基础上,上述执行主体可以采用如下方式,来基于与该音频帧相对应的人脸关键点,生成上述目标人脸图像的人脸关键点:基于与该音频帧相对应的第一数量个人脸关键点,生成上述目标人脸图像的第二数量个人脸关键点。其中,上述第二数量大于上述第一数量。
其中,第二数量,可以是预先确定的任意大于第一数量的正整数,作为示例,该第二数量可以是26。
在一些情况下,第二数量个人脸关键点,可以包括20个嘴巴关键点和6个下巴关键点。
可以理解,可以首先基于单帧音频帧得到数量较多个人脸关键点,然后基于所得到的较多人脸关键点,获得目标人脸图像的数量较少的人脸关键点,由此,可以提高所得到的与该音频帧相对应的人脸关键点的准确度,进而可以通过后续步骤提高数字人视频的生成效果和速度。
可选的,也可以采用如下方式,将该音频帧输入至预先训练的人脸关键点模型,得到与该音频帧相对应的人脸关键点:
首先,提取该音频帧的音频特征。其中,该音频帧的音频特征可以包括但不限于:频率倒谱系数特征、音色特征、声调特征等等。
例如,上述执行主体可以采用如下方式,提取该音频帧的音频特征:提取该音频帧的频率倒谱系数特征,作为该音频帧的音频特征。
这里,上述执行主体也可以采用如下方式,提取该音频帧的音频特征:将该音频帧输入至预先训练的特征提取模型,得到该音频帧的音频特征。其中,上述特征提取模型表征音频帧和音频帧的音频特征之间的对应关系。
然后,将所提取的音频特征输入至预先训练的人脸关键点模型,得到与该音频帧相对应的人脸关键点。其中,人脸关键点模型,可以包括表征音频特征和音频帧相对应的人脸关键点的对应关系的子模型。
可以理解,可以通过提取音频帧的音频特征,来得到与音频帧相对应的人脸关键点,由此,可以通过后续步骤进一步提高数字人视频的生成效果。
在得到人脸关键点之后,可以将每帧音频帧对应的人脸关键点与目标人物图像,输入至预先训练的图像生成模型,从而得到与该帧音频帧对应的人物图像。从而将所得到的多帧音频帧对应的人物图像对应的视频,作为数字人视频。
其中,上述图像生成模型可以表征音频帧对应的人脸关键点、目标人物图像与音频帧对应的人物图像之间的对应关系。
作为示例,上述图像生成模型可以是采用有监督的方式训练得到的卷积神经网络,也可以是采用无监督的训练方式得到的生成式对抗网络中的判别器。
在本实施例的一些可选的实现方式中,上述执行主体可以采用如下方式来执行上述步骤202,以便基于上述目标语音和上述目标人物图像,生成数字人视频:
首先,提取上述目标语音的音频特征。作为示例,音频特征可以包括但不限于:频率倒谱系数特征、音色特征、声调特征等等。
之后,基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息。
其中,与目标语音相对应的表情信息,表征在发出目标语音过程中的表情。与上述目标语音相对应动作信息,表征在发出目标语音过程中的动作。
实践中,可以采用LSTM(Long short-term memory,长短期记忆),来基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息。
例如,可以将音频特征,输入至预先训练的长短期记忆模型,从而得到与上述目标语音相对应的表情信息和动作信息。其中,上述长短期记忆模型,可以是采用包含音频特征、表情信息和动作信息的训练样本,来训练得到。
最后,基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频。
其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
作为示例,可以将上述表情信息、上述动作信息和上述目标人物图像输入至预先训练的图像生成模型,从而得到人物图像。进而将所得到的多个人物图像对应的视频,作为数字人视频。
其中,上述图像生成模型可以表征表情信息、动作信息、目标人物图像,以及对应的人物图像之间的对应关系。
作为示例,上述图像生成模型可以是采用有监督的方式训练得到的卷积神经网络,也可以是采用无监督的训练方式得到的生成式对抗网络中的判别器。
步骤203,基于上述数字人视频,对待面签用户进行面签。
在本实施例中,上述执行主体可以基于上述数字人视频,对待面签用户进行面签。
在本实施例的一些可选的实现的方式中,上述执行主体可以采用如下方式,来执行上述步骤203,以便基于上述数字人视频,对待面签用户进行面签:
第一步,在上述待面签用户使用的用户终端播放上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频。
第二步,基于上述回复音频,对上述待面签用户进行面签。
在上述可选的实现的方式中的一些应用场景下,上述执行主体可以采用如下方式,来执行上述第二步,以便基于上述回复音频,对上述待面签用户进行面签:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
在上述应用场景中的一些情况中,在上述回复音频不符合上述预设音频重识别条件的情况下,上述执行主体可以采用如下方式来执行上述第二步,以便基于上述回复音频,对上述待面签用户进行面签:
首先,在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签。
之后,在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
在上述应用场景中的一些情况中,上述预设音频重识别条件包括以下至少一项:
第一项,上述待面签用户使用的用户终端在预设时间段内未获取到回复音频。
第二项,上述待面签用户使用的用户终端获取到的回复音频无法识别。
在上述可选的实现的方式中的另一些应用场景下,上述执行主体也可以采用如下方式,来执行上述第二步,以便基于上述回复音频,对上述待面签用户进行面签:基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
作为示例,如果上述待面签用户使用的用户终端获取的图像,与待面签用户提供的证件上的图像,二者指示同一人员,则可以确定待面签用户通过面签;如果上述待面签用户使用的用户终端获取的图像,与待面签用户提供的证件上的图像,二者指示不同人员,则可以确定待面签用户未通过面签或者需要重新进行面签。
在上述应用场景中的一些情况下,上述方法应用于上述用户终端,也即,可以将上述用户终端作为上述执行主体。在此基础上,上述执行主体还可以以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
可以理解,上述情况中,可以以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像,丰富了面签过程中的交互方式。
在本实施例的一些可选的实现方式中,上述目标语音包括预设面签开场语(例如欢迎申请业务,现在进行人脸识别),上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置(例如安装于手机上的摄像头)。在此基础上,在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音(例如,请确保人脸在画面中央)。
例如,上述人脸识别条件,可以包括:图像获取装置获取到的图像的时长超过了预设时间段。
可以理解,上述可选的实现方式中,可以采用数字人视频,来引导用户进行人脸识别,以便后续进行面签,从而进一步丰富了远程面签的方式。
在上述可选的实现方式中的一些情况下,在上述基于上述数字人视频,对待面签用户进行面签之前,在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,上述执行主体还可以对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果。
其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员。
在此基础上,如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音;如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
可以理解,上述情况下,采用人脸识别技术,来确定待面签用户是否本人进行面签,由此,可以结合人脸识别技术和数字人技术,来进行面签,提高了面前的效率和准确度。
在上述可选的实现方式中的一些情况下,上述人脸识别条件包括以下至少一项:
第一项,上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值。
第二项,上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
可以理解,上述情况下,上述图像获取装置获取到的图像的清晰度,或者,人脸图像区域的面积满足条件后,才进行人脸识别,这样,可以提高人脸识别的准确度。
继续参见图3,图3是根据本实施例的面签方法的应用场景的一个示意图。在图3中,用户终端310(也即上述执行主体)首先获取目标语音301和目标人物图像302,其中,上述目标语音301包括面签问题对应的语音,上述目标人物图像302包括面部图像。之后,用户终端310基于上述目标语音301和上述目标人物图像302,生成数字人视频303,其中,上述数字人视频303指示上述目标人物图像302指示的人物发出上述目标语音301指示的声音。最后,如标号304所示,用户终端310基于上述数字人视频303,对待面签用户进行面签。
本公开的上述实施例提供的方法,通过获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像,之后,基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音,最后,基于上述数字人视频,对待面签用户进行面签。由此,可以通过数字人视频实现面签,无需人工坐席进行远程面签,节省了面签成本、提高了面签效率、丰富了远程面签的方式。
进一步参考图4A,其示出了面签方法的又一个实施例的流程400。该面签方法的流程,包括以下步骤:
步骤401,获取目标语音和目标人物图像。其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像。
步骤402,基于上述目标语音和上述目标人物图像,生成数字人视频。其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音。
步骤403,在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频。
步骤404,基于上述回复音频,对上述待面签用户进行面签。
作为示例,本实施例中面签方法可以按照如下方式执行:
首先,在系统架构上,现有技术中多采用人工坐席的方式,来实现远程面签;而由于本实施例中,采用了数字人视频,来对待面签用户进行远程面签,因而,可以采用用于生成数字人视频的模块,来代替现有技术中的人工坐席模块。这里,可以通过用户终端与服务端之间的配合来实现上述面签方法。作为示例,图4B可以作为本公开实施例中的一个系统架构的示意图。
具体而言,可以参考图4B-图4G对本申请实施例进行示例性说明。其中,图4B是本公开实施例中的一个系统架构的示意图;图4C-图4E是本公开实施例提供的一种面签方法的用户终端的呈现页面示意图;图4F是本公开实施例提供的一种面签方法的执行过程示意图;图4G是本公开实施例提供的又一种面签方法的流程图。
首先,待面签用户的用户终端(例如手机,上述执行主体的一种),可以呈现如图4C所示的信息,之后,在用户终端的开始视频面签的按键被点击后,即可开始面签。
然后,可以采用如图4D所示的方式,与待面签用户按照图4G所示的步骤进行交互。如图4G所示,待面签用户的用户终端(例如手机,上述执行主体的一种),可以在屏幕上呈现欢迎语“欢迎申请业务,现在进行身份确认,请您直视摄像头,确保人脸在画面中央”。或者,目标语音可以为“欢迎申请业务,现在进行身份确认,请您直视摄像头,确保人脸在画面中央”的音频,目标人物图像可以如图4E所示的人物图像。这样,所生成的数字人视频可以指示如图4E所示的人物图像中的人物发出“欢迎申请业务,现在进行身份确认,请您直视摄像头,确保人脸在画面中央”的声音。
之后,继续参考图4G,可以对待面签用户进行人脸识别。进行人脸识别后,可能存在如下三种情况:
情况一,如果识别不到,则上述用户终端可以弹窗或语音提示:抱歉,我看不到您了,请您确保人脸在画面中央。之后,如图4D所示,上述用户终端可以呈现“结束”按键,以及“下一步”按键。其中,如果上述用户终端中的“结束”按键被点击,则可以表征结束面签;如果上述用户终端中的“下一步”按键被点击,则可以表征再来一次,随后数字人视频指示的人物再次发出上述欢迎语指示的声音。可选的,也可以直接进入人脸识别。
情况二,如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。例如图4G所示,上述目标语音包括:抱歉,申请人不是XX本人,请本人进行视频面签。也即,数字人视频可以发出“抱歉,申请人不是XX本人,请本人进行视频面签”的声音。可选的,也可以采用弹窗的方式,来呈现“抱歉,申请人不是XX本人,请本人进行视频面签”的文字。之后,上述用户终端可以呈现“结束”按键,以及“下一步”按键。其中,如果上述用户终端中的“结束”按键被点击,则可以表征结束面签;如果上述用户终端中的“下一步”按键被点击,则可以表征再来一次,随后数字人视频指示的人物再次发出上述欢迎语指示的声音。可选的,也可以直接进入人脸识别。
情况三,如果上述人脸识别结果指示为同一人员,则可以基于上述数字人视频,对待面签用户进行面签。例如图4G所示,上述目标语音包括:XX先生/女士,您好,此次车辆贷款您知道用途吗?也即,数字人视频可以发出“XX先生/女士,您好,此次车辆贷款您知道用途吗?”和/或“合同等所有资料是您本人签署的吗?”的声音。可选的,也可以采用弹窗的方式,来呈现“XX先生/女士,您好,此次车辆贷款您知道用途吗?”的文字。
接下来,针对上述面签问题“XX先生/女士,您好,此次车辆贷款您知道用途吗?”和/或“合同等所有资料是您本人签署的吗?”,用户终端可以获取待面签用户的回复音频,并进行回复判断。判断结果包括以下三种情况:
情况一,如果5秒超时未获得回复音频、回复音频听不清、回复音频无法识别,则上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。例如如图4G所示,上述目标语音包括:听不到您的回答,请您回答“是”或“不是”。也即,数字人视频可以发出“听不到您的回答,请您回答‘是’或‘不是’”的声音。可选的,也可以采用弹窗的方式,来呈现“听不到您的回答,请您回答‘是’或‘不是’”的文字。之后,上述用户终端可以呈现“结束”按键,以及“下一步”按键。其中,如果上述用户终端中的“结束”按键被点击,则可以表征结束面签;如果上述用户终端中的“下一步”按键被点击,则可以表征再来一次,随后数字人视频指示的人物再次发出上述面签问题指示的声音。
情况二,如果回复音频包含不是、不知道、不是的、不对等关键词,那么,可以确定上述待面签用户未通过面签。可选的,目标语音也可以包括用于指示用户重新回复面前问题的音频。例如如图4G所示,目标语音包括:请您确认本次贷款,和/或,请您确保合同为您本人签署,如有疑问,请联系您的业务经理。也即,数字人视频可以发出“请您确认本次贷款”,和/或,“请您确保合同为您本人签署,如有疑问,请联系您的业务经理”的声音。可选的,也可以采用弹窗的方式,来呈现“请您确认本次贷款”,和/或,“请您确保合同为您本人签署,如有疑问,请联系您的业务经理”的文字。之后,上述用户终端可以呈现“结束”按键,以及“下一步”按键。其中,如果上述用户终端中的“结束”按键被点击,则可以表征结束面签;如果上述用户终端中的“下一步”按键被点击,则可以表征再来一次,随后数字人视频指示的人物再次发出上述面签问题指示的声音。
情况三,如果回复音频包含是、是的、没错、对的、是我本人、是我、是我签的等关键词,则可以确定上述待面签用户通过面签。
随后,上述用户终端可以呈现如图4E所示的页面,用户终端检测到“确认申请”按键被点击之后,可以结束面签,指示业务办理成功。
此外,图4F是本公开实施例提供的一种面签方法的执行过程示意图。
在图4F中,智能语音控制模块可以首先采用用户终端上设置的声音采集装置,来采集待面签用户的音频。之后,对所采集的音频进行降噪处理,以提高后续语音识别(ARS,Automatic Speech Recognition)的精度。
然后,可以将降噪处理后的音频传输至智能调度中控模块,通过调用ARS服务,得到对应的文本信息,该文本信息可以用作生成目标语音。
此外,可以采用Bot(自然语言处理装置,或者知识库装置)作为互联网服务,Bot可以有输入接口和输出接口,从而得到指令(例如进行音频(例如目标语音)播放的指令等)。
对于TTS(从文本到语音,TextToSpeech)服务,其可以把文本变为语音,返回音频。
在本实施例中,上述步骤401-步骤404的具体执行方式,可以参考上述图2对应的实施例的相关描述,在此不再赘述。此外,除上面所记载的内容外,本公开的实施例还可以包括与图2对应的实施例相同或类似的特征、效果,在此不再赘述。
现有技术中,传统的面签方法并没有显示输出的可视化形象,而本公开实施例中的上述面签方法,则可以使用数字人视频的实现面签。在终端部分,可以增加可视化显示装置,然后使用h264压缩视频流协议,通过语音助手把语音组件的输出转换为可视化的仿真或者三维形象,在用户的终端展现可视化的交互服务,也即呈现数字人视频。此外,服务器部分,增加了数字人视频渲染装置,进行数字人的可视化渲染。还增加了数字人表情推理装置,进行数字人的可视化表情的推理,肢体动作的推理。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种面签装置的一个实施例,该装置实施例与以上所描述的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与以上所描述的方法实施例相同或相应的特征,以及产生与以上所描述的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的面签装置500包括:获取单元501、生成单元502和面签单元503。其中,获取单元501,被配置成获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;生成单元502,被配置成基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;面签单元503,被配置成基于上述数字人视频,对待面签用户进行面签。
在本实施例中,面签装置500的获取单元501可以获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像。
在本实施例中,生成单元502可以基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音。
在本实施例中,面签单元503可以基于上述数字人视频,对待面签用户进行面签。
在本实施例的一些可选的实现方式中,上述面签单元503进一步被配置成:
在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频;
基于上述回复音频,对上述待面签用户进行面签。
在本实施例的一些可选的实现方式中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
在本实施例的一些可选的实现方式中,在上述回复音频不符合上述预设音频重识别条件的情况下,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签;
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
在本实施例的一些可选的实现方式中,上述预设音频重识别条件包括以下至少一项:
上述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
上述待面签用户使用的用户终端获取到的回复音频无法识别。
在本实施例的一些可选的实现方式中,上述基于上述回复音频,对上述待面签用户进行面签,包括:
基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
在本实施例的一些可选的实现方式中,上述装置应用于上述用户终端;以及
上述装置500还包括:
以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
在本实施例的一些可选的实现方式中,上述目标语音包括预设面签开场语,上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置;以及
在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音。
在本实施例的一些可选的实现方式中,上述装置500还包括:
识别单元(图中未示出),被配置成在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
在本实施例的一些可选的实现方式中,上述面签单元503进一步被配置成:
如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
在本实施例的一些可选的实现方式中,上述人脸识别条件包括以下至少一项:
上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
在本实施例的一些可选的实现方式中,上述生成单元502进一步被配置成:
提取上述目标语音的音频特征;
基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息;
基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
在本实施例的一些可选的实现方式中,上述目标语音经由文本转化获得;上述目标人物图像为二维图像或三维图像。
本公开的上述实施例提供的装置500中,获取单元501可以获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像,之后,生成单元502可以基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音,最后,面签单元503可以基于上述数字人视频,对待面签用户进行面签。由此,公开实施例可以通过数字人视频实现面签,无需人工坐席进行远程面签,节省了面签成本、提高了面签效率、丰富了远程面签的方式。
图6为本公开实施例提供的一种电子设备的结构示意图,图6所示的电子设备600包括:至少一个处理器601、存储器602和至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。
其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本公开实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。
其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序6022中。
在本公开实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行各方法实施例所提供的方法步骤,例如包括:获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;基于上述数字人视频,对待面签用户进行面签。
可选地,上述基于上述数字人视频,对待面签用户进行面签,包括:
在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频;
基于上述回复音频,对上述待面签用户进行面签。
可选地,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
可选地,在上述回复音频不符合上述预设音频重识别条件的情况下,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签;
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
可选地,上述预设音频重识别条件包括以下至少一项:
上述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
上述待面签用户使用的用户终端获取到的回复音频无法识别。
可选地,上述基于上述回复音频,对上述待面签用户进行面签,包括:
基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
可选地,上述方法应用于上述用户终端;以及
上述方法还包括:
以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
可选地,上述目标语音包括预设面签开场语,上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置;以及
在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音。
可选地,在上述基于上述数字人视频,对待面签用户进行面签之前,上述方法还包括:
在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
可选地,上述基于上述数字人视频,对待面签用户进行面签,包括:
如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
可选地,上述人脸识别条件包括以下至少一项:
上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
可选地,上述基于上述目标语音和上述目标人物图像,生成数字人视频,包括:
提取上述目标语音的音频特征;
基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息;
基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
可选地,上述目标语音经由文本转化获得;上述目标人物图像为二维图像或三维图像。
上述本公开实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图6中所示的电子设备,可执行如图2中面签方法的所有步骤,进而实现图2所示面签方法的技术效果,具体请参照图2相关描述,为简洁描述,在此不作赘述。
本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的面签方法。
所述处理器用于执行存储器中存储的通信程序,以实现以下在电子设备侧执行的面签方法的步骤:获取目标语音和目标人物图像,其中,上述目标语音包括面签问题对应的语音,上述目标人物图像包括面部图像;基于上述目标语音和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物发出上述目标语音指示的声音;基于上述数字人视频,对待面签用户进行面签。
可选地,上述基于上述数字人视频,对待面签用户进行面签,包括:
在上述待面签用户使用的用户终端呈现上述数字人视频后,获取上述待面签用户针对上述面签问题的回复音频;
基于上述回复音频,对上述待面签用户进行面签。
可选地,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频符合预设音频重识别条件的情况下,上述目标语音还包括用于指示待面签用户重新回复上述面签问题的语音。
可选地,在上述回复音频不符合上述预设音频重识别条件的情况下,上述基于上述回复音频,对上述待面签用户进行面签,包括:
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息相匹配的情况下,确定上述待面签用户通过面签;
在上述回复音频的语义信息与针对上述面签问题预先设置的语义信息不匹配的情况下,确定上述待面签用户未通过面签。
可选地,上述预设音频重识别条件包括以下至少一项:
上述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
上述待面签用户使用的用户终端获取到的回复音频无法识别。
可选地,上述基于上述回复音频,对上述待面签用户进行面签,包括:
基于上述待面签用户使用的用户终端获取的图像和上述回复音频,对上述待面签用户进行面签。
可选地,上述方法应用于上述用户终端;以及
上述方法还包括:
以全屏的方式呈现上述数字人视频,以及在上述用户终端的预设区域以小窗的形式呈现上述待面签用户使用的用户终端获取的图像。
可选地,上述目标语音包括预设面签开场语,上述预设面签开场语用于指示待面签用户进行人脸识别,上述待面签用户使用的用户终端设置有图像获取装置;以及
在上述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,上述目标语音还包括用于指示待面签用户调整人脸位姿或上述图像获取装置的位姿的语音。
可选地,在上述基于上述数字人视频,对待面签用户进行面签之前,上述方法还包括:
在上述图像获取装置获取到的图像符合上述人脸识别条件的情况下,对上述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,上述人脸识别结果指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果上述人脸识别结果指示非同一人员,则上述目标语音还包括用于指示上述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
可选地,上述基于上述数字人视频,对待面签用户进行面签,包括:
如果上述人脸识别结果指示为同一人员,则基于上述数字人视频,对待面签用户进行面签。
可选地,上述人脸识别条件包括以下至少一项:
上述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
上述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
可选地,上述基于上述目标语音和上述目标人物图像,生成数字人视频,包括:
提取上述目标语音的音频特征;
基于上述音频特征,生成与上述目标语音相对应的表情信息和动作信息;
基于上述表情信息、上述动作信息和上述目标人物图像,生成数字人视频,其中,上述数字人视频指示上述目标人物图像指示的人物做出上述表情信息指示的表情,以及上述动作信息指示的动作。
可选地,上述目标语音经由文本转化获得;上述目标人物图像为二维图像或三维图像。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施方式而已,并不用于限定本公开的保护范围,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (16)
1.一种面签方法,其特征在于,所述方法包括:
获取目标语音和目标人物图像,其中,所述目标语音包括面签问题对应的语音,所述目标人物图像包括面部图像;
基于所述目标语音和所述目标人物图像,生成数字人视频,其中,所述数字人视频指示所述目标人物图像指示的人物发出所述目标语音指示的声音;
基于所述数字人视频,对待面签用户进行面签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数字人视频,对待面签用户进行面签,包括:
在所述待面签用户使用的用户终端呈现所述数字人视频后,获取所述待面签用户针对所述面签问题的回复音频;
基于所述回复音频,对所述待面签用户进行面签。
3.根据权利要求2所述的方法,其特征在于,所述基于所述回复音频,对所述待面签用户进行面签,包括:
在所述回复音频符合预设音频重识别条件的情况下,所述目标语音还包括用于指示待面签用户重新回复所述面签问题的语音。
4.根据权利要求3所述的方法,其特征在于,在所述回复音频不符合所述预设音频重识别条件的情况下,所述基于所述回复音频,对所述待面签用户进行面签,包括:
在所述回复音频的语义信息与针对所述面签问题预先设置的语义信息相匹配的情况下,确定所述待面签用户通过面签;
在所述回复音频的语义信息与针对所述面签问题预先设置的语义信息不匹配的情况下,确定所述待面签用户未通过面签。
5.根据权利要求3所述的方法,其特征在于,所述预设音频重识别条件包括以下至少一项:
所述待面签用户使用的用户终端在预设时间段内未获取到回复音频;
所述待面签用户使用的用户终端获取到的回复音频无法识别。
6.根据权利要求2所述的方法,其特征在于,所述基于所述回复音频,对所述待面签用户进行面签,包括:
基于所述待面签用户使用的用户终端获取的图像和所述回复音频,对所述待面签用户进行面签。
7.根据权利要求6所述的方法,其特征在于,所述方法应用于所述用户终端;以及
所述方法还包括:
以全屏的方式呈现所述数字人视频,以及在所述用户终端的预设区域以小窗的形式呈现所述待面签用户使用的用户终端获取的图像。
8.根据权利要求1所述的方法,其特征在于,所述目标语音包括预设面签开场语,所述预设面签开场语用于指示待面签用户进行人脸识别,所述待面签用户使用的用户终端设置有图像获取装置;以及
在所述图像获取装置获取到的图像不符合预先确定的人脸识别条件的情况下,所述目标语音还包括用于指示待面签用户调整人脸位姿或所述图像获取装置的位姿的语音。
9.根据权利要求8所述的方法,其特征在于,在所述基于所述数字人视频,对待面签用户进行面签之前,所述方法还包括:
在所述图像获取装置获取到的图像符合所述人脸识别条件的情况下,对所述图像获取装置获取到的图像中的人脸图像区域进行人脸识别,得到人脸识别结果,其中,所述人脸识别结果指示所述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员是否为同一人员;以及
如果所述人脸识别结果指示非同一人员,则所述目标语音还包括用于指示所述人脸图像区域指示的人员与待面签用户对应的证件上的图像指示的人员非同一人员的语音。
10.根据权利要求8所述的方法,其特征在于,所述基于所述数字人视频,对待面签用户进行面签,包括:
如果所述人脸识别结果指示为同一人员,则基于所述数字人视频,对待面签用户进行面签。
11.根据权利要求8所述的方法,其特征在于,所述人脸识别条件包括以下至少一项:
所述图像获取装置获取到的图像的清晰度,大于或等于预设清晰度阈值;
所述图像获取装置获取到的图像中的人脸图像区域的面积,大于或等于预设面积阈值。
12.根据权利要求1-11之一所述的方法,其特征在于,所述基于所述目标语音和所述目标人物图像,生成数字人视频,包括:
提取所述目标语音的音频特征;
基于所述音频特征,生成与所述目标语音相对应的表情信息和动作信息;
基于所述表情信息、所述动作信息和所述目标人物图像,生成数字人视频,其中,所述数字人视频指示所述目标人物图像指示的人物做出所述表情信息指示的表情,以及所述动作信息指示的动作。
13.根据权利要求1-11之一所述的方法,其特征在于,所述目标语音经由文本转化获得;所述目标人物图像为二维图像或三维图像。
14.一种面签装置,其特征在于,所述装置包括:
获取单元,被配置成获取目标语音和目标人物图像,其中,所述目标语音包括面签问题对应的语音,所述目标人物图像包括面部图像;
生成单元,被配置成基于所述目标语音和所述目标人物图像,生成数字人视频,其中,所述数字人视频指示所述目标人物图像指示的人物发出所述目标语音指示的声音;
面签单元,被配置成基于所述数字人视频,对待面签用户进行面签。
15.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-13任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-13任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212802.5A CN113903338A (zh) | 2021-10-18 | 2021-10-18 | 面签方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212802.5A CN113903338A (zh) | 2021-10-18 | 2021-10-18 | 面签方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113903338A true CN113903338A (zh) | 2022-01-07 |
Family
ID=79192580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111212802.5A Pending CN113903338A (zh) | 2021-10-18 | 2021-10-18 | 面签方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903338A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677634A (zh) * | 2022-05-30 | 2022-06-28 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN116110080A (zh) * | 2023-04-04 | 2023-05-12 | 成都新希望金融信息有限公司 | 一种真人面签和虚拟人面签的切换方法 |
-
2021
- 2021-10-18 CN CN202111212802.5A patent/CN113903338A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677634A (zh) * | 2022-05-30 | 2022-06-28 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN114677634B (zh) * | 2022-05-30 | 2022-09-27 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN116110080A (zh) * | 2023-04-04 | 2023-05-12 | 成都新希望金融信息有限公司 | 一种真人面签和虚拟人面签的切换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220165288A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
US20200126566A1 (en) | Method and apparatus for voice interaction | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
CN110298906B (zh) | 用于生成信息的方法和装置 | |
CN111933115B (zh) | 语音识别方法、装置、设备以及存储介质 | |
US9053096B2 (en) | Language translation based on speaker-related information | |
CN110457457B (zh) | 对话生成模型的训练方法、对话生成方法及装置 | |
WO2022105861A1 (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
CN110808034A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
CN109859298B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN112840396A (zh) | 用于处理用户话语的电子装置及其控制方法 | |
CN113903338A (zh) | 面签方法、装置、电子设备和存储介质 | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
EP3980991B1 (en) | System and method for recognizing user's speech | |
CN113886644A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN112163084B (zh) | 问题反馈方法、装置、介质以及电子设备 | |
US10410655B2 (en) | Estimating experienced emotions | |
CN117520498A (zh) | 基于虚拟数字人交互处理方法、系统、终端、设备及介质 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 | |
KR20210015977A (ko) | 사망자와의 대화 구현 장치 | |
CN113763925A (zh) | 语音识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |