CN112233690A

CN112233690A - 双录方法、装置、终端及存储介质

Info

Publication number: CN112233690A
Application number: CN202011514141.7A
Authority: CN
Inventors: 白世杰; 吴富章
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-01-15
Anticipated expiration: 2040-12-21
Also published as: CN112233690B

Abstract

本发明提供一种双录方法、装置、终端及存储介质，涉及数据处理技术领域。包括：若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，业务详情界面中显示有虚拟业务员；根据预设业务场景，确定预设业务场景对应的目标文本话术；根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音；将采集的用户对应的视频流，以及虚拟业务员对应的视频流传输至服务器，虚拟业务员对应的视频流为虚拟业务员执行的唇语动作和语音声音。无需真实业务员的参与，减少了人力资源的浪费，减少了双录成本，从根源上避免了播报时所产生的违规词汇，无需质检人员质检，提高了获取双录视频的效率。

Description

双录方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种双录方法、装置、终端及存储介质。

背景技术

银行金融机构通常要对一些金融业务进行全程录音录像，视频中需要提示金融产品的销售风险，对用户交易意愿的确认过程进行录音和录像，以便后续的回溯管理，可以有效保护消费者权益、促进纠纷妥善解决。

相关技术中，由业务员通过网络一对一与客户进行沟通，将业务员和客户的音频数据与视频数据传回到服务器端，由质检人员逐条对双录视频进行质检。

但是，相关技术中，需要业务员参与双录，需要质检人员质检，浪费了不必要的人力资源，降低了获取双录视频的效率，还增加了双录成本。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种双录方法、装置、终端及存储介质，以便相关技术中，需要业务员参与双录，需要质检人员质检，浪费了不必要的人力资源，降低了获取双录视频的效率，还增加了双录成本的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种双录方法，包括：

若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，所述业务详情界面中显示有虚拟业务员；

根据所述预设业务场景，确定所述预设业务场景对应的目标文本话术；

根据所述目标文本话术，控制所述虚拟业务员执行所述目标文本话术对应的唇语动作，并播放所述目标文本话术对应的语音声音；

将采集的所述用户对应的视频流，以及所述虚拟业务员对应的视频流传输至服务器，所述虚拟业务员对应的视频流为所述虚拟业务员执行的唇语动作和所述语音声音。

可选的，所述根据所述预设业务场景，确定所述预设业务场景对应的目标文本话术，包括：

根据所述预设业务场景下所述用户选择的业务流程，确定所述业务流程对应的文本话术为所述目标文本话术。

可选的，所述根据所述目标文本话术，控制所述虚拟业务员执行所述目标文本话术对应的唇语动作，并播放所述目标文本话术对应的语音声音之前，所述方法还包括：

根据所述目标文本话术，分别采用预设的唇语合成模型和预设的语音生成模型，生成所述唇语动作和所述语音声音。

可选的，所述方法还包括：

检测所述用户对应的视频流中的每个帧图像是否存在人脸；

若所述用户对应的视频流中的第一帧图像不存在人脸，则发出提示信息，并取消所述业务详情界面的显示，所述提示信息用于指示存在换人风险。

可选的，所述方法还包括：

采用预设的人脸识别模型，对所述用户对应的视频流中的人脸图像进行特征检测，得到第一人脸特征；

根据所述第一人脸特征和所述用户对应的人脸特征数据库，对所述用户进行身份核实。

可选的，所述方法还包括：

采用的身份字符识别模型和预设的人脸识别模型，分别对所述用户对应的视频流中的身份证帧图像进行识别，得到所述用户对应的身份证字符和身份证人脸特征；所述身份证帧图像为播放身份证出示语音的情况下采集到的帧图像；

根据所述身份证字符和预设身份信息数据库，对所述用户进行身份证的字符校验；

根据所述身份证人脸特征和所述用户对应的人脸特征数据库，对所述用户进行身份证的人脸校验。

可选的，所述方法还包括：

采用预设的唇语识别模型和预设的语音识别模型，分别对所述用户对应的视频流中的第二帧图像和用户语音进行识别，得到唇语文本，和语义文本；

分别根据所述唇语文本和所述语义文本，判断所述用户是否确认所述业务操作，得到唇语判断结果和语义判断结果；

若所述唇语判断结果和所述语义判断结果中任一不通过，则取消所述业务详情界面的显示。

第二方面，本发明实施例还提供了一种双录装置，包括：

显示模块，用于若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，所述业务详情界面中显示有虚拟业务员；

确定模块，用于根据所述预设业务场景，确定所述预设业务场景对应的目标文本话术；

控制模块，用于根据所述目标文本话术，控制所述虚拟业务员执行所述目标文本话术对应的唇语动作，并播放所述目标文本话术对应的语音声音；

传输模块，用于将采集的所述用户对应的视频流，以及所述虚拟业务员对应的视频流传输至服务器，所述虚拟业务员对应的视频流为所述虚拟业务员执行的唇语动作和所述语音声音。

可选的，所述确定模块，用于根据所述预设业务场景下所述用户选择的业务流程，确定所述业务流程对应的文本话术为所述目标文本话术。

可选的，所述装置还包括：

生成模块，用于根据所述目标文本话术，分别采用预设的唇语合成模型和预设的语音生成模型，生成所述唇语动作和所述语音声音。

可选的，所述装置还包括：

检测模块，用于检测所述用户对应的视频流中的每个帧图像是否存在人脸；

第一取消模块，用于若所述用户对应的视频流中的第一帧图像不存在人脸，则发出提示信息，并取消所述业务详情界面的显示，所述提示信息用于指示存在换人风险。

可选的，所述装置还包括：

检测模块，用于采用预设的人脸识别模型，对所述用户对应的视频流中的人脸图像进行特征检测，得到第一人脸特征；

核实模块，用于根据所述第一人脸特征和所述用户对应的人脸特征数据库，对所述用户进行身份核实。

可选的，所述装置还包括：

第一识别模块，用于采用的身份字符识别模型和预设的人脸识别模型，分别对所述用户对应的视频流中的身份证帧图像进行识别，得到所述用户对应的身份证字符和身份证人脸特征；所述身份证帧图像为播放身份证出示语音的情况下采集到的帧图像；

校验模块，用于根据所述身份证字符和预设身份信息数据库，对所述用户进行身份证的字符校验；根据所述身份证人脸特征和所述用户对应的人脸特征数据库，对所述用户进行身份证的人脸校验。

可选的，所述装置还包括：

第二识别模块，用于采用预设的唇语识别模型和预设的语音识别模型，分别对所述用户对应的视频流中的第二帧图像和用户语音进行识别，得到唇语文本，和语义文本；

判断模块，用于分别根据所述唇语文本和所述语义文本，判断所述用户是否确认所述业务操作，得到唇语判断结果和语义判断结果；

第二取消模块，用于若所述唇语判断结果和所述语义判断结果中任一不通过，则取消所述业务详情界面的显示。

第三方面，本发明实施例还提供了一种终端，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的双录方法。

第四方面，本发明实施例还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述第一方面任一项所述的双录方法。

本发明的有益效果是：本发明实施例提供一种双录方法，包括：若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，业务详情界面中显示有虚拟业务员；根据预设业务场景，确定预设业务场景对应的目标文本话术；根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音；将采集的用户对应的视频流，以及虚拟业务员对应的视频流传输至服务器，虚拟业务员对应的视频流为虚拟业务员执行的唇语动作和语音声音。基于目标文本话术控制虚拟业务员播报，无需真实业务员的参与，减少了人力资源的浪费，减少了双录成本。而且，虚拟业务员基于目标文本话术进行播报，从根源上避免了播报时所产生的违规词汇，无需质检人员质检，提高了获取双录视频的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种双录方法的流程示意图；

图2为本发明实施例提供的一种双录方法的流程示意图；

图3为本发明实施例提供的一种双录方法的流程示意图；

图4为本发明实施例提供的一种双录方法的流程示意图；

图5为本发明实施例提供的一种双录方法的流程示意图；

图6为本发明实施例提供的一种双录装置的结构示意图；

图7为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

以下对本申请实施例中所涉及的模型进行解释说明。

唇语合成模型：采用样本话术文本和对应的样本唇语动作图像进行训练得到，唇语合成模型可以用于对目标文本话术进行识别得到唇语动作。

语音生成模型：采用样本话术文本和对应的样本语音进行训练得到，语音生成模型可以用于对目标文本话术进行处理得到语音声音。

人脸识别模型：采用样本人脸图像和对应的人脸标签进行训练得到，人脸识别模型可以用于对人脸图像进行检测得到人脸特征。

身份字符识别模型：采用样本身份证帧图像和对应的样本身份证字符进行训练得到，身份字符识别模型可以用于对身份证帧图像识别得到身份证字符。

唇语识别模型：采用样本唇语动作图像和对应的样本唇语文本进行训练得到，唇语识别模型可以用于对图像中的唇语动作进行识别，得到唇语文本。

语音识别模型：采用样本语音和对应的样本语义文本进行训练得到，语音识别模型可以用于对语音进行识别，得到语义文本。

针对相关技术中，需要业务员参与双录，浪费了不必要的人力资源，降低了双录的效率，还增加了双录成本的问题。本申请实施例提供一种双录方法，确定预设业务场景对应的目标文本话术，根据目标文本话术控制虚拟业务员执行唇语动作，并播放目标文本话术对应的语音声音，继而采集用户对应的视频流和虚拟业务员对应的视频流形成双录视频，传输至服务器；基于目标文本话术控制虚拟业务员播报，无需真实业务员的参与，减少了人力资源的浪费，减少了双录成本。而且，虚拟业务员基于目标文本话术进行播报，从根源上避免了播报时所产生的违规词汇，无需质检人员质检，提高了获取双录视频的效率。

在本申请实施例中，一些可能的应用场景可以为银行金融机构对金融业务的录音录像，预设业务场景可以为金融业务中的业务场景，目标文本话术可以为对理财产品的讲解话术，当然，也可以为其他一些需要虚拟业务员进行讲解、对用户对应的视频流和虚拟业务员对应的视频流进行录制的场景，以保留视频证据便于回溯的场景，本申请实施例对此不进行具体限制。

本申请实施例提供的一种双录方法，执行主体可以为终端，该终端可以为安装有业务客户端的设备，例如，终端可以为智能手机、平板电脑、台式电脑、笔记本电脑中的任意一种，以下以终端为执行主体，对本申请实施例提供的双录方法进行说明。

图1为本发明实施例提供的一种双录方法的流程示意图，如图1所示，该方法可以包括：

S101、若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面。

其中，业务详情界面中可以显示有虚拟业务员。

另外，虚拟业务员可以为采用AI（Artificial Intelligence，人工智能）技术合成的半身人像或者全身人像。虚拟业务员可以为合成的三维虚拟业务员，也可以为合成的二维虚拟业务员，本申请实施例对此不进行具体限制。

在一些实施方式中，输入的业务操作可以为购买操作或者开通账户操作，响应输入的购买操作或者开通账户操作，显示业务详情界面。业务详情界面可以显示在整个显示区域或者部分显示区域。

需要说明的是，输入的业务操作可以为触控操作，也可以为采用外接设备输入所输入的操作，例如，采用鼠标和/或键盘输入的操作，本申请实施例对此不进行具体限制。

S102、根据预设业务场景，确定预设业务场景对应的目标文本话术。

其中，终端中可以存储有映射关系，映射关系用于表征多个业务场景，以及各业务场景对应的文本话术。

在一些实施方式中，终端可以响应输入的业务操作确定预设业务场景，并在多个业务场景中查找与预设业务场景匹配的场景，并将该匹配的场景对应的文本话术，作为预设业务场景对应的目标文本话术。

S103、根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音。

其中，终端可以对目标文本话术处理，得到唇语动作和语音声音。

在本申请实施例中，终端可以根据唇语动作控制虚拟业务员的唇部进行运动，则业务详情界面上可以显示具有唇部动作的虚拟业务员；终端可以根据语义声音控制扬声器播放语音声音。

另外，扬声器可以为终端自身所设置的扬声器，也可以为终端所外接的扬声器，本申请实施例对此不进行具体限制。

S104、将采集的用户对应的视频流，以及虚拟业务员对应的视频流传输至服务器。

其中，虚拟业务员对应的视频流可以为虚拟业务员执行的唇语动作和语音声音。

在一种可能的实施方式中，用户对应的视频流可以包括用户对应的帧图像和语音，终端可以通过图像采集设备和麦克风可以采集用户对应的视频流；虚拟业务员对应的视频流可以包括业务详情界面中的虚拟业务人员画面和目标文本话术对应的语音声音；用户对应的视频流和虚拟业务员对应的视频流形成双录视频。终端可以向服务器发送双录视频，服务器可以接收该双录视频，并对该双录视频进行存储。

另外，图像采集设备可以为摄像头，该摄像头可以终端自身所设置的摄像头，也可以为终端外接的摄像头，本申请实施例对此不进行具体限制。

综上所述，本发明实施例提供一种双录方法，包括：若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，业务详情界面中显示有虚拟业务员；根据预设业务场景，确定预设业务场景对应的目标文本话术；根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音；将采集的用户对应的视频流，以及虚拟业务员对应的视频流传输至服务器，虚拟业务员对应的视频流为虚拟业务员执行的唇语动作和语音声音。基于目标文本话术控制虚拟业务员播报，无需真实业务员的参与，减少了人力资源的浪费，减少了双录成本。而且，虚拟业务员基于目标文本话术进行播报，从根源上避免了播报时所产生的违规词汇，无需质检人员质检，提高了获取双录视频的效率。

可选的，上述S102中根据预设业务场景，确定预设业务场景对应的目标文本话术的过程，可以包括：

根据预设业务场景下用户选择的业务流程，确定业务流程对应的文本话术为目标文本话术。

其中，预设业务场景下不同的预设业务流程，可以对应不同的预设文本话术。

在本申请实施例中，终端可以响应在预设业务场景下输入的业务操作，确定预设业务场景下用户选择的业务流程，并在预设业务场景下的多个预设业务流程中查找与选择的业务流程匹配的业务流程，将该匹配的预设业务流程对应的预设文本话术，作为目标文本话术。

可选的，上述S103中根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音的过程之前，方法还可以包括：

根据目标文本话术，分别采用预设的唇语合成模型和预设的语音生成模型，生成唇语动作和语音声音。

在一种可能的实施方式中，将目标文本话术输入唇语合成模型中，唇语合成模型可以对目标文本话术进行处理得到唇语动作，将目标文本话术输入语音生成模型中，语音生成模型可以对目标文本话术进行处理得到语音声音。

需要说明的是，可以将目标文本话术同时输入唇语合成模型、语音生成模型中；也可以先将目标文本话术输入唇语合成模型，再将目标文本话术输入语音生成模型中；还可以先将目标文本话术输入语音生成模型中，再将目标文本话术输入唇语合成模型中，本申请实施例对此不进行具体限制。

可选的，图2为本发明实施例提供的一种双录方法的流程示意图，如图2所示，方法还可以包括：

S201、检测用户对应的视频流中的每个帧图像是否存在人脸。

其中，视频流中可以包括多帧图像。另外，终端可以在S101之前执行S201，也可以在S103之后执行S201，本申请实施例对此不进行具体限制。

需要说明的是，终端可以通过摄像头持续采集用户对应的视频流，视频流中可以包括连续采集的多帧图像，终端可以检测多帧图像中的每帧图像中是否存在人脸。

S202、若用户对应的视频流中的第一帧图像不存在人脸，则发出提示信息，并取消业务详情界面的显示。

其中，提示信息可以用于指示存在换人风险。

在本申请实施例中，若检测中用户对应的视频流中多帧图像有一帧图像不存在人脸，则确定该不存在人脸的帧图像为第一帧图像，说明连续的多帧图像中具有不存在人脸的帧图像，在双录期间，用户存在短时离开或者换人的风险，因此，终端可以取消业务详情界面的显示，终止双录视频的录制。

综上所述，检测用户对应的视频流中的每个帧图像是否存在人脸；若用户对应的视频流中的第一帧图像不存在人脸，则发出提示信息，并取消业务详情界面的显示。在获取双录视频的过程中，对用户对应的视频流进行实时检测，检测是否存在用户换人的风险，实现了对双录视频中用户视频流的自动质检。

可选的，图3为本发明实施例提供的一种双录方法的流程示意图，如图3所示，该方法还可以包括：

S301、采用预设的人脸识别模型，对用户对应的视频流中的人脸图像进行特征检测，得到第一人脸特征。

其中，用户对应的视频流中可以包括多帧人脸图像，该人脸图像可以为用户的人脸图像。可选的，终端可以对用户对应的视频流中每帧人脸图像均进行特征检测，得到多个第一人脸特征。

S302、根据第一人脸特征和用户对应的人脸特征数据库，对用户进行身份核实。

其中，用户对应的人脸特征数据库可以用于存储多帧人脸图像中每帧人脸图像的第一人脸特征。每个用户可以对应一个人脸特征数据库。

在一些实施方式中，每采集到一帧人脸图像，将该人脸图像的第一人脸特征可以存储在用户对应的人脸特征数据库；则用户对应的人脸特征数据库中可以存储至少一个第一人脸特征；终端可以将当前得到的第一人脸特征与用户对应的人脸特征数据中存储的每个第一人脸特征均进行匹配；若匹配成功则说明用户身份唯一；若匹配不成功则说明用户身份不唯一。

综上所述，采用预设的人脸识别模型，对用户对应的视频流中的人脸图像进行特征检测，得到第一人脸特征；根据第一人脸特征和用户对应的人脸特征数据库，对用户进行身份核实。在获取双录视频的过程中，实现了对用户身份的实时检测；若用户身份不唯一，可以终止双录视频的录制，实现了对双录视频中用户视频流的自动质检。

可选的，图4为本发明实施例提供的一种双录方法的流程示意图，如图4所示，方法还可以包括：

S401、采用的身份字符识别模型和预设的人脸识别模型，分别对用户对应的视频流中的身份证帧图像进行识别，得到用户对应的身份证字符和身份证人脸特征。

其中，身份证帧图像可以为播放身份证出示语音的情况下采集到的帧图像。

在一种可能的实施方式中，终端可以根据语音声音播放身份证出示语音，用户可以向摄像头展示身份证帧图像，终端可以通过摄像头获取身份证帧图像，并采用身份字符识别模型对身份证帧图像进行识别得到用户对应的身份证字符；采用预设的人脸识别模型对份证帧图像进行识别得到身份证人脸特征。

需要说明的是，可以采用身份字符识别模型和人脸识别模型同时对身份证帧图像进行识别；也可以先采用身份字符识别模型对身份证帧图像进行识别，再采用人脸识别模型对身份证帧图像进行识别；还可以先采用人脸识别模型对身份证帧图像进行识别，再采用身份字符识别模型对身份证帧图像进行识别，本申请实施例对此不进行具体限制。

在实际应用中，身份证字符可以包括：身份证帧图像中的姓名信息、性别信息、出生年月日信息、家庭住址信息、身份证号码等多个类型的身份证字符。

S402、根据身份证字符和预设身份信息数据库，对用户进行身份证的字符校验。

其中，预设身份信息数据库可以存储用户的预设身份字符。该预设身份字符为响应输入的填写操作所确定的字符。

在一些实施方式中，预设身份信息数据库中包括多个类型的预设身份字符，终端可以对各类型的身份证字符与对应类型的预设身份字符进行匹配，实现身份证的字符校验。

例如，可以对姓名信息与预设姓名信息进行校验，对性别信息和预设性别信息进行校验、对出生年月日信息和预设出生年月日信息进行校验、对家庭住址信息和预设家庭住址信息进行校验、对身份证号码和预设身份证号码进行校验。

S403、根据身份证人脸特征和用户对应的人脸特征数据库，对用户进行身份证的人脸校验。

其中，用户对应的人脸特征数据库中可以包括：第一人脸特征。

在一些实施方式中，终端可以计算身份证人脸特征和第一人脸特征之间的相似度，并判断该相似度是否大于预设相似度阈值，若是，则确定身份证的人脸校验成功，若否则确定身份证的人脸校验失败。

需要说明的是，当身份证的字符校验和身份证的人脸校验均成功时，确定用户所展示的身份证有效；当身份证的字符校验和身份证的人脸校验任一个不成功时，确定用户所展示的身份证无效，则可以终止录制双录视频。

综上所述，采用的身份字符识别模型和预设的人脸识别模型，分别对用户对应的视频流中的身份证帧图像进行识别，得到用户对应的身份证字符和身份证人脸特征；根据身份证字符和预设身份信息数据库，对用户进行身份证的字符校验；根据身份证人脸特征和用户对应的人脸特征数据库，对用户进行身份证的人脸校验。在获取双录视频的过程中，实现了对用户展示的身份证有效性的检测，实现了对双录视频中用户视频流的自动质检，提高了双录视频的获取效率。

可选的，图5为本发明实施例提供的一种双录方法的流程示意图，如图5所示，方法还可以包括：

S501、采用预设的唇语识别模型和预设的语音识别模型，分别对用户对应的视频流中的第二帧图像和用户语音进行识别，得到唇语文本，和语义文本。

其中，唇语文本和语义文本均用于表征用户的讲话内容。

在实际应用中，当播放的语音指示用户是否同意、确认、了解业务时，终端可以通过摄像头获取第二帧图像，通过麦克风获取用户语音。

另外，预设的唇语识别模型和预设的语音识别模型对第二帧图像和用户语音识别顺序，本申请实施例不进行具体限制。

S502、分别根据唇语文本和语义文本，判断用户是否确认业务操作，得到唇语判断结果和语义判断结果。

在一些实施方式中，终端可以根据唇语文本确定唇语判断结果，根据语义文本确定语义判断结果。其中，唇语判断结果可以表征用户确认业务操作或者不确认业务操作，语义判断结果可以表征用户确认业务操作或者不确认业务操作。

例如，当唇语文本和语义文本均为“同意”时，则确定唇语判断结果和语义判断结果均表示用户确认业务操作；当唇语文本和语义文本均为“不同意”时，则确定唇语判断结果和语义判断结果均表示用户不确认业务操作。

S503、若唇语判断结果和语义判断结果中任一不通过，则取消业务详情界面的显示。

在本申请实施例中，当唇语判断结果和语义判断结果均表示用户确认业务操作时，则可以继续录制双录视频；当唇语判断结果和语义判断结果任一个或者两个均表示用户不确认业务操作时，则取消业务详情界面的显示，取消录制双录视频。

可选的，在上述S104之后，该方法还可以包括：获取用户评价人像画面和/或用户评价语音；采用表情识别模型对用户评价人像画面进行识别得到评价表情，和/或，采用语音识别模型对用户评价语音进行识别得到评价语义；根据评价表情和/或评价语义，确定双录服务的评价指标。

其中，当播放用户评价语音时，终端可以通过摄像头获取用户评价人像画面，通过麦克风获取用户评价语音。另外，评价指标越高表示用户越满意，反之，当评价指标越低表示用户越不满意。

而且，由虚拟业务人员播报目标文本话术，从根源上有效规避了业务员的非合规操作。在用户无感知的情况下，全程监控用户的行为操作，对用户的图像和声音进行识别，在安全双录的同时完成质检，极大的提高了获取双录视频的效率以及质检效率，为线上双录视频提高了安全保证。用自动质检代替人工检测，降低了人工质检成本，便于用户办理业务，提高用户体验。

下述对用以执行本申请所提供的双录方法的双录装置、终端及存储介质等进行说明，其具体的实现过程以及技术效果参见上述双录方法的相关内容，下述不再赘述。

可选的，图6为本发明实施例提供的一种双录装置的结构示意图，如图6所示，该双录装置可以包括：

显示模块601，用于若检测到用户在预设业务场景下输入业务操作，则显示业务详情界面，业务详情界面中显示有虚拟业务员；

确定模块602，用于根据预设业务场景，确定预设业务场景对应的目标文本话术；

控制模块603，用于根据目标文本话术，控制虚拟业务员执行目标文本话术对应的唇语动作，并播放目标文本话术对应的语音声音；

传输模块604，用于将采集的用户对应的视频流，以及虚拟业务员对应的视频流传输至服务器，虚拟业务员对应的视频流为虚拟业务员执行的唇语动作和语音声音。

可选的，确定模块602，用于根据预设业务场景下用户选择的业务流程，确定业务流程对应的文本话术为目标文本话术。

可选的，装置还包括：

生成模块，用于根据目标文本话术，分别采用预设的唇语合成模型和预设的语音生成模型，生成唇语动作和语音声音。

可选的，装置还包括：

检测模块，用于检测用户对应的视频流中的每个帧图像是否存在人脸；

第一取消模块，用于若用户对应的视频流中的第一帧图像不存在人脸，则发出提示信息，并取消业务详情界面的显示，提示信息用于指示存在换人风险。

可选的，装置还包括：

检测模块，用于采用预设的人脸识别模型，对用户对应的视频流中的人脸图像进行特征检测，得到第一人脸特征；

核实模块，用于根据第一人脸特征和用户对应的人脸特征数据库，对用户进行身份核实。

可选的，装置还包括：

第一识别模块，用于采用的身份字符识别模型和预设的人脸识别模型，分别对用户对应的视频流中的身份证帧图像进行识别，得到用户对应的身份证字符和身份证人脸特征；身份证帧图像为播放身份证出示语音的情况下采集到的帧图像；

校验模块，用于根据身份证字符和预设身份信息数据库，对用户进行身份证的字符校验；根据身份证人脸特征和用户对应的人脸特征数据库，对用户进行身份证的人脸校验。

可选的，装置还包括：

第二识别模块，用于采用预设的唇语识别模型和预设的语音识别模型，分别对用户对应的视频流中的第二帧图像和用户语音进行识别，得到唇语文本，和语义文本；

判断模块，用于分别根据唇语文本和语义文本，判断用户是否确认业务操作，得到唇语判断结果和语义判断结果；

第二取消模块，用于若唇语判断结果和语义判断结果中任一不通过，则取消业务详情界面的显示。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit，简称ASIC），或，一个或多个微处理器（digital singnal processor，简称DSP），或，一个或者多个现场可编程门阵列（Field Programmable Gate Array，简称FPGA）等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器（CentralProcessing Unit，简称CPU）或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统（system-on-a-chip，简称SOC）的形式实现。

图7为本发明实施例提供的一种终端的结构示意图，如图7所示，该终端可以包括：处理器701、存储器702。

存储器702用于存储程序，处理器701调用存储器702存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（英文：processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文：Read-Only Memory，简称：ROM）、随机存取存储器（英文：Random Access Memory，简称：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种双录方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述预设业务场景，确定所述预设业务场景对应的目标文本话术，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述目标文本话术，控制所述虚拟业务员执行所述目标文本话术对应的唇语动作，并播放所述目标文本话术对应的语音声音之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

检测所述用户对应的视频流中的每个帧图像是否存在人脸；

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6中任一所述的方法，其特征在于，所述方法还包括：

8.一种双录装置，其特征在于，包括：

9.一种终端，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述的双录方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述权利要求1-7任一项所述的双录方法。