CN110147726B

CN110147726B - 业务质检方法和装置、存储介质及电子装置

Info

Publication number: CN110147726B
Application number: CN201910294922.0A
Authority: CN
Inventors: 谢姗姗; 辛愿; 王鑫; 宋智刚; 林盛富; 梁智邦; 卢鲤; 张翔; 张鹏; 高源庆
Original assignee: Tenpay Payment Technology Co Ltd
Current assignee: Tenpay Payment Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2024-02-20
Anticipated expiration: 2039-04-12
Also published as: CN110147726A

Abstract

本发明实施例公开了一种业务质检方法和装置、存储介质及电子装置。其中，该方法包括：获取待质检的目标录制视频，其中，目标录制视频中记录有目标对象办理目标业务的过程；从目标录制视频中分离出目标音频及目标图像；根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果；根据校验结果生成与目标录制视频相匹配的质检报告。本发明解决了由于业务质检内容较单一所导致的质检结果不够准确的技术问题。

Description

业务质检方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种业务质检方法和装置、存储介质及电子装置。

背景技术

如今，越来越多的行业开始关注客户服务质量。其中，针对一些需要工作人员与客户当面办理的重要业务，常常会通过图像采集设备和音频录制设备来记录业务办理过程的重要环节。从而实现在保证业务办理过程可以及时准确地存档的同时，还将便于对业务办理的合规性进行复核质检。

然而，发明人发现，目前相关技术提供的对业务合规性进行质检的方法中，通常只能进行单一维度地检查，比如利用业务场景中的标准术语，来对业务文本中的关键词来进行文本质检。也就是说，业务质检内容较单一，导致质检结果不够准确的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种业务质检方法和装置、存储介质及电子装置，以至少解决由于业务质检内容较单一所导致的质检结果不够准确的技术问题。

根据本发明实施例的一个方面，提供了一种业务质检方法，包括：获取待质检的目标录制视频，其中，上述目标录制视频中记录有目标对象办理目标业务的过程；从上述目标录制视频中分离出目标音频及目标图像；根据上述目标音频及上述目标图像，确定对与上述目标业务相匹配的业务参数集进行校验得到的校验结果；根据上述校验结果生成与上述目标录制视频相匹配的质检报告。

根据本发明实施例的一个方面，还提供了一种业务质检装置，包括：获取单元，用于获取待质检的目标录制视频，其中，上述目标录制视频中记录有目标对象办理目标业务的过程；分离单元，用于从上述目标录制视频中分离出目标音频及目标图像；质检单元，用于根据上述目标音频及上述目标图像，确定对与上述目标业务相匹配的业务参数集进行校验得到的校验结果；生成单元，用于根据上述校验结果生成与上述目标录制视频相匹配的质检报告。

作为一种可选的实施方式，上述质检单元包括：第一确定模块，用于根据目标音频确定与目标对象相匹配的对话文本；第一校验模块，用于利用对话文本对业务参数集中的第一参数子集进行文本校验，得到第一校验结果；第二确定模块，用于根据目标图像确定与目标业务相关联的业务关键帧；第二校验模块，用于利用业务关键帧对业务参数集中的第二参数子集进行图像校验，得到第二校验结果；其中，校验结果包括第一校验结果和第二校验结果。

作为一种可选的实施方式，上述第一确定模块包括：转换子模块，用于将目标音频转换为目标文本；第一识别子模块，用于对目标音频中的目标对象进行声纹识别，确定与目标对象相匹配的音频片段；第一划分子模块，用于按照音频片段对目标文本进行划分，得到与目标对象相匹配的对话文本。

作为一种可选的实施方式，上述转换子模块通过以下步骤实现将目标音频转换为目标文本：基于声学模型提取目标音频的音频特征；根据音频特征及与目标业务相关联的业务词典，对目标音频进行识别，得到与目标音频相匹配的词序列；基于语言模型对词序列进行组合，得到目标文本。

作为一种可选的实施方式，上述第一校验模块包括：输入子模块，用于将对话文本输入命名实体识别模型，得到对话文本中的关键命名实体，其中，命名实体识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行训练所得到的用于识别业务文本中的命名实体的模型，关键命名实体为办理目标业务所需的实体标识；第一校验子模块，用于对关键命名实体进行校验，其中，第一参数子集中包括关键命名实体。

作为一种可选的实施方式，上述第一校验模块包括：去除子模块，用于去除对话文本中的关键命名实体，得到待识别文本；第二划分子模块，用于按照与目标业务相匹配的合规文本集中的目标业务合规文本的步长，将待识别文本划分为多个文本片段；第二识别子模块，用于通过业务合规识别模型，在多个文本片段中识别目标文本片段，其中，目标文本片段与目标业务合规文本的文本相似度大于相似度阈值，业务合规识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型；第一确定子模块，用于根据识别出的目标文本片段，确定待识别文本对应的合规度，其中，合规度用于指示待识别文本命中与目标业务相匹配的合规文本集中的合规文本的数量；第二校验子模块，用于对合规度进行校验，其中，第一参数子集中包括合规度。

作为一种可选的实施方式，所述第一确定模块包括：第三识别子模块，用于识别所述目标音频中的关键词，其中，所述关键词包括以下至少之一：用于确定所述业务关键帧的白名单关键词，办理所述目标业务时禁止使用的黑名单关键词；第二确定子模块，用于在识别出所述白名单关键词的情况下，根据与所述白名单关键词对应的图像帧确定所述业务关键帧；统计子模块，用于在识别出所述黑名单关键词的情况下，统计所述黑名单关键词得到统计结果，其中，所述第一校验结果还包括所述统计结果。

作为一种可选的实施方式，所述第二确定模块包括：第四识别子模块，用于基于目标检测模型对所述目标图像进行识别，得到所述业务关键帧，其中，所述目标检测模型为利用多个与所述目标业务的业务类型相匹配的样本图像进行训练所得到的用于识别包括目标区域的关键帧的模型，所述业务关键帧中包括的所述目标区域内显示有用于验证办理所述目标业务的所述目标对象的身份信息。

作为一种可选的实施方式，所述第二识别模块还包括：第五识别子模块，用于在所述基于目标检测模型对所述目标图像进行识别，得到所述业务关键帧之前，从所述目标音频中识别出用于确定所述业务关键帧的白名单关键词；第三确定子模块，用于在识别出所述白名单关键词的情况下，将与所述白名单关键词对应的图像帧确定为候选业务关键帧，以便于所述目标检测模型对从所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧。

作为一种可选的实施方式，所述第二校验模块包括：第一提取子模块，用于在所述业务关键帧中识别出所述目标对象的身份证件的情况下，提取所述身份证件中与所述目标对象相匹配的第一验证信息，其中，所述第一验证信息包括：文字验证信息，脸部验证信息；对所述文字验证信息进行校验，其中，所述第二参数子集中包括所述文字验证信息；第二提取子模块，用于在所述业务关键帧中识别出与所述目标业务相关联的文件的情况下，提取所述文件中的第二验证信息，其中，所述第二验证信息中包括与所述目标对象相匹配的签名信息；对所述签名信息进行校验，其中，所述第二参数子集中包括所述签名信息。

作为一种可选的实施方式，所述第二确定模块还包括：第六识别子模块，用于从所述目标图像中识别出所述目标对象的人脸信息；第三提取子模块，用于提取所述人脸信息中的脸部特征；第三校验子模块，用于利用所述第一验证信息中的所述脸部验证信息对所述脸部特征进行校验，其中，所述第二参数子集中包括所述脸部验证信息。

作为一种可选的实施方式，所述第二确定模块还包括：第四确定子模块，用于在所述提取所述人脸信息中的脸部特征之后，根据所述脸部特征确定所述目标对象的数量；获取子模块，用于在确定所述目标对象的数量大于等于两个的情况下，获取所述目标对象未连续同时出现的时长；生成子模块，用于在所述目标对象未连续同时出现的时长达到时长阈值的情况下，生成告警信息，其中，所述第二校验结果中还包括所述告警信息。

作为一种可选的实施方式，上述生成单元包括：计算模块，用于对校验结果中的各个结果值进行加权求和，得到质检指示参数；调整模块，用于根据校验结果调整目标录制视频的播放速率，得到质检视频；生成模块，用于根据质检指示参数及质检视频生成质检报告。

作为一种可选的实施方式，上述调整模块包括：第二获取子模块，用于根据校验结果获取与目标业务相关联的业务关键帧；调整子模块，用于将业务关键帧的播放速率调整为第一速率，将目标图像中的非业务关键帧的播放速率调整为第二速率，其中，第一速率小于第二速率；第二生成子模块，用于利用调整后的业务关键帧及调整后的非业务关键帧，生成质检视频。

作为一种可选的实施方式，上述生成模块包括：第五确定子模块，用于根据质检指示参数确定待复核的对象质检结果；第三生成子模块，用于对与目标录制视频对应的全部质检结果、质检视频及待复核的对象质检结果进行排版，以生成质检报告。

作为一种可选的实施方式，上述装置还包括：跳转单元，用于在根据质检指示参数及质检视频生成质检报告之后，在获取到对与目标录制视频对应的全部质检结果中的目标质检结果进行操作的操作指令的情况下，确定与目标质检结果相匹配的跳转链接，其中，跳转链接用于跳转至与目标质检结果对应的质检描述页面。

根据本发明实施例的一个方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述业务质检方法。

根据本发明实施例的一个方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的业务质检方法。

在本发明实施例中，在获取到目标录制视频之后，根据从目标录制视频中分离出的目标音频和目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果，以结合多个维度的业务参数的校验结果来生成与目标录制视频相匹配的质检报告，达到扩展对目标录制视频中的目标业务进行业务质检的项目内容的目的，融合多个维度的校验结果来生成质检报告，而不再限于仅仅在单一维度进行质检，从而实现提高业务质检的准确性，克服相关技术中业务质检的准确性较低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的业务质检方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的业务质检方法的流程图；

图3是根据本发明实施例的一种可选的业务质检方法的流程图；

图4是根据本发明实施例的一种可选的业务质检方法的示意图；

图5是根据本发明实施例的一种可选的应用业务质检方法的双录系统的示意图；

图6是根据本发明实施例的一种可选的应用业务质检方法的配置界面示意图；

图7是根据本发明实施例的一种可选的应用业务质检方法的配置界面示意图；

图8是根据本发明实施例的一种可选的应用业务质检方法的配置界面示意图；

图9是根据本发明实施例的一种可选的业务质检方法的示意图；

图10是根据本发明实施例的一种可选的业务质检方法的流程图；

图11是根据本发明实施例的一种可选的业务质检方法的示意图；

图12是根据本发明实施例的一种可选的业务质检方法的示意图；

图13是根据本发明实施例的一种可选的业务质检方法的示意图；

图14是根据本发明实施例的一种可选的业务质检方法的示意图；

图15是根据本发明实施例的一种可选的业务质检方法的结果示意图；

图16是根据本发明实施例的一种可选的业务质检方法的结果示意图；

图17是根据本发明实施例的一种可选的业务质检装置的结构示意图；

图18是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种业务质检方法，可选地，作为一种可选的实施方式，上述业务质检方法可以但不限于应用于如图1所示的硬件环境中。假设用户设备102中安装有用于进行业务质检的客户端，该用户设备102中包括人机交互屏幕104，处理器106及存储器108。人机交互屏幕104用于通过与上述客户端对应的人机交互接口，获取待质检的目标录制视频及所配置的质检策略，还用于展示目标录制视频及对应的质检报告(如图1所示客户端界面100)；处理器106，用于控制将上述质检策略及目标录制视频发送服务器112，以使服务器112根据所配置的质检策略，对上述目标录制视频进行质检，然后处理器106还用于获取服务器112返回的与目标录制视频对应的质检报告。存储器108，用于存储上述质检策略、目标录制视频及质检报告。

如步骤S102，用户设备102通过人机交互屏幕104获取客户端所上传的待质检的目标录制视频，该目标录制视频中记录有目标对象10办理目标业务的过程。然后处理器106将执行步骤S104，通过网络110将该目标录制视频发送给服务器112。进一步，服务器112将执行步骤S106-S110：服务器112从数据库114中获取缓存的目标录制视频，并利用处理器116从上述目标录制视频中分离出目标音频及目标图像。然后根据该目标音频及目标图像，确定对与上述目标业务相匹配的业务参数集进行校验得到的校验结果，进一步根据该校验结果生成与上述目标录制视频相匹配的质检报告。之后如步骤S112，服务器112将该质检报告通过网络110发送给用户设备102。进一步，用户设备102在获取到上述质检报告之后，将通过人机交互屏幕104，来展示上述质检报告，如步骤S114。

可选地，上述用户设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等计算机设备，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器可以包括但不限于任何具有较大计算能力的硬件设备。

此外，除通过用户设备和服务器之间的交互过程实现上述业务质检方法之外，作为另一种可选的实施方式，上述业务质检方法还可以但不限于由具有强大数据处理能力的独立终端设备执行实施。也就是说，在上述独立终端设备中完成上述步骤：在获取待质检的目标录制视频之后，根据所配置的质检策略，对获取到的目标录制视频进行质检，以生成与上述目标录制视频相匹配的质检报告。

需要说明的是，在获取到客户端上传的记录有目标对象办理目标业务过程的待质检的目标录制视频之后，从目标录制视频中分离出目标音频及目标图像，并根据该目标音频及目标图像，确定对与上述目标业务相匹配的业务参数集进行校验所得到的校验结果。然后，根据该校验结果生成与上述目标录制视频相匹配的质检报告。也就是说，在获取到目标录制视频之后，根据从目标录制视频中分离出的目标音频和目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果，以结合多个维度的业务参数的校验结果来生成与目标录制视频相匹配的质检报告，达到扩展对目标录制视频中的目标业务进行业务质检的项目内容的目的，融合多个维度的校验结果来生成质检报告，而不再限于仅仅在单一维度进行质检，从而实现提高业务质检的准确性，克服相关技术中业务质检的准确性较低的问题。进一步，通过本实施例中提供的业务质检方法还可以降低人工质检投入成本，增加业务质检效率，解决业务办理过程质检数量太大所导致的人工无法完成全量质检工作的问题。此外，还有助于统一行业质检标准，克服人工质检的审核标准和驳回描述存在因人而异的问题。

可选地，上述业务质检方法可以但不限于应用于图1所示服务器112中。作为一种可选的实施方式，如图2所示，上述业务质检方法包括：

S202，获取待质检的目标录制视频，其中，目标录制视频中记录有目标对象办理目标业务的过程；

S204，从目标录制视频中分离出目标音频及目标图像；

S206，根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果；

S208，根据校验结果生成与目标录制视频相匹配的质检报告。

可选地，在本实施例中，该业务质检方法可以但不限于应用于对各类机构所办理的业务进行操作合规性质检的场景中。也就是说，基于在办理上述业务时所录制的视频，可以采用本实施例中提供的质检方法来对业务办理过程进行业务质检，以确定参与业务办理的对象是否按照业务规则或标准来完成办理过程。其中，上述待质检的业务可以包括但不限于保险类业务、金融类理财产品销售业务、行政类证件办理业务、客户服务或回访业务等需要业务工作人员与客户当面进行沟通办理的业务。上述目标对象可以包括但不限于业务工作人员及客户，其中办理目标业务的客户的数量可以包括但不限于一个或多个。上述目标录制视频可以包括但不限于通过双录系统对业务办理过程进行录音录像后得到的视频。上述仅是一种示例，本实施例中对此不作任何限定。

需要说明的是，在获取到客户端上传的记录有目标对象办理目标业务过程的待质检的目标录制视频之后，从目标录制视频中分离出目标音频及目标图像，并根据该目标音频及目标图像，确定对与上述目标业务相匹配的业务参数集进行校验所得到的校验结果。然后，根据该校验结果生成与上述目标录制视频相匹配的质检报告。也就是说，在获取到目标录制视频之后，根据从目标录制视频中分离出的目标音频和目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果，以结合多个维度的业务参数的校验结果来生成与目标录制视频相匹配的质检报告，达到扩展对目标录制视频中的目标业务进行业务质检的项目内容的目的，融合多个维度的校验结果来生成质检报告，而不再限于仅仅在单一维度进行质检，从而实现提高业务质检的准确性，克服相关技术中业务质检的准确性较低的问题。

可选地，在本实施例中，根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果可以包括但不限于：

1)根据目标音频确定目标对象的对话文本，基于对话文本识别以下至少一种信息：目标业务中的命名实体、目标业务中的目标业务合规文本、关键词；对上述识别出的信息进行校验，得到第一校验结果；

2)根据目标图像确定与目标业务相关联的业务关键帧，基于该业务关键帧识别以下内容：目标业务所需文件、目标对象的人脸信息、目标对象的数量；对上述识别出的内容进行校验，得到第二校验结果。

例如，如图3所示实现逻辑，如步骤S300对目标录制视频进行音视频分离，得到目标音频及目标图像。然后执行步骤S302-S306：对目标音频进行语音文本转换，并根据目标对象的身份对转换后的文本进行区分，获取对话文本((如步骤S302))；进一步基于对话文本对目标业务中各个环节的业务合规文本进行内容识别(如步骤S304-1)；并基于对话文本对目标业务办理过程中的命名实体进行内容提取(如步骤S304-2)。其中，这里命名实体可以包括但不限于为姓名、结构名、产品名、地名等实体标识。对上述识别出及提取出的内容进行进一步合规校验((如步骤S306)。

在对目标音频进行语音文本转换时，还可以对目标图像进行图像识别，提取业务关键帧(如步骤S312)，其中，该业务关键帧中可以包括但不限于用于验证办理目标业务的目标对象的身份信息的目标区域。这里目标区域中可以包括但不限于以下至少之一：目标对象的人脸区域、目标对象的证件或文件验证区域。上述证件可以包括但不限于：身份证、工作证等包括目标对象的认证头像的证件。进一步执行步骤S314-S316：基于业务关键帧进行与目标业务相匹配的证件/文件识别(如步骤S314-1)，基于业务关键帧对通过目标图像获取到的目标对象的人脸区域进行人脸识别(如步骤S314-2)。例如，提取出目标对象的身份证件中的认证头像后，获取目标对象的脸部验证信息，与通过人脸识别出的脸部特征进行比对，从而实现对目标对象的身份校验(如步骤S316-1)。此外，在目标对象的数量大于等于两个的情况下，还可以对目标图像中目标对象进行同框校验(如步骤S316-2)，在目标对象未同框时间大于时间阈值的情况下，则生成告警信息，并体现在质检报告中。再者，还可以提取目标对象所提供的证件中的签名，以便于对目标对象办理目标业务的真实性进行校验(图3未示出)。最后执行步骤S320，生成质检报告。

需要说明的是，上述图3所示的步骤标识用于区分各个步骤，其中，对不同分支的步骤不作顺序执行限定。也就是说，步骤S302及S312，步骤S304-1及S304-2，步骤S314-1及S314-2，步骤S316-1及S316-2不区分执行先后的顺序。

进一步，基于上述校验结果，可以但不限于生成如图4所示的质检报告。如基于上述多个校验结果可以但不限于进行加权求和，以得到质检指示参数，如图4所示质检指示参数402为质检分数：90。此外，根据上述质检指示参数的数值，可以但不限于从所有校验结果中确定出需要复核的结果，如图4所示待复核的对象质检结果404。进一步，在质检报告中还将包括但不限于对目标录制视频处理后的质检视频(如图4所示质检视频410)、目标对象的信息(如图4所示目标对象406)及各个校验结果的详细信息(如图4所示校验结果详细信息408)。其中，质检视频可以但不限于为对目标录制视频的播放速率进行调整过的快速质检视频，如对非业务关键帧的播放速率进行加快处理，而对业务关键帧的播放速率进行放慢处理。此外，还可以在质检视频中标记出当前图像帧是否为业务关键帧，及目标对象的数量，如图4所示当前图像帧为业务关键帧，目标对象数量为2。

可选地，在本实施例中，上述业务质检方法可以但不限于应用于如图5所示的双录系统502中。其中，该双录系统502包括双录质检的操作终端504和双录质检的处理后台506。其中，在操作终端504登录质检客户端之后，上传待质检的双录视频，并配置质检策略，然后按照上述质检策略开始对该双录视频进行质检。在确定对话文本及业务关键帧之后，获取质检结果及质检视频。在处理后台可以包括但不限于业务逻辑层及原子算法层。其中，业务逻辑层包括：音视频分离模块508、质检得分计算模块510、待复核质检项筛选模块512、音频处理模块514及图像处理模块516。进一步上述音频处理模块514中可以包括但不限于以下至少一种功能单元：对话内容识别单元5141、合规性校验单元5142、目标对象身份区分单元5143、禁用语校验单元5144、关键词提取单元5145及一致性检测单元5146。图像处理模块516中可以包括但不限于以下至少一种功能单元：图像识别单元5161、证件OCR单元5162、人脸识别单元5163、人脸比对单元5164及同框校验单元5165。此外，原子算法层包括：自动语音识别(Automatic Speech Recognition，简称ASR)模块518、声纹识别模块520、物体检测模块522、人脸识别模块524、命名实体识别模块526、OCR识别模块528及关键词检测模块530。

需要说明的是，在本实施例中，双录质检的处理后台506可以但不限于通过上述功能模块单元及其组合，来配合双录质检的操作终端504完成对目标业务的双录视频完成质检，以生成内容丰富的多维度的质检报告。

具体结合以下示例进行说明：假设通过摄像机或手机等拍摄设备获取到保险购买业务的双录视频，然后采用图5所示示例来对该双录视频进行自动化分析质检，最后输出质检结果。图5展示了系统从业务逻辑层到原子算法层的核心节点。在音视频分离之后，分离出的音频会通过语音识别引擎获得文本内容，进一步进入神经语言程序学(Neuro-Language Programming，简称NLP)模块进行文本合规性校验；分离出的图像会通过图像分析模块，获得对应帧的图像内容。获得以上信息后，通过业务模块的逻辑组合输出符合业务需求的质检得分及对应的质检关键项，通过相关界面展示出来，如图4所示。

可选地，在本实施例中，在获取通过客户端上传的待质检的目标录制视频之前，还可以包括但不限于：为目标录制视频配置质检策略。

结合图6-图8所示示例进行说明：

在客户端上获取对待质检的文件类型执行选择操作所生成的操作指令，如图6所示，假设选择视频类型的待质检的文件。进一步，跳转到图7所示质检策略配置界面，在该质检策略配置界面中，可以上传待质检的文件，如记录有目标对象办理目标业务的过程的目标录制视频对应的视频文件。并配置该视频文件的质检策略，如“标准话术校验”、“关键词校验”，输入所要质检的“标准话术”和“关键词”。其中，上述标准话术可以但不限于为在目标业务中的专业用语(也可称作合规文本)。通过提前配置用于质检的合规文本，来检测在上述目标业务办理过程中目标对象是否按照操作规范进行表达。其中，内容质检策略可以但不限于配置：关键词和语义分析中的任意一种，也可以同时选择两种规则。在图像质检策略中，重要动作和同框识别规则已内置，无需使用者再设置。

需要说明的是，在本实施例中还可以通过结果的形式直接调用智能质检功能，实现批量视频智能质检。如图8所示，在该客户端中将显示配置结果，如批量上传得到的质检任务列表。例如在该质检任务列表中“文件链接1”对应的质检任务“已完成”，则可以通过点击“查看结果”来查看对应的质检报告；而“文件链接2”对应的质检任务尚在“进行中”，则无法查看对应的质检报告。

具体结合图9所示的示例进行说明：在获取目标录制视频之后，对该目标录制视频进行音视频分离，得到目标音频和目标图像。

针对目标音频执行以下操作：对目标音频进行静点切分，得到短音频(含起止时间)。然后对该短音频进行声纹识别，以对目标对象进行身份识别。并对短音频进行ASR识别，得到目标文本。结合上述身份识别的结果对目标文本进行划分，以得到与目标对象相匹配的对话文本，然后存储该对话文本。此外，还可以对上述目标文本进行命名实体的识别，将识别出的命名实体(如机构名，产品名，销售人员姓名，顾客姓名等)与预先输入的参考命名实体进行比对校验。再者，还可以利用目标文本进行业务合规识别(语义匹配)，将识别出的合规文本与参考合规文本进行比对校验。这里命名实体校验及业务合规校验后的结果将进一步用于确定质检内容的完整性。进一步，还可以对目标音频直接进行音频关键词提取，将识别出的关键词与预先输入的参考白名单关键词和参考黑名单关键词进行比对。其中，白名单关键词用于定位目标图像中的业务关键词，黑名单关键词为办理目标业务时禁止使用的关键词。

针对目标图像执行以下操作：对目标图像进行动作识别，以得到业务关键帧。其中，该业务关键帧中包括用于对目标对象进行身份验证的目标区域。这里目标区域中可以包括但不限于以下至少之一：目标对象的证件验证区域、目标对象的文件验证区域及目标对象的签字验证区域。如图9所示，对识别出的包含以下至少一种信息的图像进行存帧：目标对象的证件、目标对象办理目标业务所需的文件及目标对象办理目标业务时的签字。然后，对存帧进行截取，如对截取的包含上述目标对象的证件的图像进行证件OCR识别，以得到验证信息(如文字验证信息和脸部验证信息)，以便于利用该验证信息进行身份校验。又如对截取的包含上述目标对象的文件的图像进行文件OCR识别。此外，对于上述签字，可以但不限于与预先输入系统的参考签名进行比对，以进一步保证身份校验的准确性。此外，还可以通过人脸识别来得到业务关键帧，如人脸区域。进一步对人脸区域来提取脸部特征，以便于与上述身份验证中的脸部验证信息进行一致性检测比对，以完成人脸校验。此外，在目标对象的数量大于等于2的情况下，还可以通过人脸识别确定人脸数量，以便于完成同框校验。

需要说明的是，在本示例中，图9所示的显示有填充网点的内容可以但不限于为预先输入质检系统，作为校验参考值，以便于配合完成该目标业务的业务质检。此外，图9所示加粗方框中的内容可以但不限于为在质检后得到的质检结果，用于生成与该目标录制视频相匹配的质检报告。

通过本申请提供的实施例，在获取到目标录制视频之后，根据从目标录制视频中分离出的目标音频和目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果，以结合多个维度的业务参数的校验结果来生成与目标录制视频相匹配的质检报告，达到扩展对目标录制视频中的目标业务进行业务质检的项目内容的目的，融合多个维度的校验结果来生成质检报告，而不再限于仅仅在单一维度进行质检，从而实现提高业务质检的准确性，克服相关技术中业务质检的准确性较低的问题。

作为一种可选的方案，根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果包括：

S1，根据目标音频确定与目标对象相匹配的对话文本；

S2，利用对话文本对业务参数集中的第一参数子集进行文本校验，得到第一校验结果；

S3，根据目标图像确定与目标业务相关联的业务关键帧；

S4，利用业务关键帧对业务参数集中的第二参数子集进行图像校验，得到第二校验结果；

其中，校验结果包括第一校验结果和第二校验结果。

具体结合以下示例进行说明，在对目标录制视频完成视频到音频的格式转换及图像帧采样操作后，实现对该目标录制视频的音视频分离。

针对分离后的目标音频，执行以下处理：

1)对话转文本(如显示在质检报告中详情附录-文字详情)；

a，对目标音频进行静点切分，得到音频片段；

b，对切分后的音频片段进行语音识别ASR处理、声纹特征提取及聚类处理；

c，基于聚类结果对目标音频转换出的目标文本进行划分组合，以还原得到目标对象的对话文本。

2)按配置的质检策略，对上述目标文本或对话文本进行命名实体和/或业务合规文本的识别，以对目标录制视频中目标业务办理过程中的各个环境进行合规性校验(如显示在质检报告中各环节质检结果-内容校验结果)。

3)按配置的质检策略，直接对目标音频进行关键词识别，如参考黑名单关键词对目标音频中的禁用语进行识别(如显示在质检报告中各环节质检结果-禁用语)。

针对分离后的目标图像，执行以下处理：

1)通过物体检测技术自动进行动作识别，以提取目标录制视频中的业务关键帧(如关键动作帧)。可以包括但不限于：证件展示动作所在图像帧、文件展示动作所在图像帧、客户签字动作所在图像帧(如显示在质检报告中详情附录-图片详情)。

a，对截取的证件展示图像帧进行目标区域的清晰化处理，然后对该目标区域进行OCR识别处理(如显示在质检报告中人员信息-身份信息(证件信息))；

2)通过人脸识别技术自动进行人脸识别，以提取目标录制视频中的人脸信息。

a，利用上述人脸信息中的脸部特征，来与证件中提取的脸部验证信息进行比对，以完成人证一致性确认(如显示在质检报告中人员信息-身份信息(同人验证))；

b，通过人脸识别出的人脸数量，来完成同框校验，根据预设置的预警阈值进行筛选，以对非同框时间达到上述预警阈值的情况生成风险提示信息或告警信息(如显示在质检报告中各环节质检结果-未同框风险提示)。

通过本申请提供的实施例，利用对根据目标音频确定出的与目标对象相匹配的对话文本，对所要校验的业务参数集中的第一参数子集进行文本校验或音频校验，以得到第一校验结果；并利用根据目标图像确定出的与目标业务相关联的业务关键帧，来对业务参数集中的第二参数子集进行图像校验，得到第二校验结果；从而实现融合上述多个维度的校验结果，来生成与目标录制视频相匹配的质检报告，以综合丰富的内容来更加准确地确定出质检结果。

作为一种可选的方案，根据目标音频确定与目标对象相匹配的对话文本包括：

S1，将目标音频转换为目标文本；

S2，对目标音频中的目标对象进行声纹识别，确定与目标对象相匹配的音频片段；

S3，按照音频片段对目标文本进行划分，得到与目标对象相匹配的对话文本。

需要说明的是，在获取到目标音频之后，需要将该目标音频进行分段聚类，以区分出不同说话人的说话区段，并将其一一标注出来，从而得到对话文本。其中，主要涉及以下过程：语音活动检测(Voice Activity Detection，简称VAD)(也可称作端点检测)、高斯混合模型(Gaussian Mixture Model，简称GMM)自适应算法、层次聚类算法、IVector建模算法、Viterbi解码。

具体结合以下图10所示步骤S1002-S1014进行说明：在获取目标音频之后，根据端点检测的结果，确定对目标音频切分后的音频片段，其中包括很多语音段和静音段。对上述每个音频片段在背景模型(Universal Background Model，简称UBM)上进行GMM模型的自适应建模，然后计算两两之间的距离，从而进行层次聚类，对聚类后的语音段进行整体IVector建模，同时对聚类后的静音段进行IVector建模，这样将得到静音以及相应目标对象的IVector模型。最后使用目标对象和静音的IVector模型，进行维特比重组(ViterbiResegmentation)，从而得到精确到每个对象的分段聚类结果，也就是对话文本。

通过本申请提供的实施例，对目标音频中的目标对象进行声纹识别，确定与目标对象相匹配的音频片段，并按照音频片段对目标文本进行划分，得到与目标对象相匹配的对话文本。从而便于基于对话文本进行下一步的质检操作。

作为一种可选的方案，将目标音频转换为目标文本包括：

S1，基于声学模型提取目标音频的音频特征；

S2，根据音频特征及与目标业务相关联的业务词典，对目标音频进行识别，得到与目标音频相匹配的词序列；

S3，基于语言模型对词序列进行组合，得到目标文本。

需要说明的是，语音识别系统主要包括：声学模型、语言模型、发音词典、解码器。其中,声学模型，是对一个语言的声学发音单元的建模和描述。语言模型，描述的是一个语言中词汇之间的搭配关系及相应的概率。发音词典描述的是发音单元和词的映射关系。解码器在语言模型、声学模型、发音词典构造的搜索空间上，去寻找一条语音对应的最优路径。在本实施例中，上述发音词典可以但不限于为与目标业务相关联的业务词典。

例如，如图11所示，在基于声学模型确定出目标对象的音频特征之后，基于该音频特征及业务词典确定出上述目标音频对应的单词，得到与目标音频对应的词序列。然后，利用基于海量数据训练得到语言模型，对上述词序列进行进一步解码组合，以快速且准确地识别得到与目标音频对应的目标文本。

通过本申请提供的实施例，在根据声学模型确定出音频特征之后，基于该音频特征及与目标业务相关联的业务词典，来对目标音频进行识别，得到与目标音频相匹配的词序列，进一步，基于语言模型对词序列进行组合，得到目标文本。从而实现将目标音频快速准确地转换为用于质检的目标文本，以便于得到对话文本。

作为一种可选的方案，利用对话文本对业务参数集中的第一参数子集进行文本校验，得到第一校验结果包括：

S1，将对话文本输入命名实体识别模型，得到对话文本中的关键命名实体，其中，命名实体识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行训练所得到的用于识别业务文本中的命名实体的模型，关键命名实体为办理目标业务所需的实体标识；

S2，对关键命名实体进行校验，其中，第一参数子集中包括关键命名实体。

需要说明的是，命名实体识别(Named Entity Recognizer，简称NER)是用于基于自然语言处理技术，识别出文本中的人名、产品名、工作单位、职位等等实体标识。也就是说，在NER中，是给定一系列的特征去预测每个词的标签，如图12所示，Xi可以看做成一句话的每个单词对应的特征(比如名词、动词等)，Yi可以看做成单词对应的标签。基于上述命名实体识别模型可以实现自动识别出目标文本中的命名实体。其中，上述命名实体识别模型可以但不限于是结合深度学习和条件随机场(Conditional Random Field，简称CRF)，从原始文本到实体标注的端到端训练后得到的模型。例如，采用双向循环神经网络(Bi-RNN)+条件随机场(CRF)构成的命名实体识别模型。整个流程上Bi-RNN通过对当前词向量的上下文的综合考虑输出当前词的特征，再输入到CRF中进行NER识别，如图13所示。

例如，在针对保险业务进行业务质检的过程中，可以但不限于基于深度学习的命名实体识别模型和多种来源的保险行业数据，构建保险要素提取模型(保险业务的命名实体识别模型)。不仅可以提取目标对象办理目标业务过程中所涉及的人名，机构名称，地名等，还可以通过增加保险销售场景中的标注数据，提取出保险业务场景下的保险类命名实体。如分开抽取销售人员姓名以及购买人员姓名，还可以获取身份证号，保期，缴费方式等实体标识。

通过本申请提供的实施例，基于与目标业务的业务类型相匹配的样本业务文本进行训练所得到的，用于识别业务文本中的命名实体的模型来进行命名实体识别，将进一步保证命名实体识别的精确性。

S1，去除对话文本中的关键命名实体，得到待识别文本；

S2，按照与目标业务相匹配的合规文本集中的目标业务合规文本的步长，将待识别文本划分为多个文本片段；

S3，通过业务合规识别模型，在多个文本片段中识别目标文本片段，其中，目标文本片段与目标业务合规文本的文本相似度大于相似度阈值，业务合规识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型；

S4，根据识别出的目标文本片段，确定待识别文本对应的合规度，其中，合规度用于指示待识别文本命中与目标业务相匹配的合规文本集中的合规文本的数量；

S5，对合规度进行校验，其中，第一参数子集中包括合规度。

需要说明的是，在本实施例中，语义匹配是指在语义上衡量文本相似度。通常自然语言处理中的许多任务都可以抽象为文本匹配任务，如信息检索、文档复制检测等领域都应用到“文本相似度”。传统的文本匹配技术如信息检索中的向量空间模型VSM、BM25等算法，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。而实际上深度语义匹配模型(Deep Structured Semantic Models，简称DSSM)为计算语义相似度提供了一种思路，用字向量作为输入，既可以减少切词的依赖，又可以提高模型的范化能力。

进一步，为了避免上述实施例中识别出的命名实体对业务合规文本识别过程的影响，在本实施例中将对去除关键命名实体后的待识别文本进行业务合规文本的识别。此外，本实施例中所采用的业务合规识别模型可以但不限于是利用多个与上述目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型。此外，在本实施例中，上述合规文本集可以但不限于为与目标业务的业务类型相匹配的各个环节的合规文本(也称作标准话术)。

例如，假设仍以目标业务是保险业务为例进行说明，则合规文本集中的合规文本可以包括但不限于：投保金额、投保风险等。进一步，利用该保险业务的数据对传统的语义匹配模型进行训练，以得到应用于保险业务场景中业务合规识别模型。从而实现对上述待识别文本与预定的合规文本集进行合规性识别，以从待识别文本中找到目标文本片段所在的位置，其中，该目标文本片段为与上述合规文本最相似的文本。

具体的，在获取到去除关键命名实体的待识别文本之后，以标准话术(目标业务合规文本)对应的滑窗步长，在待识别文本中进行滑动，以寻找与标准话术(目标业务合规文本)的相似度得分，并对其进行搜索排序。根据排序的结果来确定待识别文本中最相似的段落和对应的匹配分数(如合规度)，从而实现通过滑动滑窗，获取各个文本片段与标准话术(目标业务合规文本)进行语义匹配后得到的文本相似度。进一步，根据该文本相似度从多个文本片段中确定出目标文本片段，再根据待识别文本中确定出的目标文本片段的数量，来确定该业务办理的合规度。最后根据上述合规度确定保险业务的办理过程是否合规。

此外，在本实施例中，根据在待识别文本中查找到的目标文本片段的数量还可以但不限于确定业务质检的完整度。例如，判定该待识别文本命中合规文本集中的合规文本的数量，并结合语义分析的上下文本的关联结果，从而确定该待识别文本对应的业务质检的完整度。

通过本申请提供的实施例，通过业务合规识别模型，在待识别文中定位与目标合规文本的文本相似度大于相似度阈值的目标文本片段所在位置，从而实现业务质检，提升质检结果的准确性。

作为一种可选的方案，在根据目标音频确定与目标对象相匹配的对话文本时，还包括：

S1，识别目标音频中的关键词，其中，关键词包括以下至少之一：用于确定业务关键帧的白名单关键词，办理目标业务时禁止使用的黑名单关键词；

S2，在识别出白名单关键词的情况下，根据与白名单关键词对应的图像帧确定业务关键帧；

S3，在识别出黑名单关键词的情况下，统计黑名单关键词得到统计结果，其中，第一校验结果还包括统计结果。

可选地，在本实施例中，还可以但不限于直接从目标音频中提取关键词。这里的关键词可以包括但不限于：用于确定目标图像中的业务关键帧的白名单关键词，或办理目标业务时禁止使用的黑名单关键。

需要说明的是，在本实施例中的关键词检测可以但不限于采用大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition，简称LVCSR)为基础进行优化实现，对“词”的颗粒度选择上，采用音节替代传统LVCSR识别中的真实词。在LVCSR输出方面，选择输出识别网络作为识别结果，相对传统的LVCSR识别输入一条文字序列来讲，网络包含了更大的信息量，同一时间内相似的发音都会输出来，这样在后续的关键词查找过程中，会尽可能的找到可能的关键词，同时还可以给出检测到的每个关键词的置信度，也就是检测结果的确信程度，用户可以根据自己的实际需求，设定不同大小的置信度阈值，来满足准确度优先或者召回优先的应用需求。

例如，结合图9所示示例进行说明，在识别出的关键词为参考白名单关键词中的白名单关键词，则可以利用该白名单关键词所在位置，定位目标图像中相关联的业务关键帧，以提升动作识别或人脸识别的效率，从而达到提高身份校验的效率的目的。此外，在识别出的关键词为参考黑名单关键词中的黑名单关键词，则可以标识出该图像帧中包含禁用语，可以对上述标识出的图像帧进行统计，得到统计结果，以体现在质检报告中。

通过本申请提供的实施例，利用直接识别出目标音频中的关键词，进一步完善质检报告的内容，从而使得质检报告中的内容更加丰富。

作为一种可选的方案，根据目标图像确定与目标业务相关联的业务关键帧包括：

S1，基于目标检测模型对目标图像进行识别，得到业务关键帧，其中，目标检测模型为利用多个与目标业务的业务类型相匹配的样本图像进行训练所得到的用于识别包括目标区域的关键帧的模型，业务关键帧中包括的目标区域内显示有用于验证办理目标业务的目标对象的身份信息。

需要说明的是，在本实施例中，上述目标检测模型可以包括但不限于物体检测模型。其中，物体检测模型是针对给定的一张图像或者视频帧，找出其中所有目标的位置，并给出每个目标的具体类别。物体检测技术对于安防监测、工业自动化、汽车辅助驾驶等领域都有重要的意义。而在本实施例中，可以通过获得与目标业务相关的业务动作发生的时间和位置，并反馈给业务员进行评估，来完成对该目标业务的质检过程。

进一步，目标检测模型可以包括但不限于基于一些候选区域，提取该区域的特征，然后判断其类别。在这个框架下，基于深度学习方法能够更好地提取图像特征，并且可以用端到端(end-to-end)的方式完成物体分类与位置回归等任务。区域卷积网络模型(RegionCNN，简称RCNN)是第一个工业级别准确率的深度物体检测模型。在RCNN的基础上，更高效率的物体检测框架逐渐推出，例如Fast RCNN、Faster RCNN、RFCN，使得物体检测实现了工业级的应用。

例如，以图14所示采用的Faster RCNN为例进行说明：输入目标图像(image)经过卷积层(conv layers)得到图像特征，根据特征映射(feature maps)进一步进入到区域推荐网络(Region Proposal Network，简称RPN)。获得可能包含物体的区域，接下来这些区域的特征通过池化层(RoI Pooling)，传到一个分类器(classifier)中获得对应的分类结果。从而实现根据该分类结果得到业务关键帧。

需要说明的是，在本实施例中，上述目标检测模型可以但不限于采用多个与目标业务的业务类型相匹配的样本图像进行训练得到。例如，以保险业务为例，则可以将保险业务的样本图像输入初始化的检测模型中，通过训练分析，确定图像中包含的质检关键动作数据，例如签字、举起身份证、出示文件等，并在真实数据上回测。

可选地，在本实施例中，在基于目标检测模型对目标图像进行识别，得到业务关键帧之前，还可以包括但不限于：从目标音频中识别出用于确定业务关键帧的白名单关键词；在识别出白名单关键词的情况下，将与白名单关键词对应的图像帧确定为候选业务关键帧，以便于目标检测模型对从目标图像中确定出的候选业务关键帧进行识别，得到业务关键帧。

通过本申请提供的实施例，可以基于目标识别模型来对目标图像进行区域识别，以达到通过深度学习来确定目标图像中包括的目标区域的关键帧的目的，该目标区域可以显示有用于验证办理目标业务的目标对象的身份信息。进一步，还可以结合目标音频中提取出的白名单关键词，来辅助从目标图像中识别出业务关键帧，以提升业务关键帧的识别效率，进而达到提高质检效率的效果。

作为一种可选的方案，利用业务关键帧对业务参数集中的第二参数子集进行图像校验，得到第二校验结果包括：

S1，在业务关键帧中识别出目标对象的身份证件的情况下，提取身份证件中与目标对象相匹配的第一验证信息，其中，第一验证信息包括：文字验证信息，脸部验证信息；对文字验证信息进行校验，其中，第二参数子集中包括文字验证信息；

S2，在业务关键帧中识别出与目标业务相关联的文件的情况下，提取文件中的第二验证信息，其中，第二验证信息中包括与目标对象相匹配的签名信息；对签名信息进行校验，其中，第二参数子集中包括签名信息。

可选地，在本实施例中，上述身份证件可以包括但不限于：身份证、工作证等包括目标对象的认证头像的证件。在业务关键帧中识别出目标对象的身份证件的情况下，则提取身份证件中包含的文字验证信息和脸部信息，进一步服务器可以通过文字验证信息中包含的身份证ID对目标对象的身份进行核实，如预先录入公安系统的身份验证ID进行比对校验。进一步，在本实施例中，服务器还可以接受身份证件中的彩色图片，并且与用户上传的一张人脸照片(一般来自活体过程中，质量最好的正面照片)来进行图像比对，以通过人脸照片中的脸部特征与上述脸部验证信息的比对结果，来对目标对象进行身份校验。

此外，在本实施例中，还可以但不限于对与目标业务相关联的文件进行真实性校验。例如，对文件中的签名区域进行识别，以提取目标对象的签名与预先录入的签名验证信息进行比对，以完成文件校验。

通过本申请提供的实施例，通过业务关键帧，对目标对象的身份证件或与目标业务相关联的文件分别进行校验，以融合更多业务参数进行校验，来生成内容更加丰富的对目标业务的质检报告。

作为一种可选的方案，在根据目标图像确定与目标业务相关联的业务关键帧时，还包括：

S1，从目标图像中识别出目标对象的人脸信息；

S2，提取人脸信息中的脸部特征；

S3，利用第一验证信息中的脸部验证信息对脸部特征进行校验，其中，第二参数子集中包括脸部验证信息。

可选地，在本实施例中，自动人脸检测技术可以包括但不限于是所有人脸影像分析衍生应用的基础。从应用领域上可以分为：商用人脸检测，安防人脸检测，以及基于互联网应用的一般人脸检测。通常，传统的人脸检测技术是通过分析人脸各部位的特征以及位置分布来获得人脸区域。例如，基于深度学习的MTCNN，将人脸检测和人脸关键点检测统一到一个端到端的深度学习框架中，相较于传统技术在检测的准确性和对环境的鲁棒性上获得大幅提升。

可选地，在本实施例中，通过比对从身份证件中提取的脸部验证信息，及从目标图像中人脸信息提取出的脸部特征，以实现对目标对象进行脸部校验，应用于用户身份认证和人证合一场景。其中，上述提取人脸信息中的人脸特征过程，可以包括但不限于是基于先进的深度学习算法实现提取，再结合海量人脸训练数据，得到丰富且准确的人脸识别面部特征，提高了识别和比对的精度。此外，在本实施例中提供了快速的人脸比对响应，高准确度的人脸比对效果。通过广适应的人脸识别模型，使得人脸比对服务可以应用于多种场景，比如有侧脸，遮挡或者光照不好的情况。其中，人脸识别模型可以但不限于是使用海量的数据训练出的人脸比对模型。如将相同人的人脸归为正例，不同的人脸归为负例。

例如，在业务关键帧中识别出目标对象的人脸信息的情况下，则提取人脸信息中包含的脸部特征，进一步服务器可以通过比对身份证件提取的脸部验证信息及上述脸部特征，来对目标对象的身份进行核实。

通过本申请提供的实施例，比对身份证件提取的脸部验证信息，和人脸信息提取的脸部特征，来实现人证一致性校验，以进一步保证校验的准确性和真实性。

作为一种可选的方案，在提取人脸信息中的脸部特征之后，还包括：

S1，根据脸部特征确定目标对象的数量；

S2，在确定目标对象的数量大于等于两个的情况下，获取目标对象未连续同时出现的时长；

S3，在目标对象未连续同时出现的时长达到时长阈值的情况下，生成告警信息，其中，第二校验结果中还包括告警信息。

需要说明的是，在本实施例中，在目标对象的数量大于等于两个的情况下，还可以包括但不限于进行同框校验，以验证目标对象在目标录制视频中同框出现的时长。其中，同框校验可以包括但不限于：识别并截取目标图像中包含目标对象的人脸区域的图像帧，并计算每帧图像帧中同框的人脸数量，并统计同框时间。其中，在目标对象未同框的时长达到时长阈值的情况下，则生成告警信息并体现在质检报告中。

通过本申请提供的实施例，增加同框校验维度，以验证多个目标对象同框的时长，从而保证在质检报告中可以体现出目标录制视频中办理目标业务的真实客观性进行验证。

作为一种可选的方案，根据校验结果生成与目标录制视频相匹配的质检报告包括：

S1，对校验结果中的各个结果值进行加权求和，得到质检指示参数；

S2，根据校验结果调整目标录制视频的播放速率，得到质检视频；

S3，根据质检指示参数及质检视频生成质检报告。

需要说明的是，在本实施例中，上述质检指示参数可以但不限于为多个校验结果进行加权求和得到的用于指示校验质量的质检分数。如图4所示。

可选地，在本实施例中，步骤S2，根据校验结果调整目标录制视频的播放速率，得到质检视频包括：

S21，根据校验结果获取与目标业务相关联的业务关键帧；

S22，将业务关键帧的播放速率调整为第一速率，将目标图像中的非业务关键帧的播放速率调整为第二速率，其中，第一速率小于第二速率；

S23，利用调整后的业务关键帧及调整后的非业务关键帧，生成质检视频。

例如，在获取到目标录制视频之后，通过图像识别处理等确定出业务关键帧。进一步，对业务关键帧进行降低播放速率的处理，对非业务关键帧的播放速率进行加快处理，以得到用于在质检报告中呈现的质检视频。

此外，还可以但不限于在质检视频中的每个图像帧中标注出当前图像帧为业务关键帧或非业务关键帧。进一步，还可以标注出在当前图像帧中所呈现的目标对象的人脸数量，如图4所示。

可选地，在本实施例中，步骤S3，根据质检指示参数及质检视频生成质检报告包括：

S31，根据质检指示参数确定待复核的对象质检结果；

S32，对与目标录制视频对应的全部质检结果、质检视频及待复核的对象质检结果进行排版，以生成质检报告。

需要说明的是，在本实施例中，上述待复核的对象质检结果的数量及类型可以但不限于根据质检指示参数来确定。例如，在质检指示参数大于预定阈值的情况下，则待复核的对象质检结果的数量较少，反而反之。而在质检指示参数大于预定阈值的情况下，对预先配置的待复核的对象质检结果进行再次复核质检。上述仅是一种示例，本实施例中对此不做任务限定。

具体结合图4所示示例进行说明，在本实施例中上述质检报告的结果可以包括以下内容：

1)质检指示参数402(如图4所示质检分数)：按照各质检项结果和各项结果所占比重计算出的质检总得分，可以作为目标录制视频是否通过质检的重要参考指标。

2)待复核的对象质检结果404(如图4所示待复核信息)：需要再次质检的项目；

3)质检视频410：对目标录制视频进行处理，加快非业务关键帧播放速率、降低业务关键帧播放速率，并标注为图像帧类型及当前画面上的人脸数量；

4)目标对象的信息406(如图4所示人员信息)：包括从对话文本中提取的命名实体(如人物姓名)、目标对象的身份信息及与身份证一致性比对的校验结果等。

5)校验结果详细信息408(如图4所示详情列表)：包括命名实体校验结果、关键词校验结果、同框校验结果、身份校验结果(如人证校验结果)等等。

通过本申请提供的实施例，对与目标录制视频对应的全部质检结果、质检视频及待复核的对象质检结果进行排版，以生成质检报告。从而实现快速直观地呈现内容丰富的融合多个维度的业务参数的业务质检报告。

作为一种可选的方案，在根据质检指示参数及质检视频生成质检报告之后，还包括：

S1，在获取到对与目标录制视频对应的全部质检结果中的目标质检结果进行操作的操作指令的情况下，确定与目标质检结果相匹配的跳转链接，其中，跳转链接用于跳转至与目标质检结果对应的质检描述页面。

需要说明的是，在本实施例中，上述质检报告中可以但不限于呈现有跳转连接，用于跳转显示对应质检结果的质检描述页面。例如，如图4所示，点击“详情”对应的跳转连接，可以跳转显示图15-16所示的详情附录，如文字详情为对话文本的文字内容，图像详情为各个业务关键帧的截图。上述仅是一种示例，本实施例中对此不做任何限定。

通过本申请提供的实施例，在客户端中可以获取对检结果进行操作的操作指令，并响应该操作指令确定与目标质检结果相匹配的跳转链接，从而实现在客户端中跳转至对应的详情页面进行质检结果的细节展示。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述业务质检方法的业务质检装置，可以但不限于应用于图1所示服务器中。如图17所示，该装置包括：

1)获取单元1702，用于获取待质检的目标录制视频，其中，目标录制视频中记录有目标对象办理目标业务的过程；

2)分离单元1704，用于从目标录制视频中分离出目标音频及目标图像；

3)质检单元1706，用于根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果；

4)生成单元1708，用于根据校验结果生成与目标录制视频相匹配的质检报告。

可选地，在本实施例中，该业务质检装置可以但不限于应用于对各类机构所办理的业务进行操作合规性质检的场景中。也就是说，基于在办理上述业务时所录制的视频，可以采用本实施例中提供的质检方法来对业务办理过程进行业务质检，以确定参与业务办理的对象是否按照业务规则或标准来完成办理过程。其中，上述待质检的业务可以包括但不限于保险类业务、金融类理财产品销售业务、行政类证件办理业务、客户服务或回访业务等需要业务工作人员与客户当面进行沟通办理的业务。上述目标对象可以包括但不限于业务工作人员及客户，其中办理目标业务的客户的数量可以包括但不限于一个或多个。上述目标录制视频可以包括但不限于通过双录系统对业务办理过程进行录音录像后得到的视频。上述仅是一种示例，本实施例中对此不作任何限定。

基于上述校验结果，可以但不限于生成如图4所示的质检报告。如基于上述多个校验结果可以但不限于进行加权求和，以得到质检指示参数，如图4所示质检指示参数402为质检分数：90。此外，根据上述质检指示参数的数值，可以但不限于从所有校验结果中确定出需要复核的结果，如图4所示待复核的对象质检结果404。进一步，在质检报告中还将包括但不限于对目标录制视频处理后的质检视频(如图4所示质检视频410)、目标对象的信息(如图4所示目标对象406)及各个校验结果的详细信息(如图4所示校验结果详细信息408)。其中，质检视频可以但不限于为对目标录制视频的播放速率进行调整过的快速质检视频，如对非业务关键帧的播放速率进行加快处理，而对业务关键帧的播放速率进行放慢处理。此外，还可以在质检视频中标记出当前图像帧是否为业务关键帧，及目标对象的数量，如图4所示当前图像帧为业务关键帧，目标对象数量为2。

作为一种可选的方案，上述质检单元1706包括：

1)第一确定模块，用于根据目标音频确定与目标对象相匹配的对话文本；

2)第一校验模块，用于利用对话文本对业务参数集中的第一参数子集进行文本校验，得到第一校验结果；

3)第二确定模块，用于根据目标图像确定与目标业务相关联的业务关键帧；

4)第二校验模块，用于利用业务关键帧对业务参数集中的第二参数子集进行图像校验，得到第二校验结果；

其中，校验结果包括第一校验结果和第二校验结果。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第一确定模块包括：

1)转换子模块，用于将目标音频转换为目标文本；

2)第一识别子模块，用于对目标音频中的目标对象进行声纹识别，确定与目标对象相匹配的音频片段；

3)第一划分子模块，用于按照音频片段对目标文本进行划分，得到与目标对象相匹配的对话文本。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述转换子模块通过以下步骤实现将目标音频转换为目标文本：

S1，基于声学模型提取目标音频的音频特征；

S3，基于语言模型对词序列进行组合，得到目标文本。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第一校验模块包括：

1)输入子模块，用于将对话文本输入命名实体识别模型，得到对话文本中的关键命名实体，其中，命名实体识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行训练所得到的用于识别业务文本中的命名实体的模型，关键命名实体为办理目标业务所需的实体标识；

2)第一校验子模块，用于对关键命名实体进行校验，其中，第一参数子集中包括关键命名实体。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第一校验模块包括：

1)去除子模块，用于去除对话文本中的关键命名实体，得到待识别文本；

2)第二划分子模块，用于按照与目标业务相匹配的合规文本集中的目标业务合规文本的步长，将待识别文本划分为多个文本片段；

3)第二识别子模块，用于通过业务合规识别模型，在多个文本片段中识别目标文本片段，其中，目标文本片段与目标业务合规文本的文本相似度大于相似度阈值，业务合规识别模型为利用多个与目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型；

4)第一确定子模块，用于根据识别出的目标文本片段，确定待识别文本对应的合规度，其中，合规度用于指示待识别文本命中与目标业务相匹配的合规文本集中的合规文本的数量；

5)第二校验子模块，用于对合规度进行校验，其中，第一参数子集中包括合规度。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第一确定模块还包括：

1)第三识别子模块，用于在根据目标音频确定与目标对象相匹配的对话文本时，识别目标音频中的关键词，其中，关键词包括以下至少之一：用于确定业务关键帧的白名单关键词，办理目标业务时禁止使用的黑名单关键词；

2)第二确定子模块，用于在识别出白名单关键词的情况下，根据与白名单关键词对应的图像帧确定业务关键帧；

3)统计子模块，用于在识别出黑名单关键词的情况下，统计黑名单关键词得到统计结果，其中，第一校验结果还包括统计结果。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第二确定模块包括：

1)第四识别子模块，用于基于目标检测模型对目标图像进行识别，得到业务关键帧，其中，目标检测模型为利用多个与目标业务的业务类型相匹配的样本图像进行训练所得到的用于识别包括目标区域的关键帧的模型，业务关键帧中包括的目标区域内显示有用于验证办理目标业务的目标对象的身份信息。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第二识别模块还包括：

1)第五识别子模块，用于在基于目标检测模型对目标图像进行识别，得到业务关键帧之前，从目标音频中识别出用于确定业务关键帧的白名单关键词；

2)第三确定子模块，用于在识别出白名单关键词的情况下，将与白名单关键词对应的图像帧确定为候选业务关键帧，以便于目标检测模型对从目标图像中确定出的候选业务关键帧进行识别，得到业务关键帧。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第二校验模块包括：

1)第一提取子模块，用于在业务关键帧中识别出目标对象的身份证件的情况下，提取身份证件中与目标对象相匹配的第一验证信息，其中，第一验证信息包括：文字验证信息，脸部验证信息；对文字验证信息进行校验，其中，第二参数子集中包括文字验证信息；

2)第二提取子模块，用于在业务关键帧中识别出与目标业务相关联的文件的情况下，提取文件中的第二验证信息，其中，第二验证信息中包括与目标对象相匹配的签名信息；对签名信息进行校验，其中，第二参数子集中包括签名信息。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第二校验模块还包括：

1)第六识别子模块，用于在根据目标图像确定与目标业务相关联的业务关键帧时，从目标图像中识别出目标对象的人脸信息；

2)第三提取子模块，用于提取人脸信息中的脸部特征；

3)第三校验子模块，用于利用第一验证信息中的脸部验证信息对脸部特征进行校验，其中，第二参数子集中包括脸部验证信息。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述第二校验模块还包括：

1)第四确定子模块，用于在提取人脸信息中的脸部特征之后，根据脸部特征确定目标对象的数量；

2)第一获取子模块，用于在确定目标对象的数量大于等于两个的情况下，获取目标对象未连续同时出现的时长；

3)第一生成子模块，用于在目标对象未连续同时出现的时长达到时长阈值的情况下，生成告警信息，其中，第二校验结果中还包括告警信息。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述生成单元包括：

1)计算模块，用于对校验结果中的各个结果值进行加权求和，得到质检指示参数；

2)调整模块，用于根据校验结果调整目标录制视频的播放速率，得到质检视频；

3)生成模块，用于根据质检指示参数及质检视频生成质检报告。

可选地，在本实施例中，上述调整模块包括：

1)第二获取子模块，用于根据校验结果获取与目标业务相关联的业务关键帧；

2)调整子模块，用于将业务关键帧的播放速率调整为第一速率，将目标图像中的非业务关键帧的播放速率调整为第二速率，其中，第一速率小于第二速率；

3)第二生成子模块，用于利用调整后的业务关键帧及调整后的非业务关键帧，生成质检视频。

可选地，在本实施例中，上述生成模块包括：

1)第五确定子模块，用于根据质检指示参数确定待复核的对象质检结果；

2)第三生成子模块，用于对与目标录制视频对应的全部质检结果、质检视频及待复核的对象质检结果进行排版，以生成质检报告。

具体示例可以参照上文记载的实施例，此处不再赘述。

作为一种可选的方案，上述装置还包括：

1)跳转单元，用于在根据质检指示参数及质检视频生成质检报告之后，在获取到对与目标录制视频对应的全部质检结果中的目标质检结果进行操作的操作指令的情况下，确定与目标质检结果相匹配的跳转链接，其中，跳转链接用于跳转至与目标质检结果对应的质检描述页面。

具体示例可以参照上文记载的实施例，此处不再赘述。

根据本发明实施例的一个方面，还提供了一种用于实施上述业务质检方法的电子装置，如图18所示，该电子装置包括存储器1802和处理器1804，该存储器1802中存储有计算机程序，该处理器1804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待质检的目标录制视频，其中，目标录制视频中记录有目标对象办理目标业务的过程；

S2，从目标录制视频中分离出目标音频及目标图像；

S3，根据目标音频及目标图像，确定对与目标业务相匹配的业务参数集进行校验得到的校验结果；

S4，根据校验结果生成与目标录制视频相匹配的质检报告。

可选地，本领域普通技术人员可以理解，图18所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图18其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图18中所示更多或者更少的组件(如网络接口等)，或者具有与图18所示不同的配置。

其中，存储器1802可用于存储软件程序以及模块，如本发明实施例中的业务质检方法和装置对应的程序指令/模块，处理器1804通过运行存储在存储器1802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的业务质检方法。存储器1802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1802可进一步包括相对于处理器1804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1802具体可以但不限于用于质检报告等信息。作为一种示例，如图18所示，上述存储器1802中可以但不限于包括上述业务质检装置中的获取单元1702、分离单元1704、质检单元1706及生成单元1708。此外，还可以包括但不限于上述业务质检装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1808，用于显示目标录制视频及质检报告；和连接总线1810，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S2，从目标录制视频中分离出目标音频及目标图像；

S4，根据校验结果生成与目标录制视频相匹配的质检报告。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种业务质检方法，其特征在于，包括：

获取待质检的目标录制视频，其中，所述目标录制视频中记录有目标对象办理目标业务的过程；

从所述目标录制视频中分离出目标音频及目标图像；根据所述目标音频及所述目标图像，确定对与所述目标业务相匹配的业务参数集进行校验得到的校验结果，包括：根据所述目标音频确定与所述目标对象相匹配的对话文本；利用所述对话文本对所述业务参数集中的第一参数子集进行文本校验，得到第一校验结果；从所述目标音频中识别出用于确定业务关键帧的白名单关键词，在识别出所述白名单关键词的情况下，将与所述白名单关键词对应的图像帧确定为候选业务关键帧，基于目标检测模型对所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧，利用所述业务关键帧对所述业务参数集中的第二参数子集进行图像校验，得到第二校验结果，其中，所述校验结果包括所述第一校验结果和所述第二校验结果；

根据所述校验结果生成与所述目标录制视频相匹配的质检报告。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频确定与所述目标对象相匹配的对话文本包括：

将所述目标音频转换为目标文本；

对所述目标音频中的所述目标对象进行声纹识别，确定与所述目标对象相匹配的音频片段；

按照所述音频片段对所述目标文本进行划分，得到与所述目标对象相匹配的所述对话文本。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标音频转换为目标文本包括：

基于声学模型提取所述目标音频的音频特征；

根据所述音频特征及与所述目标业务相关联的业务词典，对所述目标音频进行识别，得到与所述目标音频相匹配的词序列；

基于语言模型对所述词序列进行组合，得到所述目标文本。

4.根据权利要求1所述的方法，其特征在于，所述利用所述对话文本对所述业务参数集中的第一参数子集进行文本校验，得到第一校验结果包括：

将所述对话文本输入命名实体识别模型，得到所述对话文本中的关键命名实体，其中，所述命名实体识别模型为利用多个与所述目标业务的业务类型相匹配的样本业务文本进行训练所得到的用于识别业务文本中的命名实体的模型，所述关键命名实体为办理所述目标业务所需的实体标识；

对所述关键命名实体进行校验，其中，所述第一参数子集中包括所述关键命名实体。

5.根据权利要求4所述的方法，其特征在于，所述利用所述对话文本对所述业务参数集中的第一参数子集进行文本校验，得到第一校验结果包括：

去除所述对话文本中的所述关键命名实体，得到待识别文本；

按照与所述目标业务相匹配的合规文本集中的目标业务合规文本的步长，将所述待识别文本划分为多个文本片段；

通过业务合规识别模型，在所述多个文本片段中识别目标文本片段，其中，所述目标文本片段与所述目标业务合规文本的文本相似度大于相似度阈值，所述业务合规识别模型为利用多个与所述目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型；

根据识别出的所述目标文本片段，确定所述待识别文本对应的合规度，其中，所述合规度用于指示所述待识别文本命中与所述目标业务相匹配的所述合规文本集中的合规文本的数量；

对所述合规度进行校验，其中，所述第一参数子集中包括所述合规度。

6.根据权利要求1所述的方法，其特征在于，在所述根据所述目标音频确定与所述目标对象相匹配的对话文本时，还包括：

识别所述目标音频中的关键词，其中，所述关键词包括以下至少之一：用于确定所述业务关键帧的白名单关键词，办理所述目标业务时禁止使用的黑名单关键词；

在识别出所述白名单关键词的情况下，根据与所述白名单关键词对应的图像帧确定所述业务关键帧；

在识别出所述黑名单关键词的情况下，统计所述黑名单关键词得到统计结果，其中，所述第一校验结果还包括所述统计结果。

7.根据权利要求1所述的方法，其特征在于，基于目标检测模型对所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧包括：

所述目标检测模型为利用多个与所述目标业务的业务类型相匹配的样本图像进行训练所得到的用于识别包括目标区域的关键帧的模型，所述业务关键帧中包括的所述目标区域内显示有用于验证办理所述目标业务的所述目标对象的身份信息。

8.根据权利要求1所述的方法，其特征在于，所述利用所述业务关键帧对所述业务参数集中的第二参数子集进行图像校验，得到第二校验结果包括：

在所述业务关键帧中识别出所述目标对象的身份证件的情况下，提取所述身份证件中与所述目标对象相匹配的第一验证信息，其中，所述第一验证信息包括：文字验证信息，脸部验证信息；对所述文字验证信息进行校验，其中，所述第二参数子集中包括所述文字验证信息；

在所述业务关键帧中识别出与所述目标业务相关联的文件的情况下，提取所述文件中的第二验证信息，其中，所述第二验证信息中包括与所述目标对象相匹配的签名信息；对所述签名信息进行校验，其中，所述第二参数子集中包括所述签名信息。

9.根据权利要求8所述的方法，其特征在于，基于目标检测模型对所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧，还包括：

从所述目标图像中识别出所述目标对象的人脸信息；

提取所述人脸信息中的脸部特征；

利用所述第一验证信息中的所述脸部验证信息对所述脸部特征进行校验，其中，所述第二参数子集中包括所述脸部验证信息。

10.根据权利要求9所述的方法，其特征在于，在所述提取所述人脸信息中的脸部特征之后，还包括：

根据所述脸部特征确定所述目标对象的数量；

在确定所述目标对象的数量大于等于两个的情况下，获取所述目标对象未连续同时出现的时长；

在所述目标对象未连续同时出现的时长达到时长阈值的情况下，生成告警信息，其中，所述第二校验结果中还包括所述告警信息。

11.一种业务质检装置，其特征在于，包括：

获取单元，用于获取待质检的目标录制视频，其中，所述目标录制视频中记录有目标对象办理目标业务的过程；

分离单元，用于从所述目标录制视频中分离出目标音频及目标图像；

质检单元，用于根据所述目标音频及所述目标图像，确定对与所述目标业务相匹配的业务参数集进行校验得到的校验结果，所述质检单元包括：第一确定模块，用于根据所述目标音频确定与所述目标对象相匹配的对话文本；第一校验模块，用于利用所述对话文本对所述业务参数集中的第一参数子集进行文本校验，得到第一校验结果；第二确定模块，所述第二确定模块包括第五识别子模块，用于从所述目标音频中识别出用于确定业务关键帧的白名单关键词，所述第二确定模块包括第三确定子模块，用于在识别出所述白名单关键词的情况下，将与所述白名单关键词对应的图像帧确定为候选业务关键帧，所述第二确定模块包括第四识别子模块，用于基于目标检测模型对所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧，第二校验模块，用于利用所述业务关键帧对所述业务参数集中的第二参数子集进行图像校验，得到第二校验结果，其中，所述校验结果包括所述第一校验结果和所述第二校验结果；

生成单元，用于根据所述校验结果生成与所述目标录制视频相匹配的质检报告。

12.根据权利要求11所述的装置，其特征在于，所述第一确定模块包括：

转换子模块，用于将所述目标音频转换为目标文本；

第一识别子模块，用于对所述目标音频中的所述目标对象进行声纹识别，确定与所述目标对象相匹配的音频片段；

第一划分子模块，用于按照所述音频片段对所述目标文本进行划分，得到与所述目标对象相匹配的所述对话文本。

13.根据权利要求12所述的装置，其特征在于，所述转换子模块通过以下步骤实现将所述目标音频转换为目标文本：

基于声学模型提取所述目标音频的音频特征；

基于语言模型对所述词序列进行组合，得到所述目标文本。

14.根据权利要求11所述的装置，其特征在于，所述第一校验模块包括：

输入子模块，用于将所述对话文本输入命名实体识别模型，得到所述对话文本中的关键命名实体，其中，所述命名实体识别模型为利用多个与所述目标业务的业务类型相匹配的样本业务文本进行训练所得到的用于识别业务文本中的命名实体的模型，所述关键命名实体为办理所述目标业务所需的实体标识；

第一校验子模块，用于对所述关键命名实体进行校验，其中，所述第一参数子集中包括所述关键命名实体。

15.根据权利要求14所述的装置，其特征在于，所述第一校验模块包括：

去除子模块，用于去除所述对话文本中的所述关键命名实体，得到待识别文本；

第二划分子模块，用于按照与所述目标业务相匹配的合规文本集中的目标业务合规文本的步长，将所述待识别文本划分为多个文本片段；

第二识别子模块，用于通过业务合规识别模型，在所述多个文本片段中识别目标文本片段，其中，所述目标文本片段与所述目标业务合规文本的文本相似度大于相似度阈值，所述业务合规识别模型为利用多个与所述目标业务的业务类型相匹配的样本业务文本进行语义学习所得到的用于确定文本片段和对应的业务合规文本之间的文本相似度的模型；

第一确定子模块，用于根据识别出的所述目标文本片段，确定所述待识别文本对应的合规度，其中，所述合规度用于指示所述待识别文本命中与所述目标业务相匹配的所述合规文本集中的合规文本的数量；

第二校验子模块，用于对所述合规度进行校验，其中，所述第一参数子集中包括所述合规度。

16.根据权利要求11所述的装置，其特征在于，所述第一确定模块还包括：

第三识别子模块，用于在所述根据所述目标音频确定与所述目标对象相匹配的对话文本时，识别所述目标音频中的关键词，其中，所述关键词包括以下至少之一：用于确定所述业务关键帧的白名单关键词，办理所述目标业务时禁止使用的黑名单关键词；

第二确定子模块，用于在识别出所述白名单关键词的情况下，根据与所述白名单关键词对应的图像帧确定所述业务关键帧；

统计子模块，用于在识别出所述黑名单关键词的情况下，统计所述黑名单关键词得到统计结果，其中，所述第一校验结果还包括所述统计结果。

17.根据权利要求11所述的装置，其特征在于，所述第四识别子模块包括：

18.根据权利要求11所述的装置，其特征在于，所述第二校验模块包括：

第一提取子模块，用于在所述业务关键帧中识别出所述目标对象的身份证件的情况下，提取所述身份证件中与所述目标对象相匹配的第一验证信息，其中，所述第一验证信息包括：文字验证信息，脸部验证信息；对所述文字验证信息进行校验，其中，所述第二参数子集中包括所述文字验证信息；

第二提取子模块，用于在所述业务关键帧中识别出与所述目标业务相关联的文件的情况下，提取所述文件中的第二验证信息，其中，所述第二验证信息中包括与所述目标对象相匹配的签名信息；对所述签名信息进行校验，其中，所述第二参数子集中包括所述签名信息。

19.根据权利要求18所述的装置，其特征在于，所述第二校验模块还包括：

第六识别子模块，用于在基于目标检测模型对所述目标图像中确定出的所述候选业务关键帧进行识别，得到所述业务关键帧时，从所述目标图像中识别出所述目标对象的人脸信息；

第三提取子模块，用于提取所述人脸信息中的脸部特征；

第三校验子模块，用于利用所述第一验证信息中的所述脸部验证信息对所述脸部特征进行校验，其中，所述第二参数子集中包括所述脸部验证信息。

20.根据权利要求19所述的装置，其特征在于，所述第二校验模块还包括：

第四确定子模块，用于在所述提取所述人脸信息中的脸部特征之后，根据所述脸部特征确定所述目标对象的数量；

第一获取子模块，用于在确定所述目标对象的数量大于等于两个的情况下，获取所述目标对象未连续同时出现的时长；

第一生成子模块，用于在所述目标对象未连续同时出现的时长达到时长阈值的情况下，生成告警信息，其中，所述第二校验结果中还包括所述告警信息。

21.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至10任一项中所述的方法。

22.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。