CN112911385A

CN112911385A - 待识别图片的提取方法、装置、设备以及存储介质

Info

Publication number: CN112911385A
Application number: CN202110037554.9A
Authority: CN
Inventors: 王锁平; 周登宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-06-04
Anticipated expiration: 2041-01-12
Also published as: WO2022151639A1; CN112911385B

Abstract

本发明提供了一种待识别图片的提取方法、装置、设备以及存储介质，其中，方法包括：获取视频数据和音频数据，分为多个第一区间，选取其中丢包最少，也即数量和最多的第二区间，然后从各个第二区间内选取预设个数的目标区间，从各个目标区间内选取一帧暂时图片进行解码，再选取一张评分最高的待识别图片进行识别，提高了待识别图片被识别出来的准确度，进而保证了自动识别的准确度，无需客服人员进行人工核对操作，节约了人力资源。

Description

待识别图片的提取方法、装置、设备以及存储介质

技术领域

本发明涉及图像识别领域，特别涉及一种待识别图片的提取方法、装置、设备以及存储介质。

背景技术

随着人工智能基础研究的逐步深化，人工智能在远程接触应用领域正在加速落地，视频客服机器人事是利用人工智能技术和传统的音视频技术联合打造的一款远程接触领域的落地应用，这个组合技术可以应用在保单视频回放、远程开户等金融领域，同时可以提供24小时不间断服务，给客户带来方便的同时也很大的提升了公司的服务水平。目前，在进行业务往来时，需要核实客户的身份信息，传统的核实方式需要由业务员比照客户的身份证对远端的客户进行核实，但是这种核实方式仍会浪费巨大的人力资源。目前，可以通过抽取视频中的图片帧进行识别，但是抽取的图片帧的质量非常不稳定，无法准确识别出人脸，因此，亟需一种选取质量高的图像帧的方法。

发明内容

本发明的主要目的为提供一种待识别图片的提取方法、装置、设备以及存储介质，旨在解决抽取的图片帧的质量非常不稳定，无法准确识别出人脸的问题。

本发明提供了一种待识别图片的提取方法，包括：

获取视频通话过程中的视频数据和音频数据；

按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和；

从各所述第一区间中选取所述数量和达到预设数量的第一区间，作为第二区间；

从各所述第二区间中选取预设个数的第二区间作为目标区间，并分别从各所述目标区间中任意选取一帧暂时图片；

将各所述暂时图片分别进行解码处理，得到对应的解码图片；

按照预设的图片质量评分方法对各所述解码图片进行评分；

将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别。

进一步地，所述从各所述第二区间中选取预设个数的第二区间作为目标区间的步骤，包括：

检测各所述第二区间内的视频数据包和音频数据包的时间和数量是否对应；

将视频数据包和音频数据包的时间和数量相对应的所述第二区间，标记为第三区间；

获取所述第三区间的各个所述视频数据包以及各所述视频数据包的包序号；

根据所述第三区间内最后一个视频数据包的包序号，与最前一个视频数据包的包序号之间的差值，得到理论包数量；

将实际包数量与所述理论包数量相比，得到比值；所述实际包数量为在所述第三区间内的所述视频数据包的实际数量；

按照各所述第三区间的比值大小，从大至小依次选取预设个数的目标区间。

进一步地，所述将各所述暂时图片分别进行解码处理，得到对应的解码图片的步骤，包括：

检测所述暂时图片的图片信息；

若所述图片信息显示所述暂时图片为P帧，则在所述视频数据中位于所述暂时图片之前的图片中，找出离所述暂时图片最近的目标关键帧；其中，所述目标关键帧为携带全部信息的独立帧；

将所述目标关键帧对应的图片至所述暂时图片之间的所有图片输入至CODEC解码器进行解码，以得到所述解码图片。

进一步地，所述检测所述暂时图片的图片信息的步骤之后，还包括：

若所述图片信息显示所述暂时图片为B帧，则获取位于所述暂时图片之后的图片中，与下一个目标关键帧图片之间所有的P帧图片，以及位于所述暂时图片之前的离所述暂时图片最近的目标关键帧；

将所述暂时图片、所述目标关键帧对应的图片以及所述所有的P帧图片输入至CODEC解码器进行解码，以得到所述解码图片。

进一步地，所述按照预设的图片质量评分方法对各所述解码图片进行评分的步骤，包括：

获取所述解码图片的像素值；

根据所述像素值与得分系数的对应关系，得到对应的得分系数；

将所述解码图片输入至预先构建的图像检测模型中，得到所述解码图片在各个维度中的维度值；

将所述得分系数和各个所述维度值输入公式

中进行计算，得到所述解码图片的评分值；其中，Score表示所述评分值，k表示所述得分系数，n表示所述图像检测模型中检测维度总数量，w_i表示第i个维度对所述评分值的影响权重，v_i表示第i个维度的所述维度值。

进一步地，所述按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和的步骤之前，包括：

提取所述音频数据中的声音特征信息；

在预设的声音数据库中，获取与所述声音特征信息所对应的业务场景信息；

将所述音频数据转换成语义信息，并提取所述语义信息中的地址关键字；

根据所述业务场景信息和所述地址关键字识别当前场所；

判断所述当前场所是否满足对话要求；

若满足对话要求，则执行所述按照时间顺序将所述视频通话过程分割为多个第一区间，并分别统计各所述第一区间内视频数据包和音频数据包的数量和的步骤。

进一步地，所述将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别的步骤之前，还包括：

获取所述待识别图片在所述视频通话过程时间戳；

基于所述时间戳获取间隔预设时间的辅助识别图片；

对所述辅助识别图片和所述待识别图片进行灰度化处理，对应得到第一灰度图片和第二灰度图片；

计算灰度图片的第m列或者第m行的所有像素点的灰度值的平均值A_m，以及计算灰度图片中所有像素点的灰度值的平均值B；其中所述灰度图片为所述第一灰度图片或第二灰度图片；

根据公式

计算灰度图片的第m列或者第m行的总体方差，其中N为所述灰度图片中的列或者行的总数量；

根据公式

获得所述第一灰度图片与所述第二灰度图片的第m列或者第m行的总体方差之差

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差；

判断

是否小于预设的方差误差阈值；

若

小于预设的方差误差阈值，则判定所述待识别图片达到人脸识别的条件。

本发明还提供了一种待识别图片的提取装置，包括：

数据获取模块，用于获取视频通话过程中的视频数据和音频数据；

分割模块，用于按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和；

第一选取模块，用于从各所述第一区间中选取所述数量和达到预设数量的第一区间，作为第二区间；

第二选取模块，用于从各所述第二区间中选取预设个数的第二区间作为目标区间，并分别从各所述目标区间中任意选取一帧暂时图片；

解码模块，用于将各所述暂时图片分别进行解码处理，得到对应的解码图片；

评分模块，用于按照预设的图片质量评分方法对各所述解码图片进行评分；

提取模块，用于将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别。

进一步地，所述第二选取模块，包括：

检测子模块，用于检测各所述第二区间内的视频数据包和音频数据包的数量和时间是否对应；

提取子模块，用于将视频数据包和音频数据包的时间和数量相对应的所述第二区间，标记为第三区间；

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：获取视频数据和音频数据，分为多个第一区间，选取其中丢包最少，也即数量和最多的第二区间，然后从各个第二区间内选取预设个数的目标区间，从各个目标区间内选取一帧暂时图片进行解码，再选取一张评分最高的待识别图片进行识别，提高了待识别图片被识别出来的准确度，进而保证了自动识别的准确度，无需客服人员进行人工核对操作，节约了人力资源。

附图说明

图1是本发明一实施例的一种待识别图片的提取方法的流程示意图；

图2是本发明一实施例的一种待识别图片的提取装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种待识别图片的提取方法，包括：

S1：获取视频通话过程中的视频数据和音频数据；

S2：按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和；

S3：从各所述第一区间中选取所述数量和达到预设数量的第一区间，作为第二区间；

S4：从各所述第二区间中选取预设个数的第二区间作为目标区间，并分别从各所述目标区间中任意选取一帧暂时图片；

S5：将各所述暂时图片分别进行解码处理，得到对应的解码图片；

S6：按照预设的图片质量评分方法对各所述解码图片进行评分；

S7：将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别。

如上述步骤S1所述，获取视频通话过程中的视频数据和音频数据。获取的方式可以是直接在视频客服机器人所在的终端上进行采集，在与客户进行业务往来时，视频客服机器人都会采集客户的视频数据和音频数据，因此可以从视频客服机器人端直接获取。当然若执行主体为该视频客服机器人，则可以直接获取。另外，获取视频通话过程中的视频数据和音频数据可以是完整的视频通话过程，即在对话完毕后，验证客户的身份信息，以判断是否可以给客户办理相关业务，也可以是在通话过程中，实时获取的一段视频数据和音频数据，在具体地实施例中，视频客服机器人会先与客户进行一段问好的对话，然后才开始业务的交流，因此获取的视频数据和音频数据可以是该问好的对话。

如上述步骤S2所述，按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和。其中，各个第一区间的大小应当一致，第一区间具体为间隔时间内客户的视频数据和音频数据，为了防止不法分子利用别人的图片或视频数据冒充对应的客户，可以对各第一区间所具有的视频数据包和音频数据包的数量和进行检测，将数量和达到预设数量的第一区间作为第二区间，以使抽取的第二区间的丢包数量会更少，对抽取的图片解码更好，图片更加清晰。另一方面，可以结合第二区间内的视频数据和音频数据对客户进行验证，具体地的验证方式为，客户在说话时，其会产生对应的声音数据，此时检测客户脸部的变化情况，判断变化情况是否与声音数据保持一致，若一致，则可以表明是由客户本人在进行操作。另外检测变化情况的方式为获取具有声音数据时视频数据中的多帧连续图片，根据预设的三值化法对图片进行数字化，检测每帧图片中脸部处的特征值，判断特征值的变化情况是否与声音数据保持一致，即检测当前的声音数据是否由客户所发出的，从而实现对客户的信息的检测。

如上述步骤S3所述，从各所述第一区间中选取所述数量和达到预设数量的第一区间，作为第二区间。即将数量和达到预设数量的第一区间认定为第二区间，从丢包数量少的第二区间中抽取图片，以使抽取的图片解码后的图片更加清晰。

如上述步骤S4所述，从各所述第二区间中选取预设个数的第二区间作为目标区间，并分别从各所述目标区间中任意选取一帧暂时图片。一般而言，设置的预设数量不会太大，而满足要求的第二区间会比较多，为了节省计算量，可以从各个第二区间中选取预设个数的目标区间，选取的方式可以是随机选取，也可以是选取数量和较多的第二区间，本申请对此不做限定，可以实现选取预设个数的选取方法均在本申请的保护范围内。另外，若第二区间的数量小于该预设个数，则说明整个视频通话过程都处于网络不好的情况下，此时都无法与客户进行正常沟通，也即无需对客户的信息进行核实。

如上述步骤S5所述，将各所述暂时图片分别进行解码处理，得到对应的解码图片。解码处理的方式具体为，先判断暂时图片的类别，在视频通话过程中，获取到的视频数据往往是压缩后的数据，即原始图像数据一般会采用H.264编码格式进行压缩，每多张图像进行编码后生产成一段一段的GOP(Group of Pictures)，每一个GOP组合由一张I帧和数张B/P帧组成。其中，I帧表示关键帧，可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成；P帧，是通过充分降低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像；B帧，既考虑与源图像序列前面已编码帧，也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像。因此需要根据暂时图片的属性进行对应的解码。

如上述步骤S6所述，按照预设的图片质量评分方法对各所述解码图片进行评分。其中，预设的图片质量评分方法，可以仅仅是针对像素的维度进行评分，也可以是多维度进行评分，例如，图片的曝光率、暗光率、遮挡度、大偏角和模糊度等图像质量参数，从不同的维度对图片进行综合评分。

如上述步骤S7所述，将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别。根据评分结果将评分最高的解码图片进行提取，以进行人脸识别，从而保证识别到人脸的准确度，使可以完成自动化识别，以节约人力资源。

在一个实施例中，所述从各所述第二区间中选取预设个数的第二区间作为目标区间的步骤S4，包括：

S401：检测各所述第二区间内的视频数据包和音频数据包的时间和数量是否对应；

S402：将视频数据包和音频数据包的时间和数量相对应的所述第二区间，标记为第三区间；

S403：获取所述第三区间的各个所述视频数据包以及各所述视频数据包的包序号；

S404：根据所述第三区间内最后一个视频数据包的包序号，与最前一个视频数据包的包序号之间的差值，得到理论包数量；

S405：将实际包数量与所述理论包数量相比，得到比值；所述实际包数量为在所述第三区间内的所述视频数据包的实际数量；

S406：按照各所述第三区间的比值大小，从大至小依次选取预设个数的目标区间。

如上述步骤S401-S402所述，实现了对目标区间的选取。即先检测各个第二区间的视频数据包和音频数据包是否对应，检测的方式为检测视频数据包和音频数据包的产生时间是否对应，然后再检测音频数据包和视频数据包的数量是否对应，因为一个区间内，其接收音频数据包和视频数据包到的时间应当是相同或者极为接近的，且单位时间内产生的视频数据包和音频数据包也是对应的，考虑到丢包的因素，可以设置一个浮动范围，当在该浮动范围内时，则认定该第二区间符合要求，可以将符合要求的第二区间当作第三区间进行提取，以便于进行下一步的检测。

如上述步骤S403-S406所述，由于每个视频数据包具有包序号，可以根据其最后一个视频数据包的包序号，与最前一个视频数据包的包序号之间的差值得到理论包数量，然后检测第三区间内视频包的数量，得到对应的实际包数量，将实际包数量与所述理论包数量相比，得到的比值可以反应出各个第三区间丢包比率，然后选取丢包最少的，即比值最大的第三区间，以作为目标区间，从而进一步保证了提取到的图片，可以进行高质量的解码，以得到清晰的解码图片。

在一个实施例中，所述将各所述暂时图片分别进行解码处理，得到对应的解码图片的步骤S5，包括：

S501：检测所述暂时图片的图片信息；

S502：若所述图片信息显示所述暂时图片为P帧，则在所述视频数据中位于所述暂时图片之前的图片中，找出离所述暂时图片最近的目标关键帧；

S503：将所述目标关键帧对应的图片至所述暂时图片之间的所有图片输入至CODEC解码器进行解码，以得到所述解码图片。

在一个实施例中，检测到该暂时图片的信息，判断其为GOP(Group of Pictures)组合中的哪一帧图片，当提取到的图片为P帧时，由于是通过充分降低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像，故根据视频数据需要向前述找出离暂时图片最近的目标关键帧，然后将该目标关键帧对应的图片至所述暂时图片之间的所有图片组合之后，通过CODEC解码器解码为一张图片，即得到了解码图片。即实现了对P帧图片的解码。

在一个实施例中，所述检测所述暂时图片的图片信息的步骤S501之后，还包括：

S5021：若所述图片信息显示所述暂时图片为B帧，则获取位于所述暂时图片之后的图片中，与下一个目标关键帧图片之间所有的P帧图片，以及位于所述暂时图片之前的离所述暂时图片最近的目标关键帧；其中，所述目标关键帧为携带全部信息的独立帧；

S5022：将所述暂时图片、所述目标关键帧对应的图片以及所述所有的P帧图片输入至CODEC解码器进行解码，以得到所述解码图片。

如上述步骤S5021-S5022所述，当图片信息显示暂时图片为B帧时，由于其既与源图像序列前面已编码帧相关，也与源图像序列后面已编码帧之间的时间冗余信息相关，以压缩传输数据量的编码图像。故而需要获取到其后述图片中至下一个I帧(即目标关键帧)之间所有的P帧图片，也需要找出前述图片中里暂时图片最近的目标关键帧，然后将暂时图片、所述目标关键帧对应的图片以及所述所有的P帧图片输入至CODEC解码器进行解码，以得到所述解码图片。

另外，若图片信息显示暂时图片为I帧(即关键帧)，则可以直接根据CODEC解码器进行解码。

在一个实施例中，所述按照预设的图片质量评分方法对各所述解码图片进行评分的步骤S6，包括：

S601：获取所述解码图片的像素值；

S602：根据所述像素值与得分系数的对应关系，得到对应的得分系数；

S603：将所述解码图片输入至预先构建的图像检测模型中，得到所述解码图片在各个维度中的维度值；

S604：将所述得分系数和各个所述维度值输入公式

如上述步骤S601-S604所述，获取到解码图片的像素值，由于解码图片已经得到，可以根据相应的图像处理软件，例如通过PS(Photoshop)可以直接得到解码图片的像素值，考虑到解码图片的像素也会有差异，而对于解码图片来说，像素是一个非常重要的指标，故而可以事先建立其像素和得分系数的对应关系，在获取到解码图片的像素后，可以直接得到对应的得分系数k，然后还需要考虑到其他维度对分数的影响，可以按照各个维度对解码图片进行人脸识别的重要性事先分配不同的权重系数w_i，然后根据在各个维度的维度值v_i，根据公式

计算得到各个解码图片的评分值，该公式考虑到了图片的各个维度，根据综合对图片维度进行评分，使评分更具标准化，也提高了解码图片可以进行人脸识别的准确性。

在一个实施例中，所述按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和的步骤S2之前，包括：

S101：提取所述音频数据中的声音特征信息；

S102：在预设的声音数据库中，获取与所述声音特征信息所对应的业务场景信息；

S103：将所述音频数据转换成语义信息，并提取所述语义信息中的地址关键字；

S104：根据所述业务场景信息和所述地址关键字识别当前场所；

S105：判断所述当前场所是否满足对话要求；

S106：若满足对话要求，则可以继续执行所述按照时间顺序将所述视频通话过程分割为多个第一区间，并分别统计各所述第一区间内视频数据包和音频数据包的数量和的步骤。

如上述步骤S101-S106所述，实现了对场所的认定，即先提取音频数据中的声音特征信息，提取的方式可以是通过Librosa音频处理库和openSMILE工具包进行声音的提取，通过在查询预设的声音数据库中预先存储的声音特征信息与业务场景对应表，来识别业务场景信息，再将音频数据转换成语义信息，提取语义信息中的地址关键字，根据地址关键字查询客户所在的位置(在一些实施例中也可以通过GPS来识别客户所在的位置)，根据业务场景信息和位置，得到客户所在的场所，即当前场所，判断当前场所是否满足通话请求，即是否在人多嘈杂的场所，当然，各类场所与是否满足通话请求也事先存储在数据库中，得到了客户的当前场所，即可以判断处当前场所是否满足通话请求，若满足了通话请求，则可以继续执行步骤S2中的内容，从而保证了客户信息的安全。

在一个实施例中，所述将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别的步骤S7之前，还包括：

S611：获取所述待识别图片在所述视频通话过程时间戳；

S612：基于所述时间戳获取间隔预设时间的辅助识别图片；

S613：对所述辅助识别图片和所述待识别图片进行灰度化处理，对应得到第一灰度图片和第二灰度图片；

S614：计算灰度图片的第m列或者第m行的所有像素点的灰度值的平均值A_m，以及计算灰度图片中所有像素点的灰度值的平均值B；其中所述灰度图片为所述第一灰度图片或第二灰度图片；

S615：根据公式

S616：根据公式

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差；

S617：判断

是否小于预设的方差误差阈值；

S618：若

如上述步骤S611-S612所述，根据当前视频通话的时间戳获取到间隔预设时间的辅助识别图片，其中，该间隔预设时间可以是向前的间隔预设时间，也可以是向后的间隔预设时间，可以自行设定，也可以都获取，进行两次识别的过程，时间戳为待识别图片对应的视频数据包所对应的接收时间，将视频数据包的接收时间作为时间戳。

如上述步骤S613-S618所述，实现了对待识别图片进行人脸识别前的检测，其中，灰度化指将彩色表示一种灰度颜色，例如在在RGB模型中，如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B的值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值)，从而减少存储量。灰度范围例如为0-255(当R,G,B的取值均为0-255时，当然也会随R,G,B的取值范围的变化而变化)。采用灰度化处理的方法可以为任意方法，例如分量法、最大值法、平均值法、加权平均法等。其中，由于灰度值的取值只有256种，在此基础上进行图片对比能够大大减轻计算量。再计算所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值A_m，以及计算所述灰度图片中所有像素点的灰度值的平均值B。其中，计算所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am的过程包括：采集所述灰度图片的第m列或者第m行的所有像素点的灰度值，对所述第m列或者第m行的所有像素点的灰度值进行加和处理，将进行过加和处理得到的灰度值之和除以所述第m列或者第m行的所有像素点的数量，得到所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am。计算所述灰度图片中所有像素点的灰度值的平均值B的过程包括：计算所述灰度图片中所有像素点的灰度值之和，再以所述灰度值之和除以所述像素点的数量，得到所述灰度图片中所有像素点的灰度值的平均值B。根据公式

计算所述灰度图片的第m列或者第m行的总体方差

其中N为所述灰度图片中的列或者行的总数量。在本申请中，采用总体方差来衡量所述灰度图片的第m列或者第m行的像素点的灰度值的平均值Am与所述灰度图片中所有像素点的灰度值的平均值B之间的差异。

根据公式

获得两张所述灰度图片的第m列或者第m行的总体方差之差

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差。总体方差之差

反应了两张灰度图片的第m列或者第m行的灰度值的差异。当

较小时，例如为0时，表明

等于或者近似等于

可视为第一张灰度图片第m列或者第m行的灰度值与第二张灰度图片第m列或者第m行的灰度值相同或者近似相同(近似判断，以节省算力，并且由于不同的两张图片的总体方差一般不相等，因此该判断的准确性很高)，反之认为第一张灰度图片第m列或者第m行的灰度值与第二张灰度图片第m列或者第m行的灰度值不相同。判断

是否小于预设的方差误差阈值。其中

的返回值即为

中的最大值。若

小于预设的方差误差阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。从而利用了近似判断(由于两张不同图片转化为的灰度图片的所有灰度值一般不相等，而相同图片转化为的灰度图片的所有灰度值一般相等)，实现了在消耗较少计算资源的前提下，判断所述辅助识别图片与所述待识别图片是否相似。据此，当辅助识别图片与待识别图片相似的前提下，才进行后续的步骤(若辅助识别图片与所述待识别图片相似，则表明客户一直在同一场景下，且网络良好，没有发生位置的变动，即客户所处的环境满足识别条件防止非法分子利用客户的剪辑视频以冒充客户办理业务)，从而保证了客户资料的安全性。

参照图2，本发明还提供了一种待识别图片的提取装置，包括：

数据获取模块10，用于获取视频通话过程中的视频数据和音频数据；

分割模块20，用于按照时间顺序将所述视频通话过程分割为多个第一区间，并统计每个所述第一区间内视频数据包和音频数据包的数量和；

第一选取模块30，用于从各所述第一区间中选取所述数量和达到预设数量的第一区间，作为第二区间；

第二选取模块40，用于从各所述第二区间中选取预设个数的第二区间作为目标区间，并分别从各所述目标区间中任意选取一帧暂时图片；

解码模块50，用于将各所述暂时图片分别进行解码处理，得到对应的解码图片；

评分模块60，用于按照预设的图片质量评分方法对各所述解码图片进行评分；

提取模块70，用于将所述评分最高的所述解码图片作为待识别图片进行提取，以进行人脸识别。

在一个实施例中，所述第二选取模块40，包括：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种视频数据和音频数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的待识别图片的提取方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的待识别图片的提取方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。