CN115565539B

CN115565539B - 一种实现自助矫正终端防伪身份验证的数据处理方法

Info

Publication number: CN115565539B
Application number: CN202211452777.2A
Authority: CN
Inventors: 彭杰; 王成波; 冯方亮
Original assignee: China Netway Technology Group Co ltd
Current assignee: China Netway Technology Group Co ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-02-07
Anticipated expiration: 2042-11-21
Also published as: CN115565539A

Abstract

本发明公开了一种实现自助矫正终端防伪身份验证的数据处理方法，所述数据处理方法包括以下步骤：自助矫正终端响应于当前用户进行身份认证的触发操作，执行语音身份认证流程，包括生成当前用于语音身份验证的防伪验证规则；采集当前用户基于所述防伪验证规则进行朗读的待认证语音；根据当前用户的识别结果判定所述当前用户是否通过认证。本发明实施例将声纹、动态语句文本和空白语音片段结合，通过三重信息比对进行身份验证，从而能够避免声纹被伪造而造成的安全隐患。

Description

一种实现自助矫正终端防伪身份验证的数据处理方法

技术领域

本发明属于数据处理技术领域，具体涉及一种实现自助矫正终端防伪身份验证的数据处理方法。

背景技术

自助矫正终端是用于社区矫正对象入矫报到、信息采集、日常信息办理等业务场景，集生物信息采集、扫描、业务办理为一体的智能化交互终端，可有效提高日常使用工作效率。而在矫正对象进行报到登记、自助学习等其他业务办理时，均需要先通过身份验证，验证通过时方能办理相关业务。

加强监督管理是社区矫正工作的核心，对避免脱管漏管、减少社会危险隐患具有重要作用。在社区矫正期间，要求矫正对象在指定时间到指定地点进行报到登记、矫正学习等，而自助矫正终端的身份验证则是监督管理矫正对象的第一道防线，身份验证技术的安全性和可靠性也日益重要。目前，生物特征具有高度独立性，通过可检测并能自动识别人的生物学特征和行为特征，来进行对个人身份认定的验证。目前，自助矫正终端也采用生物特征进行身份验证，如二代身份证指纹比对核验、声纹采集比对和人脸采集比对。

然而，申请人研究发现，随着计算机技术的快速发展，常规生物特征的身份验证手段存在安全性和可靠性较低的问题，不适用在某些高验证要求的应用场合：

随着使用生物特征进行身份认证的应用越来越多，身份认证带来便捷和可靠的同时自身存在的一些安全隐患也被显露出来。特别是生物特征模板的安全尤为受到重视。例如，面部识别信息和指纹数据容易被多种技术进行伪造，而声纹可通过提前录音、计算机技术伪造等方式进行伪造，容易被不当人员用于帮助矫正对象进行非正常途径的身份验证而逃脱监管。

现有用于身份验证的生物特征数据，可通过计算机技术进行伪造，从而使对其进行的管理失去意义。为此，如何对现有基于生物特征的身份验证技术进行优化设计，有待提供更为可靠、加大伪造难度的身份验证技术。

发明内容

本发明的目的是要解决上述的技术问题，提供一种实现自助矫正终端防伪身份验证的数据处理方法。

为了解决上述问题，本发明按以下技术方案予以实现的：

第一方面，本发明提供了一种实现自助矫正终端防伪身份验证的数据处理方法，所述数据处理方法包括以下步骤：

自助矫正终端响应于当前用户进行身份认证的触发操作，执行语音身份认证流程，所述语音身份验证流程包括：

根据所述触发操作，生成当前用于语音身份验证的防伪验证规则；其中，所述防伪验证规则由至少一个动态语句文本组成，每一动态语句文本配置有一个停止语音指令，所述停止语音指令包含停止时长和指示当前用户停止发出语音的图像信息；

根据所述防伪验证规则，在第一预设显示区域显示当前需要用户朗读的动态语句文本；在第二预设显示区域按序逐一显示当前需要用户朗读的动态语句文本的字符，当执行动态语句文本的停止语音指令时，第二预设显示区域切换为所述停止语音指令的图像信息，并根据停止时长显示所述图像信息；

采集当前用户基于所述防伪验证规则进行朗读的待认证语音；

对所述待认证语音进行声纹识别，以识别当前用户的身份；

对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段；

根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证。

结合第一方面，本发明还提供了第一方面的第1种优选实施方式，具体的，所述动态语句文本通过利用由26个英文字母和全量简体汉字构成的动态文本库中的字符随机排列组合生成，所述动态语句至少包括10个字符。

结合第一方面，本发明还提供了第一方面的第2种优选实施方式，具体的，每一动态语句配置有一个停止语音指令，具体为：

随机在所述动态语句的任意两个相邻字符之间配置一个停止语音指令。

结合第一方面，本发明还提供了第一方面的第3种优选实施方式，具体的，所述停止时长在时间区间5～15s中随机生成，在所述图像信息中不包括停止时长的信息。

结合第一方面，本发明还提供了第一方面的第4种优选实施方式，具体的，对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段，具体包括以下步骤：

对采集的待认证语音进行分帧操作，得到多个语音帧；

获取各语音帧的语音强度，将各个语音帧的语音强度和预设语音强度范围进行比较，得到语音强度检测结果；

根据语音强度检测结果，将各个语音帧划分为朗读语音帧和空白语音帧；

依次将两个相邻语音帧之间的若干连续的空白语音帧进行组合，得到多个空白片段；

将空白片段的时长与第一预设时间阈值和第二预设时间阈值比较；

当空白片段的时长小于第一预设时间阈值，则删除该空白片段的空白语音帧；

当空白片段的时长大于第一预设时间阈值且小于第二时间阈值时，将空白片段标记为空白语音片段；

当空白片段的时长大于第二时间阈值时，将空白片段标记为异常空白片段。

结合第一方面，本发明还提供了第一方面的第5种优选实施方式，具体的，对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段，还具体包括以下步骤：

将朗读语音帧按序进行组合，得到朗读语音片段；

将朗读语音片段转换为待验证文本信息，将待验证文本信息与防伪验证规则的多个动态语句文本进行比对；

若比对结果一致，则输出朗读语音片段认证成功结果；

如比对结果不一致，则输出朗读语音片段认证不成功结果。

结合第一方面，本发明还提供了第一方面的第6种优选实施方式，具体的，根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证，具体包括以下步骤：

若当前用户的身份识别结果和朗读语音片段比对结果均为认证成功，且仅识别有空白语音片段时，判定所述当前用户的身份认证通过；

若当前用户的身份识别结果为声纹不一致时，判定所述当前用户的身份认证异常，实时发出异常通知至后台；

若当前用户的待认证语音中未识别有空白语音片段或识别有异常空白片段时，判定所述当前用户的身份认证异常，实时发出异常通知至后台；

若当前用户的身份识别结果为认证成功，且仅识别有空白语音片段，而朗读语音片段比对结果为认证不成功时，判定所述当前用户重新认证，重新进行语音身份认证；

若当前用户的身份识别结果为认证成功，识别同时有空白语音片段和异常空白片段时，判定所述当前用户重新认证，重新进行语音身份认证。

结合第一方面，本发明还提供了第一方面的第7种优选实施方式，具体的，所述自助矫正终端设置有图像采集装置，所述图像采集装置用于在用户进行身份验证时拍摄图像数据；所述自助矫正终端还执行智能设备使用监测步骤，具体包括：

当第二预设显示区域逐一显示动态语句文本的字符时，图像采集装置拍摄得到多个图像数据；

获取每个图像数据中的当前用户的人体姿态信息，根据人体姿态信息识别用户是否使用智能设备；

若识别人体姿态信息为使用智能设备，则标记使用智能设备次数增加1，累计使用智能设备总数；

当使用智能设备总数超过预设次数阈值时，判定所述当前用户的身份认证异常，实时将多个图像数据和异常通知发送至后台。

结合第一方面，本发明还提供了第一方面的第8种优选实施方式，具体的，所述第二预设显示区域的面积大于第一预设显示区域的面积；

所述第二预设显示区域位于所述自助矫正终端的显示界面中部区域，第一预设显示区域位于所述第二预设显示区域的上方或下方。第二预设显示区域

第二方面，本发明还提供了一种实现自助矫正终端防伪身份验证的数据处理系统，所述数据处理系统部署在自助矫正终端中；

自助矫正终端响应于当前用户进行身份认证的触发操作，数据处理系统执行语音身份认证流程，数据处理系统包括：

规则生成模块，其根据所述触发操作，生成当前用于语音身份验证的防伪验证规则；其中，所述防伪验证规则由至少一个动态语句文本组成，每一动态语句文本配置有一个停止语音指令，所述停止语音指令包含停止时长和指示当前用户停止发出语音的图像信息；

显示模块，根据所述防伪验证规则，在第一预设显示区域显示当前需要用户朗读的动态语句文本；在第二预设显示区域按序逐一显示当前需要用户朗读的动态语句文本的字符，当执行动态语句文本的停止语音指令时，第二预设显示区域切换为所述停止语音指令的图像信息，并根据停止时长显示所述图像信息；

获取模块，其用于获取自助矫正终端采集当前用户基于所述防伪验证规则进行朗读的待认证语音；

第一识别模块，其用于对所述待认证语音进行声纹识别，以识别当前用户的身份；

第二识别模块，其用于对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段；

判定模块，其用于根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证。

与现有技术相比，本发明的有益效果是：

本发明提供了一种实现自助矫正终端防伪身份验证的数据处理方法，包括以下步骤：自助矫正终端响应于当前用户进行身份认证的触发操作，执行语音身份认证流程，所述语音身份验证流程包括：

采集当前用户基于所述防伪验证规则进行朗读的待认证语音；对所述待认证语音进行声纹识别，以识别当前用户的身份；对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段；根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证。

（1）本发明实施例将声纹、动态语句文本和空白语音片段结合，通过三重信息比对进行身份验证，从而能够避免声纹被伪造而造成的安全隐患和逃脱管理的问题，进一步提高了自助矫正终端对当前用户的身份认证的安全性和可靠性，实现对当前用户的防伪身份验证。

（2）本发明通过将声纹识别、基于动态语句文本的语音识别，以及在语音中加入特定的空白语音段的多重关联认证方法，提高身份认证的安全性，即使声纹信息被伪造，也难以通过动态语句文本的语音识别认证。更进一步，即便伪造语音算法实现了声纹的模拟和朗读动态语句文本，现有伪造语音算法也难以在伪造的语音中，增加随机位置、随机时长的空白语音段，进而让非正常认证的用户无法伪造满足本技术防伪验证规则的语音而导致认证失败。

本发明通过层层加码，在现有语音识别的身份认证基础上进行改进，极大提高语音的伪造难度，以使自助矫正终端进行身份认证的安全性和可靠性更强，技术容易实现且具有易用性，以应用在社区矫正的监督管理中，极具有实用性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，其中：

图1是本发明的一种实现自助矫正终端防伪身份验证的数据处理方法的流程示意图；

图2是本发明的一种实现自助矫正终端防伪身份验证的数据处理系统的组成示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

目前，现有技术中，已经将指纹、人脸等生物特征应用在身份认证系统中，但是当前的生物特征验证的漏洞频发。指纹识别方面，个人指纹信息极其容易复制，通过模具仿造，即可复制指纹形态。而人脸识别方面，可以通过静态照片、人脸视频、换脸应用程序就可以成功攻击人脸识别系统。除此指纹，针对声纹身份认证的攻击手段也开始涌现，对声纹身份认证的安全性造成了很大的威胁，如通过计算机算法的声纹模仿、语音合成，或者是录音重放攻击。

为解决现有用于身份验证的生物特征数据，可通过计算机技术进行伪造的难题，当被非法人员有目的的使用，为矫正人员提供便利，从而躲避监管，从而使对其进行的管理失去意义的难题。本发明提供了一种实现自助矫正终端防伪身份验证的数据处理方法，包括以下步骤：自助矫正终端响应于当前用户进行身份认证的触发操作，执行语音身份认证流程，所述语音身份验证流程包括：

（2）本发明通过将声纹识别、基于动态语句文本的语音识别，以及在语音中加入特定的空白语音段的多重关联认证方法，提高身份认证的安全性，即使声纹信息被伪造，也难以通过动态语句文本的语音识别认证。更进一步，即便伪造语音算法实现了声纹的模拟和朗读动态语句文本，现有伪造语音算法也难以在伪造的语音中，增加随机位置、随机时长的空白语音段，进而让非正常认证的用户无法伪造出满足本技术防伪验证规则的语音而导致认证失败。

具体的，本发明结合附图和实施例，对一种实现自助矫正终端防伪身份验证的数据处理方法、系统进行如下的详细说明。

实施例1

参见图1所示，本发明实施例1所述的一种实现自助矫正终端防伪身份验证的数据处理方法的流程示意图，具体的，包括以下步骤：

S100：根据所述触发操作，生成当前用于语音身份验证的防伪验证规则；其中，所述防伪验证规则由至少一个动态语句文本组成，每一动态语句文本配置有一个停止语音指令，所述停止语音指令包含停止时长和指示当前用户停止发出语音的图像信息。

在一种具体实施中，触发操作由待身份认证的当前用户，在操作自助矫正终端时触发。例如，当前用户通过自助矫正终端先进行了第一重的身份证认证后，当前用户需要进行后续的业务流程时，如报到登记、自助学习、执行地变更等业务操作，需要进行第二重的身份认证，例如人脸识别认证、指纹识别认证或语音身份认证（在本发明中，语音身份认证流程是在用户完成身份证认证后，办理其他业务时是必须验证的）。

在一种优选实施中，自助矫正终端还可以执行至少包括语音身份认证流程的多重身份认证流程，即语音身份认证流程，与人脸身份认证和指纹识别认证中的至少一个进行组合，对当前用户进行多重身份认证。

具体的，当用户完成第一重身份证认证后，自助矫正终端可通过身份证信息在自身数据库中读取与身份证信息相关的验证数据集，验证数据集可以包括用户的身份信息、人脸信息、指纹信息、声纹信息、联系方式、社区矫正信息等等，基于验证数据集进行后续的认证流程。也可以通过第三方服务接口调取与身份证信息相关的验证数据集，例如相关部门系统提供的第三方接口。

本发明的核心创造在于，提供了一种新型的基于语音身份认证的防伪验证规则。所述防伪验证规则由至少一个动态语句文本组成，每一动态语句文本配置有一个停止语音指令。

在一种具体实施中，所述防伪验证规则可以是1个、2个、3个……N个动态语句文本组成。

在一种优选实施中，每个动态语句文本为多个不相同的随机组合排列的字符串。

在一种具体实施中，所述动态语句文本通过利用由26个英文字母和全量简体汉字构成的动态文本库中的字符随机排列组合生成，所述动态语句至少包括10个字符。这有助于构建伪造难度大的动态语音文本，而对于正常验证的用户而言，具备一定认知能力的人员即可简单朗读出来。

在一种具体实施中，动态语句文本可以是“富文和自平公法爱敬诚友”、“富文H自平公法爱敬诚友”、“富文HZ平公法爱敬诚Y”、“富W和Z平G法A敬C友”等等。

更进一步，本发明的防伪验证规则中，还在动态语音文本中插入了停止语音指令。其中，所述停止语音指令包含停止时长和指示当前用户停止发出语音的图像信息。停止语音指令的原理具体参见S200中的说明。

具体的，所述防伪验证规则中设置了停止语音指令的顺序配置，随机在所述动态语句的任意两个相邻字符之间配置一个停止语音指令。

仅作为一种示例，设置有停止语音指令的动态语句文本的信息配置，可以是：

${@textData|time:H|}其中，“@”表示预设显示为文本类型；“textData”为填入的文字内容；“H”为该文本内容的显示时长，如0.5s、1s等；“|”是属性分割符。

${@&imgData|time:h|}其中，“&”表示预设显示为图片类型；“imgData”为填入的图片内容，“h”为该文本内容的显示时长；“|”是属性分割符。

在一种具体实施中，所述停止时长在时间区间5～15s中随机生成，在所述图像信息中不包括停止时长的信息。一方面，停止语音指令的目的是打断用户进行语句的完整朗读，这样可以与伪造算法模拟的完整语句文本的语音有着极大的区别。另一方面，而通过在图片信息中不显示时长，具有随机性，更无法预测，目的是加大伪造难度。

在一种示例中，所述图像信息通过显眼的图/文，告知当前对象保存静默，不要发出语音（声音）。例如可以是停止说话的字眼、或者是禁止发声的图示。

需要说明的是，动态语句文本是本领域的一次性口令认证，即用户每次语音认证时，所生成的多个动态语句文本是不同的，且一次有效。动态语句文本具有动态性、随机性、一次性、伪造难、方便性等优点，具有较高的安全性和可靠性。

在一种优选实施中，采用多个动态语句文本进行组合，通过多个动态语句文本进行组合，目的是增加语音伪造的难度，让非法人员难以在现场中通过安装有伪造算法的智能设备多次伪造语音，且现场伪造时也有更多的顾虑。

S200：根据所述防伪验证规则，在第一预设显示区域显示当前需要用户朗读的动态语句文本；在第二预设显示区域按序逐一显示当前需要用户朗读的动态语句文本的字符，当执行动态语句文本的停止语音指令时，第二预设显示区域切换为所述停止语音指令的图像信息，并根据停止时长显示所述图像信息。

基于S100的防伪验证规则，自助矫正终端获取防伪验证规则后，在交互界面的第一预设显示区域和第二预设显示区域进行显示。自助矫正终端配设有用于人机交互的显示器，通过显示器的显示界面显示相关社区矫正程序的UI界面、以及学习的视频等等。

在一种优选实施中，所述第二预设显示区域的面积大于第一预设显示区域的面积；所述第二预设显示区域位于所述自助矫正终端的显示界面中部区域，第一预设显示区域位于所述第二预设显示区域的上方或下方。如此一来，用第二预设显示区域凸显动态语句文本的相关内容，方便当前用户查看。

其中，第一预设显示区域是显示当前需要用户朗读的动态语句文本，多个动态语句文本，依次轮训显示即可，这样便于让用户了解稍后进行朗读的文本内容。设置第一预设显示区域还具有一定的诱导性作用，非正常人员看到第一预设显示区域的朗读内容后，可能会直接将朗读内容输入伪造算法做好准备，在验证时直接生成语音播放，而停止语音指令更会让对方措手不及。第二预设显示区域是逐一显示当前需要用户朗读的具体字符。

在一种具体实例中，以①动态语句文本内容“富文和自平公法爱敬诚友”，在“法”与“爱”之间插入了一个时长为6s的停止语音指令；②动态语句文本内容“富W和Z平G法A敬C友”，在“Z”与“平”之间插入了一个时长为8s的停止语音指令，为例进行说明：

具体的，在第一预设显示区域中，首先显示完整的①动态语句文本内容“富文和自平公法爱敬诚友”。当进行语音身份验证时，第二预设显示区域会显示“准备语音身份认证”的告示，待用户点击确认进行后，自助矫正终端开始采集当前用户基于所述防伪验证规则进行朗读的待认证语音，同时，第二预设显示区域会根据防伪验证规则的信息配置，按照“富”→“文”→“和”→“自”→“平”→“公”→“法”→“图片信息”→“爱”→“敬”→“诚”→“友”依次进行显示。当“友”显示完后，第一预设显示区域切换②动态语句文本内容“富W和Z平G法A敬C友”，第二预设显示区域会根据防伪验证规则的信息配置，按照“富”→“W”→“和”→“Z”→“图片信息”→“平”→“G”→“法”→“A”→“敬”→“C”→“友”依次进行显示。

在这个过程中，当前用户需要按着第二预设显示区域显示的“字符”依次进行朗读，当第二预设显示界面的内容由“字符”切换为“图片信息”时，用户需要停止朗读。而当第二预设显示界面的内容由“图片信息”切换为“字符”时，用户即可继续朗读。

为了方便用户了解语音的采集规则，在进入语音身份认证时，可通过显示屏显示相关的规则文字说明，让用户了解整个语音身份验证的过程。例如在规定时间内进行语音朗读、又例如当看到图像信息时，需要用户停止朗读等操作。

S300：采集当前用户基于所述防伪验证规则进行朗读的待认证语音。

在一种具体实施中，自助矫正终端配置有麦克风，通过麦克风采集用户朗读的待认证语音。

S400：对所述待认证语音进行声纹识别，以识别当前用户的身份。

在具体实施中，语音的声纹特征可以参考相关技术获取，例如，利用混合高斯模型(Gaussian Mixture Model，GMM)-通用背景模型(Universal Background Model，UBM)，一种基于通用背景模型的混合高斯模型，获取输入语音的声纹特征；还可以利用GMM-ivector模型获取输入语音的声纹特征；还可以利用DNN(Deep Neural Networks，深度神经网络)-ivector模型获取输入语音的声纹特征；还可以利用其他的声纹特征提取模型获取输入语音的声纹特征，这里不再一一列举。

在第一重身份证信息认证时，已经预先从数据库中将与身份证信息关联的认证声纹信息调取，只需要从待认证语音中提取声纹特征，将声纹特征与认证声纹信息进行比对即可。声纹比对认证是本领域的现有技术，在此不过多说明。

具体的，当前用户的声纹特征与认证声纹信息比对成功，则判定身份识别结果为认证成功。当前用户的声纹特征与认证声纹信息比对不成功，则判定所述当前用户的身份认证异常。

S500：对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段。

在本发明中，具体包括以下步骤：

S510：对采集的待认证语音进行分帧操作，得到多个语音帧。

分帧处理是本领域的常规技术手段，在分帧之前，还可以对待认证语音进行预处理，这是语音身份认证的常规技术手段。

S520：获取各语音帧的语音强度，将各个语音帧的语音强度和预设语音强度范围进行比较，得到语音强度检测结果。

在一种具体实施中，预设语音强度范围可以是40～60分贝；最优是50～60分贝，这是人类言语清晰度最好的强度。因社区矫正的场所是特定场所，声音干扰较少。

S530：根据语音强度检测结果，将各个语音帧划分为朗读语音帧和空白语音帧。

在一种具体实施中，按着划分得到的连续的多个语音帧，根据语音强度划分后，对多个语音帧标记为朗读语音帧和空白语音帧，并按序排列。

S540：依次将两个相邻语音帧之间的若干连续的空白语音帧进行组合，得到多个空白片段。

在一种具体实施中，依次识别两个相邻的语音帧之间空白语音帧，将连续排列的多个空白语音帧进行合帧操作，得到一个空白帧集合，并标记为空白片段。若两个相邻的语音帧之间不存在语音帧时，直接跳过即可。按上述规则对所述语音帧进行操作。

S550：将空白片段的时长与第一预设时间阈值和第二预设时间阈值比较：

S551：当空白片段的时长小于第一预设时间阈值，则删除该空白片段的空白语音帧。

在一种具体实施中，当空白片段的时长小于第一预设时间阈值，这可能是用户说话的间隔导致。删除是方便识别待验证语音中是否有空白语音片段。通过删除语音中的无实际意义的空白片段，可节省存储空间，也可提高语音处理效率。

在一种具体实施中，也可以不对时长小于第一预设时间阈值的空白片段的空白语音帧进行删除。

S552：当空白片段的时长大于第一预设时间阈值且小于第二时间阈值时，将空白片段标记为空白语音片段。

S553：当空白片段的时长大于第二时间阈值时，将空白片段标记为异常空白片段。

在本发明中，第一时间阈值的设置，目的是筛选出无实际意义的时间阈值，并且基于现有语音伪造算法，并不会生成空白语音片段，即使待验证语音中没有空白语音片段，可以直接识别出当前认证存在异常。第二时间阈值的设置，是限制用户进行朗读的时间区间，不给非法人员预留太多时间以做现场伪造准备。

在具体实施中，所述第一预设时间阈值和第二时间阈值可以根据停止时长进行设置。

在一种具体实施中，第一预设时间阈值=停止时长-第一预设时间（0.5s、1s等，不宜过长）；第二预设时间阈值=停止时长+第二预设时间（1s、1.5s、2s等，不宜过长）。

S560：将朗读语音帧按序进行组合，得到朗读语音片段。

S570：将朗读语音片段转换为待验证文本信息，将待验证文本信息与防伪验证规则的多个动态语句文本进行比对。

S571：若比对结果一致，则输出朗读语音片段认证成功结果。

S572：如比对结果不一致，则输出朗读语音片段认证不成功结果。

在另一种实施中，语音信号能零比能够检测语音端点，区分有声段和无声段，也可以通过此方式，直接识别出空白片段。根据待验证语音的音频能量比分布情况，将音频区分为能零比较大的朗读语音段和能零比较小的空白片段，然后进一步地进行比对等。

S600：根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证。

进一步地，根据不同情况，本发明还提供了不同的认证结果应对策略，具体的，包括如下：

S610：若当前用户的身份识别结果和朗读语音片段比对结果均为认证成功，且仅识别有空白语音片段时，判定所述当前用户的身份认证通过。

S620：若当前用户的身份识别结果为声纹不一致时，判定所述当前用户的身份认证异常，实时发出异常通知至后台。

S630：若当前用户的待认证语音中未识别有空白语音片段或识别有异常空白片段时，判定所述当前用户的身份认证异常，实时发出异常通知至后台。

S640：若当前用户的身份识别结果为认证成功，且仅识别有空白语音片段，而朗读语音片段比对结果为认证不成功时，判定所述当前用户重新认证，重新进行语音身份认证。

S650：若当前用户的身份识别结果为认证成功，识别同时有空白语音片段和异常空白片段时，判定所述当前用户重新认证，重新进行语音身份认证。

本发明通过将异常通知发送至后台，目的是让后台人员及时查看当前用户的情况，以排查非法人员的违规操作。具体的，还可以将自助矫正终端的图像采集装置拍摄的当前照片、身份证信息、身份证信息中的人物图像进行回传，为工作人员进行人工比对，判断当前用户是否违规操作。

需要说明的是，对用户重新进行语音身份认证的次数设置相关次数阈值，当前用户重新进行语音身份认证的次数唱过次数阈值时，判定所述当前用户的身份认证异常，实时发出异常通知至后台。

在一种优选实施中，所述自助矫正终端设置有图像采集装置，所述图像采集装置用于在用户进行身份验证时拍摄图像数据；所述自助矫正终端还执行智能设备使用监测步骤，具体包括：

S1000：当第二预设显示区域逐一显示动态语句文本的字符时，图像采集装置拍摄得到多个图像数据。

在一种具体实施中，可以根据动态语句文本的数量、或者字符的数量设定拍摄次数。

S2000：获取每个图像数据中的当前用户的人体姿态信息，根据人体姿态信息识别用户是否使用智能设备。

在一种具体实施中，通过人体姿态信息判断当前用户是否使用智能设备，属于现有技术，其广泛应用在网约车平台对驾驶员的安全驾驶监测中。在一种具体技术中，采用YOLOv3检测图片中的人体；其次，对检测出的人体，通过OpenPose进行人体关键点的检测，获取手部的位置；然后,通过标签为“手”的关键点坐标来获取手部区域，并采用YOLOv3对这些区域进行智能设备（手机、平板电脑、语音笔、智能盒子）的检测，判断目标智能设备是否存在；最后，根据目标智能设备的存在情况设计神经网络分类器，将人体骨架中与智能设备操作强相关的若干关节点以及智能设备的位置作为输入,进行智能设备使用行为的识别。

且在专利文献中也有大量的公开，公开号为“CN109614939A”的发明专利提出了一种基于人体姿态估计的“玩手机”行为检测识别方法，该方法通过人体检测、人体关键点检测、手机检测和空间位置关系实现玩手机识别。公开号为“CN110852277A”的发明专利提出了一种应用于警务督察的玩手机识别系统及方法，该方法通过图像识别模块、人体定位模块和时序处理模块来实现玩手机识别。公开号为“CN110287838A”的发明专利公开了一种驾车玩手机行为的监控方法与系统，该方法使用速度特征确定目标位于交通工具上，在通过用户特征确定驾驶状态，最后对驾驶状态进行玩手机行为识别。公开号为“CN109871799A”的发明专利提出了一种基于深度学习的驾驶员玩手机行为的检测方法，该方法通过对视频进行动态跟踪处理，将互受干扰的目标区域分开训练检测，从而提升手和手机的特征提取准确率，实现高精度的驾驶员玩手机检测。公开号为“CN110287906A”的发明专利公开了一种基于图像视频检测人“玩手机”的方法及系统，该方法通过人体检测，手机检测和人脸朝向确定玩手机行为，从而实现玩手机检测。公开号为“CN110674728A”的发明专利公开了一种基于视频图像识别玩手机方法、装置、服务器及存储介质，该方法通过检测周期内的手部变化情况和手机色彩变化情况实现玩手机行为检测。上述技术均可以转用到本技术中，实现对当前对象的智能设备使用监测的目的。

在另一种实施中，也可以通过基于图像的物品识别技术，识别图像数据中是否有智能设备，如手机、平板电脑、语音笔、智能盒子等。基于图像的物品识别技术是现有技术，在此不过多说明。

S3000：若识别人体姿态信息为使用智能设备，则标记使用智能设备次数增加1，累计使用智能设备总数。

S4000：当使用智能设备总数超过预设次数阈值时，判定所述当前用户的身份认证异常，实时将多个图像数据和异常通知发送至后台。

在一种具体实施中，预设次数阈值可以依据S1000中拍摄的图像数据的总数，预设次数阈值为图像数据的总数*50%，预设次数阈值取整数。

因自助矫正终端是自助方式提供服务，自助矫正终端所在的环境不一定有人工监督管理。而违规人员利用智能设备进行伪造语音时，极大概率会有明显的使用智能设备的人体姿态行为。为此，通过自助矫正终端的图像采集装置进行拍照，一方面是留存数据作为证据，以供后续调查。另一方面，当前的语音身份认证出现异常报告时，可以将自助矫正终端的图像采集装置拍摄的图像数据回传至后台，以供后台人员直接快速的判断当前人员是否使用智能设备进行现场的音频伪造。为判定当前对象利用伪造语音进行身份认证的违规行为提供证据支撑。

在一种具体实施中，所述图像采集装置可以是摄像机、数码相机、高拍仪等等。

实施例2

如图2所示，本发明实施例2还提供了一种实现自助矫正终端防伪身份验证的数据处理系统，所述数据处理系统部署在自助矫正终端中，用于执行并实现实施例1中的语音身份认证流程；

其中，自助矫正终端响应于当前用户进行身份认证的触发操作，数据处理系统执行语音身份认证流程，数据处理系统包括：

所述实现自助矫正终端防伪身份验证的数据处理系统还包括其他用于执行并实现步骤S100-S600、S1000-S4000的功能模块，在此不过多说明。

本实施例所述一种实现自助矫正终端防伪身份验证的数据处理方法及系统的其它结构参见现有技术。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，故凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims

1.一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于，所述数据处理方法包括以下步骤：

对所述待认证语音进行声纹识别，以识别当前用户的身份；

将朗读语音片段转换为待验证文本信息，将待验证文本信息与防伪验证规则的多个动态语句文本进行比对；若比对结果一致，则输出朗读语音片段认证成功结果；如比对结果不一致，则输出朗读语音片段认证不成功结果；

将空白片段的时长与第一预设时间阈值和第二预设时间阈值比较；当空白片段的时长小于第一预设时间阈值，则删除该空白片段的空白语音帧；当空白片段的时长大于第一预设时间阈值且小于第二时间阈值时，将空白片段标记为空白语音片段；当空白片段的时长大于第二时间阈值时，将空白片段标记为异常空白片段；

根据当前用户的身份识别结果、朗读语音片段比对结果和空白片段比对结果，判定所述当前用户是否通过认证，具体包括：

2.根据权利要求1所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于：

所述动态语句文本通过利用由26个英文字母和全量简体汉字构成的动态文本库中的字符随机排列组合生成，所述动态语句至少包括10个字符。

3.根据权利要求2所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于，每一动态语句配置有一个停止语音指令，具体为：

4.根据权利要求3所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于：

所述停止时长在时间区间5s～15s中随机生成，在所述图像信息中不包括停止时长的信息。

5.根据权利要求4所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于，对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段比对结果，具体包括以下步骤：

对采集的待认证语音进行分帧操作，得到多个语音帧；

依次将两个相邻语音帧之间的若干连续的空白语音帧进行组合，得到多个空白片段。

6.根据权利要求5所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于，对所述待认证语音进行语音识别，以识别所述待认证语音中的朗读语音片段和空白片段比对结果，还具体包括以下步骤：

将朗读语音帧按序进行组合，得到朗读语音片段。

7.根据权利要求6所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于：

所述自助矫正终端设置有图像采集装置，所述图像采集装置用于在用户进行身份验证时拍摄图像数据；所述自助矫正终端还执行智能设备使用监测步骤，具体包括：

8.根据权利要求7所述的一种实现自助矫正终端防伪身份验证的数据处理方法，其特征在于：

所述第二预设显示区域的面积大于第一预设显示区域的面积；

所述第二预设显示区域位于所述自助矫正终端的显示界面中部区域，第一预设显示区域位于所述第二预设显示区域的上方或下方。