CN115062318A

CN115062318A - 智能终端无障碍人机识别方法和系统

Info

Publication number: CN115062318A
Application number: CN202210293264.5A
Authority: CN
Inventors: 刘洋
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-09-16

Abstract

本公开提出了一种智能终端无障碍人机识别方法和系统。该方法包括：接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与该智能终端所处场景的安全要求等级相关联；识别该用户基于所指示动作而完成的动作；判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成；以及基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定该用户通过人机识别。

Description

智能终端无障碍人机识别方法和系统

技术领域

本公开主要涉及人机识别领域，尤其涉及智能终端无障碍人机识别。

背景技术

近年来，打开小程序线上预约挂号、扫二维码支付购物货款、透过屏幕远程视频教学等各种新业态新模式的涌现，使人们的生活更加方便快捷。与此同时，由于客观存在的一些障碍，也给一部分老年人、偏远地区居民和残障人士带来了一定的不便。

当人们使用手机在网上进行网络购物、使用邮箱、观看视频时，首先需要进行账号登录。此时网站往往会要求用户进行人机验证，判断操作设备的是否是真人(而非机器)，此类验证码通常包括滑块验证码、图形验证码、数字验证码、文字验证码、数学题验证码等等。对于非视障人士而言，这些操作都非常简单，很容易就能够完成。然而，这些操作对于视障人士而言非常难以完成，这造成了极大的阻碍。当然，网站也可以要求视障人士输入支付密码进行验证，但是视障人士需要进行读屏，导致旁边的人可以很容易地知道支付密码。

视障人士无法通过基于视觉的传统验证码来进行人机识别。目前面向视障人士的常见验证码主要是短信和语音验证码，但这种方式也存在弊端。短信和语音验证码均需要下发多位数字，视障人士需要通过读屏功能读出这些数字，然后再通过读屏逐一进行输入，耗时长，用户体验差。

有鉴于此，期望提供一种改进的智能终端无障碍人机识别方法和系统。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。

本公开提出了一种智能终端无障碍人机识别方法，包括：接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与该智能终端所处场景的安全要求等级相关联；识别该用户基于所指示动作而完成的动作；判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成；以及基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定该用户通过人机识别。

在本公开的一实施例中，当所指示动作的复杂度与智能终端所处场景的低安全要求等级相关联时，该判断是基于智能终端的内置策略来进行的。

在本公开的一实施例中，当所指示动作的复杂度与智能终端所处场景的高安全要求等级相关联时，该判断是基于智能终端的本地联邦模型来进行的。

在本公开的一实施例中，所指示动作包括用户需要利用智能终端完成的单个动作或一组动作。

在本公开的一实施例中，该方法进一步包括：基于所识别动作与所指示动作不匹配并且所识别动作并非由真人完成来确定用户未通过人机识别。

在本公开的一实施例中，该方法进一步包括：基于所识别动作与所指示动作相匹配但所识别动作并非由真人完成或者所识别动作由真人完成但所识别动作与所指示动作不匹配来进行更高级别认证，并且其中，如果更高级别认证成功，则确定用户通过人机识别；如果更高级别认证失败，则确定用户未通过人机识别。

在本公开的一实施例中，本地联邦模型基于服务端的全局联邦模型来更新，其中用户的隐私数据不上传至服务端。

在本公开的一实施例中，本地联邦模型基于服务端的全局联邦模型来更新进一步包括：将通过训练得到的本地模型参数上传至服务端的全局联邦模型以供全局联邦模型进行更新；从服务端接收经更新的全局联邦模型的全局模型参数以对本地联邦模型进行更新。

本公开还提出了一种智能终端无障碍人机识别系统，包括：接收模块，接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与该智能终端所处场景的安全要求等级相关联；识别模块，识别该用户基于所指示动作而完成的动作；判断模块，判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成，并基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定该用户通过人机识别；以及输出模块，输出人机识别的结果。

在本公开的一实施例中，判断模块还被配置成：当所指示动作的复杂度与智能终端所处场景的低安全要求等级相关联时，基于智能终端的内置策略来进行该判断。

在本公开的一实施例中，判断模块还被配置成：当所指示动作的复杂度与智能终端所处场景的高安全要求等级相关联时，基于智能终端的本地联邦模型来进行该判断。

在本公开的一实施例中，判断模块还被配置成：基于所识别动作与所指示动作不匹配并且所识别动作并非由真人完成来确定用户未通过人机识别。

在本公开的一实施例中，判断模块还被配置成：基于所识别动作与所指示动作相匹配但所识别动作并非由真人完成或者所识别动作由真人完成但所识别动作与所指示动作不匹配来进行更高级别认证，并且其中，如果更高级别认证成功，则确定用户通过人机识别；如果更高级别认证失败，则确定用户未通过人机识别。

在本公开的一实施例中，该系统还包括模型更新模块，基于服务端的全局联邦模型来更新本地联邦模型，其中用户的隐私数据不上传至服务端。

在本公开的一实施例中，模型更新模块还被配置成：将通过训练得到的本地模型参数上传至服务端的全局联邦模型以供全局联邦模型进行更新；从服务端接收经更新的全局联邦模型的全局模型参数以对本地联邦模型进行更新。

本公开还提出了一种计算机可读存储介质，其存储计算机程序，该计算机程序能被处理器执行以执行前述智能终端无障碍人机识别方法。

本公开的技术方案通过要求用户利用手机终端完成空中动作，基于联邦学习的方法，在不泄露个人数据隐私的情况下完成人机识别判断和人机识别模型训练，进一步提高视障人士使用手机完成各类安全认证的便捷程度。

附图说明

结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显。在附图中，相同附图标记始终作相应标识。要注意，所描述的附图只是示意性的并且是非限制性的。在附图中，一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。

图1示出了本公开一实施例的智能终端无障碍人机识别方法的示例性流程图。

图2示出了本公开一实施例的用于判断是否通过人机识别的过程示意图。

图3示出了本公开一实施例的联邦学习模型的结构示意图。

图4示出了本公开一实施例的联邦学习模型更新的示意图。

图5示出了本公开一实施例的无障碍人机识别架构的示意图。

图6示出了本公开一实施例的智能终端无障碍人机识别系统的框图。

图7示出了本公开一实施例的包括智能终端无障碍人机识别系统的设备框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图对本公开进一步详细说明。在以下详细描述中，阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其它示例性实施例中，没有详细描述公知的结构，以避免不必要地模糊本公开的概念。应当理解，本文所描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。同时，在不冲突的情况下，实施例所描述的各个方面可以任意组合。

目前，使用验证码进行人机识别是常见的方式。验证码是一种区分用户是真人还是机器的公共全自动程序。验证码可以防止恶意破解密码、刷票、论坛灌水，有效阻止黑客对特定注册用户用特定程序暴力破解方式进行不断的登录尝试。

验证码可以有多种形式。例如，问题形式的验证码可以由计算机生成并评判，但是只有人类才能解答。由于计算机无法解答该问题，因此回答出问题的用户就可以被认为是真人而非机器。滑块验证码通过用户将滑块滑动至指定位置来进行人机识别。

然而，上述验证码均是基于视觉进行的人机识别，而视障人士无法通过基于视觉的传统人机识别方法进行人机识别。目前，面向视障人士的常规人机识别方案主要采用短信和语音验证码。短信和语音验证码需要下发多位数字，视障人士需要通过读屏功能才能读取数字，再通过读屏逐一进行输入各个数字，耗时长、用户体验差。

现有技术的人机识别方法不适用于视障人士。由此，本公开提出了一种智能终端无障碍人机识别方法和系统。

本公开的技术方案提示用户通过手持智能终端完成指定动作(例如，手持手机/智能手表在空中画一个圆形)，利用智能终端上的加速度计、陀螺仪等传感器来采集用户完成的动作，通过动作(而非视觉)来进行人机识别，克服了视障人士无法通过基于视觉方式的验证码进行人机识别的问题。

此外，利用智能终端上的传感器采集的用户数据往往包含用户的身份信息、语音信息、健康信息等隐私数据。在现有技术中，这些隐私数据通常直接上传至服务端进行分析和处理。如果服务端遭受恶意攻击或者发生人为错误或系统故障，则很可能会导致数据泄露。另外，在数据上传至服务端的过程中也存在遭受拦截或窃取的风险，从而引起隐私泄露。

有鉴于此，本公开进一步结合联邦学习来进行人机识别。联邦学习使用所采集的用户数据在本地进行训练，将训练得到的模型参数(而非原始数据)上传至服务端，而原始用户数据保留在智能终端本地，从而保护了用户隐私。

本公开的技术方案克服了视障人士无法通过常规验证码进行人机识别的问题，有助于视障人士更加便捷和安全地使用智能终端，同时避免泄露用户隐私，进一步提高信息无障碍水平。

图1示出了本公开一实施例的智能终端无障碍人机识别方法100的示例性流程图。

方法100开始于步骤102。在步骤102，接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与智能终端所处场景的安全要求等级相关联。

具体而言，当视障人士在智能终端(例如，智能手机)上进行各类上网或app 使用操作时，可以根据已有策略自动检测是否需要进行人机识别。例如，在视障人士查询个人社保信息、查询支付宝余额、还信用卡等场景下，可以确定需要进行人机识别。

当app处于新装状态时，自动从服务端下载最新的行为识别工具及其所需模型。当app非首次使用时，app根据实际场景判断安全要求等级，从动作库中抽取对应的单个动作或一组动作。

可以针对智能终端所处的场景定义相应的安全要求等级，从而使所指示动作的复杂度与智能终端所处场景的安全要求等级相关联。举例而言，当在支付宝内的小程序进行登录或者查询信息(例如，车管所查询违章、社保查询等等)的场景下，由于在登录支付宝时已经使用账号密码进行了核验，因此一般安全要求等级较低。而在网络购票场景下，为了避免个别人员利用自动化脚本进行购票，此类场景的安全要求等级往往较高。

应注意，上述场景和安全要求等级仅是示例性的而非限制性的。在实际实现中，可以根据实际情况针对各种场景定义不同的安全要求等级。

在本公开的一实施例中，所指示动作包括用户需要利用智能终端完成的单个动作或一组动作(例如，两个或三个动作的组合)。

举例而言，所指示动作可以是摇晃手机、用手指点击手机、用手机在空中画出指定图形、用手机在空中完成指定动作等等中的一个动作，或者是上述动作的组合。

在本公开的一实施例中，可以通过语音来向用户告知需要利用智能终端完成的动作。

在本公开的一实施例中，当智能终端所处场景的安全要求等级较低时，所指示动作的复杂度可以较低。例如，当用户在支付宝内的小程序进行登录或者查询信息时，所指示动作可以是摇晃手机、用手指点击手机等较为简单的动作。当用户在网络购票时，所指示动作可以是用手机在空中完成具有一定难度的一个或一组动作。在具体实现中，可以为单个动作或一组动作定义相应的复杂度。

在步骤104，识别用户基于所指示动作而完成的动作。

在接收到关于用户需要利用智能终端完成的动作的指示之后，用户可以使用智能终端根据所指示动作来完成动作。此时，智能终端可以识别用户基于所指示动作而完成的动作。

举例而言，可以通过安装在智能终端上的传感器(例如，加速度计、陀螺仪、重力计等)来采集用户的动作数据，从而得到所识别动作。

在步骤106，判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成。

在本公开的一实施例中，在所指示动作的复杂度与智能终端所处场景的低安全要求等级相关联的情况下，可以基于智能终端的内置策略来自行进行判断。内置策略可以在智能终端中预先设置或定义。

在本公开的一实施例中，在所指示动作的复杂度与智能终端所处场景的高安全要求等级相关联的情况下，可以基于智能终端的本地联邦模型来进行判断。关于联邦模型将在下文结合图2和3进一步详细描述。

在步骤108，基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定用户通过人机识别。

在方法100中，需要进行两个判断：(1)判断所识别动作与所指示动作是否匹配；(2)判断所识别动作是否由真人(而非机器)完成。

当上述两个判断均通过时(即所识别动作与所指示动作相匹配并且所识别动作由真人完成)，可以确定用户通过人机识别。此时，用户通过了安全认证并且可以进行后续操作(例如，社保查询、网络购票等等)。

关于两个判断均未通过以及仅通过一个判断的情况将在下文结合图2进行进一步解说。

方法100可以帮助视障人士进行人机识别，简单易用，避免了视障人士为了完成人机识别不得不输入个人支付密码或者无法使用滑块验证码的情况。同时，通过针对不同安全要求等级的场景定义不同复杂度的动作，进一步提高了视障人士使用智能终端完成各类认证的安全性和便捷性。

图2示出了本公开一实施例的用于判断是否通过人机识别的过程200的示意图。

如图所示，在过程200中，首先判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成(202)，该步骤对应于方法100中的步骤106。

如上文所描述的，此处需要进行两个判断：(1)判断所识别动作与所指示动作是否匹配；(2)判断所识别动作是否由真人(而非机器)完成。

如果通过判断得出所识别动作与所指示动作不匹配(判断框204处为“否”)，则接着判断所识别动作是否由真人完成(判断框206)。如果通过判断得出所识别动作并非由真人完成(判断框206处为“否”)，则确定用户未通过人机识别(216)。

如果通过判断得出所识别动作与所指示动作相匹配(判断框204处为“是”)，则接着判断所识别动作是否由真人完成(判断框208)。如果通过判断得出所识别动作由真人完成(判断框208处为“是”)，则确定用户通过人机识别(214)。

如果上述两个判断中一个判断通过而另一个判断未通过(判断框204处为“是”而判断框208处为“否”，或者判断框204处为“否”而判断框206处为“是”)，则进行更高级别认证(210)。

举例而言，更高级别认证可以是通过电话进行认证。如果更高级别认证未通过(判断框212处为“否”)，则认为用户未通过人机识别，并退出此次认证。如果更高级别认证通过(判断框212处为“是”)，则认为用户通过人机识别，并且可以进行后续操作。

应注意，过程200中的两个判断是相互独立的。虽然在过程200中示出了首先判断所识别动作与所指示动作是否匹配，之后判断所识别动作是否由真人完成，但这两个判断可以同时进行，也可以交换先后顺序。

过程200通过采用两个判断来确定用户是否通过人机识别，同时在仅有一个判断通过的情况下通过更高级别认证来进行进一步安全认证。这种方式有效提高了人机识别的安全性和可靠性。

图3示出了本公开一实施例的联邦学习模型300的结构示意图。

联邦学习(Federated Learning)是一种新兴的人工智能基础技术，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算节点之间开展高效率的机器学习。联邦学习本质上是一种分布式机器学习技术。联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

在传统的机器学习中，通常将模型训练需要的数据集中至一个数据中心，之后进行模型训练和预测，而联邦学习可以看作基于样本的分布式模型训练。具体而言，联邦模型将全部数据分发至不同的机器，每台机器从服务器下载初始模型，并利用本地数据来进行模型训练，之后将得到的参数上传至服务器。服务器对各个机器传输的参数进行聚合并更新模型，最后将最新的模型参数反馈至每台机器。在整个过程中，每台机器独立进行模型训练和预测而不会互相依赖。

以输入法的智能推荐为例，传统的推荐系统将敲击键盘的数据上传至服务器，通过直接收集大量数据来训练智能推荐模型。相比之下，利用联邦学习，用户敲击键盘的数据将会保留在本地。用户的智能终端中的本地模型会根据这些数据进行学习和更新，并将更新的参数加密上传至服务器。服务器接收到大量用户上传的参数之后，对这些参数进行聚合并更新全局模型，最后将全局模型的参数下发至各个用户的智能终端。由此，用户的原始数据保留在本地而无需上传至服务器。

图3示出了示例性联邦学习模型(在本文中也被称为“联邦模型”)300。在联邦模型300中，各个智能终端(例如，手机)从服务器下载服务端联邦模型并存储在本地(存储为各个智能终端的本地联邦模型)。

每个智能终端在本地对各自的本地联邦模型进行训练。具体而言，智能终端通过用户行为识别动作获得手机传感器数据，并利用这些数据对本地联邦模型进行训练。之后，可以将通过训练得到的本地模型参数上传至服务器，服务器据此更新服务端联邦模型并将最新的模型参数下发至智能终端。

联邦学习的突出优点是能够保护隐私。用户个人数据无需上传到云端或提供给服务提供商。此外，联邦学习还能够降低延时。如果用户所有的数据都需要上传到云端、且服务本身也是来自云端的反馈，则在网速较慢的情况下网络延时将会极大降低用户体验。而基于联邦学习的服务则不会出现这种情况，因为服务来自于本地联邦模型。

具体而言，在用户利用智能终端(例如，手机)完成各种动作时，数据是采用手机的惯性传感器来捕捉的。由于不同用户的身高、年龄、性别、肌肉锻炼等身体指标不同，且不同用户使用手机的习惯不同，因此即使不同用户完成同一个所指示动作 (例如，“用手机在空中画一个圆形”)，手机所捕捉到的动作数据也是不同的。例如，如果用户的身高不同，则用户在空中画圆形的高度位置也会不同。而如果用户的肌肉锻炼不同，则用户在空中画圆形的运动速度和/或轨迹也会不同。也就是说，实际捕捉/识别的用户动作可以体现用户的个人隐私(例如，用户的身体指标、用户使用手机的习惯等等)。基于这些隐私数据，可以确定所识别动作是否是由手机的真正用户(而非其他人)完成的。

同时，机器无法准确模拟不同用户的身体指标或使用习惯。因此，基于上述隐私数据还可以确定所识别动作是否是由真人(而非机器)完成的。

为了避免泄露用户的隐私数据，可以结合上述联邦学习来进行模型训练。在具体实现中，可以使用所采集的用户数据在智能终端本地进行模型训练，并将训练得到的本地模型参数(而非原始用户数据)上传至服务器。这使得原始用户数据(包括用户的身体指标和使用习惯等隐私数据)保留在本地，进而保护用户隐私。

应注意，图3的联邦学习模型300仅是示例性的而非限制性的。在具体实现中，本领域技术人员可以根据需要采用不同的联邦学习模型。

图4示出了本公开一实施例的联邦学习模型更新过程400的示意图。

如图所示，每个智能终端可以对应于图4中的机构(机构1…机构M)。每个智能终端在本地存储有本地联邦模型(Model)。智能终端根据采集到的数据(Data) 对本地模型进行局部训练(图4中的①)。

举例而言，智能终端可以根据具体的策略在预定时间在本地进行模型训练。优选地，智能终端可以在不影响用户体验的前提下进行模型训练。例如，智能终端可以在不繁忙且电量充足的情况下进行模型训练。

接着，智能终端向服务器传输样本数N(图4中的②)并传输模型参数P(图4 中的③)。例如，智能终端可以在加密状态下进行传输。服务器基于从各个智能终端接收到的数据来对全局联邦模型进行参数聚合和迭代更新(图4中的④)。

之后，服务器向各个智能终端下发更新后的全局模型参数P_g(图4中的⑤)，智能终端基于接收到的全局模型参数来更新本地模型(图4中的⑥)。

应注意，图4的联邦模型更新过程仅是示例性的而非限制性的。在图4中，客户端(智能终端)和服务器之间传输模型的参数(神经元权重等)。在不同实现中，客户端和服务器也可以传输模型的损失或者梯度值。此外，图4中并未具体规定所使用的基于联邦学习的模型算法。在实践中，既可以采用多任务学习模型，也可以采用多模态模型，还可以采用预训练模型。在一些实现中，可以采用模型方法结合基于联邦学习的云端训练框架，在原始数据不出库保护数据隐私的情况下完成人机识别检测和人机识别模型训练。

图5示出了本公开一实施例的无障碍人机识别架构500的示意图。

如图5所示，本公开的无障碍人机识别架构500包括四个阶段：模型训练阶段、动作指示阶段、动作识别阶段、以及判断阶段。

在模型训练阶段，首先利用训练数据对本地联邦模型进行训练。在完成本地模型训练之后，智能终端可以将得到的模型参数传输至服务端，服务端据此对全局联邦模型进行更新。在完成更新后，服务端将最新的模型参数下发至智能终端，智能终端据此对本地联邦模型进行更新，由此得到的本地联邦模型可以用于后续判断。

在训练过程中，训练数据可以包括用户需要利用智能终端完成的各种所指示动作。对于每个所指示动作，可以在训练数据集中包括对应的正确样本(例如，由真人完成的与所指示动作相匹配的动作)以及错误样本(例如，由真人完成的与所指示动作不匹配的动作、由机器完成的与所指示动作相匹配的动作、由机器完成的与所指示动作不匹配的动作)。

举例而言，对于“根据某个频率摇晃手机”的所指示动作，可以在训练数据集中包括对应的正确样本(由真人完成的根据正确频率摇晃手机的动作)和错误样本(例如，由真人完成的根据错误频率摇晃手机的动作、由机器完成的根据正确频率摇晃手机的动作、由机器完成的根据错误频率摇晃手机的动作等等)。作为另一示例，对于“用手机在空中画一个圆形”的所指示动作，可以在训练数据集中包括对应的正确样本(由真人用手机在空中画一个圆形的动作)和错误样本(例如，由真人在空中画一个正方形的动作、由真人在空中画一个三角形的动作、由机器在空中画一个圆形的动作、由机器在空中画一个正方形的动作等等)。

在动作指示阶段，当确定需要对用户进行人机识别时，可以首先判断用户的智能终端所处场景的安全要求等级，之后基于安全要求等级发出对应的指示，以要求用户完成所指示动作。

举例而言，如果判断智能终端处于低安全要求等级的场景，则发出的指示可以是复杂度较低的动作。反之，如果判断智能终端处于高安全要求等级的场景，则发出的指示可以是复杂度较高的动作。在具体实现中，可以针对智能终端所处的各种场景定义对应的安全要求等级。

在动作识别阶段，用户可以根据接收到的指示完成所指示动作，并且智能终端可以识别用户所完成的动作。例如，智能终端可以通过安装在其上的各种传感器来采集用户的动作数据。

在判断阶段，可以判断所完成动作与所指示动作是否匹配并判断所完成动作是否由真人完成。

在本公开的一实施例中，可以通过在模型训练阶段得到的本地联邦模型来进行上述判断，并根据判断结果确定人机识别结果。具体而言，如果经过判断得出所完成动作与所指示动作匹配并且所完成动作由真人完成(即，上述两个判断都通过)，则可以确定用户通过此次人机识别。如果经过判断得出所完成动作与所指示动作不匹配并且所完成动作并非由真人完成(即，上述两个判断都未通过)，则可以确定用户未通过此次人机识别。如果一个判断通过而另一个判断未通过，则可以进行更高级别的认证。关于更高级别的认证在上文结合图2进行了描述，在此不再赘述。

最后，输出判断阶段得到的人机识别结果。

虽然图5示出了无障碍人机识别架构的四个特定阶段，但应注意，该阶段划分仅是示例性的而非限制性的。

图6示出了本公开一实施例的智能终端无障碍人机识别系统600的框图。

参见图6，系统600可以包括接收模块602、识别模块604、判断模块606、输出模块608、以及模型更新模块610。这些模块中的每一者可在一条或多条总线612 上直接或间接地彼此连接或通信。

接收模块602可以接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与智能终端所处场景的安全要求等级相关联。

识别模块604可以识别用户基于所指示动作而完成的动作。

判断模块606可以判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成，并基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定用户通过人机识别。

在本公开的一实施例中，判断模块606还被配置成：当所指示动作的复杂度与智能终端所处场景的低安全要求等级相关联时，基于智能终端的内置策略来进行判断。

在本公开的一实施例中，判断模块606还被配置成：当所指示动作的复杂度与智能终端所处场景的高安全要求等级相关联时，基于智能终端的本地联邦模型来进行判断。

在本公开的一实施例中，判断模块606还被配置成：基于所识别动作与所指示动作不匹配并且所识别动作并非由真人完成来确定用户未通过人机识别。

在本公开的一实施例中，判断模块606还被配置成：基于所识别动作与所指示动作相匹配但所识别动作并非由真人完成或者所识别动作由真人完成但所识别动作与所指示动作不匹配来进行更高级别认证，并且其中，如果更高级别认证成功，则确定用户通过人机识别；如果更高级别认证失败，则确定用户未通过人机识别。

输出模块608可以输出人机识别的结果。

在本公开的一实施例中，可以仅输出用户是否通过人机识别作为结果。在替换实施例中，在通过人机识别的情况下，还可以输出所识别动作与所指示动作的匹配程度；在未通过人机识别的情况下，可以输出具体未通过哪一项判断；等等。在优选实施例中，可以通过语音来输出人机识别的结果。

模型更新模块610可被配置成：基于服务端的全局联邦模型来更新本地联邦模型，其中用户的隐私数据不上传至服务端。

在本公开的一实施例中，模型更新模块610还可被配置成：将通过训练得到的本地模型参数上传至服务端的全局联邦模型以供全局联邦模型进行更新；从服务端接收经更新的全局联邦模型的全局模型参数以对本地联邦模型进行更新。

虽然图6中示出了系统600的特定模块，但应理解，这些模块仅是示例性的而非限制性的。在不同的实现中，可以组合、拆分、移除这些模块中的一个或多个模块，或者添加另外的模块。例如，在一些实现中，识别模块604和判断模块606可以被合并成单个模块。在一些实现中，系统600还可以包括附加的模块。

图7示出了本公开一实施例的包括智能终端无障碍人机识别系统的设备700的框图。

该设备示出了一般硬件环境，可在其中根据本公开的示例性实施例应用本公开。

现在将参照图7描述设备700，其是可以应用于本公开的各方面的硬件设备的示例性实施例。设备700可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理(PDA)、智能电话、或其任何组合。

设备700可包括可以经由一个或多个接口与总线712连接或与总线712通信的组件。例如，设备700可包括总线712、处理器702、存储器704、输入设备708、以及输出设备710等等。

处理器702可以是任何类型的处理器，并且可包括但不限于通用处理器和/或专用处理器(例如特殊处理芯片)、智能硬件设备(例如，通用处理器、DSP、CPU、微控制器、ASIC、FPGA、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件、或其任何组合)。在一些情形中，处理器702可被配置成使用存储器控制器来操作存储器阵列。在其它情形中，存储器控制器(未示出)可被集成到处理器702 中。处理器702可以负责管理总线和一般性处理，包括执行存储在存储器上的软件。处理器702还可以被配置成执行本文中所描述的与智能终端无障碍人机识别相关的各种功能。例如，处理器702可被配置成：接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与该智能终端所处场景的安全要求等级相关联；识别该用户基于所指示动作而完成的动作；判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成；以及基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定该用户通过人机识别。

存储器704可以是可实现数据存储的任何存储设备。存储器704可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其它存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。存储器704可存储包括计算机可读指令的计算机可执行软件706，这些指令在被执行时使得处理器执行本文中所描述的与智能终端无障碍人机识别相关的各种功能。

输入设备708可以是可以用于输入信息的任何类型的设备。

输出设备710可以是用于输出信息的任何类型的设备。在一种情形中，输出设备710可以是可显示信息的任何类型的输出设备。

以上结合附图阐述的详细说明描述了示例而不代表可被实现或者落在权利要求的范围内的所有示例。术语“示例”和“示例性”在本说明书中使用时意指“用作示例、实例或解说”，并不意指“优于或胜过其它示例”。

贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性是包含在本公开的至少一个实施例中的。因此，这些短语的使用可以不仅仅指代一个实施例。此外，所描述的特征，结构或特性可以在一个或多个实施例中以任何合适的方式组合。

提供之前的描述是为了使本领域任何技术人员均能够实践本文中所描述的各种方面。对这些方面的各种修改将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其它方面。因此，权利要求并非旨在被限定于本文中所示的方面，而是应被授予与语言上的权利要求相一致的全部范围，其中对要素的单数形式的引述除非特别声明，否则并非旨在表示“有且仅有一个”，而是“一个或多个”。除非特别另外声明，否则术语“一些”指的是一个或多个。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。

还应注意，这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程，但是这些操作中有许多操作能够并行或并发地执行。另外，这些操作的次序可被重新安排。

虽然已经说明和描述了各种实施例，但是应该理解，实施例不限于上述精确配置和组件。可以在本文公开的设备的布置、操作和细节上作出对本领域技术人员显而易见的各种修改、替换和改进而不脱离权利要求的范围。

Claims

1.一种智能终端无障碍人机识别方法，包括：

接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与所述智能终端所处场景的安全要求等级相关联；

识别所述用户基于所指示动作而完成的动作；

判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成；以及

基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定所述用户通过人机识别。

2.如权利要求1所述的方法，当所指示动作的复杂度与所述智能终端所处场景的低安全要求等级相关联时，所述判断是基于所述智能终端的内置策略来进行的。

3.如权利要求1所述的方法，当所指示动作的复杂度与所述智能终端所处场景的高安全要求等级相关联时，所述判断是基于所述智能终端的本地联邦模型来进行的。

4.如权利要求1所述的方法，所指示动作包括所述用户需要利用所述智能终端完成的单个动作或一组动作。

5.如权利要求1所述的方法，进一步包括：基于所识别动作与所指示动作不匹配并且所识别动作并非由真人完成来确定所述用户未通过人机识别。

6.如权利要求1所述的方法，进一步包括：基于所识别动作与所指示动作相匹配但所识别动作并非由真人完成或者所识别动作由真人完成但所识别动作与所指示动作不匹配来进行更高级别认证，并且其中，

如果所述更高级别认证成功，则确定所述用户通过人机识别；

如果所述更高级别认证失败，则确定所述用户未通过人机识别。

7.如权利要求3所述的方法，所述本地联邦模型基于服务端的全局联邦模型来更新，其中所述用户的隐私数据不上传至服务端。

8.如权利要求7所述的方法，所述本地联邦模型基于服务端的全局联邦模型来更新进一步包括：

将通过训练得到的本地模型参数上传至服务端的全局联邦模型以供所述全局联邦模型进行更新；

从所述服务端接收经更新的全局联邦模型的全局模型参数以对所述本地联邦模型进行更新。

9.一种智能终端无障碍人机识别系统，包括：

接收模块，接收关于用户需要利用智能终端完成的动作的指示，其中所指示动作的复杂度与所述智能终端所处场景的安全要求等级相关联；

识别模块，识别所述用户基于所指示动作而完成的动作；

判断模块，判断所识别动作与所指示动作是否匹配以及所识别动作是否由真人完成，并基于所识别动作与所指示动作相匹配并且所识别动作由真人完成来确定所述用户通过人机识别；以及

输出模块，输出人机识别的结果。

10.如权利要求9所述的系统，所述判断模块还被配置成：当所指示动作的复杂度与所述智能终端所处场景的低安全要求等级相关联时，基于所述智能终端的内置策略来进行所述判断。

11.如权利要求9所述的系统，所述判断模块还被配置成：当所指示动作的复杂度与所述智能终端所处场景的高安全要求等级相关联时，基于所述智能终端的本地联邦模型来进行所述判断。

12.如权利要求9所述的系统，所指示动作包括所述用户需要利用所述智能终端完成的单个动作或一组动作。

13.如权利要求9所述的系统，所述判断模块还被配置成：基于所识别动作与所指示动作不匹配并且所识别动作并非由真人完成来确定所述用户未通过人机识别。

14.如权利要求9所述的系统，所述判断模块还被配置成：

基于所识别动作与所指示动作相匹配但所识别动作并非由真人完成或者所识别动作由真人完成但所识别动作与所指示动作不匹配来进行更高级别认证，并且其中，

15.如权利要求11所述的系统，还包括模型更新模块，基于服务端的全局联邦模型来更新所述本地联邦模型，其中所述用户的隐私数据不上传至服务端。

16.如权利要求15所述的系统，所述模型更新模块还被配置成：

17.一种计算机可读存储介质，其存储计算机程序，所述计算机程序能被处理器执行以执行如权利要求1-8中任一项所述的方法。