CN116561732A

CN116561732A - 多模态的图片验证方法、装置、设备及存储介质

Info

Publication number: CN116561732A
Application number: CN202310377185.7A
Authority: CN
Inventors: 徐子玘; 张景逸
Original assignee: Ping An International Financial Leasing Co Ltd
Current assignee: Ping An International Financial Leasing Co Ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-08-08

Abstract

本申请涉及网络安全技术领域，具体公开了一种多模态的图片验证方法、装置、设备及存储介质，所述方法包括：根据预先构建的词库生成字顺序错乱的语句；从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图和混淆图；向用户展示所述字顺序错乱的语句、答案图以及混淆图，并提示用户根据所述字顺序错乱的语句选择正确的答案图；根据用户选择的图片与所述答案图进行对比，得到验证结果。本申请实施例提供的图片验证方法，图形验证码采用视觉和语义理解相结合的方法，加大了AI破解的难度，可以有效保障信息安全，防止恶意攻击系统，提高系统的安全性以及用户的体验度。

Description

多模态的图片验证方法、装置、设备及存储介质

技术领域

本申请涉及网络应用技术领域，特别涉及一种多模态的图片验证方法、装置、设备及存储介质。

背景技术

随着计算机和计算机网络的日益普及，互联网已经深入到人们工作、学习和生活的各个领域。网络发展在提供便利的同时也带来各种挑战。一些别有用心的人会利用机器人程序大量地不当使用网络免费资源，例如群发垃圾邮件等，使服务器效能大为降低。也有人利用程序不断发出服务请求回应，进行“饱和攻击”以达到使服务瘫痪的目的。甚至还有人尝试利用暴力破解等手段进行虚拟财产盗窃等。为避免上述恶意行为，设计一套能够让计算机自动分辨信息是来自合理使用者或是非正当使用的机器人程序的工具，就显得非常重要。

目前的信息验证技术，通常使用数字、字母、文字、图片等形式的验证码，市面上的软件主要利用传统输入式验证码、纯行为验证码、图标选择与行为辅助等方式，这些方法过于简单直接，随着OCR技术和打码平台发展很容易破解。

发明内容

本公开实施例提供了一种多模态的图片验证方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种多模态的图片验证方法，包括：

根据预先构建的词库生成字顺序错乱的语句；

从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图和混淆图；

向用户展示所述字顺序错乱的语句、答案图以及混淆图，并提示用户根据所述字顺序错乱的语句选择正确的答案图；

根据用户选择的图片与所述答案图进行对比，得到验证结果。

在一个可选地实施例中，根据预先构建的词库生成字顺序错乱的语句之前，还包括：

构建所述图片库，对所述图片库中的图片内容进行词语标注；

根据标注的词语类别生成时间词库、场景词库、角色词库以及道具词库；

将所述时间词库、场景词库、角色词库以及道具词库作为构建的词库。

在一个可选地实施例中，根据预先构建的词库生成字顺序错乱的语句，包括：

构建语句生成模板，所述语句生成模板包含时间词语、场景词语、角色词语以及道具词语中的一种或多种词语组成的语句；

从所述时间词库、场景词库、角色词库以及道具词库中抽取词语，通过所述语句生成模板生成正确语句；

随机颠倒所述正确语句中相邻字的顺序，得到所述字顺序错乱的语句。

在一个可选地实施例中，从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图，包括：

获取所述字顺序错乱的语句中的词语；

从所述图片库中抽取与所述词语对应的图片，根据正确语句将所述图片组合成答案图。

在一个可选地实施例中，从预先构建的图片库中抽取与所述字顺序错乱的语句对应的混淆图，包括：

获取所述字顺序错乱的语句中的词语；

从预先构建的同义词库中查找所述词语对应的同义词；

从所述图片库中抽取与所述同义词对应的图片，将所述同义词对应的图片组合成混淆图。

在一个可选地实施例中，从预先构建的同义词库中查找所述词语对应的同义词之前，还包括：

计算构建的所述词库中词语的相似度；

将所述相似度大于预设阈值的词语作为同义词，根据所述同义词构建所述同义词库。

在一个可选地实施例中，根据预先构建的词库生成字顺序错乱的语句之后，还包括：

将所述字顺序错乱的语句的字体修改为预设格式的字体，并将文字设置为倾斜状态。

第二方面，本申请实施例提供了一种多模态的图片验证装置，包括：

语句生成模块，用于根据预先构建的词库生成字顺序错乱的语句；

图片生成模块，用于从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图和混淆图；

验证信息发送模块，用于向用户展示所述字顺序错乱的语句、答案图以及混淆图，并提示用户根据所述字顺序错乱的语句选择正确的答案图；

验证模块，用于根据用户选择的图片与所述答案图进行对比，得到验证结果。

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述实施例提供的多模态的图片验证方法。

第四方面，本申请实施例提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述实施例提供的多模态的图片验证方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的图片验证方法，图形验证码采用视觉和语义理解相结合的方法，实现多模态出题，破解题目需要破解图片识别和自然语言理解，且语句顺序颠倒，不影响人的阅读，但是会严重干扰AI的理解，生成的混淆图也可加大AI破解难度。因此，本申请的验证方法安全性较高，可以有效保障信息安全，防止恶意攻击系统，提高系统的安全性以及用户的体验度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种多模态的图片验证方法的实施环境图；

图2是根据一示例性实施例示出的一种计算机设备的内部结构图；

图3是根据一示例性实施例示出的一种多模态的图片验证方法的流程示意图；

图4是根据一示例性实施例示出的一种多模态的图片验证方法的流程示意图；

图5是根据一示例性实施例示出的一种展示的验证码示意图；

图6是根据一示例性实施例示出的一种多模态的图片验证装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一字段及算法确定模块成为第二字段及算法确定模块，且类似地，可将第二字段及算法确定模块成为第一字段及算法确定模块。

图1是根据一示例性实施例示出的一种多模态的图片验证方法的实施环境图，如图1所示，在该实施环境中，包括服务器110以及终端120。

服务器110为多模态的图片验证设备，例如为技术人员使用的电脑等计算机设备，服务器110上安装有验证工具。终端120上安装有需要进行信息验证的应用，当需要提供验证服务时，技术人员可以在计算机设备110发出提供验证的请求，该请求中携带有请求标识，计算机设备110接收该请求，获取计算机设备110中存储的验证方法。然后利用验证方法实现用户信息验证。

需要说明的是，终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。计算机设备110以及终端120可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本申请在此不做限制。

图2是根据一示例性实施例示出的一种计算机设备的内部结构图。如图2所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种多模态的图片验证方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种多模态的图片验证方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在传统方案中，数字、字母、文字、图片等形式的验证码过于简单，随着OCR技术和打码平台发展很容易破解。

为了解决现有技术的验证方法安全性较差的问题，本申请实施例可以通过机器学习的方法处理和理解语义，对给定图片生成固定语句，对语句做“指定的操作指令”，比如随机颠倒语句中的相邻字的顺序等，然后引导用户读取语句选择正确的图片，将选择结果与答案图进行对比，实现图片认证。

下面将结合附图3-附图5，对本申请实施例提供的多模态的图片验证方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的数据传输装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图3，为本申请实施例提供了一种多模态的图片验证方法的流程示意图，如图3所示，本申请实施例的方法可以包括以下步骤：

S301根据预先构建的词库生成字顺序错乱的语句。

具体地，首先构建图片库，可以从网络平台获取多张图片，对图片库中的图片内容进行词语标注。可以人工识别图片中的内容，对图片中的时间、角色、场景等信息进行词语标注。也可以通过预训练的目标识别神经网络模型识别图片内容。

在一种可能的实现方式中，将人工标注的图片作为训练数据集，训练卷积神经网络模型，实现对图片中的目标的识别，得到训练好的目标识别模型，将图片库中的图片输入训练好的目标识别模型，得到图片中的目标，根据识别的图片目标对图片内容进行词语标注。

进一步地，根据标注的词语生成词库。首先将词语按照类别划分，根据标注的词语类别生成时间词库、场景词库、角色词库以及道具词库，将时间词库、场景词库、角色词库以及道具词库作为构建的词库。

在一个示例性场景中，图片内容包含山羊、木桩，则将山羊加入角色词库，将木桩加入道具词库。图片内容包含绵羊、草，则将绵羊加入角色词库，将草加入道具词库。图片内容包含落日、西山，则将落日、西山加入场景词库，图片内容包含清晨、大海、日出，则将清晨加入时间词库，将大海、日出加入场景词库。

进一步地，构建语句生成模板，语句生成模板包含时间词语、场景词语、角色词语以及道具词语中的一种或多种词语组成的语句。

在本申请实施例中，根据时间词语、场景词语、角色词语以及道具词语构建一些语句生成模板，用于出题。例如，根据时间和场景构建一些语句模板“时间，场景”，例如“清晨，海上日出”。根据角色和道具构建一些语句模板，“角色在玩道具”，例如“山羊在玩木桩”，“角色在吃道具”，例如“绵羊在吃草”等。本领域技术人员可自行设置多个语句生成模板，本申请实施例不做具体限定。

进一步地，从时间词库、场景词库、角色词库以及道具词库中抽取词语，通过语句生成模板生成正确语句。例如，生成的正确语句“日落西山，山羊在玩木桩”。然后，随机颠倒正确语句中相邻字的顺序，得到字顺序错乱的语句。例如，替换成“落日西山，山羊玩在桩木”。

可选地，得到字顺序错乱的语句之后，还可以将字顺序错乱的语句的字体修改为预设格式的字体，并将文字设置为倾斜状态。如图5所示，将字体设置为方正舒体，并设置为倾斜状态。本申请实施例对字体的具体格式不做限定，可为方正舒体、华文行楷、草体等，本领域技术人员可自行设置。

通过将字顺序颠倒，字体倾斜等操作，不影响人的阅读，但是会严重干扰AI的理解，影响OCR字符识别的准确率，加大机器破解的难度。

S302从预先构建的图片库中抽取与字顺序错乱的语句对应的答案图和混淆图。

得到字顺序错乱的语句之后，抽取与语句对应的答案图。具体地，获取字顺序错乱的语句中的词语，从图片库中抽取与词语对应的图片，根据正确语句将图片组合成答案图。

在一个示例性实施例中，获取的字顺序错乱的语句为“落日西山，山羊玩在桩木”，根据词语“落日、西山、山羊、桩木”，得到对应的图片，抽取的图片一幅为日落西山的风景图，一幅为山羊玩桩木的图片，根据正确语句“日落西山，山羊在玩木桩”，将得到的图片从左到右组合成答案图。

可选地，语句对应的答案图可以是一幅图，也可以是多幅图，若语句简单，例如语句为“山羊在玩木桩”，其答案图可以仅是一张图，若语句复杂，包含多个场景图片，则答案图可以是顺序组合的多张图片。本申请实施例不做具体限定。

进一步地，获取与答案图语义相似的混淆图。首先，获取字顺序错乱的语句中的词语，然后从预先构建的同义词库中查找词语对应的同义词，从图片库中抽取与同义词对应的图片，将同义词对应的图片组合成混淆图。

具体地，利用词编码器生成词向量，根据生成的词向量计算构建的词库中词语的相似度，将相似度大于预设阈值的词语作为同义词，根据获取的同义词构建同义词库。其中，预设阈值的具体取值可根据实际情况自行设定，本申请实施例不做限制。

获取字顺序错乱的语句中的词语，然后从预先构建的同义词库中查找词语对应的同义词。例如，获取的字顺序错乱的语句为“山羊玩在桩木”，根据词语“山羊、桩木”，从同义词库中查找到对应的同义词“绵羊、树木”。从图片库中抽取与同义词对应的图片，将同义词对应的图片组合成混淆图。例如，将山羊玩桩木的图片，替换为绵羊在树木下的图片。

本申请实施例可以根据同义词，生成与答案图语义相似的混淆图，例如山羊和绵羊为同义词，但是AI很难区分二者的区别，进一步加大了AI破解的难度。

S303向用户展示字顺序错乱的语句、答案图以及混淆图，并提示用户根据字顺序错乱的语句选择正确的答案图。

在一个实施例中，接收到用户终端发送的验证码获取请求后，获取生成的字顺序错乱的语句，以及与语句对应的答案图以及混淆图，向用户展示字顺序错乱的语句、答案图以及混淆图。还包括向用户发送提示信息，例如发送“选择与下列语句对应的图片”，提示用户根据字顺序错乱的语句选择正确的答案图。

图5是根据一示例性实施例示出的一种展示的验证码示意图，如图5所示，在一个用户登录实施例中，获取到用户的登录名和密码后，还包括提示用户输入验证码进行验证。在验证码输入界面，显示字顺序错乱的语句“落日西山，山羊草吃”，并提示用户根据该语序错乱的句子选择正确的图片，可供选择的图片包括正确的日落西山风景图，山羊吃草的场景图，还包括山和晚霞的风景图，绵羊吃草的混淆图。

可选地，在显示界面还可显示验证信息刷新图标，若用户看不清或读不懂显示的语句，可以刷新图标重新获取新的顺序错乱的语句、答案图以及混淆图。

本申请实施例通过向用户展示语序错乱的句子，以及与答案图语义相似的混淆图，破解题目需要破解图片识别和自然语言理解，提高了验证码的安全性，加大了机器破解的难度。

S304根据用户选择的图片与答案图进行对比，得到验证结果。

向用户展示验证码的信息之后，获取用户选择的图片，将用户选择的图片与答案图进行对比，若一致，则验证通过，若不一致，则输出验证失败的提示信息。

可选地，若用户未验证通过，则刷新验证码，重新向用户显示新的字顺序错乱的语句、答案图以及混淆图。

为了便于理解本申请实施例提供的多模态的图片验证方法，下面结合附图4进行说明，如图4所示，该方法包括如下步骤：

S401构建图片库，对图片库中的图片内容进行词语标注。

S402根据标注的词语类别生成时间词库、场景词库、角色词库以及道具词库。

S403计算构建的词库中词语的相似度；将相似度大于预设阈值的词语作为同义词，根据同义词构建同义词库。

S404从时间词库、场景词库、角色词库以及道具词库中抽取词语，通过语句生成模板生成正确语句。

S405随机颠倒正确语句中相邻字的顺序，得到字顺序错乱的语句。

S406获取字顺序错乱的语句中的词语；从图片库中抽取与词语对应的图片，根据正确语句将图片组合成答案图。

S407从预先构建的同义词库中查找词语对应的同义词；从图片库中抽取与同义词对应的图片，将同义词对应的图片组合成混淆图。

S408向用户展示字顺序错乱的语句、答案图以及混淆图，并提示用户根据字顺序错乱的语句选择正确的答案图。

S409将用户选择的图片与答案图进行对比，若一致，则验证成功。

根据本申请实施例提供的图片验证方法，图形验证码采用视觉和语义理解相结合的方法，破解题目需要破解图片识别和自然语言理解，且语句顺序颠倒，不影响人的阅读，但是会严重干扰AI的理解，生成的混淆图也可加大AI破解难度。因此，本申请的验证方法安全性较高，有效的阻止无效垃圾注册，从源头控制系统，防止暴力破解用户账户，保障客服信息安全，可以防止短信验证接口被刷情况等等，大大提高了系统验证的安全性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的多模态的图片验证装置的结构示意图。如图6所示，该多模态的图片验证装置可以集成于上述的计算机设备110中，具体可以包括语句生成模块601、图片生成模块602、验证信息发送模块603以及验证模块604。

语句生成模块601，用于根据预先构建的词库生成字顺序错乱的语句；

图片生成模块602，用于从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图和混淆图；

验证信息发送模块603，用于向用户展示所述字顺序错乱的语句、答案图以及混淆图，并提示用户根据所述字顺序错乱的语句选择正确的答案图；

验证模块604，用于根据用户选择的图片与所述答案图进行对比，得到验证结果。

在一个可选地实施例中，还包括：词库构建模块，用于构建图片库，对图片库中的图片内容进行词语标注；根据标注的词语类别生成时间词库、场景词库、角色词库以及道具词库；将时间词库、场景词库、角色词库以及道具词库作为构建的词库。

在一个可选地实施例中，语句生成模块601，用于构建语句生成模板，语句生成模板包含时间词语、场景词语、角色词语以及道具词语中的一种或多种词语组成的语句；从时间词库、场景词库、角色词库以及道具词库中抽取词语，通过语句生成模板生成正确语句；随机颠倒正确语句中相邻字的顺序，得到字顺序错乱的语句。

在一个可选地实施例中，图片生成模块602用于获取字顺序错乱的语句中的词语；从图片库中抽取与词语对应的图片，根据正确语句将图片组合成答案图。

在一个可选地实施例中，图片生成模块602用于获取字顺序错乱的语句中的词语；从预先构建的同义词库中查找词语对应的同义词；从图片库中抽取与同义词对应的图片，将同义词对应的图片组合成混淆图。

在一个可选地实施例中，还包括：同义词库构建模块，用于计算构建的词库中词语的相似度；将相似度大于预设阈值的词语作为同义词，根据同义词构建同义词库。

在一个可选地实施例中，还包括：字体设置模块，用于将字顺序错乱的语句的字体修改为预设格式的字体，并将文字设置为倾斜状态。

需要说明的是，上述实施例提供的多模态的图片验证装置在执行多模态的图片验证方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多模态的图片验证装置与多模态的图片验证方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：根据预先构建的词库生成字顺序错乱的语句。从预先构建的图片库中抽取与字顺序错乱的语句对应的答案图和混淆图。向用户展示字顺序错乱的语句、答案图以及混淆图，并提示用户根据字顺序错乱的语句选择正确的答案图。根据用户选择的图片与答案图进行对比，得到验证结果。

构建图片库，对图片库中的图片内容进行词语标注；

将时间词库、场景词库、角色词库以及道具词库作为构建的词库。

构建语句生成模板，语句生成模板包含时间词语、场景词语、角色词语以及道具词语中的一种或多种词语组成的语句；

从时间词库、场景词库、角色词库以及道具词库中抽取词语，通过语句生成模板生成正确语句；

随机颠倒正确语句中相邻字的顺序，得到字顺序错乱的语句。

在一个可选地实施例中，从预先构建的图片库中抽取与字顺序错乱的语句对应的答案图，包括：

获取字顺序错乱的语句中的词语；

从图片库中抽取与词语对应的图片，根据正确语句将图片组合成答案图。

在一个可选地实施例中，从预先构建的图片库中抽取与字顺序错乱的语句对应的混淆图，包括：

获取字顺序错乱的语句中的词语；

从预先构建的同义词库中查找词语对应的同义词；

从图片库中抽取与同义词对应的图片，将同义词对应的图片组合成混淆图。

在一个可选地实施例中，从预先构建的同义词库中查找词语对应的同义词之前，还包括：

计算构建的词库中词语的相似度；

将相似度大于预设阈值的词语作为同义词，根据同义词构建同义词库。

将字顺序错乱的语句的字体修改为预设格式的字体，并将文字设置为倾斜状态。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：根据预先构建的词库生成字顺序错乱的语句。从预先构建的图片库中抽取与字顺序错乱的语句对应的答案图和混淆图。向用户展示字顺序错乱的语句、答案图以及混淆图，并提示用户根据字顺序错乱的语句选择正确的答案图。根据用户选择的图片与答案图进行对比，得到验证结果。

构建图片库，对图片库中的图片内容进行词语标注；

获取字顺序错乱的语句中的词语；

从预先构建的同义词库中查找词语对应的同义词；

计算构建的词库中词语的相似度；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态的图片验证方法，其特征在于，包括：

根据预先构建的词库生成字顺序错乱的语句；

2.根据权利要求1所述的方法，其特征在于，根据预先构建的词库生成字顺序错乱的语句之前，还包括：

3.根据权利要求2所述的方法，其特征在于，根据预先构建的词库生成字顺序错乱的语句，包括：

4.根据权利要求1所述的方法，其特征在于，从预先构建的图片库中抽取与所述字顺序错乱的语句对应的答案图，包括：

获取所述字顺序错乱的语句中的词语；

5.根据权利要求1所述的方法，其特征在于，从预先构建的图片库中抽取与所述字顺序错乱的语句对应的混淆图，包括：

获取所述字顺序错乱的语句中的词语；

从预先构建的同义词库中查找所述词语对应的同义词；

6.根据权利要求5所述的方法，其特征在于，从预先构建的同义词库中查找所述词语对应的同义词之前，还包括：

计算构建的所述词库中词语的相似度；

7.根据权利要求1所述的方法，其特征在于，根据预先构建的词库生成字顺序错乱的语句之后，还包括：

8.一种多模态的图片验证装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述的多模态的图片验证方法。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的多模态的图片验证方法。