CN101179381B

CN101179381B - 一种验证信息的方法和装置

Info

Publication number: CN101179381B
Application number: CN200610138512XA
Authority: CN
Inventors: 沈少峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2006-11-07
Filing date: 2006-11-07
Publication date: 2010-11-03
Anticipated expiration: 2026-11-07
Also published as: HK1117678A1; CN101179381A

Abstract

本发明公开了一种信息验证的方法，包括以下步骤：收集模拟信息生成验证信息；存储所述验证信息以及与该验证信息相应的第一信息和验证码；将所述验证信息和第一信息发送至客户端；接收客户端反馈的数据并将该数据与所述验证码进行比较，若一致，则通过验证。由于本发明所述的验证信息是由模拟信息生成的极不规则的数据，这种数据用户可根据第一信息所提示的问题很容易的给出正确的反馈，但是现有的反验证方法很难对其识别，因此，极大地提高了信息验证的准确性和可靠性。

Description

一种验证信息的方法和装置

技术领域

本发明涉及信息验证技术，特别是涉及一种验证信息的方法和装置。

背景技术

今天，基于互联网的应用正在极大地改变着人们的生活，例如电子邮件、即时通讯、网上论坛、BBS等。但是，随之出现的自动机装置却给这些应用的服务提供商带来了很多困扰。所谓自动机装置是一种可以自动完成某项功能的装置，比如自动注册机，可以自动填写全部注册信息，完成用户注册行为，从而注册大量的用户；再如自动回帖机，可以自动在论坛上回帖，增加用户积分。然而，由于自动机的大量重复行为会浪费服务提供商大量的资源，并影响正常用户的服务质量，因此，很多服务提供商使用了反自动机验证机制，以防止自动机的恶意行为。

目前，一种常用的反自动机验证方法是通过在客户端显示一个验证图片，要求用户输入验证图片中由文字组成的验证码，该文字可以是英文字母、数字或者汉字。只有当用户正确输入验证码的时候，才能通过验证。通常，还会对图片施加干扰，以增加自动机识别该图片的难度。所述干扰可以是在该图片上添加线条、图案等背景；将图片中的文字扭曲、旋转一定角度；选择不同的文字属性，如字体、颜色、加粗倾斜等。

中国专利第200510034062.5号专利公开了另一种反自动机验证方法。该方法通过在验证图片中显示一个由文字组成的问题，用户需要输入的验证码就是该问题的正确答案，例如图片中的问题为“三加二等于几？”，那么用户需要输入5或五才可通过验证。

以上两种方法都在一定程度防止了自动机的恶意行为。尤其是第二种方法，更进一步提高了验证图片被识别的难度。但是，上述方法中使用的验证图片内容仍由文字组成，因此无论怎样对其施加干扰，必须在一个合理的程度之内，也就是说组成图片内容的文字仍必须是规则的，只有这样才能保证该图片可以被用户识别。由于组成图片的文字依然是规则的文字，因此组成该图片的点阵信息也是规则的。随着图像识别技术的发展，对上述由文字组成的图片识别的准确率和效率也日益提高。导致了基于这种方式建立的反自动机识别机制的效果也越来越差。

发明内容

本发明所要解决的技术问题是提供一种信息验证的方法和系统，以解决现有技术中以文字作为验证信息的内容，导致的验证信息容易被识别的问题。

为解决上述问题，本发明公开了一种信息验证的方法。该方法包括以下步骤：

收集模拟信息生成验证信息；

存储所述验证信息以及与该验证信息相应的第一信息和验证码；

将所述验证信息和第一信息发送至客户端；

接收客户端反馈的数据并将该数据与所述验证码进行比较，若一致，则通过验证。

优选的，所述模拟信息是图像信息。

优选的，所述模拟信息是音频信息。

优选的，所述模拟信息是视频信息。

优选的，将模拟信息生成验证信息的过程包括：对所述模拟信息进行采样和量化生成信源信息；将所述信源信息进行压缩生成验证信息。

其中，所述第一信息是根据所述验证信息内容设计的问题；所述验证码是对该问题的解答。

优选的，还包括：存储与所述验证码相应的干扰信息；将验证码和干扰信息发送至客户端；所述客户端反馈的数据是从所述验证码和干扰信息中选择的数据。

为解决上述问题，本发明还公开了一种信息验证的系统，包括：

收集单元，用于收集模拟信息；

生成单元，用于将收集单元收集的模拟信息生成验证信息；

存储单元，用于存储验证信息以及与该验证信息相应的第一信息和验证码；

接口单元，用于将所述验证图片和第一信息发送至客户端并接收客户端反馈的数据；

比较单元，用于比较客户端反馈的数据和验证码，若一致，则通过验证。

优选的，所述模拟信息是图像信息。

优选的，所述模拟信息是音频信息。

优选的，所述模拟信息是视频信息。

其中，所述存储单元还用于存储与所述验证码相应的干扰信息；所述接口单元还用于将验证码和干扰信息发送至客户端；所述客户端反馈的数据是从所述验证码和干扰信息中选择的数据。

与现有技术相比，本发明具有以下优点：

首先，本发明通过收集模拟信息如图像、音频、视频等，并将该信息转换为数字信息后作为验证信息存入数据库。由于组成图像、音频、视频信息的数据极不规则，因此避免了现有技术中以文字作为验证信息的内容，而导致的验证信息被识别的可能。通过应用本发明，极大提高了验证信息被识别的难度。有效保护了服务提供商的资源。

另外，本发明将验证码和干扰信息一起发送至客户端，用户只需从中选择一项作为要输入的验证码提交给服务器即可。这样有效减少了用户通过验证所需耗费的时间，提高了整个验证的效率。

本发明采用图像、音频、视频这种人们最容易接受的信息作为验证信息，避免了现有技术中使用干扰后的验证图片，给用户带来的识别上的困难。由于图像、音频、视频的表现形式非常丰富和多样，因此通过应用本发明，可以很好的改善用户的使用感受，使得用户愿意和喜欢接受验证，这在一定程度上也促进了供应商所提供的服务。

附图说明

图1是本发明所述的一种验证信息的方法的步骤流程图；

图2是应用本发明方法的验证界面的效果示意图；

图3是本发明所述的一种验证信息的系统的结构框图。

具体实施方式

由于目前破解反自动机验证机制的方法主要是识别验证图片中的文字，为了更好的理解本发明，在此先介绍一下当前识别验证图片的基本过程：

首先根据文字的点阵信息建立特征信息库，这里的文字包括英文字母、数字、汉字等；然后读取待识别图片对其进行分割，分别取得各个文字的点阵信息；将所述点阵信息与特征信息库中的内容进行比较，若有相似或一致则认为识别成功。基于此基础可进一步对文字组成的内容进行识别。

为使本发明的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明所述的信息验证方法包括：收集模拟信息生成验证信息；存储所述验证信息以及与该验证信息相应的第一信息和验证码；将所述验证信息和第一信息发送至客户端；接收客户端反馈的数据并将该数据与所述验证码进行比较，若一致，则通过验证。

参照图1，示出了根据本发明一个优选实施例的信息验证方法的数据流程图。下面参考图1对本发明的一个实施例作详细描述

步骤101：收集图形图像模拟信息。

将收集的图形图像模拟信息作为本发明进一步处理的基础。图形图像是人类最容易接收的信息之一，例如自然景象或图像。通常我们人眼所能识别的图像是一种模拟信息，由模拟信号组成。其中，信号是有一定意义的，由某个载体传输的数据。信号的载体包含光信号、声信号和电信号等。信号是有意义的。例如：当我们说话时，声波是信号传输的载体，声波所表示的数据是信号的意义；我们看到自然景象，光波是信号传输的载体，光波所表示的数据是信号的意义。所谓模拟信号指的是在时间上连续的，数值幅度大小也是连续不间断变化的信号，例如传统的音频信号、视频信号都是这种信号.在时间上“连续”是指在一个指定的时间范围里信号的幅值有无穷多个，在幅度上“连续”是指幅度的数值在其可能取值的范围内有无穷多个。

步骤102：对收集到的图形图像模拟信息进行采样和量化生成信源信息。

为了使计算机能够存储和处理图像，必须将模拟信号转化为数字信号。数字信号指的是时间轴上是离散的数值，但幅度却是固定不变的信号，即用二进制0、1记录信号，反映到图像上是用高、低电压表示的脉冲信号。

将模拟信号转换成数字信号，是通过采样和量化实现的。在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号。例如，假设输入电压的范围是0.0V-0.7V，并假设它的取值只限定在0、0.1、0.2、...、0.7共8个值。如果采样得到的幅度值是0.123V，假定采用四舍五入，它的取值就应算作0.1V，如果采样得到的幅度值是0.26V，它的取值就算作0.3...，等等。这种过程称为“量化”，通过这种方法得到的数值就称为离散数值。如果对模拟信号，每隔相等的一小段时间采样一次，这种采样称为均匀采样(uniform sampling)；否则称为非均匀采样。优选的，本发明对收集到的模拟信息采用均匀采样取得离散的数字信号作为信源信息。

步骤103：对信源信息进行压缩生成图像文件。

优选的，本发明对取得的信源信息进行压缩后生成验证信息。这样做的目的是为了更加有效的利用资源，例如存储器资源、计算资源等。通过压缩，保持信源信息在一个可以接受的前提下尽可能减少比特数，以减少存储、处理和传输的成本。

将生成的验证信息以位图形式存储在计算机中。位图，是用像素点来描述或映射的图，也称位映射图(bit-mapped image)。位图在内存中以一组计算机内存位(bit)组成，这些位定义图像中每个像素点的颜色和亮度。位图一般也称为图像。

上述将自然图像通过模数转换的方式生成图像的过程，称为图像的扫描。我们可以直接对一幅自然图片或照片进行扫描，也可以通过人工创作的方式生成图像。一幅图像是由许多描述每个像素的数据组成的，这些数据通常称为图像数据，而这些数据作为一个文件来存贮，即图像文件。

一般的图像文件结构包含有文件头、文件体和文件尾三部分。

文件头定义了：软件信息、图像分辨率、图像尺寸、图像深度、彩色类型、编码方式、压缩算法等。文件头的主要内容包括产生或编辑该图像文件的软件的信息以及图像本身的参数。这些参数必须完整地描述图像数据的所有特征，因此是图像文件中的关键数据。当然，根据不同的文件，有的参数是可选的，如压缩算法，有的文件无压缩，有的文件可选择多种方法压缩。

文件体定义了：图像数据、彩色变换表。文件体主要包括图像数据以及颜色变换查找表或调色板数据。这部分是文件的主体，对文件容量的大小起决定作用。如果是真彩色图像，则无颜色变换查找表或调色板数据，对于256色的调色板，每种颜色值用24bit表示，则调色板的数据长度为256×3(Byte)。

文件尾是是可选信息，一般包括用户信息。

当然，以上所述只是对图像文件结构的概括说明，实际应用中根据不同的格式其内容也会有所不同。目前，几乎所有的图像文件都采用各自简化的格式名作为文件扩展名。从扩展名就可知道这幅图像是按什么格式存贮的。常见的图像文件格式有以下几种：

BMP格式，是一种与硬件设备无关的图像文件格式，使用非常广。它采用位映射存贮格式，除了图像深度可选以外，不采用其他任何压缩，因此，BMP文件所占用的空间很大。

TIFF(Tag Image File Format)格式，该文件是由Aldus和Microsoft公司为扫描仪和桌上出版系统研制开发的一种较为通用的图像文件格式。

GIF(Graphics Interchange Format)格式，是CompuServe公司在1987年开发的图像文件格式，最多支持256种颜色。GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像，如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上，就可构成一种最简单的动画。

SWF(Shock Wave Flash)格式，是Macromedia公司软件Flash生成的一种动画文件格式。

JPEG(Joint Photographic Experts Group)格式，是由CCITT(国际电报电话咨询委员会)和ISO(国际标准化组织)联合组成的一个图像专家组制定的一个压缩静态数字图像的国际标准。

显然，采用何种文件格式存储图像文件，本发明对此并不作限制，本领域的技术人员在应用本发明是可根据需要选择使用。

步骤104：将图像文件作为验证信息，同时将相应的第一信息和验证码存储在数据库中。

所述第一信息是根据图像数据的内容设计的问题。所述验证码是对该问题的解答。根据上文描述可知，图像数据是由不同的像素组成的点阵信息。现有技术中使用规则文字生成图像文件作为验证信息，因此组成该图像文件的像素依然是规则的点阵信息。由于计算机键盘可输入文字的范围非常有限，因此根据文字建立的特征库也是有限的。这也是将文字作为验证信息所不可避免的缺点。与现有技术不同，本发明使用的图像文件是自然景象或图像的映射。组成该图像文件的像素是极不规则的点阵信息，而且组成该图像的元素几乎是无穷尽的。因此，按照目前建立特征库的方法来识别本发明所使用的图像文件是相当困难的。例如，图像文件中有两个小孩，第一信息可设计为“图片中的两个小孩在做什么？”，将正确答案“吃饭”作为验证码。进一步的，我们还可以将动画作为图像文件的内容，用以提高图像文件被识别的难度，例如使用gif或swf文件格式等。

使用数据库存储验证信息、第一信息和验证码是为了更加快捷的记录他们之间的对应关系，以提高处理效率。当然，也可采用其他方式存储上述信息，例如文件或xml等方式。

步骤105：将图像文件和第一信息发送至客户端。

客户端收到图像文件和第一信息后将其显示给用户，同时要求用户根据第一信息显示的问题输入正确答案。优选的，本发明将验证码和干扰信息以及图像文件和第一信息一起发送至客户端。在显示图像文件和第一信息的同时，将验证码和干扰信息一同显示给用户。由于验证码本身就是对第一信息所显示问题的解答，因此用户只需要从干扰信息和验证码中选择一项作为输入的答案即可。通过这种选择的方式，节省了用户输入答案所耗费的时间，也避免了由于笔误而输入错误的可能，提高了验证的效率。

为进一步提高图像文件的识别难度，优选的，可对图像文件和第一信息施加干扰后再显示给用户。

步骤106：接收客户端反馈的数据并与存储的验证码进行比较，若一致，则通过验证。

如上所述，使用图像文件作为验证信息是本发明优选的方法，本领域的技术人员不应将此作为对本发明的限制。在条件允许的情况下，当然也可使用其它内容作为验证信息，例如，音频数据或视频数据等。若将音频或视频数据作为验证信息，首先收集模拟的视频或音频信息；然后对收集到的信息进行采样和量化，并在允许的条件下压缩生成数字音频文件或视频文件；将所述音频文件或视频文件作为验证信息，同时根据音频或视频的内容设计问题确定第一信息、验证码和干扰信息，并将上述信息存储在数据库中；循环执行该步骤建立验证信息库；从验证信息库中选择一个验证信息以及相应的第一信息、验证码和干扰信息发送至客户端；接收客户端反馈的数据并与存储的验证码进行比较，若一致，则通过验证。

下面以图像文件作为验证信息，结合具体的应用环境，进一步说明本发明所述的验证信息的方法。

首先，用户收集图像信息。可使用相机拍照或自己制作的方式产生图像文件。

然后，根据图像文件的内容设计第一信息，确定验证码和干扰信息。

将多个图像文件以及相应的第一信息、验证码和干扰信息存入服务器的数据库建立验证信息库。为方便输入，可通过软件输入上述内容。

验证信息库主要包含以下字段：

字段名称	描述
字段名称	描述	id	序列号
gmt_created	创建时间	id	序列号
gmt_created	创建时间	Img_pathname	图片存储路径
question	第一信息	Img_pathname	图片存储路径
question	第一信息	answer	验证码
answer_1	可选答案1	answer	验证码
answer_1	可选答案1	answer_2	可选答案2
answer_3	可选答案3	answer_2	可选答案2
answer_3	可选答案3	answer_4	可选答案4
answer_5	可选答案5	answer_4	可选答案4

字段question存储的第一信息是对图片内容的问题描述；字段answer存储的验证码是对第一信息的正确解答；字段answer_1到answer_5存储了干扰信息。

以下是个根据上述数据库结构存储验证信息的例子：

字段	例子1	例子2	例子3
字段	例子1	例子2	例子3	id	1	2	3
gmt_created	2006-10-24	2006-10-25	2006-10-26	id	1	2	3
gmt_created	2006-10-24	2006-10-25	2006-10-26	Img_pathname	/upload/checkcode/20061024/a.jpg	/upload/checkcode/20061025/b.jpg	/upload/checkcode/20061026/c.jpg

字段	例子1	例子2	例子3
字段	例子1	例子2	例子3	question	图片中有几个男人？	图片中的动物是？	图片中的人在干吗？
answer	2个	牛	踢球	question	图片中有几个男人？	图片中的动物是？	图片中的人在干吗？
answer	2个	牛	踢球	answer_1	5个	小猫	吃饭
answer_2	6个	小狗	睡觉	answer_1	5个	小猫	吃饭
answer_2	6个	小狗	睡觉	answer_3	3个	羊	洗衣
answer_4	4个	猪	唱歌	answer_3	3个	羊	洗衣
answer_4	4个	猪	唱歌	answer_5	1个	鸡	看电影

从验证信息库中随机选择一条验证信息，将相应的图片文件、第一信息、验证码和干扰信息发送至客户端。如图2所示，是根据本发明的方法显示的用户验证界面的效果示意图。将验证码混合在干扰信息中一同显示，用户从中选择一项作为输入。完成后提交确认。

服务器接收客户端返回的数据并与存储的验证码进行比较，若一致，则通过验证。

以上，结合具体实施例描述了本发明的一种验证信息的方法。参照以上有关本发明的介绍，如图3所示，是本发明所述的一种验证信息的装置300，包括：

收集单元301，用于收集模拟信息；

生成单元302，用于将收集单元301收集的模拟信息生成验证信息；

存储单元303，用于存储验证信息以及与该验证信息相应的第一信息和验证码；

接口单元304，用于将所述验证图片和第一信息发送至客户端并接收客户端反馈的数据；

比较单元305，用于比较接口单元304收到的客户端反馈的数据和验证码，若一致，则通过验证。

其中，所述模拟信息是图像信息。

其中，所述模拟信息是音频信息。

其中，所述模拟信息是视频信息。

优选的，所述存储单元303还用于存储与所述验证码相应的干扰信息；所述接口单元304还用于将验证码和干扰信息发送至客户端；所述客户端反馈的数据是从所述验证码和干扰信息中选择的数据。

以上对本发明所提供的一种信息验证方法、装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息验证方法，其特征在于，包括以下步骤：

收集模拟信息生成验证信息；

存储所述验证信息以及与该验证信息相应的第一信息和验证码，其中，所述第一信息是根据所述验证信息内容设计的问题；所述验证码是对该问题的解答；

将所述验证信息和第一信息发送至客户端；

2.根据权利要求1所述的方法，其特征在于，所述模拟信息是图像信息。

3.根据权利要求1所述的方法，其特征在于，所述模拟信息是音频信息。

4.根据权利要求1所述的方法，其特征在于，所述模拟信息是视频信息。

5.根据权利要求1至4任一项所述的方法，其特征在于，将模拟信息生成验证信息的过程包括：

对所述模拟信息进行采样和量化生成信源信息；

将所述信源信息进行压缩生成验证信息。

6.根据权利要求1至4任一项所述的方法，其特征在于，还包括：

存储与所述验证码相应的干扰信息；

将验证码和干扰信息发送至客户端；

所述客户端反馈的数据是从所述验证码和干扰信息中选择的数据。

7.一种信息验证装置，其特征在于，包括：

收集单元，用于收集模拟信息；

生成单元，用于将收集单元收集的模拟信息生成验证信息；

存储单元，用于存储验证信息以及与该验证信息相应的第一信息和验证码，其中，所述第一信息是根据所述验证信息内容设计的问题；所述验证码是对该问题的解答；

8.根据权利要求7所述的装置，其特征在于，所述模拟信息是图像信息。

9.根据权利要求7所述的装置，其特征在于，所述模拟信息是音频信息。

10.根据权利要求7所述的装置，其特征在于，所述模拟信息是视频信息。

11.根据权利要求7至10任一项所述的装置，其特征在于，所述存储单元还用于存储与所述验证码相应的干扰信息；

所述接口单元还用于将验证码和干扰信息发送至客户端；