CN104516898A

CN104516898A - 由服务器使用captcha来提供信息的方法和系统

Info

Publication number: CN104516898A
Application number: CN201310454962.XA
Authority: CN
Inventors: 庞严; 徐俊
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2015-04-15

Abstract

本发明涉及由服务器使用CAPTCHA来提供信息的方法和系统。提供了一种用于由服务器使用CAPTCHA来提供信息的方法，包括：响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题；把所述挑战问题以CAPTCHA的形式呈现给所述第一用户；基于所述第一用户对所述挑战问题的回答，产生所述第一用户感兴趣的信息；以及把所述第一用户感兴趣的信息提供给所述第一用户。

Description

由服务器使用CAPTCHA来提供信息的方法和系统

技术领域

本发明涉及计算机领域，具体地说，本发明涉及一种用于由服务器使用CAPTCHA来提供信息的方法和系统。

背景技术

CAPTCHA是Completely Automated Public Turing test to tellComputers and Humans Apart（全自动区分计算机和人类的图灵测试)的缩写。CAPTCHA是一种在计算中使用的挑战-回答测试，试图确保应答是由人产生的。在帐户和内容的创建期间，例如，当创建新的基于web的电子邮件帐户或者在网页上留下评论时，CAPTCHA被广泛使用。CAPTCHA用作挡住试图在web日志或论坛上产生垃圾电子邮件或者垃圾链接的“机器人”、或者有其它恶意目的的任何宿主。CAPTCHA的目的是区分计算机和人类，因此它必须能生成并评价人类能很容易通过但计算机却通不过的测试。CAPTCHA可以按照下面的各种方式实现：

●基于字符的CAPTCHA：网站要求人类用户从扭曲的图像中推断出字符或字符串并按顺序再现它们，成功再现之后系统才让用户继续前进；

●音频CAPTCHA：网站说出一个短语（例如，一个数字序列或者一句话）并且要求人类用户再现该短语，成功再现之后系统才让用户继续前进；

●基于图像的CAPTCHA：网站显示图像并要求用户回答关于图像的简单问题，例如，这是足球还是篮球？8+8=？等等，正确回答之后系统才让用户继续前进。

在互联网时代，大量的用户会与提供CAPTCHA测试的网站交互。因此，提供CAPTCHA测试的网站是向用户提供信息的有效渠道。在Naveen Jamal等人的“System and Method of using CAPTCHAs Ads”（美国专利No.0012855）中，提出了一种在CAPTCHA挑战/回答事务中加入广告的方法。在David M.Pennock等人的“System andMethod for Measuring Awareness of Online Advertising usingCAPTCHAs”（美国专利No.0133321）中，提供了一种提供并使用CAPTCHA进行在线广告的改进系统和方法。此外，在AlexanderKRAFT等人的“CAPTCHA Advertising”（美国专利No.0210937）中提出了一种把广告视频整合到CAPTCHA网页中的方法。

这些现有技术仅仅是在带有CAPTCHA的网页中简单地显示广告。例如，如图2中所示，在图2的例子中，预定的广告205与CAPTCHA105同时显示在一个页面中，并且广告205与CAPTCHA105是分离的。此外，在现有技术的另一个例子中，如图3中所示，广告内容（“ACMEAuto Seller”）被直接嵌入在CAPTCHA中以提供给用户。

在这些现有技术的例子中，显示的广告与用户无关，也就是说，在同一时段，任何人在该CAPTCHA页面上看到的广告都是一样的，并且是预先设置的。这样，如果把诸如广告、新闻等的信息借助CAPTCHA提供给用户，那么这种信息提供的效果是低下的。例如，在一个十几岁的少年登录网站时，向其提供如图3所示的CAPTCHA，无法达到预期效果，因为该少年没有达到合法驾驶的年龄从而不会购买汽车。因此，这种信息提供是无效的，并且会使用户体验下降。

发明内容

基于以上的描述，希望提供一种由服务器使用CAPTCHA来提供信息的方法和系统，该方法和系统能够根据不同的用户向用户提供他/她更感兴趣的信息。

根据本发明的一个方面，提供了一种用于由服务器使用CAPTCHA来提供信息的方法，包括：响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题；把所述挑战问题以CAPTCHA的形式呈现给所述用户；基于用户对所述挑战问题的回答，产生所述用户感兴趣的信息；以及把用户感兴趣的信息提供给所述用户。

根据本发明的另一个方面，提供了一种用于由服务器使用CAPTCHA来提供信息的系统，包括：问题产生装置，被配置为响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题；问题呈现装置，被配置为把所述挑战问题以CAPTCHA的形式呈现给所述用户；信息产生装置，被配置为基于用户对所述挑战问题的回答，产生所述用户感兴趣的信息；以及信息提供装置，被配置为把用户感兴趣的信息提供给所述用户。

采用根据本发明的用于由服务器使用CAPTCHA来提供信息的方法和系统，能够在对用户进行CAPTCHA测试的同时向用户提供对于用户有用的、用户更感兴趣的信息，从而提高了用户对于网站的使用体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

图2是示出了现有技术中的向CAPTCHA添加广告的一个例子的示图。

图3是示出了现有技术中的向CAPTCHA添加广告的另一个例子的示图。

图4是示出了根据本发明的一个实施例的用于使用CAPTCHA来提供信息的方法的流程图。

图5是示出了产生挑战问题的算法的概要流程图。

图6是示出基于矢量P中的两个维度的信息（p₁和p₂）的用户相似性聚类的例子的示图。

图7是示出了根据本发明的自适应学习算法的概念的示图。

图8是示出了使用带有置信水平与不带有置信水平的用户分组操作的对比的示图。

图9是示出了根据本发明的一个实施例的用于使用CAPTCHA来提供信息的系统的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

现在参看图4，图4是示出了根据本发明的一个实施例的用于使用CAPTCHA来提供信息的方法的流程图。该方法由用户所访问的网站的服务器执行。图4中的流程图中的处理包括如下步骤：产生挑战问题410、呈现挑战问题420、产生用户感兴趣的信息430、以及提供用户感兴趣的信息440。

下面，将详细描述图4中的本发明的使用CAPTCHA来提供信息的方法中的各个步骤。

在步骤410中，响应于用户（第一用户）利用客户端访问服务器的服务的第一尝试，基于与所述用户相关的信息产生挑战问题。

在本发明的一个实施例中，当用户通过诸如台式机、笔记本计算机、智能手机等的客户端尝试访问一个网站时，该网站的服务器执行CAPTCHA测试。

在本发明的一个实施例的CAPTCHA测试中，与现有技术不同，挑战问题是基于与用户相关的信息产生的。与所述用户相关的信息可以包括以下信息中的一种或多种：从所述用户在服务器上注册时填写的表格中获取的用户个人信息和/或用户偏好信息、以及从用户正在浏览或者曾经浏览过的网页中提取的网页提取信息。这里，可以通过用户的浏览器的历史记录来找到用户曾经浏览过的网页，并且通过浏览器中当前打开的除了该CAPTCHA测试页面以外的其它页面可以知道用户正在浏览的网页。网页提取信息例如可以是诸如“BMW^TM”、“汽车”等的网站描述关键字等。这些提取的关键字可以从另一个角度反映当前用户的兴趣所在，尤其是在该用户并非是当前提供CAPTCHA测试的网站的注册用户的情况下。

在本发明的一个实施例中，使用数据挖掘方法，基于与所述用户相关的信息产生挑战问题。这种产生挑战问题的算法具有两个主要步骤：基于相似性的用户分组（步骤510）；以及相似用户组中的偏好挖掘（步骤520）。图5是示出了产生挑战问题的算法的概要流程图。

在步骤510中，与用户相关的信息可以被表示为一个矢量：

P = [\begin{matrix} p_{1} \\ p_{2} \\ . . . \\ p_{n} \end{matrix}]

其中，p_i表示用户个人信息、用户偏好信息和/或网页提取信息中的不同维度，例如，年龄、性别、所在城市、喜爱的电子产品等，并且n是正整数。在这些例子中，例如，年龄、性别和所在城市属于用户在注册时填写的用户个人信息，而喜爱的电子产品可以是用户在注册时填写的用户偏好信息，也可以是服务器应用从用户浏览的网页中提取的网页提取信息。在下文中，为了使说明更简单，不管用户偏好信息和网页提取信息的来源如何，把它们都统称为用户偏好信息，因为它们都能够反映用户的偏好。

矢量P被用来把用户聚类到具有相似性的用户组中。例如，使用诸如k均值（k-means）法的数据挖掘方法来执行这种聚类。图6是示出基于矢量P中的两个维度的信息（p₁和p₂）的用户相似性聚类的例子的示图。在图6中，根据矢量P的维度p₁和p₂，用户被分别聚类到三个相似用户组G1、G2和G3中。

因为在每个相似用户组中用户可能具有共同的兴趣（例如，手机、照相机、电视机等），需要进一步分析相似用户组中的用户偏好信息，并使用分析结果来产生挑战问题。

在步骤520中，用户偏好信息可以被表示为一个矢量：

H = [\begin{matrix} h_{1} \\ h_{2} \\ . . . \\ h_{m} \end{matrix}]

其中，h_i表示用户的一个偏好，该偏好例如可以是在用户注册时登记的诸如游戏、手机、体育等爱好、或者从用户浏览的网页中提取的诸如大众汽车、奔驰汽车等的网页提取信息中的一项。此外，m是正整数。在基于相似性的用户分组步骤中使用的矢量P中的某些元素p_i（偏好）可以与用户偏好信息的矢量H中的元素h_i重叠。例如，手机偏好既可以被用来进行用户分组，也可以被用来进行相似用户组中的偏好挖掘。当然，矢量P和矢量H中的元素也可以不重叠。

在本发明的一个实施例中，可以基于统计技术来执行偏好挖掘。例如，在相似用户组G1中，例如，存在下面的热点偏好列表：

热点偏好	有该偏好的人（%）
		手机	50%
照相机	25%
		电视机	10%
游戏机	10%

其它

5%

因此，对于落入相似用户组G1的用户，将产生与该组中具有最高百分比的偏好（即，手机）相关的挑战问题。例如，产生的挑战问题可以是“你想买一部多少钱的手机？1:(<1000)，2:(1000-3000)，3:(>3000)”，该挑战问题与手机相关。

在本发明的另一个实施例中，还可以基于更精密复杂的数据挖掘算法来执行偏好挖掘以产生挑战问题。这些算法例如可以包括决策树（DecisionTrees）、Apriori算法、kNN算法、SVM算法、CART算法等等。。

现在返回参照图4，在步骤420中，把所述挑战问题以CAPTCHA的形式呈现给用户。例如，可以在页面上的一个图片中以扭曲的形式显示挑战问题“你想买一部多少钱的手机？1:(<1000)，2:(1000-3000)，3:(>3000)”。当人类阅读了这个挑战问题时，可以输入三个选项（1、2、3）之一。在这里，无论输入了哪个选项，都会通过测试，但是在输入这三个选项之外的任何其它内容的情况下不会通过测试。因此，该挑战问题既可以起到区分人类与机器人的作用，又可以针对用户感兴趣的领域进一步收集信息。

在步骤430中，基于用户对所述挑战问题的回答，产生用户感兴趣的信息。产生用户感兴趣的信息的步骤利用了自适应学习算法。与图5中的算法类似，该自适应学习算法也包含两个步骤：1）基于相似性的用户分组、以及2）相似用户组中的偏好挖掘。

如上所述，在产生挑战问题时使用了两种类型的用户相关信息（即，用户个人信息和用户偏好信息（后者包括用户注册时输入的用户偏好信息和网页提取信息））。

在根据本发明的自适应学习过程中，基于用户对CAPTCHA挑战问题的回答来增强这两种类型的信息（p_i和h_i），为它们赋予不同的置信水平信息w_i，从而将它们存储为w_ip_i和w_ih_i。这里，w_i是大于1的实数值并且表示信息置信水平。w_i是自适应学习算法的参数并且可以根据用户对CAPTCHA挑战问题的回答而不断进行调整。w_i的值越大就表示信息的置信水平越高。

图7是示出了根据本发明的自适应学习算法的概念的示图。从图7中可以看到，每经过一次用户对挑战问题的回答，对于该用户而言，信息p_i或h_i被赋予更加贴切的置信水平，从而变为w_ip_i或w_ih_i，后者能够更加贴切地反映用户的兴趣。

在本发明的一个实施例中，用户对所述挑战问题的回答被存储在数据库中，并且上述方法还包括响应于所述用户访问所述服务器的服务的第二尝试，基于存储在数据库中的所述回答以及与所述用户相关的信息来产生另一挑战问题。在这里，第二尝试发生在第一尝试之后。例如，第一尝试可以是用户在网站上进行注册，第二尝试可以是用户下一次访问该网站时直接登录该网站。或者，第一尝试可以是用户登录一个已注册过的网站，第二尝试可以是几天后用户再次登录该网站。也就是说，用户在访问服务器的服务时触发的CAPTCHA挑战问题的产生可以基于用户先前一次或多次访问该服务器时对CAPTCHA挑战问题的回答内容（如果存在先前的访问的话）。当然，除了以上的例子，本领域技术人员还可以容易地基于本发明想到很多其它例子。

在根据本发明的自适应学习算法中，在基于相似性的用户分组、以及相似用户组中的偏好挖掘中使用具有置信水平的用户相关信息。图8是示出了使用带有置信水平与不带有置信水平的用户分组操作的对比的示图。在图8的（a）中，纵轴代表用户相关信息P1，横轴代表用户相关信息P2；在图8的（b）中，纵轴代表用户相关信息P1，横轴代表带有置信水平的用户相关信息P2（WP2）。在图8中举例示出了两个相似用户组，其中（a）表示在不考虑置信水平的情况下的用户分组结果的一个例子，而（b）表示在考虑置信水平的情况下的用户分组结果的一个例子。例如，如图8中的（a）所示，如果不考虑置信水平（例如，在不存在对先前的CAPTCHA挑战问题的回答的情况下），则利用数据挖掘算法（例如，k均值法），用户X（由图8中的圆形指示）被聚类到用户组G1中。与之相对，如图8中的（b）所示，如果考虑置信水平W（W>1），则用户X在图8中被水平地向右移动从而将被聚类到用户组G2中。从而，用户组G2中的偏好信息（代替于用户组G1中的偏好信息）被用来产生用户X感兴趣的信息。

另外，在相似用户组中的偏好挖掘中，可以使用置信水平信息来变换偏好挖掘结果。例如，在用户组G2中，假定存在下面的手机品牌喜好：

在上面的表中，包含3列数据，其中：第一列数据是未考虑置信水平的原始统计数据；第二列数据是考虑了w_apple=2的置信水平后的统计数据；第三列是对第二列数据进行归一化后得到的数据。

在未考虑置信水平的情况下，因为喜爱HTC的人最多（40%），因此对于该用户组中的用户，会向其提供关于HTC的手机的信息。另一方面，例如，在当前用户先前回答过CAPTCHA挑战问题并且其回答倾向于Apple手机时，例如可能得到置信水平w_apple=2。基于该置信水平，在上述表格的第二列中，Apple的喜爱人数变为30%×w_apple=60%。然后，通过对上述表格的第二列数据进行归一化而得到第三列数据。这样，该用户组中最被喜爱的手机品牌就变为Apple（46%）。因此，在产生用户感兴趣的信息时，将会产生与Apple相关的信息。该信息例如可以是但不限于Apple产品的广告、Apple的产品信息、Apple公司的网址、Apple手机的评测报告等等。

类似地，在本发明的另一个实施例中，可以在更精密复杂的数据挖掘算法中考虑置信水平来执行偏好挖掘以产生用户感兴趣的信息。这些算法例如可以包括决策树（Decision Trees）、Apriori算法、kNN算法、SVM算法、CART算法等等。

此外，所述用户感兴趣的信息可以包括新闻、股票、天气预报或者广告等等。

现在返回继续参照图4，在步骤440中，把用户感兴趣的信息提供给用户。把用户感兴趣的信息提供给用户包括：在用户对所述挑战问题的回答完成后的确认页面上显示用户感兴趣的信息；和/或通过电子邮件把用户感兴趣的信息发送给用户。例如，当确定用户对篮球感兴趣时，可以把篮球比赛的结果和指向赛场花絮的链接显示在成功完成CAPTCHA测试的确认页面上，或者把它们通过电子邮件发送给该用户，或者同时执行这两者。

在根据本发明的另一个实施例中，所述方法还包括：产生包含一个或多个CAPTCHA形式的挑战问题的调查问卷；以及把与所述用户不同的另一用户（以下称为第二用户）对所述调查问卷的回答存储在所述数据库中。对于第二用户，并不产生和显示第二用户感兴趣的信息，而仅仅是收集其用户偏好信息。在一个实施例中，调查问卷中的一个或多个CAPTCHA形式的挑战问题是基于调查的目的和/或与第二用户相关的信息产生的；而在另一个实施例中，可能不存在与第二用户相关的信息（非注册用户），此时，调查问卷中的挑战问题仅仅是基于调查的目的而设计的固定问题。在本发明中，对于调查问卷的回答可被用来帮助执行本发明的自适应学习算法。例如，图4中的步骤410和/或步骤430的执行还可以基于存储在所述数据库中的第二用户对所述调查问卷的回答。例如，被调查用户（第二用户）对所述调查问卷的回答可以影响第一用户（图4的信息提供方法所针对的用户）在进行相似用户组的偏好挖掘时所使用的统计数据（例如，上述的表格中的数据），从而得出更精确的结果，即，产生第一用户更感兴趣的信息。

例如，在网站运行初期缺乏统计数据时，服务器可以向用户仅仅提供调查调查问卷以收集用户相关信息（此时用户属于第二用户）。当累积了一定的统计数据时，服务器可以针对用户执行图4中示出的信息提供方法（此时用户属于第一用户）。

本发明的方法可以应用于目前的Web服务器能够提供的各种服务，包括但不限于：网站注册、网站登录、内容发表、或者订单提交。这里仅仅给出了几个例子，事实上，凡是出现CAPTCHA测试的地方都可以应用本发明。

图9是示出了根据本发明的一个实施例的用于使用CAPTCHA来提供信息的系统的方框图。图9中的信息提供系统900包括问题产生装置910、问题呈现装置920、信息产生装置930、以及信息提供装置940。

问题产生装置910被配置为响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题。问题呈现装置920被配置为把所述挑战问题以CAPTCHA的形式呈现给所述第一用户。信息产生装置930被配置为基于所述第一用户对所述挑战问题的回答，产生所述第一用户感兴趣的信息。信息提供装置940被配置为把所述第一用户感兴趣的信息提供给所述第一用户。

在本发明的一个实施例中，信息提供系统900还可以包括调查问卷产生装置和存储装置。该调查问卷产生装置被配置为产生包含一个或多个CAPTCHA形式的挑战问题的调查问卷，并且该存储装置，被配置为把第二用户对所述调查问卷的回答存储在所述数据库中。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于由服务器使用CAPTCHA来提供信息的方法，包括：

响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题；

把所述挑战问题以CAPTCHA的形式呈现给所述第一用户；

基于所述第一用户对所述挑战问题的回答，产生所述第一用户感兴趣的信息；以及

把所述第一用户感兴趣的信息提供给所述第一用户。

2.根据权利要求1所述的方法，其中，与所述第一用户相关的信息包括以下信息中的一种或多种：从所述第一用户在服务器上注册时填写的表格中获取的用户个人信息、用户偏好信息、以及从第一用户正在浏览或者曾经浏览过的网页中提取的网页提取信息。

3.根据权利要求1所述的方法，其中，第一用户对所述挑战问题的回答被存储在数据库中，并且所述方法还包括：

响应于所述第一用户访问所述服务器的服务的第二尝试，基于存储在数据库中的所述回答以及与所述第一用户相关的信息来产生另一挑战问题。

4.根据权利要求1所述的方法，还包括：

产生包含一个或多个CAPTCHA形式的挑战问题的调查问卷；以及

把与所述第一用户不同的第二用户对所述调查问卷的回答存储在数据库中。

5.根据权利要求4所述的方法，其中，基于调查的目的和/或与第二用户相关的信息产生所述调查问卷中的一个或多个CAPTCHA形式的挑战问题。

6.根据权利要求4所述的方法，其中，基于与所述第一用户相关的信息产生挑战问题包含：基于与所述第一用户相关的信息和所述第二用户对所述调查问卷的回答产生挑战问题。

7.根据权利要求4或6所述的方法，其中，基于所述第一用户对所述挑战问题的回答，产生所述第一用户感兴趣的信息包含：基于所述第一用户对所述挑战问题的回答和所述第二用户对所述调查问卷的回答，产生所述第一用户感兴趣的信息。

8.根据权利要求1所述的方法，其中，所述服务器的服务包括：网站注册、网站登录、内容发表、或者订单提交。

9.根据权利要求1所述的方法，其中，产生所述第一用户感兴趣的信息的步骤利用了自适应学习算法。

10.根据权利要求1所述的方法，其中，把所述第一用户感兴趣的信息提供给所述第一用户包括：

在第一用户对所述挑战问题的回答完成后的确认页面上显示第一用户感兴趣的信息；和/或

通过电子邮件把用户感兴趣的信息发送给第一用户。

11.一种用于由服务器使用CAPTCHA来提供信息的系统，包括：

问题产生装置，被配置为响应于第一用户利用客户端访问服务器的服务的第一尝试，基于与所述第一用户相关的信息产生挑战问题；

问题呈现装置，被配置为把所述挑战问题以CAPTCHA的形式呈现给所述第一用户；

信息产生装置，被配置为基于所述第一用户对所述挑战问题的回答，产生所述第一用户感兴趣的信息；以及

信息提供装置，被配置为把所述第一用户感兴趣的信息提供给所述第一用户。

12.根据权利要求11所述的系统，其中，与所述第一用户相关的信息包括以下信息中的一种或多种：从所述第一用户在服务器上注册时填写的表格中获取的用户个人信息、用户偏好信息、以及从第一用户正在浏览或者曾经浏览过的网页中提取的网页提取信息。

13.根据权利要求11所述的系统，其中，第一用户对所述挑战问题的回答被存储在数据库中，并且所述系统还包括响应于所述第一用户访问所述服务器的服务的第二尝试，基于存储在数据库中的所述回答以及与所述第一用户相关的信息来产生另一挑战问题的装置。

14.根据权利要求11所述的系统，还包括：

调查问卷产生装置，被配置为产生包含一个或多个CAPTCHA形式的挑战问题的调查问卷；以及

存储装置，被配置为把与所述第一用户不同的第二用户对所述调查问卷的回答存储在数据库中。

15.根据权利要求14所述的系统，其中，所述调查问卷中的一个或多个CAPTCHA形式的挑战问题是基于调查的目的和/或与第二用户相关的信息产生的。

16.根据权利要求14所述的系统，其中，所述问题产生装置还被配置为基于与所述第一用户相关的信息和所述第二用户对所述调查问卷的回答产生挑战问题。

17.根据权利要求14或16所述的系统，其中，所述信息产生装置还被配置为基于所述第一用户对所述挑战问题的回答和所述第二用户对所述调查问卷的回答，产生所述第一用户感兴趣的信息。

18.根据权利要求11所述的系统，其中，所述服务器的服务包括：网站注册、网站登录、内容发表、或者订单提交。

19.根据权利要求11所述的系统，其中，所述信息产生装置利用了自适应学习算法。

20.根据权利要求11所述的系统，其中，所述信息提供装置包括：

用于在第一用户对所述挑战问题的回答完成后的确认页面上显示用户感兴趣的信息的装置；和/或

用于通过电子邮件把用户感兴趣的信息发送给第一用户的装置。