CN113468589A

CN113468589A - 检测数据收集正当性

Info

Publication number: CN113468589A
Application number: CN202010237495.5A
Authority: CN
Inventors: 龚文君; 邹世宇; 柯尧; 杜安琪; 徐星宇; 葛轶晗; 章扬斌; W·H·T·黄; 刘静; 丁锐; 韩石; 张冬梅; 唐文菲
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-10-01
Also published as: WO2021201980A1

Abstract

本公开提供了用于检测数据收集正当性的方法和装置。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。可以监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联。可以响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息。可以基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

Description

检测数据收集正当性

背景技术

随着互联网技术的发展，人们可以更便利地通过网络来收集感兴趣的数据。可以通过表单(form)、电子邮件、网页、生产力工具文档等不同方式来进行数据收集。在本文中，数据收集服务可以广泛地指能够用于实施数据收集或具有数据收集功能的各种服务、应用、软件、网站等。例如，调查表单(survey form)服务是一种通过表单来收集数据的专用数据收集服务。此外，也可以在非专用于数据收集的服务中进行数据收集，例如，在电子邮件服务中通过电子邮件来收集数据、在浏览器服务中通过网页来收集数据、在生产力工具中通过生产力工具文档来收集数据、等等。所有这些能够实现数据收集的服务都可以被统称为数据收集服务。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于检测数据收集正当性的方法和装置。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。可以监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联。可以响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息。可以基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了非正当数据收集的示例性过程。

图2示出了非正当数据收集中涉及的示例性内容。

图3示出了根据实施例的用于检测数据收集正当性的示例性过程。

图4示出了根据实施例的数据收集正当性检测服务的示例性部署。

图5示出了根据实施例的用于检测数据收集正当性的示例性方法的流程图。

图6示出了根据实施例的用于检测数据收集正当性的示例性装置。

图7示出了根据实施例的用于检测数据收集正当性的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

数据收集服务可能被不良用户用于非正当目的的数据收集，从而，存在数据收集服务被滥用的风险。例如，数据收集服务可能被恶意地用于收集个人隐私或敏感数据、收集商业秘密、传播不良内容、等等，并且所收集的数据可能被用于金融犯罪、名誉侵害、网络攻击、等等。非正当目的的数据收集将极大地损害数据收集服务的提供者和正当用户的利益。

以网络钓鱼(phishing)为例，其是一种常见的网络攻击。网络钓鱼者通常会进行非正当目的的数据收集，例如，收集登录账号和密码、银行卡号、信用卡号、家庭住址、公司商业信息等隐私或敏感数据。例如，调查表单服务是网络钓鱼者常用的数据收集服务。通过调查表单服务，网络钓鱼者可以创建和分发用于非正当目的的表单，并且获得响应者所提供的信息。现有的网络钓鱼检测技术可以分为主动方式和被动方式。常用的主动检测网络钓鱼攻击的技术可以包括例如页面内容审查、基于黑名单的检测等。这些技术仅关注网络钓鱼攻击活动的特定阶段，例如，创建表单的阶段，并且检测是基于静态信息的，例如，基于表单中包含的字符串、图像等。因此，这些技术仅能够实现有限的检测准确性，并且存在误检的情况。被动的网络钓鱼检测通常依赖于用户对网络钓鱼情况的报告，然而，这将会受到有限的用户报告的限制，并且不能及时地确定网络钓鱼攻击。

本公开的实施例提出了对数据收集正当性的有效检测，以及相应地对非正当数据收集的及时控制或干预。在本文中，数据收集的正当性可以广泛地指数据收集是否是具有正当目的的、合法的、合理的、非恶意的、非滥用的、符合道德规范的、非侵害个人或实体权益的、等等。

数据收集可以是通过用户在数据收集服务中处理与数据收集相关的内容来实施的。该内容可以包括能够被用于数据收集的各种数字信息形式，例如，表单、电子邮件、网页、生产力工具文档等。相应地，数据收集服务可以是支持对内容的处理的各种服务，例如，调查表单服务、电子邮件服务、浏览器服务、生产力工具等。内容的创建者可以在数据收集服务中创建用于收集数据的内容，而内容的响应者可以在数据收集服务中向该内容中填写信息以提供数据，其中，响应者可以指在接收到内容的接收者中对该内容做出了响应的接收者。

本公开的实施例可以采用来自数据收集服务和/或来自不同于该数据收集服务的外部服务的各种信息，来触发并执行对数据收集正当性的检测。

可以通过评价等级机制来衡量数据收集的正当性。在该评价等级机制中，可以确定指示内容的正当性的内容评价等级，该内容评价等级也可以被称为内容信誉等级。内容的正当性可以指该内容本身是否是正当的，例如，是否涉及个人隐私信息收集等。在该评价等级机制中，还可以确定指示内容创建者的正当性的创建者评价等级，该创建者评价等级也可以被称为创建者信誉等级。创建者的正当性可以指该创建者是否具有正当目的，例如，是否是网络钓鱼者等。

可以从数据收集服务和/或外部服务处检测或收集各种有助于确定内容评价等级和创建者评价等级的信息。可以在整个数据收集生命周期里的各个阶段中提取有助于确定评价等级的信息。对评价等级的确定可以考虑到在数据收集服务和/或外部服务中的与内容和/或用户行为相关联的信息、在数据收集服务中的管理信息等。

可以综合考虑从数据收集服务和/或外部服务处所检测或收集的各种信息，来确定内容评价等级和创建者评价等级，从而相应地确定内容的正当性和创建者的正当性。提出了多种方式来确定内容评价等级和创建者评价等级，例如，基于评价规则的方式、基于评价分数的方式、基于快速可解释加性模型(FXAM)的方式等。本公开的实施例所提出的FXAM是采用数值特征、类别特征、时间特征等来预测评价等级的统一模型。提出了通过三级迭代来训练FXAM，并且通过一系列优化来加速FXAM的训练过程。FXAM的可解释性可被有效地用于选择特征集中采用的特征，或者持续地对特征集中的特征进行更新。所提出的训练方式有助于快速地重新训练或更新FXAM。

本公开的实施例可以根据所确定的内容评价等级、创建者评价等级等，在数据收集服务和/或外部服务中采取相应的控制操作，以便限制或阻止非正当数据收集行为的发生、保护正当用户的权益等。以通过调查表单服务进行网络钓鱼为例，本公开的实施例可以识别网络钓鱼表单、识别网络钓鱼者、阻止网络钓鱼者将表单用作网络钓鱼工具、防止网络钓鱼表单被分发用于收集隐私或敏感数据、帮助接收者识别网络钓鱼行为、协助管理员识别网络钓鱼行为以确保正当用户权益和数据安全、等等。在该实例中，数据收集服务是调查表单服务，内容是表单，内容的正当性关联于该内容是否是网络钓鱼表单，并且内容创建者的正当性关联于创建者是否是网络钓鱼者。

应当理解，尽管以下讨论中的多个部分以网络钓鱼作为非正当数据收集的示例，并且以调查表单服务作为数据收集服务的示例，但这仅仅是为了便于解释本公开的基本概念的目的。本公开并不局限于这些具体的示例，而是可以涵盖任何其它类型的数据收集服务以及对任何其它类型的非正当数据收集的检测。

图1示出了非正当数据收集的示例性过程100。非正当数据收集通常具有包括多个阶段的生命周期。过程100以钓鱼者在调查表单服务中进行网络钓鱼为例对此进行示例性的说明。

在110处，钓鱼者可以启动调查表单服务。例如，钓鱼者可能想通过表单来收集敏感数据，从而可以在110处进入调查表单服务。应当理解，调查表单服务可以是通过不同的方式来提供的，例如，通过网页、通过客户端等。钓鱼者可以利用其账号来登录调查表单服务。在一些情况下，钓鱼者也可能在启动调查表单服务之前识别出目标接收者，以便进行针对性的网络钓鱼。

在120处，钓鱼者可以在调查表单服务中创建网络钓鱼表单。该表单可能包括一个或多个旨在收集例如敏感数据的问题。例如，钓鱼者可能在表单中创建询问登录账号和密码、银行卡号、信用卡号等的问题。此外，为了更有效地欺骗接收者，钓鱼者可能在表单中冒充合法实体，例如，公司、个人、网站等。钓鱼者可以通过在表单中添加伪装的标志(logo)、冒充的商标、虚假的电子邮件、冒充的网址等，来使得所创建的表单看起来更像是正当目的的表单。

在130处，钓鱼者可以通过各种途径来分发所创建的网络钓鱼表单。例如，钓鱼者可以通过电子邮件来将表单发送给特定的或非特定的接收者。为了进一步提高可信度，钓鱼者可能在电子邮件中附加一些额外的信息，例如，虚假的描述、伪装的标志、冒充的商标等。

在140处，钓鱼者可以收集敏感数据。例如，表单的部分接收者可能在表单中填写对问题的回答以及所要求的信息，并且作为响应者来将表单返回到钓鱼者。从而，钓鱼者可以获得响应者的敏感数据。返回敏感数据的这些响应者也可以被视为受骗者。

在150处，钓鱼者可以利用所收集到的敏感数据来实施各种恶意行为以达到非正当目的。例如，钓鱼者可能利用响应者提供的银行账号信息来窃取金融资产，利用响应者提供的隐私信息来发起进一步的网络攻击，等等。

应当理解，过程100仅仅示出了示例性非正当数据收集的生命周期中的几个示例性阶段。在其它情形下，非正当数据收集的过程也能包括更多或更少的其它阶段。

图2示出了非正当数据收集中涉及的示例性内容200。作为示例，内容200是网络钓鱼所采用的示例性表单。例如，该表单可以是网络钓鱼者在图1的120处所创建的。

该表单的标题“请更新你的密码”指示该表单旨在协助接收者更改某项业务的密码。钓鱼者在该表单中创建了用于收集敏感数据的问题，例如“输入你的旧密码”、“输入新密码”等。如果接收者针对这些问题给出了回答，则钓鱼者就获得了所期望的敏感数据，并从而可以进一步实施恶意行为。

应当理解，图2仅仅给出了非正当数据收集中涉及的内容的示例，在实际的场景中可能存在各种其它形式的非正当内容。

图3示出了根据实施例的用于检测数据收集正当性的示例性过程300。该数据收集可以是通过用户在数据收集服务中对与数据收集相关的内容进行处理来实施的。该用户可以是内容的创建者或接收者。例如，作为创建者的用户可以在数据收集服务中创建、编辑和分发内容，并且查看作为数据收集结果的响应结果。作为接收者的用户可以在数据收集服务中访问该内容、向该内容中填写信息以及返回内容。

在310处，可以监视在数据收集服务302和/或至少一个外部服务304中发生的至少一个事件。在本文中，事件可以指在各种服务中的内容的出现、用户的操作或行为的发生、等等。因此，所监视的事件是与内容和/或用户相关联的。外部服务304可以表示一个或多个外部服务。

在一个方面，在310处可以监视数据收集服务302中发生的事件。例如，创建者用户可能在数据收集服务302中创建了新内容，从而可以监视到“新内容创建事件”。例如，创建者用户可能正在数据收集服务302中对内容的问题进行修改，从而可以监视到“内容修改事件”。例如，接收者用户可能在数据收集服务302中接收到了内容，从而可以监视到“内容接收事件”。例如，接收者用户可能正在数据收集服务302中向内容中填写信息，从而可以监视到“内容响应事件”。例如，数据收集服务302的管理员可能在后台对内容的处理实施了管理或控制操作，从而可以监视到“管理事件”。管理员可以指在后台对数据收集服务的运行提供管理或控制的人员。在一些情况下，管理员也可以指由租用了数据收集服务的实体所指派的、管理内容的人员。应当理解，上述的事件仅仅是示例性的，还可能在数据收集服务302中监视到任何其它类型的事件。

在一个方面，在310处可以监视外部服务304中发生的事件。外部服务可以指不同于数据收集服务的任何服务。例如，外部服务304可以包括：电子邮件服务、浏览器服务、操作系统安全检测服务、云服务、社交媒体等。在一种实现方式中，在310处对事件的监视可以包括从外部服务304接收关于事件的指示。在这种情况下，外部服务304可以作为外部信号源，以提供有关事件发生的外部信号或通知。

以外部服务304是电子邮件服务为例，当电子邮件服务发现在一封邮件中嵌入了用于数据收集的内容并且将被发送时，电子邮件服务可以产生关于该事件的指示。从而，在310处可以监视到“内容分发事件”。此外，当电子邮件服务检测到一封包括用于数据收集的内容的垃圾邮件时，电子邮件服务可以产生关于该事件的指示。从而，在310处可以监视到“垃圾内容分发事件”。

以外部服务304是浏览器服务为例，当用户通过浏览器服务访问用于数据收集的内容或者访问包括用于数据收集的内容的网站时，浏览器服务可以产生关于该事件的指示。从而，在310处可以监视到“内容识别事件”。此外，在一些浏览器服务中会提供安全检测功能，例如，在Edge浏览器中提供了智能屏幕(SmartScreen)功能以检测网站或所浏览的页面的安全性。当用户通过浏览器服务访问用于数据收集的内容或者访问包括用于数据收集的内容的网站时，安全检测功能可能识别出该内容包括恶意信息，并且浏览器服务可以产生关于该事件的指示。从而，在310处可以监视到“恶意内容识别事件”。

以外部服务304是操作系统安全检测服务为例，例如，操作系统中的防火墙，当该安全检测服务扫描出某个软件中包括用于数据收集的内容或者该内容包括恶意信息时，该安全检测服务可以产生关于该事件的指示。从而，在310处可以监视到“内容识别事件”或“恶意内容识别事件”。

以外部服务304是云服务为例，当云服务发现某个在线文档、网站、附件等包括用于数据收集的内容时，云服务可以产生关于该事件的指示。从而，在310处可以监视到“内容识别事件”。此外，在一些云服务中会提供安全检测功能，以检测使用该云服务的在线文档、网站、附件等的安全性。当该安全检测功能识别出包括恶意信息的内容时，云服务可以产生关于该事件的指示。从而，在310处可以监视到“恶意内容识别事件”。

以外部服务304是社交媒体为例，当该社交媒体扫描出某个社交信息中包括用于数据收集的内容或者该内容包括恶意信息时，该社交媒体可以产生关于该事件的指示。从而，在310处可以监视到“内容识别事件”或“恶意内容识别事件”。

应当理解，上述的外部服务和事件都是示例性的，还可能在任何其它外部服务中监视到任何其它类型的事件。

如果在310处在数据收集服务中或者在外部服务中监视到事件，则该事件可以触发过程300中的后续操作，因此，在310处的监视事件的操作也可以被视为是触发操作。

在320处，可以响应于所监视到的事件，从数据收集服务302和/或外部服务304中检测与该事件相关联的各种状态信息。在本文中，状态信息可以指有助于确定内容或内容创建者的评价等级并进而确定内容或内容创建者的正当性的各种信息。状态信息也可以被称为证据。针对不同的事件可以检测相同或不同类型的状态信息。针对不同类型的用户，例如，创建者和接收者，也可以检测相同或不同类型的状态信息。

在一个方面，检测状态信息可以包括在数据收集服务中检测与内容相关联的各种信息，例如，内容的标题是否包括敏感词语、内容中的问题是否在询问例如密码等敏感数据、内容中的标志是否属于不同于创建者的实体、内容中插入的标志的数量、内容中包括的问题的数量、内容中的链接是否安全、内容的分发渠道、响应者返回的内容中是否包括大量敏感数据、收集到的响应总数、等等。

在一个方面，检测状态信息可以包括在数据收集服务中检测与用户的行为相关联的各种信息。当用户是创建者时，状态信息可以包括，例如，内容被创建的时间点、创建内容所用的时间长度、该用户是否具有滥用数据收集服务的历史记录、该用户在编辑某个问题时停留的时间长度、该用户是否反复修改某个问题、该用户刷新响应结果的次数、等等。当用户是接收者时，状态信息可以包括，例如，该用户填写回答的总时间、该用户在某个问题上停留的时间长度、等等。应当理解，可选地，所检测的与用户行为相关联的状态信息的类型也可以不受到当前用户是创建者或接收者的限制。例如，无论当前用户是创建者还是接收者，所检测的与用户行为相关联的状态信息可以广泛地包含与创建者和/或接收者的行为相关联的各种状态信息。

在一个方面，检测状态信息可以包括获得在数据收集服务中的管理信息。该管理信息可以是与管理员针对内容的处理所采取的控制措施相对应的信息。管理信息可以包括，例如，内容被接收者报告为非正当数据收集的数量、确认内容涉及收集敏感数据、确认内容中的问题涉及敏感数据、向创建者发送警告信息、向接收者发送警告信息、限制或取消限制对内容的访问或编辑、等等。

在一个方面，检测状态信息可以包括获得在外部服务中的与内容创建者的行为相关联的各种信息。当用户使用其账号登录数据收集服务时，该账号或相关信息也可以被用于在外部服务中识别该用户。例如，该用户可能使用同一个账号或相关联的账号来登录数据收集服务、电子邮件服务、社交媒体等，从而，可以根据用户所使用的账号来在不同的服务中识别该用户的身份。应当理解，本公开的实施例并不局限于使用账号来在不同服务中识别同一用户，而是可以采用任何其它手段，例如，通过用户所使用的终端设备等。在外部服务中的与内容创建者的行为相关联的状态信息可以包括，例如，创建者的URL是否已被外部服务标识为恶意网址、创建者是否在外部服务中具有低评价等级、创建者是否在外部服务中具有滥用行为、创建者是否处于外部服务的黑名单中、等等。

在一个方面，检测状态信息可以包括获得在外部服务中的与内容相关联的各种信息，例如，外部服务对于内容是否恶意的判断等。在一种实现方式中，可以将例如浏览器服务、操作系统安全检测服务、云服务、社交媒体等对内容包括恶意信息的指示作为状态信息。应当理解，本公开的实施例也可以将外部服务针对内容的各种其它判断信息作为状态信息。

上述的所有状态信息都是示例性的，本公开的实施例也可以包括任何其它类型的状态信息。此外，针对不同的事件或不同类型的用户，可以检测不同类型的相关状态信息。例如，对于“新内容创建事件”，可以检测与内容和/或创建者相关的各种状态信息。例如，对于“内容接收事件”，可以检测与内容和/或接收者相关的各种状态信息。

应当理解，对状态信息的检测可以是针对整个数据收集生命周期里的各个阶段来执行的。例如，在非正当数据收集的生命周期里的各个阶段中都能够对状态信息进行检测。相应地，在数据收集的各个阶段都能够通过过程300来最终确定数据收集的正当性。在启动或登录数据收集服务的阶段，例如，在图1的启动调查表单服务的步骤110处，可以至少检测与内容创建者在外部服务中的行为相关联的状态信息等。在创建或编辑内容的阶段，例如，在图1的创建网络钓鱼表单的步骤120处，可以至少在数据收集服务中检测与内容创建或编辑相关的状态信息、与创建者行为相关的状态信息、管理信息等。在分发内容的阶段，例如，在图1的分发网络钓鱼表单的步骤130处，可以至少检测与内容分发相关联的状态信息，例如，关于内容的分发渠道的信息、用于分发内容的外部服务对于该内容是否包括恶意信息的指示等。在收集响应者对内容的响应的阶段，例如，在图1的收集敏感数据的步骤140处，可以至少在数据收集服务中检测与内容相关的状态信息、与响应者行为相关的状态信息、管理信息等。在实现非正当目的的阶段，例如，在图1的实施恶意行为的步骤150处，可以至少检测在数据收集服务中的管理信息、关于在数据收集服务或外部服务中已采取的控制操作的信息等。由于过程300可以在数据收集的各个阶段中检测状态信息并进而确定数据收集的正当性，因此，有助于实现更及时的非正当数据收集检测。

在330处，可以基于所检测的状态信息来确定内容评价等级和/或创建者评价等级。内容评价等级对应于内容的正当性。不同的内容评价等级可以反映内容的不同正当程度。例如，内容评价等级可以被划分为正当内容、可疑内容、以及非正当内容，其中，正当内容指示该内容是用于正当目的的，可疑内容指示该内容有可能是用于非正当目的的，并且非正当内容指示确定该内容是用于非正当目的的。此外，例如，内容评价等级也可以被简单地划分为正当内容和非正当内容。应当理解，本公开的实施例可以涵盖以任意方式划分的内容评价等级。创建者评价等级对应于内容的创建者的正当性。不同的创建者评价等级可以反映创建者的不同正当程度。例如，创建者评价等级可以被划分为良好用户、普通用户、可疑用户、以及不正当用户，其中，良好用户指示该用户具有数据收集服务的良好使用记录并且具有非常低的可能性去进行非正当数据收集，普通用户指示尚未发现该用户进行可能的非正当数据收集，可疑用户指示该用户有可能进行非正当数据收集，并且不正当用户指示确定该用户进行了非正当数据收集。此外，例如，创建者评价等级也可以被简单地划分为正当用户和非正当用户，其中，正当用户指示该用户没有进行非正当数据收集。应当理解，本公开的实施例可以涵盖以任意方式划分的创建者评价等级。

对内容评价等级和/或创建者评价等级的确定可以采用各种方式，例如，基于评价规则的方式、基于评价分数的方式、基于FXAM的方式等。此外，也可以采用这些方式的任意组合来确定评价等级。例如，可以分别基于每一种方式来获得各自的评价等级确定结果，然后对这些评价等级确定结果进行组合或融合，以得到最终的评价等级。例如，可以基于每种方式的可信度来对多个评价等级确定结果进行加权求和，以得到最终的评价结果。此外，可选地，也可以直接选择由具有最高可信度的方式所获得的评价等级确定结果以作为最终的评价等级。

在基于评价规则的方式中，可以预先定义一个或多个评价规则，每个评价规则或者多个评价规则的组合可以对应于特定的评价等级，例如，内容评价等级和/或创建者评价等级。可以确定所检测到的状态信息是否匹配于至少一个评价规则，如果匹配，则可以确定与所述至少一个评价规则对应的评价等级。

在一种实现方式中，每个评价规则可以对应于多种预定类型状态信息的存在的组合。例如，只有在检测到了该评价规则所要求的所有状态信息的情况下，才确定与该评价规则相匹配。以状态信息“内容中的问题是否在询问敏感数据”为例，如果检测到该问题是在询问敏感数据，则可以认为检测到该状态信息，否则，可以认为未能检测到该状态信息。假设评价规则R1对应于包括三种状态信息的集合{S₁,S₂,S₃}，并且对应于内容评价等级“不正当内容”。如果在320处所检测出的状态信息中包括状态信息S₁、S₂和S₃，则可以认为所检测的状态信息匹配于该评价规则R1，并且可以给出不正当内容的评价等级。如果在320处仅检测出了状态信息S₂和S₃，则可以认为没有匹配该评价规则R1，从而不能根据该评价规则R1给出不正当内容的评价等级。

在一种实现方式中，每个评价规则可以对应于所有可能的状态信息的取值的组合。例如，可以预先定义所有可能的状态信息的类型，并且只有在实际检测到的状态信息的取值符合该评价规则所要求的取值组合的情况下，才确定与该评价规则相匹配。以状态信息“内容中的问题是否在询问敏感数据”为例，如果检测到该问题是在询问敏感数据，则可以将该状态信息的取值设为1，否则，可以将取值设为0。假设所有可能的n个状态信息形成了集合{S₁,…,S_n}，评价规则R2要求该集合中至少包括3个取值为1的状态信息，并且评价规则R2对应于用户评价等级“不正当用户”。如果在320处的检测之后，该集合中包括4个取值为1的状态信息，则可以认为匹配于该评价规则R2，并且可以给出不正当用户的评价等级。如果在320处的检测之后，该集合中仅包括2个取值为1的状态信息，则可以认为没有匹配该评价规则R2，从而不能根据该评价规则R2给出不正当用户的评价等级。

应当理解，以上仅仅给出了评价规则的示例，可以根据具体的应用需求来定义任何其它形式的评价规则。此外，在一些情况下，当在320处检测出的状态信息同时满足多个评价规则并且从而确定了多个评价等级时，可以将例如最差评价等级作为该基于评价规则的方式所最终确定的评价等级。

在基于评价分数的方式中，可以计算所检测到的状态信息的置信度的加权和以获得评价分数，并且基于该评价分数来确定评价等级，例如，所述内容评价等级和/或创建者评价等级。假设将在320处所检测出的n个状态信息中的状态信息表示为S_i，该状态信息可以被分配有权重W_i，该权重表示该状态信息在确定评价等级中的重要性。所有的状态信息的权重之和等于1。此外，假设状态信息S_i具有置信度C_i，其表示该状态信息是真实的可能性的大小，并且其范围是从0％至100％。例如，对于状态信息“内容中的问题是在询问敏感数据”，如果其置信度为80％，则表示该问题确实是在询问敏感数据的可能性有80％。可以通过

来计算所有状态信息的置信度的加权和以获得评价分数score。该评价分数可以被进一步用于确定对应的评价等级。例如，可以预先定义多个评价分数区间，并且每个区间对应一个评价等级。从而，当所计算的评价分数落到某个评价分数区间时，可以将该区间所对应的评价等级作为该基于评价分数的方式所最终确定的评价等级。

在基于FXAM的方式中，可以采用本公开实施例所提出的FXAM来预测评价等级，例如，内容评价等级和/或创建者评价等级。

现有的一般性加性模型(GAM)在执行预测分析任务方面具有局限性。例如，现有的GAM不能良好地处理包括数值特征、类别特征、时间特征等的多维度数据，并且现有的GAM的训练策略导致其在具有大量特征的大规模多维度数据集上的训练速度较低。本公开的实施例所提出的FXAM可以采用包括数值特征、类别特征、时间特征等的特征集，该FXAM是能够处理多维度数据的统一模型，并且可被训练用于预测评价等级。可以通过三级迭代(TSI)的训练策略来训练FXAM，其中，TSI包括与数值特征、类别特征和时间特征分别对应的三个阶段。此外，可以通过对TSI中的每一个阶段进行相应的优化来加速FXAM的训练过程。数值特征、类别特征、时间特征等可以来自于在320处所检测到的状态信息。

数值特征可以指以数值来表征的特征，例如，在内容中插入的标志的数量、内容中包括的问题的数量、刷新响应结果的次数、反复修改某个问题的次数、等等。

类别特征可以指以类别属性来表征的特征。例如，关于类别特征“内容中的问题所询问的敏感数据”，其类别属性可以包括“密码信息”、“银行账号信息”等。例如，关于类别特征“向创建者发送的提示”，其类别属性可以包括“内容被限制发送”、“问题涉及敏感数据”等。例如，关于类别特征“创建者是否处于外部服务的黑名单中”，其类别属性可以包括“是”、“否”等。

时间特征可以指以时间点或持续时间来表征的特征，例如，内容被创建的时间点、某个问题在被编辑时所停留的时间长度、获得第一个响应的时间点、等等。

应当理解，可选地，在采用FXAM确定评价等级的情况下，可以在320处执行针对FXAM的特征集的专门的特征检测过程。该特征检测过程可以参考FXAM的特征集中包括哪些特征来检测对应的状态信息。

下面进一步讨论有关FXAM的一些示例性细节。

给定包括n个实例的多维数据集

其具有p个数值特征{x₁,…,x_p}，q个类别特征{z₁,…,z_q}，一个时间特征t，以及响应y。此处，为了简化，假设只有一个时间特征，实际上可以有一个以上的时间特征。响应y可以是所要预测的评价等级，例如，内容评价等级或创建者评价等级。

关于类别特征，将z_i的域表示为dom(z_i)，并且

作为类别特征中的不同值的总数。假设一位有效(one-hot)向量域为

从而，只要预先规定的索引被分配到∪_idom(z_i)中的单元，z₁～z_q中的任意实例可以被表示为唯一的one-hot向量

关于数值特征，对于每个i∈{1,…,p}，利用

表示可测量函数f_i(x_i)的Hilbert空间，使得E[f_i]＝0,E[f_i ²]<∞，并且内积<f_i,f_i′＞＝E[f_if_i′]。

关于时间特征，利用

表示可测量函数f(t)在时间特征上的Hilbert空间。

具有与

相同的属性。为了标识时间区段(time section)分量，将时间区段分量的时间段表示为正整数d>1。在不失一般性的情况下，使得t的数据被排序为0＝t₁≤t₂≤…≤t_n＝t_max，并且假设{t_i-t_i-1|i＝2,…,n}＝{0,τ}。τ被称为时间间隙。可以将{t₁,…,t_n}处理作为离散的时间点。可以将

表示为

集合，因为它们针对数据{t₁,…,t_n}共享相同的时间阶段

可以得出

和

是互不相交的，并且

假设

包括具有p+q+1个设计值的随机变量Y的n个实现，表示为：{(y₁,x₁₁,…,x_1p,z₁₁,…,z_1q,t₁),…,(y_n,x_n1,…,x_np,z_n1,…,z_nq,t_n)}，则FXAM的模型可以表示为：

其中，o_ij∈{0,1}是通过从z_i1,…,z_iq的one-hot编码得到的。

是平滑项，并且

是想要从

学习的参数。整个公式是一个加性模型，其包括分别对应于数值特征、类别特征和时间特征的建模的三个部分。

关于对数值特征的建模，f_j将x_j相对于响应y的分布建模为单变量平滑函数。这类似于标准的一般性加性模型(GAM)。

关于对类别特征的建模，

是通过在Q维one-hot向量中对类别值z_i1,…,z_iq进行表示的参数化形式，并且为每个项o_*k分配了权重β_k。由于项o_ik∈{0,1}的值指示了是否出现一个类别值，即，某个类别特征采用了特定值，并且考虑了项β_ko_ik之间的相加，因此，β_k表达了当某个类别特征取特定值时该类别特征的贡献的含义。FXAM将所有的类别特征统一到一个one-hot向量中，这允许采用类似动量(momentum)的加速来提高训练效率。

关于对时间特征的建模，T(t_i)+S(t_i)将时间特征t中的信号分解为趋势信号T和时间区段信号S。这样的分解表达了来自单个特征的多角度信号，其有助于预测分析。应当理解，该公式可以被扩展为包括多种类型的时间序列信号，例如，突发改变、随机漂移等。上述公式没有将时间特征处理作为数值特征，避免了将多角度信号组合在一起并从而变得不够直观或不能正确表达。

损失函数

可以表示为：

其中，所有粗体项是n×1向量，Z是对应于类别特征的one-hot编码的n×Q设计矩阵。

是在

上定义的平滑函数，其是t的子域。

指示时间区段分量S对所有子分量

进行域融合。λ,λ_z,λ_T,λ_S是预先规定的超参数。‖*‖²是总平方误差。λ∫[f_j″(v)]²dv是f_j的正则化(regularization)。此处，λ对f_j的平滑和其拟合准确性进行均衡。

提出L₂正则化λ_zβ^Tβ以避免在从类别特征所导出的one-hot变量之间的潜在共线性。

除了趋势分量T的正则化，还将时间区段分量S划分成d个相等时间阶段的子分量

并且对每个

应用正则化。省略了S的平滑，因为T主要承载了这种信息。在每个相等时间阶段的域内限制平滑性能够更好地表达时间区段信号的重复模式。

利用λ∫[f_j″(v)]²dv形式的正则化对平方误差进行最小化的优化方案可以是具有在每个x_1j,…,x_nj处的结点(knot)的三次样条(cubic spline)平滑，然后，损失函数可以改写为：

其中，使用f_Z,f_T,f_S作为Zβ,T,S的替代表达，以便于后续讨论。K_j是n×n输入矩阵，其是利用值x_1j,…,x_nj预先计算的。K_T是通过相同方式计算的。

是通过在

上应用三次样条平滑因子而获得的n×n矩阵，且利用置换矩阵

对索引重排序。具体地，

其中，

是针对在结点

上的三次样条平滑的

矩阵，并且

是将这些结点的索引映射到{t₁,…,t_n}中的原始索引的n×n置换矩阵。

为了找到

的最小化方案，提出了下面的FXAM正规(normal)方程：

其中，

M_Z＝Z(Z^TZ+λ_ZI)^-1Z^T

M_T＝(I+λ_TK_T)^-1

其中，P＝P₀,…,P_d-1是总置换矩阵，其将来自{t₁,…,t_n}的元素的索引映射到

中的元素的索引。

FXAM的正规方程满足

的平稳性(stationarity)条件。FXAM的正规方程是针对

的最优性的必要条件。FXAM的正规方程的解是存在的并且是全局优化的。

提出了三级迭代(TSI)来分别处理FXAM的三种类型的特征。下面的表1示出了TSI的示例性过程。

表1

如表1所示，TSI是具有三个阶段的迭代训练过程，这三个阶段分别针对数值特征、类别特征和时间特征的训练。在每个阶段中，TSI固定其它阶段的参数，在所关注的参数上执行训练，直到局部收敛，如第1.5、1.8、1.10行所示，并且在三个阶段上执行迭代，直到全局收敛。TSI将收敛于FXAM的标准方程的解。

每个阶段的训练策略是灵活的。以阶段2为例，其想要求解f_Z＝Zβ，其中β＝(Z^TZ+λ_ZI)^-1Z^Ty_Z，相应地，可以通过矩阵倒置/乘法来直接计算，或者可以利用梯度下降来估计β。训练策略的这种灵活性提供了改进训练效率的空间。下面讨论对每个阶段所执行的示例性优化，以改进训练效率并从而加速整个FXAM的训练。

关于阶段1，可以通过改进后向拟合(backfitting)的效率来提高训练效率。在表1中的第1.2-1.5行中的过程遵循标准的后向拟合过程，其包括三个部分：在值对{x_i,y_i}上进行平滑；在固定的特征的顺序上迭代以执行平滑；以及在迭代前初始化平滑函数

可以对所有这三个部分进行修改以改进训练效率。

在一个方面，可以采用快速核(kernel)平滑近似。此处的平滑任务具有n个输入样本，其也是评估点。三次样条平滑具有在该任务上的O(n)时间复杂度，但是其在大量运算方面仍然是昂贵的。快速核平滑方法可以用小系数来实现O(n)复杂度。核心的思想可以被称为快速求和更新，其中，在给定多项式核的情况下，该方法预先计算在评估点上多项式核的每个项的累加和，并且使用这些累加和来执行在评估点上的一次扫描以完成任务。在一种实现方式中，可以选择Epanechnihov核并且使用快速求和更新算法来近似原来的三次样条平滑，以在几乎不损失准确性的情况下减少运算。

在一个方面，可以执行动态调整特征顺序迭代。代替在固定顺序的数值特征上进行迭代，可以采用动态调整特征顺序迭代来进一步加快收敛速度。直观上，希望更早地评估具有更高预测能力(power)的特征，因为可以更多地降低损失并从而更快地收敛。用于评估每个特征的预测能力的时间成本应当是轻量的。此处，提出了具有理论引导的轻量化估计器以估计每个特征的预测能力并将其用于对特征进行动态排序。

给定{x₁,y₁}…{x_n,y_n}，将真实平滑函数表示为F(x):y_i＝F(x)+∈_i，其中∈_i是独立同分布随机误差，E(∈_i)＝0,Var(∈_i)≤σ²。进一步假设

(Lipschitz条件)。通过使用核平滑，平滑曲线可以被给出为

损失函数为

其中，B是核k_h的有界支撑(bounded support)集。

为了准确地估计σ²，假设F(x)是线性的，然后可以获得

其中

是全局常量，r是Pearson相关系数。因此，可以在一次数据扫描中估计L和r，并且在实际应用平滑之前实现对Loss的上边界的准确估计。将Power＝-((2LBh)²+2σ²)≈(2r²/(n-2))-(2LBh)²定义为预测能力的估计以对特征进行优先化排序，其符合：Pearson相关系数r越高，且锐度(sharpness)L越小，则易于实现更小的残留。

在一个方面，可以执行智能采样。更好的初始化，而不是零函数，将减少迭代次数。此处，迭代是在特征x₁～x_p上的完整循环。可以采用随机采样策略来更好地对f_j进行初始化。需要进行样本大小的确定，即，控制样本变化，样本大小应当是以数据特性来引导的，而不是以固定数量来引导的。

样本变化是在所有数据点f_n(x)上的平滑函数与在采样的数据点f_s(x)上的平滑函数之间的差异。f_n(x)或f_s(x)可以被视为是从真实函数F(X)取出的分别具有样本大小n和s的样本。对于任意核平滑因子f_n，

因此，可以将样本变化的上边界估计为：

为了控制不同特征的样本变化E‖f_n-f_s‖²，特征x_i的样本大小应当为s_i∝(σ_i ²+sup|F_i|²)L_i。为了控制每个特征的样本变化，将s^*＝maxiγ(σ_i ²+sup|F_i|²)L_i用作应用于所有特征的样本大小。γ是超参数。

关于阶段2，可以通过执行Nesterov梯度加速来改进训练效率。在所有one-hot编码的类别特征上的平滑任务是计算β＝(Z^TZ+λ_ZI)^-1Z^Ty_Z。此处，采用了Nesterov梯度加速来完成该任务。在这种情况下，存在等于矩阵Z^TZ+λ_ZI的最大特征值的优化学习速率L，因此可以使用Power迭代来高效地将其找到，其中，Power迭代也称为Power方法。下面的表2示出了具有Power迭代的Nesterov梯度加速的示例性过程。

表2

Nesterov梯度加速可以被视为是改进的动量，从而使得收敛显著地快于梯度下降，尤其是当数据包括大量类别特征或基数很大时。传统方式迭代地对每个类别特征进行类似直方图的平滑，其可被视为未考虑动量的梯度下降，从而收敛速度慢的多。

关于阶段3，可以通过执行时间区段趋势分解来改进训练效率。可以通过迭代方式来从时间特征t中识别趋势和时间区段信号。表3示出了时间区段趋势分解的示例性过程。

表3

在第3.3行的趋势化操作对应于平滑矩阵M_T，在第3.6行的循环子序列平滑对应于平滑矩阵

并且在此处采用快速核平滑来改进训练效率。在M_T和

上的这种局部迭代保护了TSI的收敛。

所训练的FXAM具有对特征的可解释性。通过使用FXAM，可以明确地获知特征集中每个特征对于执行预测的重要性，例如，哪些特征对于预测评价等级是相对重要的、哪些特征对于预测评价等级具有相对较小的影响、等等。此外，由于FXAM具有全局模型可解释性，因此，在结合适当的可视化工具的情况下，FXAM可被用于展示任意一个特征如何具体影响最终预测的关系，例如，前面所讨论的f_j(x_i)等。可以利用该关系并结合所应用的领域的知识来验证FXAM所学习到的规律(例如f_i(x_i))是否值得信赖、是否存在冗余特征、是否缺乏有效特征、等等，从而提供了另一个角度的可解释性。可以利用FXAM的诸多可解释性来对特征集中的特征进行选择或更新。

在一方面，在训练FXAM过程中，在经过了一轮或多轮训练之后，可以基于FXAM的可解释性，从特征集中移除具有很低重要性的特征，而保留或添加具有高重要性的特征。然后，可以使用新的特征集来进行下一轮或多轮训练，并且再次根据特征的重要性来移除或添加特征。如此多次执行上述对特征集中的特征的选择过程。最后，可以获得能够最准确地进行预测的良好特征集。

在另一方面，在应用FXAM期间，当例如非正当用户改变了行为、某些特征的重要性发生变化等时，FXAM的可解释性和高效的训练过程有助于快速地重新选择特征集中的特征。从而，实现了FXAM的动态更新和优化。

在又一方面，FXAM的可解释性有助于选择将要在320处去检测的状态信息的类型。例如，可以在320处关注与被FXAM解释为具有高重要性的特征相对应的状态信息、忽略与被FXAM解释为具有低重要性的特征相对应的状态信息等。相应地，FXAM的可解释性也有助于在基于评价规则的方式中为评价规则定义状态信息组合、在基于评价分数的方式中为不同的状态信息设置适当的权重、等等。

通过过程300中的330处的处理，可以确定内容评价等级和/或创建者评价等级，从而确定内容的正当性和/或创建者的正当性。

可选地，过程300还可以包括在340处至少响应于内容评价等级和/或创建者评价等级来执行控制操作。在本文中，控制操作可以广泛地指有助于例如阻止内容的创建者实现非正当目的、协助内容的接收者避免遭到攻击或损失、辅助数据收集服务的管理员保护正当用户和服务数据等的各种操作。

在一种实现方式中，控制操作可以包括在数据收集服务中对内容施加各种使用限制，例如，限制或禁止对内容的分发、限制或禁止对内容的编辑、限制或禁止对内容的访问、限制或禁止对内容进行响应、限制或延迟或禁止对响应结果的显示、等等。

在一种实现方式中，控制操作可以包括在数据收集服务中对用户施加各种行为限制，例如，阻止创建者编辑或分发内容、要求创建者修改涉及敏感数据的问题、限制或禁止创建者访问内容、阻止接收者填写敏感信息、阻止接收者发送响应、限制或禁止接收者访问内容、等等。

在一种实现方式中，控制操作可以包括在数据收集服务中呈现各种提示。该提示可以被提供给内容创建者或内容接收者。所述提示可以是关于内容正当性或创建者正当性的警告或通知，例如，关于当前问题涉及敏感数据的提示、关于内容可能存在非正当目的的提示、关于要求修改问题的提示、关于禁止内容被分发或响应的提示、等等。

在一种实现方式中，控制操作可以包括向数据收集服务的管理员发送通知，以便管理员可以进而采取管理措施。所述通知可以是关于内容正当性或创建者正当性的信息，例如，关于内容被确定为是非正当的通知、关于创建者被确定为是非正当的通知、关于所检测的状态信息的通知、等等。

在一种实现方式中，控制操作可以包括向外部服务发送通知，以便外部服务可以进而采取管理措施。所述通知可以是关于内容正当性或创建者正当性的信息，例如，关于内容被确定为是非正当的通知、关于创建者被确定为是非正当的通知、等等。

在一种实现方式中，控制操作可以包括向存储设备中存储所确定的内容评价等级和/或创建者评价等级。通过这种方式，可以收集并保留关于某个内容或某个创建者的所有之前确定的历史评价等级。

应当理解，以上所述的所有控制操作都是示例性的，本公开的实施例并不局限于这些控制操作，而是可以包括任何其它的控制操作。

在340处所执行的控制操作可以是与具体的内容评价等级或创建者评价等级对应的。对于不同的内容评价等级或创建者评价等级，可以分别执行不同的控制操作，从而实现例如不同的控制策略、不同的用户体验等。

假设内容评价等级被划分为正当内容、可疑内容和非正当内容。如果在330处确定当前内容是正当内容，则可以避免施加严格的控制操作，例如，仅在需要时呈现提示等。如果在330处确定当前内容是可疑内容，则可以施加必要的控制操作，例如，限制对内容的分发和编辑、要求创建者修改涉及敏感数据的问题、延迟对响应结果的显示、提供关于当前问题涉及敏感数据的提示、等等。如果在330处确定当前内容是非正当内容，则可以施加严格的控制操作，例如，禁止编辑或分发内容、禁止访问内容、阻止接收者发送响应、等等。

假设创建者评价等级被划分为良好用户、可疑用户和非正当用户。如果在330处确定创建者是良好用户，则可以避免施加严格的控制操作，以便协助顺利地完成数据收集，例如，仅在需要时呈现提示等。如果在330处确定创建者是可疑用户，则可以施加必要的控制操作，例如，限制创建者对内容的分发和编辑、要求创建者修改涉及敏感数据的问题、限制接收者发送响应、延迟对响应结果的显示、提供关于当前问题涉及敏感数据的提示、等等。如果在330处确定创建者是非正当用户，则可以施加严格的控制操作，例如，禁止创建者编辑或分发内容、禁止接收者访问内容、阻止接收者发送响应、等等。

可选地，除了参考在330处所确定的内容评价等级和/或创建者评价等级之外，在340处所执行的控制操作还可以参考历史内容评价等级和/或历史创建者评价等级。例如，对于一个内容而言，可以综合考虑该内容的历史评价等级和当前所确定的评价等级，来确定将采取哪些控制操作。例如，对于一个创建者而言，可以综合考虑该创建者的历史评价等级和当前所确定的评价等级，来确定将采取哪些控制操作。

应当理解，以上讨论的过程300中的各个步骤之间的执行顺序是可以以任意的方式改变的。可以通过迭代地执行一部分步骤来进一步提高对数据收集正当性的检测的准确性或者改进控制操作的适当性。在一种情况下，在330处确定了内容评价等级和/或创建者评价等级之后，过程300可以返回到步骤320以检测与所监视到的事件相关联的附加状态信息，例如，进一步获取可能有助于确定评价等级的其它状态信息。然后，可以在330处基于所述附加状态信息来更新之前确定的内容评价等级和/或创建者评价等级。在一种情况下，在330处确定了内容评价等级和/或创建者评价等级之后，过程300可以返回到步骤310以监视在数据收集服务和/或外部服务中发生的、与内容和/或用户相关联的附加事件，该附加事件可以触发进一步的状态信息检测和评价等级确定。例如，在监视到附加事件后，可以在320处从数据收集服务和/或外部服务中检测与该附加事件相关联的附加状态信息，并且在330处至少基于附加状态信息来更新之前所确定的内容评价等级和/或创建者评价等级。在一种情况下，在340处执行了控制操作之后，过程300可以返回到步骤310，以便监视在施加了控制操作之后所发生的事件，并且进而触发后续的处理。在一种情况下，在340处执行了控制操作之后，过程300可以返回到步骤320，以便检测在施加了控制操作之后的附加状态信息，并且进而触发后续的处理。在一种情况下，在340处执行了控制操作之后，过程300可以返回到步骤330，以便重新确定评价等级。

图4示出了根据实施例的数据收集正当性检测服务的示例性部署400。

图4中的数据收集正当性检测服务410可以指能够实施如图3所示的过程300的服务。数据收集正当性检测服务410可以包括事件监视模块420、状态信息检测模块430、评价等级确定模块440、控制执行模块450、数据存储单元460等。

事件监视模块420可以执行图3的310处的操作，例如，监视在数据收集服务470和/或外部服务480中发生的事件。可以将事件监视模块420所监视到的事件存储到数据存储单元460中的事件消息队列中。事件消息队列可以包括关于所监视到的一个或多个事件的消息。这些事件消息可以被依次读取，以便触发进一步的处理。

状态信息检测模块430可以执行图3的320处的操作，例如，响应于从事件消息队列中提取的事件，从数据收集服务470和/或外部服务480中检测与该事件相关的状态信息。

评价等级确定模块440可以执行图3的330处的操作，例如，基于状态信息来确定内容评价等级和/或创建者评价等级。

控制执行模块450可以执行图3的340处的操作，例如，至少响应于评价等级确定模块440所确定的内容评价等级和/或创建者评价等级来执行控制操作。在一种实现方式中，控制操作可以被分为前端控制452和后端控制454。前端控制452可以包括针对数据收集服务470的各种控制操作。例如，前端控制452可以至少影响用户对数据收集服务的使用、体验等。后端控制454可以包括在数据收集服务470之外的各种控制操作，例如，通过电子邮件向数据收集服务470的管理员发送通知、向外部服务480发送通知、将评价等级确定模块440所确定的内容评价等级和/或创建者评价等级存储到数据存储单元460中、等等。

数据收集服务470可以提供具有交互功能492的服务界面490。内容创建者402、内容接收者404以及数据收集服务的管理员406可以通过服务界面490与数据收集服务470进行交互，例如，创建内容、访问内容、执行管理等。

应当理解，部署400中的所有服务、模块及架构都是示例性的，数据收集正当性检测服务410可以以任何其它方式进行部署。例如，尽管图4将数据收集正当性检测服务410显示为部署在数据收集服务470之外，但是也可以将数据收集正当性检测服务410部署在数据收集服务470内，或者将数据收集正当性检测服务410的一部分部署在数据收集服务470内，例如，将事件监视模块420和控制执行模块450部署在数据收集服务470内、将事件监视模块420和控制执行模块450的前端控制部分部署在数据收集服务470内、等等。此外，例如，尽管图4示出数据收集正当性检测服务410包括控制执行模块450，该控制执行模块450也可以从数据收集正当性检测服务410中省略。此外，例如，尽管图4示出数据存储单元460被包括在数据收集正当性检测服务410之内，数据存储单元460或其一部分也可以与数据收集正当性检测服务410相分离。此外，例如，尽管图4示出通过数据存储单元460中的事件消息队列来将事件监视模块420所监视的事件传递到状态信息检测模块430，但是也可以省略数据存储单元460，从而事件监视模块420可以将所监视的事件直接提供给状态信息检测模块430。

图5示出了根据实施例的用于检测数据收集正当性的示例性方法500的流程图。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。

在510处，可以监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联。

在520处，可以响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息。

在530处，可以基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

在一种实现方式中，所述内容可以包括以下至少之一：表单、电子邮件、网页、以及生产力工具文档。所述数据收集服务可以支持对所述内容的处理。所述外部服务不同于所述数据收集服务，并且可以包括以下至少之一：电子邮件服务、浏览器服务、操作系统安全检测服务、云服务、以及社交媒体。

在一种实现方式中，所述监视至少一个事件可以包括：从所述外部服务接收关于所述事件的指示。

在一种实现方式中，所述用户可以是所述内容的创建者或接收者。

在一种实现方式中，所述数据收集服务是调查表单服务，所述内容是表单，所述用户是所述表单的创建者，所述内容的正当性关联于所述内容是否是网络钓鱼表单，并且所述创建者的正当性关联于所述创建者是否是网络钓鱼者。

在一种实现方式中，所述状态信息可以包括以下至少之一：在所述数据收集服务中的与所述内容相关联的信息；在所述数据收集服务中的与所述用户的行为相关联的信息；在所述数据收集服务中的管理信息；在所述外部服务中的与所述内容相关联的信息；以及在所述外部服务中的与所述创建者的行为相关联的信息。

在一种实现方式中，所述内容评价等级可以包括以下至少之一：正当内容、可疑内容、以及非正当内容。所述创建者评价等级可以包括以下至少之一：良好用户、普通用户、可疑用户、以及非正当用户。

在一种实现方式中，所述内容评价等级和/或所述创建者评价等级可以是通过以下至少之一来确定的：基于评价规则的方式；基于评价分数的方式；以及基于FXAM的方式。

所述基于评价规则的方式可以包括：确定所述状态信息匹配于至少一个评价规则；以及基于所述至少一个评价规则来确定所述内容评价等级和/或所述创建者评价等级。

所述基于评价分数的方式可以包括：通过计算所述状态信息的置信度的加权和来获得评价分数；以及基于所述评价分数来确定所述内容评价等级和/或所述创建者评价等级。

所述基于FXAM的方式可以包括：获得所述状态信息中的数值特征、类别特征、以及时间特征中至少之一；以及通过所述FXAM，基于所获得的特征来预测所述内容评价等级和/或所述创建者评价等级。

方法500还可以包括：基于所述FXAM对特征的可解释性，对所述FXAM所采用的特征集中的特征进行选择或更新。

所述FXAM可以是通过三级迭代来训练的，所述三级迭代包括与数值特征、类别特征、以及时间特征分别对应的三个阶段。所述训练是通过对所述三个阶段中的至少一个阶段进行优化来加速的。

在一种实现方式中，方法500还可以包括：至少响应于所述内容评价等级和/或所述创建者评价等级来执行至少一个控制操作。

所述控制操作可以包括以下至少之一：在所述数据收集服务中对所述内容施加使用限制；在所述数据收集服务中对所述用户施加行为限制；在所述数据收集服务中呈现提示；向所述数据收集服务的管理员发送通知；向所述外部服务发送通知；以及存储所述内容评价等级和/或所述创建者评价等级。

所述执行至少一个控制操作还可以基于历史内容评价等级和/或历史创建者评价等级。

方法500还可以包括：从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的附加状态信息；以及至少基于所述附加状态信息来更新所述内容评价等级和/或所述创建者评价等级。

方法500还可以包括：监视在所述数据收集服务和/或所述外部服务中发生的至少一个附加事件，所述附加事件与所述内容和/或所述用户相关联；从所述数据收集服务和/或所述外部服务中检测与所述附加事件相关联的附加状态信息；以及至少基于所述附加状态信息来更新所述内容评价等级和/或所述创建者评价等级。

应当理解，方法500还可以包括根据上述本公开实施例的用于检测数据收集正当性的任何步骤/过程。

图6示出了根据实施例的用于检测数据收集正当性的示例性装置600。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。

装置600可以包括：事件监视模块610，用于监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联；状态信息检测模块620，用于响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息；以及评价等级确定模块630，用于基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

此外，装置600还可以包括被配置为执行根据上述本公开实施例的用于检测数据收集正当性的方法的任何步骤和操作的任何其它模块。

图7示出了根据实施例的用于检测数据收集正当性的示例性装置700。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。

装置700可以包括至少一个处理器710和存储计算机可执行指令的存储器720。当执行计算机可执行指令时，至少一个处理器710可以：监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联；响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息；以及基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。至少一个处理器710还可以被配置用于执行根据上述本公开实施例的用于检测数据收集正当性的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。非暂时性计算机可读介质可以包括指令，当指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于检测数据收集正当性的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，如，缓存或寄存器。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于检测数据收集正当性的方法，所述数据收集是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的，所述方法包括：

监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联；

响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息；以及

基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

2.如权利要求1所述的方法，其中，

所述内容包括以下至少之一：表单、电子邮件、网页、以及生产力工具文档，

所述数据收集服务支持对所述内容的处理，并且

所述外部服务不同于所述数据收集服务，并且包括以下至少之一：电子邮件服务、浏览器服务、操作系统安全检测服务、云服务、以及社交媒体。

3.如权利要求1所述的方法，其中，所述监视至少一个事件包括：

从所述外部服务接收关于所述事件的指示。

4.如权利要求1所述的方法，其中，

所述用户是所述内容的创建者或接收者。

5.如权利要求1所述的方法，其中，

所述数据收集服务是调查表单服务，所述内容是表单，所述用户是所述表单的创建者，所述内容的正当性关联于所述内容是否是网络钓鱼表单，并且所述创建者的正当性关联于所述创建者是否是网络钓鱼者。

6.如权利要求1所述的方法，其中，所述状态信息包括以下至少之一：

在所述数据收集服务中的与所述内容相关联的信息；

在所述数据收集服务中的与所述用户的行为相关联的信息；

在所述数据收集服务中的管理信息；

在所述外部服务中的与所述内容相关联的信息；以及

在所述外部服务中的与所述创建者的行为相关联的信息。

7.如权利要求1所述的方法，其中，

所述内容评价等级包括以下至少之一：正当内容、可疑内容、以及非正当内容，并且

所述创建者评价等级包括以下至少之一：良好用户、普通用户、可疑用户、以及非正当用户。

8.如权利要求1所述的方法，其中，所述内容评价等级和/或所述创建者评价等级是通过以下至少之一来确定的：

基于评价规则的方式；

基于评价分数的方式；以及

基于快速可解释加性模型(FXAM)的方式。

9.如权利要求8所述的方法，其中，所述基于评价规则的方式包括：

确定所述状态信息匹配于至少一个评价规则；以及

基于所述至少一个评价规则来确定所述内容评价等级和/或所述创建者评价等级。

10.如权利要求8所述的方法，其中，所述基于评价分数的方式包括：

通过计算所述状态信息的置信度的加权和来获得评价分数；以及

基于所述评价分数来确定所述内容评价等级和/或所述创建者评价等级。

11.如权利要求8所述的方法，其中，所述基于FXAM的方式包括：

获得所述状态信息中的数值特征、类别特征、以及时间特征中至少之一；以及

通过所述FXAM，基于所获得的特征来预测所述内容评价等级和/或所述创建者评价等级。

12.如权利要求8所述的方法，还包括：

基于所述FXAM对特征的可解释性，对所述FXAM所采用的特征集中的特征进行选择或更新。

13.如权利要求8所述的方法，其中，

所述FXAM是通过三级迭代来训练的，所述三级迭代包括与数值特征、类别特征、以及时间特征分别对应的三个阶段，并且

所述训练是通过对所述三个阶段中的至少一个阶段进行优化来加速的。

14.如权利要求1所述的方法，还包括：

至少响应于所述内容评价等级和/或所述创建者评价等级来执行至少一个控制操作。

15.如权利要求14所述的方法，其中，所述控制操作包括以下至少之一：

在所述数据收集服务中对所述内容施加使用限制；

在所述数据收集服务中对所述用户施加行为限制；

在所述数据收集服务中呈现提示；

向所述数据收集服务的管理员发送通知；

向所述外部服务发送通知；以及

存储所述内容评价等级和/或所述创建者评价等级。

16.如权利要求14所述的方法，其中，

所述执行至少一个控制操作还基于历史内容评价等级和/或历史创建者评价等级。

17.如权利要求1所述的方法，还包括：

从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的附加状态信息；以及

至少基于所述附加状态信息来更新所述内容评价等级和/或所述创建者评价等级。

18.如权利要求1所述的方法，还包括：

监视在所述数据收集服务和/或所述外部服务中发生的至少一个附加事件，所述附加事件与所述内容和/或所述用户相关联；

从所述数据收集服务和/或所述外部服务中检测与所述附加事件相关联的附加状态信息；以及

19.一种用于检测数据收集正当性的装置，所述数据收集是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的，所述装置包括：

事件监视模块，用于监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联；

状态信息检测模块，用于响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息；以及

评价等级确定模块，用于基于所述状态信息来确定内容评价等级和/或创建者评价等级，所述内容评价等级对应于所述内容的正当性，所述创建者评价等级对应于所述内容的创建者的正当性。

20.一种用于检测数据收集正当性的装置，所述数据收集是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的，所述装置包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，所述计算机可执行指令在被执行时，使得所述至少一个处理器：

监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件，所述事件与所述内容和/或所述用户相关联，

响应于所述事件，从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息，以及