CN107451247A

CN107451247A - 用户识别方法及装置

Info

Publication number: CN107451247A
Application number: CN201710630751.5A
Authority: CN
Inventors: 王琳
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-12-08
Anticipated expiration: 2037-07-28
Also published as: CN107451247B

Abstract

本公开是关于一种用户识别方法及装置。该方法包括：根据用户的行为数据，确定该用户的行为特征；判断该行为特征是否满足识别条件；在该行为特征满足识别条件的情况下，识别该用户为第一类别用户。本公开的实施例通过分析用户的行为，确定用户的行为特征，并判断该行为特征是否满足识别条件，来识别该用户是否为第一类别用户。第一类别用户的行为特征很难被规避，因此，通过分析用户的行为特征对用户进行识别，提高了用户识别的准确率和召回率。

Description

用户识别方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种用户识别方法及装置。

背景技术

随着移动互联网的快速发展，各式各样的应用随之产生，并为用户提供多种多样的交流方式。然而，随之产生的垃圾广告问题也日趋严重，不断侵害用户的合法利益。

相关技术是利用深度学习或者语言模型将用户发送的文本信息进行分类，将发送的文本信息中包含垃圾广告内容的用户定义为垃圾广告用户。然而，垃圾广告用户通常将重点词汇替换成谐音字甚至是特殊符号以规避识别，导致识别召回率较低。同时，存在将普通用户错当成垃圾广告用户的情况，使得识别准确率也较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种用户识别方法及装置。

根据本公开实施例的第一方面，提供一种用户识别方法，包括：

根据用户的行为数据，确定所述用户的行为特征；

判断所述行为特征是否满足识别条件；

在所述行为特征满足识别条件的情况下，识别所述用户为第一类别用户。

对于以上方法，在一种可能的实现方式中，根据用户的行为数据，确定所述用户的行为特征，包括：

获取所述用户在第一时间区间内发送信息的群组的第一数量，将所述第一数量确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述第一数量大于或等于第一阈值的情况下，判断所述行为特征满足识别条件。

获取所述用户在第二时间区间内发送信息的第二数量，将所述第二数量确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述第二数量大于或等于第二阈值的情况下，判断所述行为特征满足识别条件。

获取所述用户在第三时间区间内发送信息的第三数量以及所述信息的第一内容；

基于所述第一内容，确定所述用户在所述第三时间区间内发送的不同信息的第四数量；

确定所述第四数量与所述第三数量之间的第一比值，将所述第一比值确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述第一比值小于或等于第三阈值的情况下，判断所述行为特征满足识别条件。

获取所述用户在第四时间区间内发送信息的群组的第五数量以及所述信息的第二内容；

基于所述第二内容，确定所述用户在所述第四时间区间内发送的不同信息的第六数量；

确定所述第六数量与所述第五数量之间的第二比值，将所述第二比值确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述第二比值小于或等于第四阈值的情况下，判断所述行为特征满足识别条件。

对于以上方法，在一种可能的实现方式中，根据用户的行为数据，确定所述行为特征，包括：

获取所述用户在第五时间区间内的被禁言次数，将所述被禁言次数确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述被禁言次数大于或等于第五阈值的情况下，判断所述行为特征满足识别条件。

在所述用户在第一群组中发送的第一信息被识别为第一类别信息的情况下，将所述第一信息确定为所述行为特征，

判断所述行为特征是否满足识别条件，包括：

在所述用户在第一群组中被禁言的情况下，判断所述行为特征满足识别条件。

获取所述用户发送的第二信息以及第二用户发送的第三信息，将所述第二信息和所述第三信息确定为所述用户的行为特征，其中，所述第二用户与所述用户的IP地址和终端设备识别码(IMEI)中的至少一个是相同的，

判断所述行为特征是否满足识别条件，包括：

在所述第二信息和所述第三信息中的至少一个被识别为第一类别信息的情况下，判断所述行为特征满足识别条件。

对于以上方法，在一种可能的实现方式中，所述第一类别用户为广告用户。

对于以上方法，在一种可能的实现方式中，所述第一类别信息为广告信息。

根据本公开实施例的第二方面，提供一种用户识别装置，包括：

确定模块，用于根据用户的行为数据，确定所述用户的行为特征；

判断模块，用于判断所述行为特征是否满足识别条件；

识别模块，用于在所述行为特征满足识别条件的情况下，识别所述用户为第一类别用户。

对于以上装置，在一种可能的实现方式中，所述确定模块包括：

第一确定子模块，用于获取所述用户在第一时间区间内发送信息的群组的第一数量，将所述第一数量确定为所述行为特征，

所述判断模块包括：

第一判断子模块，用于在所述第一数量大于或等于第一阈值的情况下，判断所述行为特征满足识别条件。

第二确定子模块，用于获取所述用户在第二时间区间内发送信息的第二数量，将所述第二数量确定为所述行为特征，

所述判断模块包括：

第二判断子模块，用于在所述第二数量大于或等于第二阈值的情况下，判断所述行为特征满足识别条件。

第一获取子模块，用于获取所述用户在第三时间区间内发送信息的第三数量以及所述信息的第一内容；

第三确定子模块，用于基于所述第一内容，确定所述用户在所述第三时间区间内发送的不同信息的第四数量；

第四确定子模块，用于确定所述第四数量与所述第三数量之间的第一比值，将所述第一比值确定为所述行为特征，

所述判断模块包括：

第三判断子模块，用于在所述第一比值小于或等于第三阈值的情况下，判断所述行为特征满足识别条件。

第二获取子模块，用于获取所述用户在第四时间区间内发送信息的群组的第五数量以及所述信息的第二内容；

第五确定子模块，用于基于所述第二内容，确定所述用户在所述第四时间区间内发送的不同信息的第六数量；

第六确定子模块，用于确定所述第六数量与所述第五数量之间的第二比值，将所述第二比值确定为所述行为特征，

所述判断模块包括：

第四判断子模块，用于在所述第二比值小于或等于第四阈值的情况下，判断所述行为特征满足识别条件。

第七确定子模块，用于获取所述用户在第五时间区间内的被禁言次数，将所述被禁言次数确定为所述行为特征，

所述判断模块包括：

第五判断子模块，用于在所述被禁言次数大于或等于第五阈值的情况下，判断所述行为特征满足识别条件。

第八确定子模块，用于在所述用户在第一群组中发送的第一信息被识别为第一类别信息的情况下，将所述第一信息确定为所述行为特征，

所述判断模块包括：

第六判断子模块，用于在所述用户在第一群组中被禁言的情况下，判断所述行为特征满足识别条件。

第九确定子模块，用于获取所述用户发送的第二信息以及第二用户发送的第三信息，将所述第二信息和所述第三信息确定为所述用户的行为特征，其中，所述第二用户与所述用户的IP地址和终端设备识别码中的至少一个是相同的，

所述判断模块包括：

第七判断子模块，用于在所述第二信息和所述第三信息中的至少一个被识别为第一类别信息的情况下，判断所述行为特征满足识别条件。

对于以上装置，在一种可能的实现方式中，所述第一类别用户为广告用户。

对于以上装置，在一种可能的实现方式中，所述第一类别信息为广告信息。

根据本公开实施例的第三方面，提供一种用户识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行上述用户识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过分析用户的行为，确定用户的行为特征，并判断该行为特征是否满足识别条件，来识别该用户是否为第一类别用户。第一类别用户的行为特征很难被规避，因此，通过分析用户的行为特征对用户进行识别，提高了用户识别的准确率和召回率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种用户识别方法的流程图。

图2是根据一示例性实施例示出的一种用户识别方法的流程图。

图3是根据一示例性实施例示出的一种用户识别方法的流程图。

图4是根据一示例性实施例示出的一种用户识别方法的流程图。

图5是根据一示例性实施例示出的一种用户识别方法的流程图。

图6是根据一示例性实施例示出的一种用户识别方法的流程图。

图7是根据一示例性实施例示出的一种用户识别方法的流程图。

图8是根据一示例性实施例示出的一种用户识别方法的流程图。

图9是根据一示例性实施例示出的一种用户识别方法的应用场景的示意图。

图10是根据一示例性实施例示出的一种用户识别装置框图。

图11是根据一示例性实施例示出的一种用户识别装置框图。

图12是根据一示例性实施例示出的一种用户识别装置框图。

图13是根据一示例性实施例示出的一种用户识别装置框图。

图14是根据一示例性实施例示出的一种用户识别装置框图。

图15是根据一示例性实施例示出的一种用户识别装置框图。

图16是根据一示例性实施例示出的一种用户识别装置框图。

图17是根据一示例性实施例示出的一种用户识别装置框图。

图18是根据一示例性实施例示出的一种用户识别装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种用户识别方法的流程图。如图1所示，该方法用于服务器中，根据本公开实施例的用户识别方法包括：

在步骤S11中，根据用户的行为数据，确定所述用户的行为特征；

在步骤S12中，判断所述行为特征是否满足识别条件；

在步骤S13中，在所述行为特征满足识别条件的情况下，识别所述用户为第一类别用户。

本公开的实施例通过分析用户的行为，确定用户的行为特征，并判断该行为特征是否满足识别条件，来识别该用户是否为第一类别用户。第一类别用户的行为特征很难被规避，因此，通过分析用户的行为特征对用户进行识别，提高了用户识别的准确率和召回率。

在一种可能的实现方式中，第一类别用户为广告用户。广告用户是指发送广告信息、欺诈信息、散布谣言、黄色信息等消息的垃圾用户。

在一种可能的实现方式中，可以根据用户的行为数据，例如用户发送消息的频率、发送消息的时间间隔、被禁言次数等，来确定用户的行为特征。因广告用户为了让更多的人看到垃圾广告消息，其必然频繁、大量的发送带有垃圾广告内容的消息，即广告用户具有其特定的行为特征。可以通过判断用户的行为特征是否与广告用户的行为特征相似，以识别该用户是否为广告用户。例如，可以通过分析获取的广告用户样本信息，获取广告用户的行为特征，并确定广告用户行为特征识别条件。当用户的行为特征满足该识别条件时，可以识别该用户为广告用户。

图2是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图2所示，步骤S11包括：

在步骤S1101中，获取所述用户在第一时间区间内发送信息的群组的第一数量，将所述第一数量确定为所述行为特征，

步骤S12包括：

在步骤S1201中，在所述第一数量大于或等于第一阈值的情况下，判断所述行为特征满足识别条件。

举例来说，可以获取用户在第一时间区间(例如60分钟)内发送信息的群组(例如，直播房间)的第一数量，并将该第一数量确定为行为特征。在该第一数量大于或等于第一阈值的时候，可以判断该用户的行为特征满足识别条件，该用户为第一类别用户(广告用户)。例如，用户A在60分钟内给35个直播房间发送了信息，则其行为特征为35，当第一阈值为30时，该用户的行为特征大于第一阈值，满足识别条件，则可以识别用户A为广告用户。应当理解，第一时间区间可以设置成1分钟、2分钟、5分钟、20分钟、60分钟、240分钟等任意长度的时间段，本公开对此不作限定。

在一种可能的实现方式中，可以通过统计方法确定第一阈值。

举例来说，可以选取一组样本，并根据相关技术中的广告用户识别方法(深度学习或者语言模型识别广告用户)、其他用户的投诉以及通过人工复审的方式对广告用户进行标注等方式，识别出该样本中的广告用户。基于该样本信息，可以统计出第一时间区间(例如为60分钟)时，每个正常用户和每个广告用户发送信息的群组的第一数量，还可以统计出第一时间区间内广告用户数量为a(该a个用户在第一时间区间内发送的群组的数量都大于或等于k)，正常用户数量为b，并可以根据公式q＝a/(a+b)获得比值q。在q的数值大于预先设定的数值阈值(例如0.95)时，可以认为符合条件(第一时间区间内发送的群组数量大于或等于k)的用户都是广告用户，从而可以确定广告用户中发送信息的群组的数量k为相应第一时间区间内的第一阈值。其中，该数值阈值可以根据实际需要进行设定，例如该数值阈值可以选择0.9到1之间的数，本公开对该数值阈值的具体取值不作限定。

通过这种方式，可以将在第一时间区间内频繁在多个群组发送信息的用户识别为广告用户，利用广告用户频繁在多个群组内不停发送信息这一行为特征进行用户识别，提高了识别准确度。本领域技术人员应理解，第一时间区间的时间长度以及相对应的第一阈值的确定可以根据具体情况进行设置，本公开对此不做限制。

图3是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图3所示，步骤S11包括：

在步骤S1102中，获取所述用户在第二时间区间内发送信息的第二数量，将所述第二数量确定为所述行为特征，

步骤S12包括：

在步骤S1202中，在所述第二数量大于或等于第二阈值的情况下，判断所述行为特征满足识别条件。

举例来说，可以获取用户在第二时间区间(例如5分钟)内发送信息的第二数量，并将该第二数量确定为行为特征。在该第二数量大于或等于第二阈值的时候，可以判断该用户的行为特征满足识别条件，该用户为第一类别用户(广告用户)。例如，用户B在5分钟内发送了20条站内信息，则其行为特征为20，当第二阈值为15时，该用户的行为特征大于第二阈值，满足识别条件，则可以识别用户B为广告用户。应当理解，第二时间区间可以设置成1分钟、2分钟、5分钟、20分钟、60分钟、240分钟等任意长度的时间段，本公开对此不作限定。

在一种可能的实现方式中，可以通过统计方法确定第二阈值。

举例来说，可以选取一组样本，并根据相关技术中的广告用户识别方法(深度学习或者语言模型识别广告用户)、其他用户的投诉以及通过人工复审的方式对广告用户进行标注等方式，识别出该样本中的广告用户。基于该样本信息，可以统计出第二时间区间(例如为5分钟)时，每个正常用户和每个广告用户发送信息的第二数量，还可以统计出第二时间区间内广告用户数量为c(该c个用户在第二时间区间内发送的信息的数量都大于或等于j)，正常用户数量为d，并可以根据公式p＝c/(c+d)获得比值p。在p的数值大于预先设定的数值阈值(例如0.95)时，可以认为符合条件(第二时间区间内发送信息的数量大于或等于j)的用户都是广告用户，从而可以确定广告用户中发送信息的数量j为相应第二时间区间内的第二阈值。其中，该数值阈值可以根据实际需要进行设定，例如该数值阈值可以选择0.9到1之间的数，本公开对该数值阈值的具体取值不作限定。

通过这种方式，可以将在第二时间区间内频繁发送信息的用户识别为广告用户，利用广告用户频繁发送信息这一行为特征进行用户识别，提高了用户识别的准确度。本领域技术人员应理解，第二时间区间的时间长度以及相对应的第二阈值的确定可以根据具体情况进行设置，本公开对此不做限制。

图4是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图4所示，步骤S11包括：

在步骤S1103中，获取所述用户在第三时间区间内发送信息的第三数量以及所述信息的第一内容；

在步骤S1104中，基于所述第一内容，确定所述用户在所述第三时间区间内发送的不同信息的第四数量；

在步骤S1105中，确定所述第四数量与所述第三数量之间的第一比值，将所述第一比值确定为所述行为特征，

步骤S12包括：

在步骤S1203中，在所述第一比值小于或等于第三阈值的情况下，判断所述行为特征满足识别条件。

在一种可能的实现方式中，可以获取用户在第三时间区间(例如20分钟)内发送信息的第三数量(例如50条)以及信息的第一内容，其中，第一内容是指50条信息的内容。可以基于该第一内容，确定用户在第三时间区间内发送的不同信息的第四数量。例如，用户C在20分钟内发送了50条信息，服务器可以获取该用户发送的信息的数量(50条)，以及这50条信息的内容(第一内容)，并确定该50条信息中的不同信息的第四数量。例如，用户C发送的50条信息得第一内容都一致，则第四数量为1；用户C发送的50条信息第一内容中，其中，20条信息第一内容一致，30条信息第一内容一致，则第四数量为2。应当理解，第三时间区间可以设置成1分钟、2分钟、5分钟、20分钟、60分钟、240分钟等任意长度的时间段，本公开对此不作限定。

在一种可能的实现方式中，确定不同信息的第四数量包括：对第一内容进行排序、去重并获取哈希值；根据所述哈希值的数量，确定该第四数量。

举例来说，可以将获取的用户发送的信息的多个第一内容按照字典顺序排序，并去重，再进行哈希，获取哈希值。可以认定哈希值相同的多个第一内容为同一信息内容，即所获取的哈希值的数量为第四数量。例如，用户C在20分钟内发送的50条信息，通过排序、去重后获取哈希值，若该50条信息的哈希值相同，则该第四数量为1；若该50条信息的哈希值为2个，则该第四数量为2。

通过这种方式，可以避免因广告用户在垃圾广告内容前面或后面加入多余符号所带来的干扰，准确确定用户在第三时间区间内发送的不同信息的第四数量。本领域技术人员应理解，还可以采用本领域公知的其他方式确定用户在第三时间区间内发送的不同信息的第四数量，本公开对此不做限制。

在一种可能的实现方式中，可以确定第四数量与第三数量的比值为第一比值。例如，用户C在20分钟内发送了50条信息，其中不同信息的第四数量为1，则该第一比值为1/50，可以将其确定为用户C的行为特征。

在一种可能的实现方式中，当第一比值小于或者等于第三阈值时，例如第三阈值为1/40，用户C的第一比值为1/50，满足识别条件，则可以识别用户C为广告用户。

在一种可能的实现方式中，可以通过统计方法确定第三阈值。举例来说，可以选取一组样本，并根据相关技术中的广告用户识别方法(深度学习或者语言模型识别广告用户)、其他用户的投诉以及通过人工复审的方式对广告用户进行标注等方式，识别出该样本中的广告用户。基于该样本信息，可以统计出第三时间区间内每个正常用户和每个广告用户发送信息的第三数量以及信息的第一内容，并确定用户在第三时间区间内发送的不同信息的第四数量，从而获得第一比值。统计出第三时间区间内广告用户数量为e，正常用户数量为f，并可以根据公式v＝e/(e+f)获得比值v。在v的数值大于预先设定的数值阈值(例如0.95)时，可以采用二分的方法确定最终的比值为第三阈值。其中，该数值阈值可以根据实际需要进行设定，例如该数值阈值可以选择0.9到1之间的数，本公开对该数值阈值的具体取值不作限定。

通过这种方式，可以将在第三时间区间内发送的信息的数量多，但不同信息的数量少的用户识别出来，利用广告用户发送大量相同信息或者类似信息这一行为特征进行用户识别，提高了用户识别的准确度。本领域技术人员应理解，第三时间区间的时间长度以及相对应的第三阈值的确定可以根据具体情况进行设置，本公开对此不做限制。

图5是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图5所示，步骤S11包括：

在步骤S1106中，获取所述用户在第四时间区间内发送信息的群组的第五数量以及所述信息的第二内容；

在步骤S1107中，基于所述第二内容，确定所述用户在所述第四时间区间内发送的不同信息的第六数量；

在步骤S1108中，确定所述第六数量与所述第五数量之间的第二比值，将所述第二比值确定为所述行为特征，

步骤S12包括：

在步骤S1204中，在所述第二比值小于或等于第四阈值的情况下，判断所述行为特征满足识别条件。

在一种可能的实现方式中，可以获取用户在第四时间区间(例如240分钟)内发送信息的群组的第五数量(例如600个)以及信息的第二内容，其中，第二内容是指600个群组的信息的内容。可以基于该第二内容，确定用户在第四时间区间内发送的不同信息的第六数量。例如，用户D在240分钟内给600个群组发送了信息，服务器可以获取该用户发送的信息的群组的第五数量(600个)，以及这600个群组的信息的内容(第二内容)，并确定该600个不同群组的不同信息的第六数量。例如，用户C发送给600个群组的信息的第二内容都一致，则第四数量为1；用户C发送给600个群组的信息第二内容中，其中，100个群组的信息的第二内容一致、200个群组的信息的第二内容一致以及300个群组的信息的第二内容一致，则第六数量为3。应当理解，第四时间区间可以设置成1分钟、2分钟、5分钟、20分钟、60分钟、240分钟等任意长度的时间段，本公开对此不作限定。

在一种可能的实现方式中，确定不同信息的第六数量包括：对第二内容进行排序、去重并获取哈希值；根据所述哈希值的数量，确定该第六数量。

举例来说，可以将获取的用户发送的信息的多个第二内容按照字典顺序排序，并去重，再进行哈希，获取哈希值。可以认定哈希值相同的多个第二内容为同一信息内容，即所获取的哈希值的数量为第六数量。例如，用户D在240分钟内给600个群组发送信息，通过对发送的信息的第二内容进行排序、去重后获取哈希值，若所有信息的第二内容的哈希值相同，则该第六数量为1；若所有信息的第二内容的哈希值为3个，则该第六数量为3。

通过这种方式，可以避免因广告用户在垃圾广告内容前面或后面加入多余符号所带来的干扰，准确确定用户在第四时间区间内发送的不同信息的第六数量。本领域技术人员应理解，还可以采用本领域公知的其他方式确定用户在第四时间区间内发送的不同信息的第六数量，本公开对此不做限制。

在一种可能的实现方式中，可以确定第六数量与第五数量的比值为第二比值。例如，用户D在240分钟内给600个直播房间发送了信息，其中不同信息的第六数量为1，则该第二比值为1/600，可以将其确定为用户D的行为特征。

在一种可能的实现方式中，当第二比值小于或者等于第四阈值时，例如第四阈值为1/400，用户D的第一比值为1/600，满足识别条件，则可以识别用户D为广告用户。

在一种可能的实现方式中，可以通过统计方法确定第四阈值。举例来说，可以选取一组样本，并根据相关技术中的广告用户识别方法(深度学习或者语言模型识别广告用户)、其他用户的投诉以及通过人工复审的方式对广告用户进行标注等方式，识别出该样本中的广告用户。基于该样本信息，可以统计出第四时间区间内每个正常用户和每个广告用户发送信息的群组的第五数量以及信息的第二内容，并确定用户在第四时间区间内发送的不同信息的第六数量，从而获得第二比值。统计出第四时间区间内广告用户数量为g，正常用户数量为h，并可以根据公式i＝g/(g+h)获得比值i。在i的数值大于预先设定的数值阈值(例如0.95)时，可以采用二分的方法确定最终的比值为第四阈值。其中，该数值阈值可以根据实际需要进行设定，例如该数值阈值可以选择0.9到1之间的数，本公开对该数值阈值的具体取值不作限定。

通过这种方式，可以将在第四时间区间内发送的信息的群组数量多，但不同信息的数量少的用户识别出来，利用广告用户给大量群组发送相同信息或者类似信息这一行为特征进行用户识别，提高了用户识别的准确度。本领域技术人员应理解，第四时间区间的时间长度以及相对应的第四阈值的确定可以根据具体情况进行设置，本公开对此不做限制。

图6是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图6所示，步骤S11包括：

在步骤S1109中，获取所述用户在第五时间区间内的被禁言次数，将所述被禁言次数确定为所述行为特征，

步骤S12包括：

在步骤S1205中，在所述被禁言次数大于或等于第五阈值的情况下，判断所述行为特征满足识别条件。

在一种可能的实现方式中，可以根据用户在第五时间区间内的被禁言次数来判断该用户是否为广告用户。举例来说，如果用户在一定的时间区间内频繁被主播或者管理员禁言，则可以识别其为广告用户。

在一种可能的实现方式中，可以通过统计方法确定第五阈值。

举例来说，可以选取一个样本，并根据相关技术中的广告用户识别方法(深度学习或者语言模型识别广告用户)、其他用户的投诉以及通过人工复审的方式对广告用户进行标注等方式，识别出该样本中的广告用户。基于该样本信息，可以统计出第五时间区间(例如为240分钟)内，每个正常用户和每个广告用户被禁言的次数，还可以统计出第五时间区间内广告用户数量为l(该l个用户在第五时间区间内被禁言的次数都大于或等于o)，正常用户数量为m，并可以根据公式n＝l/(l+m)获得比值n。在n的数值大于预先设定的数值阈值(例如0.95)时，可以确定广告用户中被禁言次数最小的数值为相应第五时间区间内的第五阈值。其中，该数值阈值可以根据实际需要进行设定，例如该数值阈值可以选择0.9到1之间的数，本公开对该数值阈值的具体取值不作限定。

通过这种方式，可以将在第五时间区间内频繁被禁言的用户识别为广告用户，利用广告用户频繁被禁言这一行为特征进行用户识别，提高了用户识别的准确度。本领域技术人员应理解，第五时间区间的时间长度以及相对应的第五阈值的确定可以根据具体情况进行设置，本公开对此不做限制。

图7是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图7所示，步骤S11包括：

在步骤S1110中，在所述用户在第一群组中发送的第一信息被识别为第一类别信息的情况下，将所述第一信息确定为所述行为特征，

步骤S12包括：

在步骤S1206中，在所述用户在第一群组中被禁言的情况下，判断所述行为特征满足识别条件。

在一种可能的实现方式中，该第一类别信息是指广告信息等。举例来说，可以利用相关技术中的广告用户识别(例如深度学习或者语言模型)方式对用户在第一群组中发送的第一信息进行识别，在用户在第一群组中发送的第一信息被识别为广告信息的情况下，将该第一信息确定为其行为特征。在这种情况下，当该用户在第一群组中出现被禁言情况(例如被主播或者群主禁言、被删除、以及踢出群组等情况)时，可以识别该用户为广告用户。

本领域技术人员应理解，还可以通过分析在第一群组中被禁言的用户所发送的信息内容来判断其是否为广告用户。例如，当其在第一群组中所发送的信息被识别为广告信息时，可以将该用户识别为广告用户。即只要用户在第一群组中存在被禁言情况，且其发送的信息内容被识别为广告信息时，就可以识别其为广告用户，本公开对此不做限制。

图8是根据一示例性实施例示出的一种用户识别方法的流程图。在一种可能的实现方式中，如图8所示，步骤S11包括：

在步骤S1111中，获取所述用户发送的第二信息以及第二用户发送的第三信息，将所述第二信息和所述第三信息确定为所述用户的行为特征，其中，所述第二用户与所述用户的IP地址和终端设备识别码中的至少一个是相同的，

步骤S12包括：

在步骤S1207中，在所述第二信息和所述第三信息中的至少一个被识别为第一类别信息的情况下，判断所述行为特征满足识别条件。

举例来说，当发送第二信息的用户与发送第三信息的用户的IP地址和终端设备识别码中的至少一个相同的时候，可以将该第二信息和第三信息确定为行为特征。在该第二信息和第三信息中至少一个被识别为广告信息时，即可判断该行为特征满足识别条件，该用户为垃圾用户。例如，用户E和用户F具有相同的终端设备识别码(IMEI)，即二者使用相同的手机，当用户E发送的第二信息被识别为广告信息的时候，可以将该用户E和用户F识别为广告用户。

在一种可能的实现方式中，当用户发送的信息被识别出为广告信息时，服务器可以获取该用户的IP以及终端设备识别码，在监测到有其他用户与该用户的IP或者终端设备识别码中至少一个相同时，可以将该用户识别为广告用户。例如，用户E发送的信息被识别为广告信息，此时，只是屏蔽识别出来的该广告信息，但不对该用户E进行处理。但在服务器监测到有用户F的IP或者终端设备识别码与用户E的相同时，例如，在其注册账号时对应的终端设备识别码与用户E相同，或者其在使用账户时，IP地址与用户E相同，可以将该用户E和用户F识别为广告用户，进行处理(例如，封号)。

通过这种方式，可以将具有相同IP或者终端设备识别码的多个账号，且发送过广告信息的用户识别为广告用户。这样，可以同时打击同一广告用户的多个账号，避免其通过切换账号以逃避广告用户识别，提高了识别召回率。

应用示例

以下结合“识别广告用户”作为一个示例性应用场景，给出根据本公开实施例的应用示例，以便于理解用户识别方法的流程。本领域技术人员应理解，以下应用示例仅仅是出于便于理解本发明实施例的目的，不应视为对本发明实施例的限制。

图9是根据一示例性实施例示出的一种用户识别方法的应用场景的示意图。如图9所示，在该应用示例中，服务器通过分析用户的行为，对符合广告用户的行为特征的用户识别为广告用户。

在该应用示例中，可以选取样本，并通过统计5分钟内正常用户和广告用户发送的消息的次数，确定出在5分钟之内，发送信息的次数大于20条(第一阈值)的用户为广告用户。

在该应用示例中，服务器可以获取用户的行为数据，确定用户在5分钟内的发送信息的数量，在获取到的用户在5分钟内发送的信息的数量大于等于20时，识别该用户为广告用户。用户在5分钟内发送的信息的数量小于20时，该用户为正常用户。

通过这种方式，可以占用较小的资源来进行广告用户识别，只需要获取其第一时间内发送的信息的次数，并与预先确定好的阈值进行比较即可，实现了一种资源消耗小、准确度高的广告用户识别方法。

本领域技术人员应理解，服务器识别广告用户的方法不限于此。服务器可以设置其他行为特征的判断条件，并获取用户的行为特征加以判断。服务器可以同时设置多个行为特征的识别条件，并获取用户的多个行为特征，在其中至少一个行为特征满足识别条件时，可以将该用户识别为广告用户。

图10是根据一示例性实施例示出的一种用户识别装置框图。参照图10，该装置包括确定模块91，判断模块92和识别模块93。

该确定模块91，被配置为根据用户的行为数据，确定所述用户的行为特征；

该判断模块92，被配置为判断所述行为特征是否满足识别条件；

该识别模块93，被配置为在所述行为特征满足识别条件的情况下，识别所述用户为第一类别用户。

图11是根据一示例性实施例示出的一种用户识别装置框图。参照图11，在一种可能的实现方式中，所述确定模块91包括：

第一确定子模块9101，被配置为获取所述用户在第一时间区间内发送信息的群组的第一数量，将所述第一数量确定为所述行为特征，

所述判断模块92包括：

第一判断子模块9201，被配置为在所述第一数量大于或等于第一阈值的情况下，判断所述行为特征满足识别条件。

图12是根据一示例性实施例示出的一种用户识别装置框图。参照图12，在一种可能的实现方式中，所述确定模块91包括：

第二确定子模块9102，被配置为获取所述用户在第二时间区间内发送信息的第二数量，将所述第二数量确定为所述行为特征，

所述判断模块92包括：

第二判断子模块9202，被配置为在所述第二数量大于或等于第二阈值的情况下，判断所述行为特征满足识别条件。

图13是根据一示例性实施例示出的一种用户识别装置框图。参照图13，在一种可能的实现方式中，所述确定模块91包括：

第一获取子模块9103，被配置为获取所述用户在第三时间区间内发送信息的第三数量以及所述信息的第一内容；

第三确定子模块9104，被配置为基于所述第一内容，确定所述用户在所述第三时间区间内发送的不同信息的第四数量；

第四确定子模块9105，被配置为确定所述第四数量与所述第三数量之间的第一比值，将所述第一比值确定为所述行为特征，

所述判断模块92包括：

第三判断子模块9203，被配置为在所述第一比值小于或等于第三阈值的情况下，判断所述行为特征满足识别条件。

图14是根据一示例性实施例示出的一种用户识别装置框图。参照图14，在一种可能的实现方式中，所述确定模块91包括：

第二获取子模块9106，被配置为获取所述用户在第四时间区间内发送信息的群组的第五数量以及所述信息的第二内容；

第五确定子模块9107，被配置为基于所述第二内容，确定所述用户在所述第四时间区间内发送的不同信息的第六数量；

第六确定子模块9108，被配置为确定所述第六数量与所述第五数量之间的第二比值，将所述第二比值确定为所述行为特征，

所述判断模块92包括：

第四判断子模块9204，被配置为在所述第二比值小于或等于第四阈值的情况下，判断所述行为特征满足识别条件。

图15是根据一示例性实施例示出的一种用户识别装置框图。参照图15，在一种可能的实现方式中，所述确定模块91包括：

第七确定子模块9109，被配置为获取所述用户在第五时间区间内的被禁言次数，将所述被禁言次数确定为所述行为特征，

所述判断模块92包括：

第五判断子模块9205，被配置为在所述被禁言次数大于或等于第五阈值的情况下，判断所述行为特征满足识别条件。

图16是根据一示例性实施例示出的一种用户识别装置框图。参照图16，在一种可能的实现方式中，所述确定模块91包括：

第八确定子模块9110，被配置为在所述用户在第一群组中发送的第一信息被识别为第一类别信息的情况下，将所述第一信息确定为所述行为特征，

所述判断模块92包括：

第六判断子模块9206，被配置为在所述用户在第一群组中被禁言的情况下，判断所述行为特征满足识别条件。

图17是根据一示例性实施例示出的一种用户识别装置框图。参照图17，在一种可能的实现方式中，所述确定模块91包括：

第九确定子模块9111，被配置为获取所述用户发送的第二信息以及第二用户发送的第三信息，将所述第二信息和所述第三信息确定为所述用户的行为特征，其中，所述第二用户与所述用户的IP地址和终端设备识别码中的至少一个是相同的，

所述判断模块92包括：

第七判断子模块9207，被配置为在所述第二信息和所述第三信息中的至少一个被识别为第一类别信息的情况下，判断所述行为特征满足识别条件。

在一种可能的实现方式中，所述第一类别用户为广告用户。

在一种可能的实现方式中，所述第一类别信息为广告信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图18是根据一示例性实施例示出的一种用户识别装置框图。例如，装置1900可以被提供为一服务器。参照图18，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法……

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由装置1900的处理组件1922执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用户识别方法，其特征在于，包括：

根据用户的行为数据，确定所述用户的行为特征；

判断所述行为特征是否满足识别条件；

2.根据权利要求1所述的方法，其特征在于，根据用户的行为数据，确定所述用户的行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

3.根据权利要求1所述的方法，其特征在于，根据用户的行为数据，确定所述用户的行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

4.根据权利要求1所述的方法，其特征在于，根据用户的行为数据，确定所述用户的行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

5.根据权利要求1所述的方法，其特征在于，根据用户的行为数据，确定所述用户的行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

6.根据权利要求1所述的方法，其特征在于，

根据用户的行为数据，确定所述行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

7.根据权利要求1所述的方法，其特征在于，

根据用户的行为数据，确定所述用户的行为特征，包括：

判断所述行为特征是否满足识别条件，包括：

8.根据权利要求1所述的方法，其特征在于，

根据用户的行为数据，确定所述用户的行为特征，包括：

获取所述用户发送的第二信息以及第二用户发送的第三信息，将所述第二信息和所述第三信息确定为所述用户的行为特征，其中，所述第二用户与所述用户的IP地址和终端设备识别码中的至少一个是相同的，

判断所述行为特征是否满足识别条件，包括：

9.根据权利要求1-8中任意一项所述的方法，其特征在于，所述第一类别用户为广告用户。

10.根据权利要求7或8所述的方法，其特征在于，所述第一类别信息为广告信息。

11.一种用户识别装置，其特征在于，包括：

判断模块，用于判断所述行为特征是否满足识别条件；

12.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

13.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

14.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

15.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

16.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

17.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

18.根据权利要求11所述的用户识别装置，其特征在于，所述确定模块包括：

所述判断模块包括：

19.根据权利要求11-18中任意一项所述的装置，其特征在于，所述第一类别用户为广告用户。

20.根据权利要求17或18所述的装置，其特征在于，所述第一类别信息为广告信息。

21.一种用户识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-10中任意一项所述的方法。

22.一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行权利要求1-10中任意一项所述的方法。