CN105373614A - 一种基于用户账号的子用户识别方法及系统 - Google Patents
一种基于用户账号的子用户识别方法及系统 Download PDFInfo
- Publication number
- CN105373614A CN105373614A CN201510824207.5A CN201510824207A CN105373614A CN 105373614 A CN105373614 A CN 105373614A CN 201510824207 A CN201510824207 A CN 201510824207A CN 105373614 A CN105373614 A CN 105373614A
- Authority
- CN
- China
- Prior art keywords
- user
- account
- time period
- child
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网身份管理技术领域,尤其涉及一种基于用户账号的子用户识别方法及系统。所述基于用户账号的子用户识别方法包括以下步骤:步骤a:获取单一账号下的用户操作行为的日志数据;步骤b:对用户操作行为数据进行时间段划分;根据划分结果提取每一个时间段中的用户操作行为特征,并根据用户操作行为特征对用户进行聚类;步骤c:利用聚类结果确定该用户账号下的子用户数量。本发明通过分析用户操作行为数据进行子用户的识别,不需要额外的开销,也不需要用额外的硬件或软件;且本发明对用户是透明的,不会给用户带来任何不方便的困扰,也不会涉及用户的账号、密码等隐私信息,具有很好的实用性。
Description
技术领域
本发明属于互联网身份管理技术领域,尤其涉及一种基于用户账号的子用户识别方法及系统。
背景技术
身份管理在现在的电子商务和智能产品中是一个很重要的问题。通常,一个个体身份对应着一个账号。然而,我们并不能保证这种一对一的关系。一些用户可能在一个网站上创建了多个不同的账号,也有几个用户共同分享使用统一账号的情况。账户共享问题已经遍布在我们的生活周围。例如,对于智能家居产品如智能电视等产品,属于家庭共享产品,家庭中的任何成员都可以去进行操作,选择自己喜欢的电视节目。而不同年龄段的家庭成员往往会有不同的兴趣爱好,喜欢不同的电视节目。
账号共享对于互联网商业来说是一个很重要的问题。由于多用户混合使用一个账号,服务提供商不能很好地评估用户的兴趣,也就不能准确地根据在线用户的行为为其推荐更好的服务;同时,服务提供商也会低估了用户数量,降低了效益。
为了解决上述问题,一些服务供应商通过法律或技术的强制限制,以防止用户共享账户。一个典型的例子是数字权限管理(DRM),它以安全的方式定义和执行了使用规则。DRM系统禁止用户对未经许可的受版权保护的材料进行使用、复制或通信。然而,这些对于用户分享一个有效的账户并不是十分有效。有些网站通过限制用户只能从预定的IP地址或限制提供给每个账号的本地计算机的接入数量来试图阻止账号的共享。但是,这种方法不适用于动态IP地址或远程控制软件的使用情形。还有一些网站使用数字签名和证书,以阻止用户共享账户信息。上述这些方法可以有效地防止用户共享账号,但是,他们不能确定用户的账号信息是否已经共享,而且也不能估算多少人共享一个账号。此外,这样对用户强加限制也会给用户带来不少额外的限制困扰。
马书才等提出了基于社会网络分析的共享密码监督方法研究,通过扫描电子邮箱库中系统管理员邮箱与所有外部电子邮箱之间的最短路径找出密码共享可能的传播路径以便对用户密码的共享行为进行监督。该方法可对当前系统的密码安全状态进行评估,对密码共享行为所造成的保密信息泄露起到一定的预防作用。然而,并不是所有的账户共享都是通过电子邮件来分享账号和密码的,该研究的范围比较狭窄。而且,也不能仅仅通过邮件中发送的共享账户信息的数量来判定子用户的数量,因为并不是收到邮件的每一位用户都会去使用该共享信息,成为该账户下的子用户的。
Seong-seobHwang等提出了基于用户登录时输入账号和密码的输入字符和输入频率来对共享账号的用户进行聚类的方法。其认为每一个用户的输入字符是连续的,并且其输入频率是不同于其他人的,因此每一个用户的键盘敲击行为会形成一个簇,不同的用户的键盘敲击行为会形成不同的簇。因此某一个账户是否共享以及共享的子用户的数量可以通过产生的簇的个数来进行大致估计。如果形成的簇的个数大于一个,就可以判定该账户是共享账户。虽然该方法是对用户透明的,但是其通过采集用户的账户和密码来进行账户共享发现,使得用户的隐私信息得不到很好的保障。另一方面,键盘信息的采集也需要额外的设备和相应的软件设施,需要一些额外的费用。
此外,这项研究有一定的局限性。首先,所有试验的受试者都是精通计算机的年轻研究生。他们在打字方面比一般人群要好得多。而对于打字不太熟练的打字员,其打字模式可能会形成多个簇,这可能导致更高的误码率。因此很难普及到真实的互联网中的更广范围的人群。第二,它隐含地假定用户的键入模式是在合理的时间跨度内是固定的,而且也没有考虑用户在键入错误需删除几个字母重新输入的情况。第三,所提出的框架只是在单一设备上采集数据进行的实验,并没有考虑不同的输入设备进行测试,如台式计算机,笔记本电脑,移动设备,自动取款机等。该项研究目前还处于理论阶段,并没有在真实的互联网中得到普及。
发明内容
本发明提供了一种基于用户账号的子用户识别方法及系统,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
本发明实现方式如下,一种基于用户账号的子用户识别方法,包括以下步骤:
步骤a:获取单一账号下的用户操作行为的日志数据;
步骤b:对用户操作行为数据进行时间段划分;根据划分结果提取每一个时间段中的用户操作行为特征,并根据用户操作行为特征对用户进行聚类;
步骤c:利用聚类结果确定该用户账号下的子用户数量。
本发明实施例采取的技术方案还包括:所述步骤a还包括:对所述用户账号下的用户操作行为数据进行预处理;所述对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;所述有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间。
本发明实施例采取的技术方案还包括:在所述步骤b中,所述对用户操作行为数据进行时间段划分具体包括以下步骤:
步骤b1:设定一个时间阈值,并判断用户连续两次操作的间隔时间是否大于该时间阀值,如果用户连续两次操作的间隔时间小于或等于该时间阈值时,执行步骤b2;如果用户连续两次操作的间隔时间大于该时间阈值,执行步骤b3;
步骤b2:将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内;
步骤b3:将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内。
本发明实施例采取的技术方案还包括:在所述步骤b中,所述根据划分结果提取每一个时间段中的用户操作行为特征具体为:将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,具体公式为:
ti={(e1,n1),(e2,n2),...}
在上述公式中,ei表示用户的操作特征,ni是用户操作该特征的次数。
本发明实施例采取的技术方案还包括:在所述步骤b中,所述根据用户操作行为特征对用户进行聚类具体包括以下步骤:
步骤b4:利用词频-逆向文档频率公式计算出文档中每个操作特征的权重,生成特征向量;操作特征权重公式为:
di={(e1,w1,i),(e2,w2,i),...}
在上述公式中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重;其中:
wi,j=TFi,j*IDFi
在上述公式中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量;其中:
在上述公式中,ni,j表示特征ei在文档dj中出现的频数;
在上述公式中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目;
步骤b5:通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在上述公式中,Wij表示特征向量di与特征向量dj之间的余弦相似度;
步骤b6:采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户。
本发明实施例采取的另一技术方案为:一种基于用户账号的子用户识别系统,包括数据获取模块、时间段划分模块、特征提取模块、用户聚类模块和子用户识别模块;所述数据获取模块用于获取单一账号下的用户操作行为的日志数据;所述时间段划分模块用于对用户操作行为数据进行时间段划分;所述特征提取模块用于根据划分结果提取每一个时间段中的用户操作行为特征;所述用户聚类模块用于根据用户操作行为特征对用户进行聚类;所述子用户识别模块用于利用聚类结果确定该用户账号下的子用户数量。
本发明实施例采取的技术方案还包括:还包括数据预处理模块:所述数据预处理模块用于对所述用户账号下的用户操作行为数据进行预处理;所述对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;所述有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间。
本发明实施例采取的技术方案还包括:所述时间段划分模块包括间隔时间判断单元和时间段划分单元;所述间隔时间判断单元用于设定一个时间阈值,判断用户连续两次操作行为的间隔时间是否大于该时间阀值,并通过时间段划分单元根据判断结果将操作行为划分到对应的时间段中;所述时间段划分单元用于将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内,同一时间段内的操作行为视为同一用户进行的操作;并将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内,不同的时间段内的操作行为视为不同用户的操作。
本发明实施例采取的技术方案还包括:所述特征提取模块根据划分结果提取每一个时间段中的用户操作行为特征具体为:将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,具体公式为:
ti={(e1,n1),(e2,n2),...}
在上述公式中,ei表示用户的操作特征,ni是用户操作该特征的次数。
本发明实施例采取的技术方案还包括:所述用户聚类模块包括特征向量计算单元、相似度计算单元和用户聚类单元;
所述特征向量计算单元用于利用词频-逆向文档频率公式计算出文档中每个操作特征的权重,生成特征向量;操作特征权重公式为:
di={(e1,w1,i),(e2,w2,i),...}
在上述公式中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重;其中:
wi,j=TFi,j*IDFi
在上述公式中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量;其中:
在上述公式中,ni,j表示特征ei在文档dj中出现的频数;
在上述公式中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目;
所述相似度计算单元用于通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在上述公式中,Wij表示特征向量di与特征向量dj之间的余弦相似度;
所述用户聚类单元用于采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户。
本发明实施例的基于用户账号的子用户识别方法及系统通过分析用户操作行为数据进行子用户的识别,弥补了现有技术的不足,不需要额外的开销,也不需要用额外的硬件或软件;且本发明对用户是透明的,不会给用户带来任何不方便的困扰,也不会涉及用户的账号、密码等隐私信息,具有很好的实用性。
附图说明
图1是本发明实施例的基于用户账号的子用户识别方法的流程图;
图2是本发明实施例的对用户操作行为数据进行时间段划分的方法的流程图;
图3是本发明实施例的用户进行聚类方法的流程图;
图4是由本发明实施例的基于用户账号的子用户识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,是本发明实施例的基于用户账号的子用户识别方法的流程图。本发明实施例的基于用户账号的子用户识别方法包括以下步骤:
步骤100:获取单一账号下的用户操作行为的日志数据;
在步骤100中,获取用户操作行为的日志数据的方式具体为:从用户操作行为日志数据库中,按照特定用户账号进行索引查询,找出该用户账号下的所有操作行为日志数据。由于某个账号的子用户数是一定的,而每个子用户进行的操作行为也具有个人偏好的重复性和一致性,能与其他子用户区别开来。还有一些账号的用户数是单一的,即非共享账户,其账号下对应的用户操作行为也是单一的。假设具有相似操作行为的用户的数据信息会形成一个簇,不同的操作行为的用户的数据信息会形成不同的簇。因此某一个账户是否共享以及共享的子用户的数量可以通过产生的簇个数来进行大致估计。如果形成的簇的个数大于一个,就可以判定该账户是共享账户。本发明基于这一特性,通过从服务器中直接获取用户的操作行为数据,通过分析用户操作行为数据进行子用户识别。
步骤200:对该用户账号下的用户操作行为数据进行预处理;
在步骤200中,对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;其中,保留的有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间等。
步骤300:根据用户连续操作的时间间隔阈值对用户操作行为数据进行时间段的划分;
为了清除说明步骤300,请一并参阅图2,是本发明实施例的对用户操作行为数据进行时间段划分的方法的流程图。本发明实施例的对用户操作行为数据进行时间段划分的方法包括以下步骤:
步骤301:设定一个时间阈值,并判断用户连续两次操作的间隔时间是否大于该时间阀值,如果用户连续两次操作的间隔时间小于或等于该时间阈值时,执行步骤302;如果用户连续两次操作的间隔时间大于该时间阈值,执行步骤303;
在步骤301中,所述时间阈值可根据不同的操作行为数据设定,任何设定的不同的时间阈值均可应用于本发明。
步骤302:将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内,同一时间段内的操作行为视为同一用户进行的操作;
步骤303:将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内,不同的时间段内的操作行为视为不同用户的操作;
在步骤303中,不同时间段内的操作行为没有任何相关性。
步骤400:将所有时间段内的用户操作行为特征分别提取出来作为每一个用户的操作行为特征;
在步骤400中,将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,对每个时间段t,其表示成一个关键词集合向量形式如下:
ti={(e1,n1),(e2,n2),...}(1)
在公式(1)中,ei表示用户的操作特征,ni是用户操作该特征的次数。
步骤500:根据用户行为操作特征对用户进行聚类;
为了清楚说明步骤500,请一并参阅图3,是本发明实施例的用户进行聚类方法的流程图。本发明实施例的用户进行聚类方法包括以下步骤:
步骤501:利用词频-逆向文档频率(TF-IDF)公式计算出文档中每个操作特征的权重,从而生成特征向量;操作特征权重公式如下:
di={(e1,w1,i),(e2,w2,i),...}(2)
在公式(2)中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重。其中:
wi,j=TFi,j*IDFi(3)
在公式(3)中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量,其中:
在公式(4)中,ni,j表示特征ei在文档dj中出现的频数;
在公式(5)中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目。本发明并不仅限于使用词频-逆向文档频率(TF-IDF)公式计算出文档中每个操作特征的权重,其他计算方法均可应用于本发明。
步骤502:通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在公式(6)中,Wij表示特征向量di与特征向量dj之间的余弦相似度;本发明不限于采用余弦相似度来计算不同用户之间的相似度,其他相似度度量方法以及距离度量方法也均可应用于本发明。
步骤503:采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户;
在步骤503中,文本聚类方法包括KMeans方法等,本发明不限于采用基于向量空间模型的文本聚类方法,其他聚类方法也均可应用于本发明。
步骤600:利用聚类结果确定该用户账号下的子用户数量。
在步骤600中,若聚类后的簇个数大于1,则说明该单一账号下存在不同的子用户在同时使用这一账号,不同的簇个数视为该账号下的子用户数;若聚类后的簇个数等于1,则说明该单一账号下只有一个用户在使用此账号,不存在共享账号的现象。
请参阅图4,是由本发明实施例的基于用户账号的子用户识别系统的结构示意图。本发明实施例的基于用户账号的子用户识别系统包括数据获取模块、数据预处理模块、时间段划分模块、特征提取模块、用户聚类模块和子用户识别模块;具体的:
数据获取模块用于获取单一账号下的用户操作行为的日志数据;其中,获取用户操作行为的日志数据的方式具体为:从用户操作行为日志数据库中,按照特定账号进行索引查询,找出该账号下的所有操作行为日志数据。由于某个账号的子用户数是一定的,而每个子用户进行的操作行为也具有个人偏好的重复性和一致性,能与其他子用户区别开来。还有一些账号的用户数是单一的,即非共享账户,其账号下对应的用户操作行为也是单一的。假设具有相似操作行为的用户的数据信息会形成一个簇,不同的操作行为的用户的数据信息会形成不同的簇。因此某一个账户是否共享以及共享的子用户的数量可以通过产生的簇个数来进行大致估计。如果形成的簇的个数大于一个,就可以判定该账户是共享账户。本发明基于这一特性,通过从服务器中直接获取用户的操作行为数据,通过分析用户操作行为数据进行子用户识别。相对于现有的子用户识别方法,本发明不需要用额外的硬件或软件来实现;且对用户是透明的,不会给用户带来任何不方便的困扰,也不会涉及用户的账号、密码等隐私信息。因此,本发明具有很好的实用性。
数据预处理模块用于对该账号下的用户操作行为数据进行预处理;其中,对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;其中,有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间等。
时间段划分模块用于根据用户连续操作的时间间隔阈值对用户操作行为数据进行时间段的划分;具体地,时间段划分模块包括间隔时间判断单元和时间段划分单元;
间隔时间判断单元用于设定一个时间阈值,并判断用户连续两次操作行为的间隔时间是否大于该时间阀值,并通过时间段划分单元根据判断结果将操作行为划分到对应的时间段中;其中,所述时间阈值可根据不同的操作行为数据设定,任何设定的不同的时间阈值均可应用于本发明。
时间段划分单元用于将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内,同一时间段内的操作行为视为同一用户进行的操作;并将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内,不同的时间段内的操作行为视为不同用户的操作;其中,不同时间段内的操作行为没有任何相关性。
特征提取模块用于将所有时间段内的用户操作行为特征分别提取出来作为每一个用户的操作行为特征;其中,将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,对每个时间段t,其表示成一个关键词集合向量形式如下:
ti={(e1,n1),(e2,n2),...}(1)
在公式(1)中,ei表示用户的操作特征,ni是用户操作该特征的次数。
用户聚类模块用于根据用户操作行为特征对用户进行聚类;具体地,用户聚类模块包括特征向量计算单元、相似度计算单元和用户聚类单元;
特征向量计算单元用于利用词频-逆向文档频率(TF-IDF)公式计算出文档中每个操作特征的权重,从而生成特征向量;操作特征的权重计算公式如下:
di={(e1,w1,i),(e2,w2,i),...}(2)
在公式(2)中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重。其中:
wi,j=TFi,j*IDFi(3)
在公式(3)中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量,其中:
在公式(4)中,ni,j表示特征ei在文档dj中出现的频数;
在公式(5)中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目。本发明并不仅限于使用词频-逆向文档频率(TF-IDF)公式计算操作特征的权重,其他计算方法均可应用于本发明。
相似度计算单元用于通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在公式(6)中,Wij表示特征向量di与特征向量dj之间的余弦相似度;本发明不限于采用余弦相似度来计算不同用户之间的相似度,其他相似度度量方法以及距离度量方法也均可应用于本发明。
用户聚类单元用于采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户;其中,文本聚类方法包括KMeans方法等,本发明不限于采用基于向量空间模型的文本聚类方法,其他聚类方法也均可应用于本发明。
子用户识别模块用于利用聚类结果确定该用户账号下的子用户数量;其中,若聚类后的簇个数大于1,则说明该单一账号下存在不同的子用户在同时使用这一账号,不同的簇个数视为该账号下的子用户数;若聚类后的簇个数等于1,则说明该单一账号下只有一个用户在使用此账号,不存在共享账号的现象。
本发明实施例的基于用户账号的子用户识别方法及系统通过分析用户操作行为数据进行子用户的识别,弥补了现有技术的不足,不需要额外的开销,也不需要用额外的硬件或软件;且本发明对用户是透明的,不会给用户带来任何不方便的困扰,也不会涉及用户的账号、密码等隐私信息,具有很好的实用性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于用户账号的子用户识别方法,包括以下步骤:
步骤a:获取单一账号下的用户操作行为的日志数据;
步骤b:对用户操作行为数据进行时间段划分;根据划分结果提取每一个时间段中的用户操作行为特征,并根据用户操作行为特征对用户进行聚类;
步骤c:利用聚类结果确定该用户账号下的子用户数量。
2.根据权利要求1所述的基于用户账号的子用户识别方法,其特征在于,所述步骤a还包括:对所述用户账号下的用户操作行为数据进行预处理;所述对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;所述有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间。
3.根据权利要求2所述的基于用户账号的子用户识别方法,其特征在于,在所述步骤b中,所述对用户操作行为数据进行时间段划分具体包括以下步骤:
步骤b1:设定一个时间阈值,并判断用户连续两次操作的间隔时间是否大于该时间阀值,如果用户连续两次操作的间隔时间小于或等于该时间阈值时,执行步骤b2;如果用户连续两次操作的间隔时间大于该时间阈值,执行步骤b3;
步骤b2:将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内;
步骤b3:将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内。
4.根据权利要求3所述的基于用户账号的子用户识别方法,其特征在于,在所述步骤b中,所述根据划分结果提取每一个时间段中的用户操作行为特征具体为:将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,具体公式为:
ti={(e1,n1),(e2,n2),...}
在上述公式中,ei表示用户的操作特征,ni是用户操作该特征的次数。
5.根据权利要求4所述的基于用户账号的子用户识别方法,其特征在于,在所述步骤b中,所述根据用户操作行为特征对用户进行聚类具体包括以下步骤:
步骤b4:利用词频-逆向文档频率公式计算出文档中每个操作特征的权重,生成特征向量;操作特征权重公式为:
di={(e1,w1,i),(e2,w2,i),...}
在上述公式中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重;其中:
wi,j=TFi,j*IDFi
在上述公式中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量;其中:
在上述公式中,ni,j表示特征ei在文档dj中出现的频数;
在上述公式中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目;
步骤b5:通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在上述公式中,Wij表示特征向量di与特征向量dj之间的余弦相似度;
步骤b6:采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户。
6.一种基于用户账号的子用户识别系统,其特征在于,包括数据获取模块、时间段划分模块、特征提取模块、用户聚类模块和子用户识别模块;所述数据获取模块用于获取单一账号下的用户操作行为的日志数据;所述时间段划分模块用于对用户操作行为数据进行时间段划分;所述特征提取模块用于根据划分结果提取每一个时间段中的用户操作行为特征;所述用户聚类模块用于根据用户操作行为特征对用户进行聚类;所述子用户识别模块用于利用聚类结果确定该用户账号下的子用户数量。
7.根据权利要求6所述的基于用户账号的子用户识别系统,其特征在于,还包括数据预处理模块:所述数据预处理模块用于对所述用户账号下的用户操作行为数据进行预处理;所述对用户操作行为数据进行预处理的方式具体为:去除与该用户行为不相关的数据列,保留有用信息列,并删除含有缺失项或含有错误信息的数据行;所述有用信息列包括账号的标识、用户的操作特征、用户的操作类型、用户操作次数以及用户操作时间。
8.根据权利要求6所述的基于用户账号的子用户识别方法及系统,其特征在于,所述时间段划分模块包括间隔时间判断单元和时间段划分单元;所述间隔时间判断单元用于设定一个时间阈值,判断用户连续两次操作行为的间隔时间是否大于该时间阀值,并通过时间段划分单元根据判断结果将操作行为划分到对应的时间段中;所述时间段划分单元用于将间隔时间小于或等于时间阈值的两次操作行为视为同一用户的操作,将这两次的操作行为划分到同一时间段内,同一时间段内的操作行为视为同一用户进行的操作;并将间隔时间大于时间阈值的两次操作行为视为不同用户的操作,将这两次的操作行为划分到不同的时间段内,不同的时间段内的操作行为视为不同用户的操作。
9.根据权利要求8所述的基于用户账号的子用户识别系统,其特征在于,所述特征提取模块根据划分结果提取每一个时间段中的用户操作行为特征具体为:将同一时间段内的用户操作行为特征以及操作次数提取出来,表示成一个关键词集合向量,具体公式为:
ti={(e1,n1),(e2,n2),...}
在上述公式中,ei表示用户的操作特征,ni是用户操作该特征的次数。
10.根据权利要求9所述的基于用户账号的子用户识别系统,其特征在于,所述用户聚类模块包括特征向量计算单元、相似度计算单元和用户聚类单元;
所述特征向量计算单元用于利用词频-逆向文档频率公式计算出文档中每个操作特征的权重,生成特征向量;操作特征权重公式为:
di={(e1,w1,i),(e2,w2,i),...}
在上述公式中,ei表示用户的操作特征,wi,j是用户操作特征ei在文档dj中对应的权重;其中:
wi,j=TFi,j*IDFi
在上述公式中,TFi,j表示特征ei在文档dj中出现的频率;IDFi是一个词语普遍重要性的度量;其中:
在上述公式中,ni,j表示特征ei在文档dj中出现的频数;
在上述公式中,|D|表示语料库中的文档总数;n(i)表示包含特征ei的文档数目;
所述相似度计算单元用于通过特征向量之间的余弦相似度计算不同用户之间的操作相似度,计算公式为:
在上述公式中,Wij表示特征向量di与特征向量dj之间的余弦相似度;
所述用户聚类单元用于采用基于向量空间模型的文本聚类方法对具有不同操作特征的用户进行聚类,将具有相同或相似操作特征的用户划分为一个簇,且一个簇视为一个用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510824207.5A CN105373614B (zh) | 2015-11-24 | 2015-11-24 | 一种基于用户账号的子用户识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510824207.5A CN105373614B (zh) | 2015-11-24 | 2015-11-24 | 一种基于用户账号的子用户识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105373614A true CN105373614A (zh) | 2016-03-02 |
CN105373614B CN105373614B (zh) | 2018-09-28 |
Family
ID=55375812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510824207.5A Active CN105373614B (zh) | 2015-11-24 | 2015-11-24 | 一种基于用户账号的子用户识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105373614B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446969A (zh) * | 2016-12-01 | 2017-02-22 | 北京小米移动软件有限公司 | 用户识别的方法及装置 |
CN106960143A (zh) * | 2017-03-23 | 2017-07-18 | 网易(杭州)网络有限公司 | 用户账号的识别方法及装置、存储介质、电子设备 |
CN107615268A (zh) * | 2015-03-10 | 2018-01-19 | 非对称实验室公司 | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 |
CN110020162A (zh) * | 2017-12-14 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用户识别方法和装置 |
CN110555451A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN110795570A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 一种用户时序行为特征提取方法及装置 |
CN110807487A (zh) * | 2019-10-31 | 2020-02-18 | 北京邮电大学 | 一种基于域名系统流量记录数据识别用户的方法及装置 |
WO2021093472A1 (zh) * | 2019-11-15 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 数据处理方法、电子设备及可读存储介质 |
CN113297840A (zh) * | 2021-04-28 | 2021-08-24 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113553426A (zh) * | 2021-03-11 | 2021-10-26 | 上海淘景立画信息技术有限公司 | 共享账户的子用户进行画像的方法、系统、终端及介质 |
CN113569063A (zh) * | 2021-07-28 | 2021-10-29 | 深圳Tcl新技术有限公司 | 用户分析方法、系统及存储介质和终端设备 |
CN115473732A (zh) * | 2022-09-09 | 2022-12-13 | 北京芯盾时代科技有限公司 | 一种Web应用账号的共享方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143580A1 (en) * | 2003-01-16 | 2004-07-22 | Chi Ed H. | Apparatus and methods for accessing a collection of content portions |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN104615658A (zh) * | 2014-12-31 | 2015-05-13 | 中国科学院深圳先进技术研究院 | 一种确定用户身份的方法 |
CN106528777A (zh) * | 2016-10-27 | 2017-03-22 | 北京百分点信息科技有限公司 | 跨屏用户标识归一的方法及其系统 |
-
2015
- 2015-11-24 CN CN201510824207.5A patent/CN105373614B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143580A1 (en) * | 2003-01-16 | 2004-07-22 | Chi Ed H. | Apparatus and methods for accessing a collection of content portions |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN104615658A (zh) * | 2014-12-31 | 2015-05-13 | 中国科学院深圳先进技术研究院 | 一种确定用户身份的方法 |
CN106528777A (zh) * | 2016-10-27 | 2017-03-22 | 北京百分点信息科技有限公司 | 跨屏用户标识归一的方法及其系统 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107615268A (zh) * | 2015-03-10 | 2018-01-19 | 非对称实验室公司 | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 |
CN107615268B (zh) * | 2015-03-10 | 2021-08-24 | 非对称实验室公司 | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 |
CN106446969A (zh) * | 2016-12-01 | 2017-02-22 | 北京小米移动软件有限公司 | 用户识别的方法及装置 |
CN106446969B (zh) * | 2016-12-01 | 2020-06-19 | 北京小米移动软件有限公司 | 用户识别的方法及装置 |
CN106960143A (zh) * | 2017-03-23 | 2017-07-18 | 网易(杭州)网络有限公司 | 用户账号的识别方法及装置、存储介质、电子设备 |
CN106960143B (zh) * | 2017-03-23 | 2020-03-17 | 网易(杭州)网络有限公司 | 用户账号的识别方法及装置、存储介质、电子设备 |
CN110020162A (zh) * | 2017-12-14 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用户识别方法和装置 |
CN110020162B (zh) * | 2017-12-14 | 2021-09-03 | 北京京东尚科信息技术有限公司 | 用户识别方法和装置 |
CN110555451A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN110795570A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 一种用户时序行为特征提取方法及装置 |
CN110807487A (zh) * | 2019-10-31 | 2020-02-18 | 北京邮电大学 | 一种基于域名系统流量记录数据识别用户的方法及装置 |
CN110807487B (zh) * | 2019-10-31 | 2023-01-17 | 北京邮电大学 | 一种基于域名系统流量记录数据识别用户的方法及装置 |
WO2021093472A1 (zh) * | 2019-11-15 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 数据处理方法、电子设备及可读存储介质 |
CN113553426A (zh) * | 2021-03-11 | 2021-10-26 | 上海淘景立画信息技术有限公司 | 共享账户的子用户进行画像的方法、系统、终端及介质 |
CN113297840A (zh) * | 2021-04-28 | 2021-08-24 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
WO2022228371A1 (zh) * | 2021-04-28 | 2022-11-03 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113297840B (zh) * | 2021-04-28 | 2024-05-24 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113569063A (zh) * | 2021-07-28 | 2021-10-29 | 深圳Tcl新技术有限公司 | 用户分析方法、系统及存储介质和终端设备 |
WO2023005445A1 (zh) * | 2021-07-28 | 2023-02-02 | 深圳Tcl新技术有限公司 | 用户分析方法、系统及存储介质和终端设备 |
CN115473732A (zh) * | 2022-09-09 | 2022-12-13 | 北京芯盾时代科技有限公司 | 一种Web应用账号的共享方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105373614B (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105373614A (zh) | 一种基于用户账号的子用户识别方法及系统 | |
Bonneau | The science of guessing: analyzing an anonymized corpus of 70 million passwords | |
Wang et al. | MMRate: Inferring multi-aspect diffusion networks with multi-pattern cascades | |
Pasupathy | Generating homogeneous Poisson processes | |
US9537814B2 (en) | Spam detection and prevention in a social networking system | |
Wu et al. | Covering the sensitive subjects to protect personal privacy in personalized recommendation | |
O'Donovan et al. | Characterizing user behavior and information propagation on a social multimedia network | |
Anwar et al. | A social graph based text mining framework for chat log investigation | |
Ciampa | A comparison of password feedback mechanisms and their impact on password entropy | |
Liu et al. | A Large-Scale Study of Web Password Habits of Chinese Network Users. | |
Voyiatzis et al. | An empirical study on the web password strength in Greece | |
Sultana et al. | Mining social behavioral biometrics in Twitter | |
CN103095663B (zh) | 一种非登录用户间的信息交互方法和装置 | |
TK et al. | Identifying sensitive data items within hadoop | |
CN108268762B (zh) | 基于行为建模的移动社交网络用户身份识伪方法 | |
Puglisi et al. | On web user tracking of browsing patterns for personalised advertising | |
Iacus | Big data or big fail? the good, the bad and the ugly and the missing role of statistics | |
Punkamol et al. | Detection of account cloning in online social networks | |
Li et al. | CGMF: coupled group-based matrix factorization for recommender system | |
CN111553743A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
de la Torre-Abaitua et al. | A compression based framework for the detection of anomalies in heterogeneous data sources | |
Yan et al. | Research on the human dynamics in mobile communities based on social identity | |
Chen et al. | Interval and Point Estimators for the Location Parameter of the Three‐Parameter Lognormal Distribution | |
Wang et al. | Design and implementation of targeting advertising system based on C4. 5 algorithm | |
Wang et al. | Detecting abnormal social network accounts with hurst of interest distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |