CN108200101A - 一种计算机系统及其用户的身份识别方法和装置 - Google Patents

一种计算机系统及其用户的身份识别方法和装置 Download PDF

Info

Publication number
CN108200101A
CN108200101A CN201810206073.4A CN201810206073A CN108200101A CN 108200101 A CN108200101 A CN 108200101A CN 201810206073 A CN201810206073 A CN 201810206073A CN 108200101 A CN108200101 A CN 108200101A
Authority
CN
China
Prior art keywords
user
similarity
users
module
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810206073.4A
Other languages
English (en)
Inventor
卫娟
戚新波
于琨
刘丹
王崇科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Institute of Technology
Original Assignee
Henan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Institute of Technology filed Critical Henan Institute of Technology
Priority to CN201810206073.4A priority Critical patent/CN108200101A/zh
Publication of CN108200101A publication Critical patent/CN108200101A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了计算机技术领域的一种计算机系统及其用户的身份识别方法和装置,S1:采集用户在某个时间点对计算机系统中的某个URL请求的详细信息;S2:对采集的数据中涉及的大量用户进行相似用户集挑选,缩小相似用户的范围;S3:基于个性网站的相似用户集裁剪;S4:基于时间特征的相似用户集裁剪;S5:相同用户身份的识别,本发明通过用户的网络访问日志来识别用户的入网身份,其识别效率高,准确度高,能够满足计算机网络的用户身份的识别,避免用户信息外泄造成财产以及信息损失。

Description

一种计算机系统及其用户的身份识别方法和装置
技术领域
本发明公开了一种计算机系统及其用户的身份识别方法和装置,具体为计算机技术领域。
背景技术
随着计算机技术的不断发展,信息安全已经成为计算机用户普遍关注的焦点,许多计算机厂商在计算机启动之后,操作系统启动之前,如在基本输入输出系统,或统一可扩展固件接口层设置一套高安全机制的身份识别方法,以对计算机用户的身份进行识别,或对计算机操作访问权限进行控制。现有的技术提供了一种通过口令识别方法对计算机用户进行身份识别,在计算机启动并完成自检以及读取操作系统启动文件后,输出密码输入界面,以使用户输入开机密码,并对用户输入的开机密码记性验证,在验证成功后,启动操作系统,在验证不成功时,终止计算机启动流程,从而保证计算机系统的安全。但是口令身份识别方法需要用户记住预设的开机密码,过长的开机密码不便于用户的记忆,过短的开机密码容易被破解,难以满足计算机安全系统的使用要求。为此,我们提出了一种计算机系统及其用户的身份识别方法和装置投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种计算机系统及其用户的身份识别方法和装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种计算机系统及其用户的身份识别方法,该方法的具体步骤如下:
S1:采集用户在某个时间点对计算机系统中的某个URL请求的详细信息;
S2:对采集的数据中涉及的大量用户进行相似用户集挑选,缩小相似用户的范围;
S3:基于用户经常访问的网站个数比例进行相似度计算,而在用户经常访问的网站中,有些网站是其他用户经常访问的门户网站,而有些网站只有某几个用户访问的个性化网站,通过这种个性化网站代表用户的网络访问行为特征,并对基于个性化网站的相似度用户集进行剪裁计算;
S4:在每一个用户的整体上网时间方面,用一个24维的向量h=(h1,h2,…,h24)表示用户的上网时间特征,其中hi表示第(i-1)h到第ih该用户的网络访问天数,若在第(i-1)h到第ih内至少有20min有URL请求的发送,则给hi累加1,以上网时间相似度0.69为标准,采用余弦相似度的计算方法,将新用户v的相似度用户集SimiUsers(v)中所有和新用户v的上网时间相似度≤0.69的用户全部过滤;
S5:若|SimiUsers(v)|=0,则判断用户v为新入网用户,若|SimiUsers(v)|=1,则直接将该用户作为与用户v具有相同身份的用户而返回,若|SimiUsers(v)|>1,则需要进一步从用户集中挑选与用户v最相似的用户作为相同身份的用户。
优选的,所述步骤S1中,在具体的对用户访问请求的信息进行数据采集时,首先从庞大的原始数据中提取URL以及访问时间,随后将提取后的日志文件进行压缩。
优选的,所述步骤S2中,采用下式作为两用户相似度的衡量标准,即式中,D(v)和D(ui)分别代表新入网用户v和已知用户库U中的用户ui在一定时间内经常访问的网站集合,将用户经常访问的网站定义为网站访问天数占上网天数80%以上的网站,当simiOne(v,ui)的阈值大于0.6时,便将ui加入SimiUsers(v)这一与用户v相似的用户集中。
优选的,所述步骤S3中,通过个性化网站的权重计算两个用户的相似度,即:d∈D(v)∩D(ui),其中V(d)为访问过域名d的用户总数,由于访问用户越少的网站,个性化的程度越高,其权重也就越大,将网站的权重公式定义为所有访问用户数的倒数,可得到用户v和SimiUsers(v)中每个用户的新的相似度,根据这一相似度的计算结果倒序排序,并取5%比例的用户作为剪裁后的SimiUsers(v)用户集。
优选的,一种计算机系统及其用户的身份识别装置,包括数据采集模块、数据预处理模块、相似用户集挑选模块、个性化网站用户剪裁模块、时间特征用户集剪裁模块以及识别模块;
所述数据采集模块用于采集用户在网络系统中URL请求的详细信息,并上传至所述数据预处理模块中;
所述数据预处理模块用于对采集的用户数据进行压缩,压缩后的数据导入所述相似用户集挑选模块中;
所述相似用户集挑选模块采用杰卡德相似性度量的方式缩小相似用户的范围;
所述个性化网站用户剪裁模块用于对相似度用户集挑选后的用户集基于个性化网站权重计算两个用户的相似度;
所述时间特征用户集剪裁模块用于将新用户的相似度用户集中所有和用户上网时间相似度小于等于一个基准值的用户进行过滤;
所述识别模块用于新入网用户以及从用户集中挑选与原始用户最相似的用户作为相同身份的用户。
与现有技术相比,本发明的有益效果是:本发明通过用户的网络访问日志来识别用户的入网身份,其识别效率高,准确度高,能够满足计算机网络的用户身份的识别,避免用户信息外泄造成财产以及信息损失。
附图说明
图1为本发明工作流程图;
图2为本发明系统原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种计算机系统及其用户的身份识别方法,该方法的具体步骤如下:
S1:采集用户在某个时间点对计算机系统中的某个URL请求的详细信息,在具体的对用户访问请求的信息进行数据采集时,首先从庞大的原始数据中提取URL以及访问时间,随后将提取后的日志文件进行压缩;
S2:对采集的数据中涉及的大量用户进行相似用户集挑选,缩小相似用户的范围,采用下式作为两用户相似度的衡量标准,即式中,D(v)和D(ui)分别代表新入网用户v和已知用户库U中的用户ui在一定时间内经常访问的网站集合,将用户经常访问的网站定义为网站访问天数占上网天数80%以上的网站,当simiOne(v,ui)的阈值大于0.6时,便将ui加入SimiUsers(v)这一与用户v相似的用户集中;
S3:基于用户经常访问的网站个数比例进行相似度计算,而在用户经常访问的网站中,有些网站是其他用户经常访问的门户网站,而有些网站只有某几个用户访问的个性化网站,通过这种个性化网站代表用户的网络访问行为特征,并对基于个性化网站的相似度用户集进行剪裁计算,通过个性化网站的权重计算两个用户的相似度,即:d∈D(v)∩D(ui),其中V(d)为访问过域名d的用户总数,由于访问用户越少的网站,个性化的程度越高,其权重也就越大,将网站的权重公式定义为所有访问用户数的倒数,可得到用户v和SimiUsers(v)中每个用户的新的相似度,根据这一相似度的计算结果倒序排序,并取5%比例的用户作为剪裁后的SimiUsers(v)用户集;
S4:在每一个用户的整体上网时间方面,用一个24维的向量h=(h1,h2,…,h24)表示用户的上网时间特征,其中hi表示第(i-1)h到第ih该用户的网络访问天数,若在第(i-1)h到第ih内至少有20min有URL请求的发送,则给hi累加1,以上网时间相似度0.69为标准,采用余弦相似度的计算方法,将新用户v的相似度用户集SimiUsers(v)中所有和新用户v的上网时间相似度≤0.69的用户全部过滤;
S5:若|SimiUsers(v)|=0,则判断用户v为新入网用户,若|SimiUsers(v)|=1,则直接将该用户作为与用户v具有相同身份的用户而返回,若|SimiUsers(v)|>1,则需要进一步从用户集中挑选与用户v最相似的用户作为相同身份的用户。
本发明还提出了一种计算机系统及其用户的身份识别装置,包括数据采集模块、数据预处理模块、相似用户集挑选模块、个性化网站用户剪裁模块、时间特征用户集剪裁模块以及识别模块;
所述数据采集模块用于采集用户在网络系统中URL请求的详细信息,并上传至所述数据预处理模块中;
所述数据预处理模块用于对采集的用户数据进行压缩,压缩后的数据导入所述相似用户集挑选模块中;
所述相似用户集挑选模块采用杰卡德相似性度量的方式缩小相似用户的范围;
所述个性化网站用户剪裁模块用于对相似度用户集挑选后的用户集基于个性化网站权重计算两个用户的相似度;
所述时间特征用户集剪裁模块用于将新用户的相似度用户集中所有和用户上网时间相似度小于等于一个基准值的用户进行过滤;
所述识别模块用于新入网用户以及从用户集中挑选与原始用户最相似的用户作为相同身份的用户。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种计算机系统及其用户的身份识别方法,其特征在于:该方法的具体步骤如下:
S1:采集用户在某个时间点对计算机系统中的某个URL请求的详细信息;
S2:对采集的数据中涉及的大量用户进行相似用户集挑选,缩小相似用户的范围;
S3:基于用户经常访问的网站个数比例进行相似度计算,而在用户经常访问的网站中,有些网站是其他用户经常访问的门户网站,而有些网站只有某几个用户访问的个性化网站,通过这种个性化网站代表用户的网络访问行为特征,并对基于个性化网站的相似度用户集进行剪裁计算;
S4:在每一个用户的整体上网时间方面,用一个24维的向量h=(h1,h2,…,h24)表示用户的上网时间特征,其中hi表示第(i-1)h到第ih该用户的网络访问天数,若在第(i-1)h到第ih内至少有20min有URL请求的发送,则给hi累加1,以上网时间相似度0.69为标准,采用余弦相似度的计算方法,将新用户v的相似度用户集SimiUsers(v)中所有和新用户v的上网时间相似度≤0.69的用户全部过滤;
S5:若|SimiUsers(v)|=0,则判断用户v为新入网用户,若|SimiUsers(v)|=1,则直接将该用户作为与用户v具有相同身份的用户而返回,若|SimiUsers(v)|>1,则需要进一步从用户集中挑选与用户v最相似的用户作为相同身份的用户。
2.根据权利要求1所述的一种计算机系统及其用户的身份识别方法,其特征在于:所述步骤S1中,在具体的对用户访问请求的信息进行数据采集时,首先从庞大的原始数据中提取URL以及访问时间,随后将提取后的日志文件进行压缩。
3.根据权利要求1所述的一种计算机系统及其用户的身份识别方法,其特征在于:所述步骤S2中,采用下式作为两用户相似度的衡量标准,即式中,D(v)和D(ui)分别代表新入网用户v和已知用户库U中的用户ui在一定时间内经常访问的网站集合,将用户经常访问的网站定义为网站访问天数占上网天数80%以上的网站,当simiOne(v,ui)的阈值大于0.6时,便将ui加入SimiUsers(v)这一与用户v相似的用户集中。
4.根据权利要求1所述的一种计算机系统及其用户的身份识别方法,其特征在于:所述步骤S3中,通过个性化网站的权重计算两个用户的相似度,即:d∈D(v)∩D(ui),其中V(d)为访问过域名d的用户总数,由于访问用户越少的网站,个性化的程度越高,其权重也就越大,将网站的权重公式定义为所有访问用户数的倒数,可得到用户v和SimiUsers(v)中每个用户的新的相似度,根据这一相似度的计算结果倒序排序,并取5%比例的用户作为剪裁后的SimiUsers(v)用户集。
5.一种计算机系统及其用户的身份识别装置,其特征在于:包括数据采集模块、数据预处理模块、相似用户集挑选模块、个性化网站用户剪裁模块、时间特征用户集剪裁模块以及识别模块;
所述数据采集模块用于采集用户在网络系统中URL请求的详细信息,并上传至所述数据预处理模块中;
所述数据预处理模块用于对采集的用户数据进行压缩,压缩后的数据导入所述相似用户集挑选模块中;
所述相似用户集挑选模块采用杰卡德相似性度量的方式缩小相似用户的范围;
所述个性化网站用户剪裁模块用于对相似度用户集挑选后的用户集基于个性化网站权重计算两个用户的相似度;
所述时间特征用户集剪裁模块用于将新用户的相似度用户集中所有和用户上网时间相似度小于等于一个基准值的用户进行过滤;
所述识别模块用于新入网用户以及从用户集中挑选与原始用户最相似的用户作为相同身份的用户。
CN201810206073.4A 2018-03-13 2018-03-13 一种计算机系统及其用户的身份识别方法和装置 Pending CN108200101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810206073.4A CN108200101A (zh) 2018-03-13 2018-03-13 一种计算机系统及其用户的身份识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810206073.4A CN108200101A (zh) 2018-03-13 2018-03-13 一种计算机系统及其用户的身份识别方法和装置

Publications (1)

Publication Number Publication Date
CN108200101A true CN108200101A (zh) 2018-06-22

Family

ID=62595636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810206073.4A Pending CN108200101A (zh) 2018-03-13 2018-03-13 一种计算机系统及其用户的身份识别方法和装置

Country Status (1)

Country Link
CN (1) CN108200101A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583472A (zh) * 2018-10-30 2019-04-05 中国科学院计算技术研究所 一种web日志用户识别方法和系统
CN113158163A (zh) * 2021-05-13 2021-07-23 内蒙古工业大学 一种计算机系统及其用户的身份识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166917A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 网络设备身份识别方法及系统
US20130298151A1 (en) * 2012-05-07 2013-11-07 Google Inc. Detection of unauthorized content in live multiuser composite streams
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166917A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 网络设备身份识别方法及系统
US20130298151A1 (en) * 2012-05-07 2013-11-07 Google Inc. Detection of unauthorized content in live multiuser composite streams
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王征: "基于网络访问项序的移动用户重入网身份识别方法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583472A (zh) * 2018-10-30 2019-04-05 中国科学院计算技术研究所 一种web日志用户识别方法和系统
CN113158163A (zh) * 2021-05-13 2021-07-23 内蒙古工业大学 一种计算机系统及其用户的身份识别方法及系统

Similar Documents

Publication Publication Date Title
US10366211B2 (en) Method, device and apparatus for recognizing picture
CN103885987B (zh) 一种音乐推荐方法和系统
KR100928042B1 (ko) 메타데이터 태그를 이용한 맞춤형 컨텐츠 제공 방법 및 그장치
KR20150036117A (ko) 쿼리 확장
CN108304422B (zh) 一种媒体搜索词推送方法和装置
CN110046293B (zh) 一种用户身份关联方法及装置
WO2017084205A1 (zh) 一种网络用户身份认证方法及系统
TWI679586B (zh) 筆跡資料處理方法和裝置
CN108200101A (zh) 一种计算机系统及其用户的身份识别方法和装置
CN106779946A (zh) 一种电影推荐方法及装置
CN108647312A (zh) 一种用户偏好分析方法及其装置
US20220100839A1 (en) Open data biometric identity validation
CN105825044A (zh) 基于网页浏览的医疗大数据分析及处理系统及方法
CN106230835A (zh) 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN103020208A (zh) 一种与移动终端相适应的搜索方法及装置
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
CN104484449A (zh) 网页页面的正文提取方法和装置
CN104933099B (zh) 一种为用户提供目标搜索结果的方法与装置
CN106776958A (zh) 基于关键路径的违法网站识别系统及其方法
CN110008352B (zh) 实体发现方法及装置
CN103309900A (zh) 一种个性化多维度的文档排序方法和系统
CN103514237B (zh) 一种获取用户和文档个性化特征的方法和系统
EP1574929A1 (en) Technique for evaluating computer system passwords

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180622

RJ01 Rejection of invention patent application after publication