CN116150541B - 后台系统的识别方法、装置、设备及存储介质 - Google Patents
后台系统的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116150541B CN116150541B CN202310418817.XA CN202310418817A CN116150541B CN 116150541 B CN116150541 B CN 116150541B CN 202310418817 A CN202310418817 A CN 202310418817A CN 116150541 B CN116150541 B CN 116150541B
- Authority
- CN
- China
- Prior art keywords
- information
- website
- target
- background system
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000009471 action Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 208000001613 Gambling Diseases 0.000 description 52
- 230000006399 behavior Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 238000004088 simulation Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 1
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/34—Betting or bookmaking, e.g. Internet betting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种后台系统的识别方法、装置、设备及存储介质,涉及网络安全技术领域,方法包括:获取用户的第一信息;第一信息包括以下至少一项:用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;将第一信息输入至预先设置的画像生成模型,得到画像生成模型输出的用户的第一画像;画像生成模型用于基于第一信息生成第一画像;在第一画像表征代理商的情况下,基于第一画像,对目标网站内的链接进行遍历,识别是否存在目标网站的后台系统。本发明实施例通过表征代理商的第一画像,识别出的目标网站的后台系统,通常存储了大量用户信息和交易信息,可以有效收集目标网站的关键信息。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种后台系统的识别方法、装置、设备及存储介质。
背景技术
近年来,随着信息社会的快速发展,在极大改善人们生活方式的同时,在客观上导致了电信网络案件的高发,当前,电信网络案件已成为发案最多、上升最快、涉及面最广、反映最强烈的突出案件类型,同时,电信网络案件呈现“产业化分布、集团化运作、精细化分工、跨境式布局”的特点,是网络治理和社会治理面临的一大问题。且随着治理工作的深入,电信网络案件已由电信网向互联网领域快速转移,且以互联网为载体的电信网络案件日益多样化。其中,尤以网络赌博更为突出,网络赌博是以网络空间为平台建立赌博网站,通过赌博网站担任代理,进行交易等。近年来由于网络赌博涉及资金巨大,参赌人员众多,严重影响经济发展和社会生活,且造成资金大量外流而引起相关部门的重点关注。
目前,网络赌博具有隐蔽性强、形式多样的特点,赌博网站前端容易更换马甲,通过赌博网站前端获取到的有效信息少,难以收集到赌博网站的关键信息。
发明内容
本发明提供一种后台系统的识别方法、装置、设备及存储介质,用以解决现有技术中通过网站前端难以收集到网站的关键信息的问题。
本发明提供一种后台系统的识别方法,包括:
获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
根据本发明提供的一种后台系统的识别方法,在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统之后,所述方法还包括:
在识别到所述后台系统的情况下,通过所述后台系统进行反向页面迭代操作,所述反向页面迭代操作用于识别其他目标网站。
根据本发明提供的一种后台系统的识别方法,所述在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统,包括:
在所述第一画像表征所述代理商的情况下,执行以下步骤:
S1、获取所述第一画像的关键路径上对应的至少一个第二信息;其中,所述第二信息包括关键词和/或href标签;
S2、从所述目标网站的首页中,查找是否存在与所述第二信息匹配的第三信息,若存在,则进入S3;若不存在,则进入S6;
S3、选择至少一个第三信息作为第一目标信息,进入所述第一目标信息对应的链接的目标页面;
S4、从所述目标页面中,识别是否存在所述后台系统,若不存在,则进入S5;
S5、从所述目标页面中,查找是否存在与所述第二信息匹配的第四信息,若存在,则将所述第四信息作为所述第三信息,返回执行S3;若不存在,则返回所述目标页面的上一级页面,选择所述目标页面的上一级页面中的第二目标信息,进入所述第二目标信息对应的链接的页面,作为所述目标页面,返回执行S4;其中,所述第二目标信息为所述第三信息中除所述第一目标信息外的信息;
S6、结束操作。
根据本发明提供的一种后台系统的识别方法,在所述获取用户的第一信息之前,所述方法还包括:
将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值;其中,所述评分模型包括以下至少一项:关键词识别模型、规则识别模型以及网站源码指纹识别模型,所述评分模型用于基于所述第五信息计算所述评分值;
在所述评分值大于预先设置的第一阈值的情况下,确定所述待识别网站为所述目标网站。
根据本发明提供的一种后台系统的识别方法,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述关键词识别模型的情况下,将所述待识别网站的网站文本作为所述第五信息;
将所述第五信息输入至所述关键词识别模型,得到所述关键词识别模型输出的第一评分值,作为所述评分值;
其中,所述关键词识别模型用于在所述第五信息中存在与预先设置的第一关键词匹配的目标关键词的情况下,基于所述目标关键词对应的权重,计算所述第一评分值。
根据本发明提供的一种后台系统的识别方法,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述规则识别模型的情况下,将所述待识别网站的主体结构对应的内容规则,作为所述第五信息;其中,所述主体结构包括以下至少一项:标题Title、头部Header和正文Body;
将所述第五信息输入至所述规则识别模型,得到所述规则识别模型输出的第二评分值,作为所述评分值;
其中,所述规则识别模型用于在所述第五信息中存在与预先设置的第一规则匹配的目标规则的情况下,基于所述目标规则对应的权重,计算所述第二评分值。
根据本发明提供的一种后台系统的识别方法,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述网站源码指纹识别模型的情况下,基于所述待识别网站的网站源码和超文本标记语言HTML元素,生成所述待识别网站的源码指纹,作为所述第五信息;其中,所述源码指纹包括以下至少一项:Header标签内容;Body标签内容;
将所述第五信息输入至所述网站源码指纹识别模型,得到所述网站源码指纹识别模型输出的第三评分值,作为所述评分值;
其中,所述网站源码指纹识别模型用于在所述第五信息与预先设置的第一网站源码指纹的相似度大于第二阈值的情况下,基于所述第五信息对应的权重,计算所述第三评分值。
本发明还提供一种后台系统的识别装置,包括:
获取模块,用于获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
画像生成模块,用于将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
识别模块,用于在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述后台系统的识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述后台系统的识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述后台系统的识别方法。
本发明提供的后台系统的识别方法、装置、设备及存储介质,先获取用于表征用户在目标网站上操作行为的第一信息,以由画像生成模型基于第一信息生成用户的第一画像,在第一画像表征该用户为代理商的情况下,基于第一画像模拟代理商对目标网站内的链接进行遍历,以识别是否存在目标网站的后台系统。相较于目标网站的前端,本发明实施例通过表征代理商的第一画像,识别出的目标网站的后台系统,通常存储了大量用户信息和交易信息,可以有效收集目标网站的关键信息,便于后续协同相关部门,利用其他技术手段获取后台系统的用户信息和交易信息,对侦破网络相关案件具有重大意义。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的后台系统的识别方法的流程示意图;
图2是现有技术中集团组织机构的示意图;
图3是本发明提供的后台系统的识别方法对应的系统的结构示意图;
图4是本发明提供的后台系统的识别方法中加分关键词的示意图;
图5是本发明提供的后台系统的识别方法中规则识别的流程示意图;
图6是本发明提供的后台系统的识别方法中网站源码指纹识别的流程示意图;
图7是本发明提供的后台系统的识别方法中目标网站后台发现系统的结构示意图;
图8是本发明提供的后台系统的识别方法中典型的代理商画像的示意图;
图9是本发明提供的后台系统的识别方法中典型的交易访问者画像的示意图;
图10是本发明提供的后台系统的识别方法中用户等级评估结果的示意图;
图11是本发明提供的后台系统的识别方法中页面迭代的流程示意图;
图12是本发明提供的后台系统的识别装置的结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图描述本发明的后台系统的识别方法、装置、设备及存储介质。
图1是本发明提供的后台系统的识别方法的流程示意图,如图1所示,后台系统的识别方法包括步骤101至步骤103;其中:
步骤101、获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
步骤102、将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
步骤103、在所述第一画像表征所述代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
可选地,目标网站例如为赌博网站。
可选地,目标网站为赌博网站时,第一画像可以用于表征以下至少一项:游客、交易访问者和代理商。
可选地,画像生成模型可以包括隐马尔科夫模型。
相关技术中,目前发现网络赌博主要是通过群众举报和网警巡查,主要是由于参赌的受害者害怕承担责任,多数受害人员不愿意主动报案和提供线索证据。此外,可疑用户为逃避监管将赌博网站的服务器搭建在国外,并且经常变更域名,相关部门从获取线索到开始调查,很可能网站已经失效导致无法访问。而对可疑用户的处理需要充分的证据,仅有赌博网站的页面而没有网站开设者和代理人员等关键信息很难发现有价值的证据,破案难度很高。
目前,通常通过赌博网站前端获取关键信息,但是赌博网站前端容易更换马甲,通过赌博网站前端获取到的有效信息少,难以收集到赌博网站的关键信息。
针对上述技术问题,本发明发现目标网站的后台系统,例如赌博网站的后台系统,存储了大量用户信息和交易信息,因此如何发现后台系统是需要研究的重要课题。本发明实施例可以使用页面迭代和用户拟真的技术识别/发现目标网站的后台系统,协同相关部门,利用其他技术手段获取后台系统的用户信息和交易信息,对侦破网络相关案件具有重大意义。
本发明实施例中,先获取用户的第一信息,具体第一信息可以包括用户在目标网站中的点击行为序列、点击行为序列所用的关键词及点击操作所产生的数据流量中的至少一项。
在获取第一信息后,再由画像生成模型基于第一信息生成用户的第一画像,第一画像可以用于表征游客、交易访问者和代理商中的至少一项;
需要说明的是,由于进入目标网站的用户主要可分为游客、交易访问者和代理商,这几类用户在目标网站页面上的行为是不一样的,而同类用户在进行相同或类似的业务流程中,其行为序列基本一致。因此,根据用户点击行为序列、点击行为序列所用的到关键词和点击产生的数据流量(第一信息),利用隐马尔可夫模型作为画像生成模型,可以学习用户的行为,生成预设的画像。
例如,代理商的画像主要为登录和推广画像,而交易访问者主要为充值交易画像。本发明实施例还可以根据行为画像的相似度进行聚类,以精准地区分用户。
在生成第一画像后,若第一画像表征该用户为代理商,则可以基于第一画像,模拟代理商对目标网站内的链接进行遍历,具体模拟代理商在目标网站中的行为序列进行操作,以识别是否存在目标网站的后台系统。这主要是因为不论代理商处于哪一代理商等级,例如处于一级、二级、三级等,这些代理商在目标网站上一般都有登录后台系统的入口,因此,本发明实施例以代理商为突破点,在第一画像表征该用户为代理商的情况下,通过模拟代理商的行为序列,在目标网站上识别目标网站的后台系统。
在本发明实施例提供的后台系统的识别方法中,先获取用于表征用户在目标网站上操作行为的第一信息,以由画像生成模型基于第一信息生成用户的第一画像,在第一画像表征该用户为代理商的情况下,基于第一画像模拟代理商对目标网站内的链接进行遍历,以识别是否存在目标网站的后台系统。相较于目标网站的前端,本发明实施例通过表征代理商的第一画像,识别出的目标网站的后台系统,通常存储了大量用户信息和交易信息,可以有效收集目标网站的关键信息,便于后续协同相关部门,利用其他技术手段获取后台系统的用户信息和交易信息,对侦破网络相关案件具有重大意义。
可选地,在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统之后,可以在识别到所述后台系统的情况下,通过所述后台系统进行反向页面迭代操作,所述反向页面迭代操作用于识别其他目标网站。
具体地,本发明实施例可以以代理商作为突破点,在通过代理商用户识别到目标网站的后台系统后,通过对后台系统执行反向页面迭代操作,识别其他目标网站及其对应网页,根据上下线关系可以顺藤摸瓜找到更多的目标网站、代理商甚至境外的庄家。
可选地,所述在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统的实现方式可以包括:
在所述第一画像表征所述代理商的情况下,执行以下步骤:
S1、获取所述第一画像的关键路径上对应的至少一个第二信息;其中,所述第二信息包括关键词和/或href标签;
S2、从所述目标网站的首页中,查找是否存在与所述第二信息匹配的第三信息,若存在,则进入S3;若不存在,则进入S6;
S3、选择至少一个第三信息作为第一目标信息,进入所述第一目标信息对应的链接的目标页面;
S4、从所述目标页面中,识别是否存在所述后台系统,若不存在,则进入S5;
S5、从所述目标页面中,查找是否存在与所述第二信息匹配的第四信息,若存在,则将所述第四信息作为所述第三信息,返回执行S3;若不存在,则返回所述目标页面的上一级页面,选择所述目标页面的上一级页面中的第二目标信息,进入所述第二目标信息对应的链接的页面,作为所述目标页面,返回执行S4;其中,所述第二目标信息为所述第三信息中除所述第一目标信息外的信息;
S6、结束操作。
具体地,在第一画像表征用户为代理商的情况下,获取第一画像的关键路径上对应的至少一个第二信息,第二信息具体包括关键词和/或href(Hypertext Reference)标签;其中,href为一种HTML语法,用于指定超链接目标的统一资源定位器(UniformResource Locator,URL)。
在获取第二信息后,开始对目标网站内的链接进行遍历,遍历过程使用了页面迭代技术。
具体先通过引流网站、广告或真实的目标网站地址进入目标网站的首页,从目标网站的首页中,查找是否存在与第二信息匹配的第三信息,若存在,则选择至少一个第三信息作为第一目标信息,进入第一目标信息对应的链接的目标页面;若不存在,则可以执行结束操作,以结束遍历过程。
在进入到目标页面后,可以从目标页面中识别是否存在后台系统,若不存在,可以进一步判断该目标页面是否还有下一级页面,具体从目标页面中,查找是否存在与第二信息匹配的第四信息,若存在,则将第四信息作为第三信息,选择至少一个第三信息作为第一目标信息,进入第一目标信息对应的链接的目标页面,这里提到的目标页面,实际是上面提到的目标页面的下一级页面;若不存在,则需要返回当前页面的上一级页面,重新选择上一级页面中的其他第三信息进行访问操作,具体返回目标页面的上一级页面,选择目标页面的上一级页面中的第二目标信息,这里的第二目标信息指的是第三信息中除第一目标信息外的信息,也就是还未遍历到的其他信息,再进入第二目标信息对应的链接的页面,作为目标页面,以此类推,可以对目标网站的页面中的链接进行遍历,以识别存在的一个或多个后台信息。
举例来说,根据用户的第一画像先进行访问,在目标网站上先查找第一画像的关键路径上的可能出现关键词和href标签,若出现一个或者多个关键词,则随机点击其中一个关键词对应的按键,跳转到新的页面,继续查找关键路径中的下一个关键词。若在新的页面没有出现关键路径上的相关内容或者跳链,则需回溯到上一层页面,继续搜寻上一个关键路径的其他可选关键词和跳链,重复上述操作直至识别到后台系统或者迭代完成用户第一画像。
可选地,在所述获取用户的第一信息之前,可以先识别待识别网站是否为目标网站。
将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值;其中,所述评分模型包括以下至少一项:关键词识别模型、规则识别模型以及网站源码指纹识别模型,所述评分模型用于基于所述第五信息计算所述评分值;
在所述评分值大于预先设置的第一阈值的情况下,确定所述待识别网站为所述目标网站。
具体地,在经多个渠道获取到网站的URL后,还需要识别该待识别网站是否确实为目标网站。为提高识别的准确度,本发明可以使用关键词识别模型、规则识别模型以及网站源码指纹识别模型等多个维度形成评分系统。
该评分系统根据网站内容的实际情况,可以使用单个模型评分,也可以使用多个模型进行组合评分,得到用于表征待识别网站涉赌程度的评分值,若评分值大于第一阈值,则可以认为待识别网站为目标网站。
可选地,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值的实现方式可以包括:
在所述评分模型包括所述关键词识别模型的情况下,将所述待识别网站的网站文本作为所述第五信息;
将所述第五信息输入至所述关键词识别模型,得到所述关键词识别模型输出的第一评分值,作为所述评分值;
其中,所述关键词识别模型用于在所述第五信息中存在与预先设置的第一关键词匹配的目标关键词的情况下,基于所述目标关键词对应的权重,计算所述第一评分值。
具体地,在评分模型包括关键词识别模型的情况下,可以通过数据探取和OCR(optical character recognition)识别等方法获取到待识别网站的网站文本,作为第五信息,以通过关键词识别模型,在第五信息中存在与预先设置的第一关键词匹配的目标关键词的情况下,基于目标关键词对应的权重,计算第一评分值。
需要说明的是,第一关键词可以为技术人员预先设置的关键词,用于识别待识别网站的网站文本中是否存在与第一关键词相匹配的目标关键词,进而根据匹配情况对待识别网站进行评分。
可选地,可以使用字符串匹配和正则表达式匹配等方法,确定第五信息中是否存在与预先设置的第一关键词相匹配的目标关键词。
可选地,上述权重可以根据关键词的频率和敏感度等进行设置。
可选地,为减少对待识别网站的误判,上述权重可以为正数或负数,正数则对应加分,负数则对应减分;
举例来说,正数权重对应关键词类别有:赌博公司名、赌博类型、赌博名称、赌博交易等;负数权重对应关键词类别有:色情类、小说类、动漫类等,主要是色情类,因为色情网站通常有大量的赌博广告。
需要说明的是,关键词会通过相关特征的变化而不断地提取,权重的设置需要在开发中不断调试和优化,类似机器学习的调参。
可选地,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述规则识别模型的情况下,将所述待识别网站的主体结构对应的内容规则,作为所述第五信息;其中,所述主体结构包括以下至少一项:标题(Title)、头部(Header)和正文(Body);
将所述第五信息输入至所述规则识别模型,得到所述规则识别模型输出的第二评分值,作为所述评分值;
其中,所述规则识别模型用于在所述第五信息中存在与预先设置的第一规则匹配的目标规则的情况下,基于所述目标规则对应的权重,计算所述第二评分值。
需要说明的是,第一规则可以为技术人员预先设置的规则,用于识别待识别网站的主体结构对应的内容规则中是否存在与第一规则相匹配的目标规则,进而根据匹配情况对待识别网站进行评分。
具体地,随着第五代超文本标记语言(HTML5)技术的发展,目标网站大量使用一键打包的方式,一次生成多个类似的网站。可以从待识别网站的主体结构Titile、Header和Body中,分别提取不同的内容规则,根据命中的内容规则进行汇总评分。
可选地,不同的内容规则可以对应于相同或不同的权重。
可选地,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述网站源码指纹识别模型的情况下,基于所述待识别网站的网站源码和超文本标记语言(Hyper Text Markup Language,HTML)元素,生成所述待识别网站的源码指纹,作为所述第五信息;其中,所述源码指纹包括以下至少一项:Header标签内容;Body标签内容;
将所述第五信息输入至所述网站源码指纹识别模型,得到所述网站源码指纹识别模型输出的第三评分值,作为所述评分值;
其中,所述网站源码指纹识别模型用于在所述第五信息与预先设置的第一网站源码指纹的相似度大于第二阈值的情况下,基于所述第五信息对应的权重,计算所述第三评分值。
需要说明的是,第一网站源码指纹可以为技术人员预先设置的网站源码指纹,用于计算基于待识别网站的网站源码和超文本标记语言HTML元素生成的待识别网站的源码指纹,与第一网站源码指纹之间的相似度,并在相似度大于第二阈值的情况下,基于待识别网站的源码指纹对应的权重,对待识别网站进行评分。
具体地,在浏览器中可以通过使用F12键,查看待识别网站的网站源码和HTML元素等信息,并根据网站源码和HTML元素生成待识别网站的源码指纹,再利用网站指纹的相似度来判别是否为目标网站,但这种生成网站源码指纹的方式需要花费较多人力,效率较低,适合在开发调试时使用;为了进一步提高效率,可以使用python的爬虫库和解析库,例如使用request和lxml库等,以实现自动化生成网站源码指纹。
可选地,源码指纹是由网站元素中的Header和Body的标签内容得到的,具体可以包括Header和Body标签中的子标签、子标签的键和值以及键值对的个数、子标签组成的序列和个数等。
可选地,不同的源码指纹可以对应于相同或不同的权重。
下表1展示了本发明实施例中的第一信息至第五信息对应的具体含义,以更清晰地理解本发明实施例。
表1第一信息至第五信息对应的具体含义
下面以目标网站为赌博网站为例,说明本发明实施例提供的后台系统的识别方法。
为解决对赌博网站的取证问题,根据赌博网站一般会使用招募代理的方式进行推广,可以以代理商为突破点,获取赌博网站的后台系统。
本发明通过预设的典型用户画像,来模拟不同用户在访问网页时的行为。模拟这些行为时会反复打开不同页面,根据网页深度进行多级页面迭代与回溯,直至寻找到赌博网站的后台系统。结合运营商提供的数据,可以使用其他技术方法,获取到赌博网站的后台数据库,防止可疑用户删除关键证据。利用后台数据库的交易记录排查相关人员和资金的来源与流向,及时找到可疑用户,避免资金外流。另外,一些相关集团还设置了严密的上下线组织架构。
图2是现有技术中集团组织机构的示意图,如图2所示,相关集团在网站上开办各种形式的交易形式,或者通过代理商在境内建立“合法网站”进行交易来进行利润分成。根据相关集团的组织架构特点,如果从赌博网站中发现代理商,则可以根据上下线关系顺藤摸瓜找到更多的赌博网站、代理商甚至庄家。
本发明实施例提出的后台系统的识别方法对应的系统,主要包括四部分:相关网站的发现、相关网站的识别、相关网站后台发现、多部门信息互通联合办案。图3是本发明提供的后台系统的识别方法对应的系统的结构示意图,如图3所示。
关于相关网站的发现,渠道主要有主动检测、网警巡查发现、群众举报、运营商或安全公司监测等;
关于相关网站的识别,即在发现相关网站后,还需再次识别是否为真正的相关网站,具体可以通过关键词识别模型、规则识别模型以及网站源码指纹识别模型进行识别;
关于相关网站后台发现,可以使用后台发现子系统去获取代理商和庄家的后台数据库,具体可以通过用户行为画像、用户评估模型、用户仿真和页面迭代等实现;
关于多部门信息互通联合办案,可以将后台数据库提交给相关部门进行联合办案。
本发明的主要是使用用户行为画像、用户拟真、页面迭代等技术识别目标网站的后台系统,获取高价值的后台数据库,找到可疑用户的电子证据。
(一)关于赌博网站的识别:经多个渠道获取到网站的URL后,需要识别该网站是否为赌博网站。为提高识别的准确度,本发明使用关键词识别模型、规则识别模型以及网站源码指纹识别模型等多个维度形成评分系统。评分系统根据网站内容的实际情况可以使用单个模型评分,也可以使用多个模型进行组合评分。
1、关键词识别模型:分析大量的赌博网站后形成关键词库,根据关键词的频率和敏感度设置不同的权重,为减少误判,权重值可取正、负数,正数则加分,负数则减分。通过数据探取和OCR识别等方法获取到网站文本后,使用字符串匹配和正则表达式匹配技术,命中相应关键词后进行相应的加减分。图4是本发明提供的后台系统的识别方法中加分关键词的示意图,如图4所示,加分关键词例如分为公司名、类型和相关词汇,具体里面的每个关键词/敏感词可以设置相同或不同的权重。
2、规则识别模型:随着H5技术的发展,赌博网站大量使用一键打包的方式,一次生成多个类似的网站。网站的主体结构Titile、Header和Body中分别提取不同的内容规则,根据命中的内容进行汇总评分。图5是本发明提供的后台系统的识别方法中规则识别的流程示意图,如图5所示,对HTML主要标签列表进行匹配,具体分为对Titile内容规则匹配、Header内容规则匹配和Body内容规则匹配,以判断内容规则是否命中。
3、网站源码指纹识别模型:在浏览器中使用F12键,可以查看网站源码和HTML元素等信息,根据网站源码和HTML元素生成源码指纹,利用网站的源码指纹的相似度来判别是否为赌博网站。网站的源码指纹是由网站元素中的Header和Body的标签内容得到的,具体内容包括Header和Body标签中的子标签、子标签的键和值以及键值对的个数、子标签组成的序列和个数等。
图6是本发明提供的后台系统的识别方法中网站源码指纹识别的流程示意图,如图6所示,先获取网站源码,然后从网站源码中提取出Header、Body的标签以及子标签等信息,作为本级标签和子标签,具体可以下分为标签值和属性、标签个数和标签序列,以基于上述内容得到网站的源码指纹。
(二)关于赌博网站后台发现,主要由四部分组成:用户行为画像、用户评估模型、用户拟真、页面迭代。
图7是本发明提供的后台系统的识别方法中赌博网站后台发现系统的结构示意图,如图7所示,通过收集大量赌博网站的用户特点,建立代理商、交易访问者和游客的预设行为画像,同时收集用户对赌博网站的访问数据,基于用户的敏感程度形成用户评估模型。使用不同用户的预设行为画像来模拟用户的行为,例如模拟登录、推广等行为。在模拟用户行为的过程中,会不停的进行页面迭代,以对赌博网站内的链接进行深层遍历,页面迭代后寻找是否有后台系统,如有后台系统再反向迭代,进而发现更多的赌博网站。
1、用户行为画像;
图8是本发明提供的后台系统的识别方法中典型的代理商画像的示意图,如图8所示,依次进行代理加盟、代理登录、终端代理后台、庄家和代理后台操作。
图9是本发明提供的后台系统的识别方法中典型的交易访问者画像的示意图,如图9所示,分为两条路径,一条是:交易访问者依次进行登录、选择交易类型、充值(通过银行卡转账、第四方支付平台、跑分平台和电商平台)和交易操作;另一条是:交易访问者依次进行登录、选择交易类型和交易操作。
2、用户等级评估模型:经用户行为画像比对后,可以准确区分访问赌博网站的用户。由于涉案程度不同,可以对同类型用户设置不同的敏感程度,同时针对不同级别的用户设置不同的处置策略。等级评估模型主要从以下几个维度来评估:
2.1、游客:是否有注册登录行为,访问相关网站的时长,是否经常访问类似网站,登录的次数等,具体参考表2的游客评分标准。
表2 游客评分标准
2.2、交易访问者:交易总金额,购买筹码次数,总充值金额、参与交易的频次、参与交易的时长、单次交易的时长等,具体参考表3的交易访问者评分标准。
表3 交易访问者评分标准
2.3、代理商:抽取资金数额,涉及资金数额累计、相关网站上参与人数、代理相关网站个数、投放广告累计等,具体参考表4的代理商评分标准。
表4 代理商评分标准
经上述的评分系统后,可以计算出该用户的总分,根据总分可以划分不同的等级,针对不同等级的用户设置不同的处置方案。
图10是本发明提供的后台系统的识别方法中用户等级评估结果的示意图,如图10所示,网站访问用户类型可以先分为:游客、交易访问者和代理商。关于游客,根据敏感程度可以分为误入者、普通访问者、潜在参与者;关于交易访问者,根据敏感程度可以分为入门级、发烧级、骨灰级;关于代理商,根据敏感程度可以分为重、轻、微。
3、用户拟真:是使用程序模拟正常用户访问网站的行为,访问网站的行为一般为单击、双击、输入文本、滚动和打开新页面等操作,模拟用户访问页面的操作。根据用户的预设画像(第一画像)对代理商和交易访问者的操作序列进行模拟,对登录、推广、充值、提现等功能进行追踪。
4、页面迭代
图11是本发明提供的后台系统的识别方法中页面迭代的流程示意图,如图11所示,通过引流网站、广告或真实的赌博网站地址进入赌博网站的首页,根据用户的预设画像先进行访问,在赌博网站上先查找预设画像的关键路径上的可能出现关键词和href标签,若出现一个或者多个关键词,随机点击其中一个关键词对应的按键,跳转到新的页面,继续查找关键路径中的下一个关键词。若在新的页面没有出现关键路径上的相关内容或者跳链,则需回溯到上一级页面,继续搜寻上一个关键路径的其他可选关键词和跳链,重复上述操作直至发现后台系统或者迭代完成用户预设画像。
5、电子证据存储:为防止赌博网站失效,导致后期取证难的问题,在迭代过程中,对每个网页进行截图,保存迭代时的截图、对应的URL、网站的文本、网站指纹特征、后台系统中的数据等做为电子证据存储。
本发明实施例中,通过关键词、规则识别、网络指纹源码识别赌博网站,将赌博网站的用户生成用户的预设画像,然后使用预设画像进行用户拟真和页面迭代发现赌博网站的代理后台或后台系统,通过代理后台或后台系统进一步发现上一级的代理或庄家。将代理后台或后台系统提供给相关部门,由相关部门通过其他技术获取赌博网站的后台数据库,为案件审理提供电子证据。获取的电子证据不用担心可疑用户删除关键证据,同时防止虚报金额,利用交易记录追查资金来源和去向,避免资金外流。不断净化网络环境,全力维护社会稳定。
下面对本发明提供的后台系统的识别装置进行描述,下文描述的后台系统的识别装置与上文描述的后台系统的识别方法可相互对应参照。
图12是本发明提供的后台系统的识别装置的结构示意图,如图12所示,后台系统的识别装置1200,包括:
获取模块1201,用于获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
画像生成模块1202,用于将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
识别模块1203,用于在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
在本发明实施例提供的后台系统的识别装置中,先由获取模块获取用于表征用户在目标网站上操作行为的第一信息,以由画像生成模块通过画像生成模型基于第一信息生成用户的第一画像,再由识别模块在第一画像表征该用户为代理商的情况下,基于第一画像模拟代理商对目标网站内的链接进行遍历,以识别是否存在目标网站的后台系统。相较于目标网站的前端,本发明实施例通过表征代理商的第一画像,识别出的目标网站的后台系统,通常存储了大量用户信息和交易信息,可以有效收集目标网站的关键信息,便于后续协同相关部门,利用其他技术手段获取后台系统的用户信息和交易信息,对侦破网络相关案件具有重大意义。
可选地,后台系统的识别装置1200还包括:
处理模块,用于在识别到所述后台系统的情况下,通过所述后台系统进行反向页面迭代操作,所述反向页面迭代操作用于识别其他目标网站。
可选地,识别模块1203具体用于:
在所述第一画像表征所述代理商的情况下,执行以下步骤:
S1、获取所述第一画像的关键路径上对应的至少一个第二信息;其中,所述第二信息包括关键词和/或href标签;
S2、从所述目标网站的首页中,查找是否存在与所述第二信息匹配的第三信息,若存在,则进入S3;若不存在,则进入S6;
S3、选择至少一个第三信息作为第一目标信息,进入所述第一目标信息对应的链接的目标页面;
S4、从所述目标页面中,识别是否存在所述后台系统,若不存在,则进入S5;
S5、从所述目标页面中,查找是否存在与所述第二信息匹配的第四信息,若存在,则将所述第四信息作为所述第三信息,返回执行S3;若不存在,则返回所述目标页面的上一级页面,选择所述目标页面的上一级页面中的第二目标信息,进入所述第二目标信息对应的链接的页面,作为所述目标页面,返回执行S4;其中,所述第二目标信息为所述第三信息中除所述第一目标信息外的信息;
S6、结束操作。
可选地,处理模块还用于:
将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值;其中,所述评分模型包括以下至少一项:关键词识别模型、规则识别模型以及网站源码指纹识别模型,所述评分模型用于基于所述第五信息计算所述评分值;
在所述评分值大于预先设置的第一阈值的情况下,确定所述待识别网站为所述目标网站。
可选地,处理模块还具体用于:
在所述评分模型包括所述关键词识别模型的情况下,将所述待识别网站的网站文本作为所述第五信息;
将所述第五信息输入至所述关键词识别模型,得到所述关键词识别模型输出的第一评分值,作为所述评分值;
其中,所述关键词识别模型用于在所述第五信息中存在与预先设置的第一关键词匹配的目标关键词的情况下,基于所述目标关键词对应的权重,计算所述第一评分值。
可选地,处理模块还具体用于:
在所述评分模型包括所述规则识别模型的情况下,将所述待识别网站的主体结构对应的内容规则,作为所述第五信息;其中,所述主体结构包括以下至少一项:标题Title、头部Header和正文Body;
将所述第五信息输入至所述规则识别模型,得到所述规则识别模型输出的第二评分值,作为所述评分值;
其中,所述规则识别模型用于在所述第五信息中存在与预先设置的第一规则匹配的目标规则的情况下,基于所述目标规则对应的权重,计算所述第二评分值。
可选地,处理模块还具体用于:
在所述评分模型包括所述网站源码指纹识别模型的情况下,基于所述待识别网站的网站源码和超文本标记语言HTML元素,生成所述待识别网站的源码指纹,作为所述第五信息;其中,所述源码指纹包括以下至少一项:Header标签内容;Body标签内容;
将所述第五信息输入至所述网站源码指纹识别模型,得到所述网站源码指纹识别模型输出的第三评分值,作为所述评分值;
其中,所述网站源码指纹识别模型用于在所述第五信息与预先设置的第一网站源码指纹的相似度大于第二阈值的情况下,基于所述第五信息对应的权重,计算所述第三评分值。
图13本发明提供的电子设备的结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行后台系统的识别方法,该方法包括:
获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的后台系统的识别方法,该方法包括:
获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的后台系统的识别方法,该方法包括:
获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种后台系统的识别方法,其特征在于,包括:
获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
2.根据权利要求1所述的后台系统的识别方法,其特征在于,在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统之后,所述方法还包括:
在识别到所述后台系统的情况下,通过所述后台系统进行反向页面迭代操作,所述反向页面迭代操作用于识别其他目标网站。
3.根据权利要求1或2所述的后台系统的识别方法,其特征在于,所述在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统,包括:
在所述第一画像表征所述代理商的情况下,执行以下步骤:
S1、获取所述第一画像的关键路径上对应的至少一个第二信息;其中,所述第二信息包括关键词和/或href标签;
S2、从所述目标网站的首页中,查找是否存在与所述第二信息匹配的第三信息,若存在,则进入S3;若不存在,则进入S6;
S3、选择至少一个第三信息作为第一目标信息,进入所述第一目标信息对应的链接的目标页面;
S4、从所述目标页面中,识别是否存在所述后台系统,若不存在,则进入S5;
S5、从所述目标页面中,查找是否存在与所述第二信息匹配的第四信息,若存在,则将所述第四信息作为所述第三信息,返回执行S3;若不存在,则返回所述目标页面的上一级页面,选择所述目标页面的上一级页面中的第二目标信息,进入所述第二目标信息对应的链接的页面,作为所述目标页面,返回执行S4;其中,所述第二目标信息为所述第三信息中除所述第一目标信息外的信息;
S6、结束操作。
4.根据权利要求1所述的后台系统的识别方法,其特征在于,在所述获取用户的第一信息之前,所述方法还包括:
将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值;其中,所述评分模型包括以下至少一项:关键词识别模型、规则识别模型以及网站源码指纹识别模型,所述评分模型用于基于所述第五信息计算所述评分值;
在所述评分值大于预先设置的第一阈值的情况下,确定所述待识别网站为所述目标网站。
5.根据权利要求4所述的后台系统的识别方法,其特征在于,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述关键词识别模型的情况下,将所述待识别网站的网站文本作为所述第五信息;
将所述第五信息输入至所述关键词识别模型,得到所述关键词识别模型输出的第一评分值,作为所述评分值;
其中,所述关键词识别模型用于在所述第五信息中存在与预先设置的第一关键词匹配的目标关键词的情况下,基于所述目标关键词对应的权重,计算所述第一评分值。
6.根据权利要求4所述的后台系统的识别方法,其特征在于,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述规则识别模型的情况下,将所述待识别网站的主体结构对应的内容规则,作为所述第五信息;其中,所述主体结构包括以下至少一项:标题Title、头部Header和正文Body;
将所述第五信息输入至所述规则识别模型,得到所述规则识别模型输出的第二评分值,作为所述评分值;
其中,所述规则识别模型用于在所述第五信息中存在与预先设置的第一规则匹配的目标规则的情况下,基于所述目标规则对应的权重,计算所述第二评分值。
7.根据权利要求4所述的后台系统的识别方法,其特征在于,所述将待识别网站的第五信息输入至预先设置的评分模型,得到所述评分模型输出的所述待识别网站对应的评分值,包括:
在所述评分模型包括所述网站源码指纹识别模型的情况下,基于所述待识别网站的网站源码和超文本标记语言HTML元素,生成所述待识别网站的源码指纹,作为所述第五信息;其中,所述源码指纹包括以下至少一项:Header标签内容;Body标签内容;
将所述第五信息输入至所述网站源码指纹识别模型,得到所述网站源码指纹识别模型输出的第三评分值,作为所述评分值;
其中,所述网站源码指纹识别模型用于在所述第五信息与预先设置的第一网站源码指纹的相似度大于第二阈值的情况下,基于所述第五信息对应的权重,计算所述第三评分值。
8.一种后台系统的识别装置,其特征在于,包括:
获取模块,用于获取用户的第一信息;其中,所述第一信息包括以下至少一项:所述用户在目标网站中的点击行为序列、点击行为序列所用的关键词和点击所产生的数据流量;
画像生成模块,用于将所述第一信息输入至预先设置的画像生成模型,得到所述画像生成模型输出的所述用户的第一画像;其中,所述画像生成模型用于基于所述第一信息生成所述第一画像;
识别模块,用于在所述第一画像表征代理商的情况下,基于所述第一画像,对所述目标网站内的链接进行遍历,识别是否存在所述目标网站的后台系统。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述后台系统的识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述后台系统的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418817.XA CN116150541B (zh) | 2023-04-19 | 2023-04-19 | 后台系统的识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418817.XA CN116150541B (zh) | 2023-04-19 | 2023-04-19 | 后台系统的识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150541A CN116150541A (zh) | 2023-05-23 |
CN116150541B true CN116150541B (zh) | 2023-06-23 |
Family
ID=86358541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310418817.XA Active CN116150541B (zh) | 2023-04-19 | 2023-04-19 | 后台系统的识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150541B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1017000A2 (en) * | 1998-12-30 | 2000-07-05 | Ncr International Inc. | Context-sensitive, content measured dynamic information linkage |
CN101079752A (zh) * | 2007-01-29 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种跟踪网络用户行为的方法、系统及设备 |
CN110992104A (zh) * | 2019-12-11 | 2020-04-10 | 杭州古点网络科技有限公司 | 一种基于用户画像的异常广告流量检测方法 |
CN111709765A (zh) * | 2020-03-25 | 2020-09-25 | 中国电子科技集团公司电子科学研究院 | 一种用户画像评分方法、装置和存储介质 |
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN115879110A (zh) * | 2023-02-09 | 2023-03-31 | 北京金信网银金融信息服务有限公司 | 一种基于指纹穿透技术识别金融风险网站的系统 |
-
2023
- 2023-04-19 CN CN202310418817.XA patent/CN116150541B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1017000A2 (en) * | 1998-12-30 | 2000-07-05 | Ncr International Inc. | Context-sensitive, content measured dynamic information linkage |
CN101079752A (zh) * | 2007-01-29 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种跟踪网络用户行为的方法、系统及设备 |
CN110992104A (zh) * | 2019-12-11 | 2020-04-10 | 杭州古点网络科技有限公司 | 一种基于用户画像的异常广告流量检测方法 |
CN111709765A (zh) * | 2020-03-25 | 2020-09-25 | 中国电子科技集团公司电子科学研究院 | 一种用户画像评分方法、装置和存储介质 |
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN115879110A (zh) * | 2023-02-09 | 2023-03-31 | 北京金信网银金融信息服务有限公司 | 一种基于指纹穿透技术识别金融风险网站的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116150541A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
US8219549B2 (en) | Forum mining for suspicious link spam sites detection | |
CN101853300B (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
CN109922052A (zh) | 一种结合多重特征的恶意url检测方法 | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
CN107590236B (zh) | 一种面向建筑施工企业的大数据采集方法和系统 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN104471582A (zh) | 对搜索引擎跟踪的防御 | |
CN111143654B (zh) | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 | |
CN113098887A (zh) | 一种基于网站联合特征的钓鱼网站检测方法 | |
CN110909229A (zh) | 一种基于模拟浏览器访问的网页数据获取和存储的系统 | |
CN105260469B (zh) | 一种处理网站地图的方法、装置及设备 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN111754338B (zh) | 一种套路贷网站团伙识别方法及系统 | |
CN113032655A (zh) | 一种暗网电子数据提取固定方法 | |
Shyni et al. | Phishing detection in websites using parse tree validation | |
CN116319089B (zh) | 一种动态弱密码检测方法、装置、计算机设备及介质 | |
CN103177084A (zh) | 一种考虑数据可信度的数据挖掘方法 | |
Piñeiro et al. | Web architecture for URL-based phishing detection based on Random Forest, Classification Trees, and Support Vector Machine | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 | |
CN116723005A (zh) | 多态隐藏下的恶意代码隐式情报追踪方法及系统 | |
CN108200191A (zh) | 利用微扰法的客户端动态url相关脚本字符串检测系统 | |
CN107239704A (zh) | 恶意网页发现方法及装置 | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |