CN113239254A - 一种面向发卡平台的主动发现方法及装置 - Google Patents
一种面向发卡平台的主动发现方法及装置 Download PDFInfo
- Publication number
- CN113239254A CN113239254A CN202110457222.6A CN202110457222A CN113239254A CN 113239254 A CN113239254 A CN 113239254A CN 202110457222 A CN202110457222 A CN 202110457222A CN 113239254 A CN113239254 A CN 113239254A
- Authority
- CN
- China
- Prior art keywords
- card issuing
- domain name
- issuing platform
- registrant
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009193 crawling Effects 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000013500 data storage Methods 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种面向发卡平台的主动发现方法及装置,该方法包括:根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。采用本发明能够主动发现发卡平台。
Description
技术领域
本发明涉及信息安全中的互联网安全技术领域,特别涉及一种面向发卡平台的主动发现方法及装置。
背景技术
因为发卡平台本身属于黑灰产行业的一种,其面向的用户,不管是售卖账号的店铺主还是购买账号的买家,主要也是非法从事黑灰产的人员,发卡平台的运营者并不希望公众能够轻易的知道其存在,这就决定了其运营者不会在互联网中进行大肆的宣传,而是会在更隐蔽的渠道或圈子中(比如QQ群、Telegram群组、论坛等等)进行宣传,监管部门要想打击这类平台,通过普通的技术手段(如在搜索引擎中进行搜索)很难发现此类平台。
随着目前互联网、移动互联网技术的不断发展和网络运营者、服务提供者的安全意识不断提高,网络黑产业务模式也不断发生变化,为绕过各互联网业务提供者的安全防护以实现其各类不法目标,黑产从业者目前越来越多地使用非法帐号进行不法活动,从而催生了整个非法帐号注册、运营、销售产业。需要针对网络黑产进行重点打击,建立网络黑产线索库在恶意注册黑产链条中,资源售卖环节是黑产变现的重要环节,需要重点进行监测。其中发卡平台是重要的账户交易平台,其类似于淘宝等电商平台,交易双方可通过该平台进行各类账号的自动化交易,由于其访问地址是通过交易双方私下告知,因此存在较大的胞藏性。针对以上情况,急需通过主动发现技术进行持续发现追踪,为黑产业务监管提供支撑。
发明内容
本发明的目的在于提供一种面向发卡平台的主动发现方法及装置,能够主动发现发卡平台。
为实现上述发明目的,本发明提供了一种面向发卡平台的主动发现方法,该方法包括:根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
为实现上述发明目的,本发明还提供了一种面向发卡平台的主动发现装置,该装置包括:爬取模块,根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;过滤模块,根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
综上所述,本发明提出的面向发卡平台的主动发现方法及装置,该方法包括:根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。本发明采用主动爬取方式和规则过滤方式相结合来寻找发卡平台,从而主动发现发卡平台。
附图说明
图1为本发明实施例提出的一种面向发卡平台的主动发现方法的流程示意图。
图2为本发明实施例所爬取的帖子内容示意图。
图3为本发明实施例发卡平台网页示意图。
图4为本发明实施例提供的一种面向发卡平台的主动发现装置结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明首先通过爬取互联网中百度贴吧及一些论坛的帖子,提取出与发卡相关的帖子内容;然后根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。在此基础上,通过已发现发卡平台的域名对应的注册信息发现新的发卡平台,有效提升了发现新发卡平台的效率和准确率。
实施例一
图1为本发明实施例提供的一种面向发卡平台的主动发现方法的流程示意图,该方法包括:
步骤11、根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;
其中,与发卡相关的主题词,可以是FK、发卡、FAK、FKA,FAKA等包含发卡含义的中文内容或者拼音缩写。本步骤通过主动爬取,可以提取出与发卡相关的帖子内容。
所述爬取方式可以有多种实现方式,包含但不限于基于scrapy爬虫框架进行爬取。所爬取的帖子内容示意图如图2所示。域名:wenfaka.com中包括faka这个相关主题词。
步骤12、根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
其中,发卡平台域名特征规则,可以是*fk*.com、*fak*.com、*fka*.com,*faka*.com等。也就是说,发卡平台域名特征规则中包括发卡含义的字母组合。本步骤通过规则过滤,提取出发卡平台的域名,从而达到本发明的主动发现的目的。
优选地,为了进一步确定所发现的发卡平台的真实性,该方法进一步包括:使用http请求所述发卡平台的域名,且所请求的网页中包含“发卡”内容,则进一步确认该域名对应发卡平台。图3为本发明实施例发卡平台网页示意图。域名符合带有faka*.com特征,且网页内容中含有“发卡”,则确认该网站属于发卡平台。
至此,完成了本发明的面向发卡平台的主动发现方法。
实施例二
在已发现发卡平台的基础上发现新的发卡平台
步骤21、根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容。
步骤22、根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
优选地,该方法进一步包括:
使用http请求所述发卡平台的域名,且所请求的网页中包含“发卡”内容,则进一步确认该域名对应发卡平台。
步骤23、根据所述发卡平台的域名查询域名库获取该发卡平台的域名对应的注册人或者注册人邮箱;所述域名库包含注册人、注册人邮箱、以及每个注册人或注册人邮箱所注册的网站的域名、域名的注册时间、域名的到其时间;
一般地,一个注册人或者一个注册人邮箱可以对应多个域名,所以根据所述注册人或者注册人邮箱提取出该注册人注册的所有域名;
使用http请求每一提取出的域名,且当所请求的网页中包含“发卡”内容时,则进一步确认该域名对应一新的发卡平台。
其中,域名库包含但不限于whois库。
步骤24、在发现发卡平台后,该方法进一步包括:对发卡平台的店铺信息和店铺商品信息的相关数据进行爬取,并保存入数据库。
本步骤中,所述爬取方式可以有多种实现方式,包含但不限于基于scrapy爬虫框架进行爬取。其中,店铺信息包括:店铺名称、店铺简介等。店铺商品信息包括:商品名称、商品描述、库存量、售价信息等。
上述为本发明优选实施例面向发卡平台的主动发现方法。
实施例三
图4为本发明实施例提供的一种面向发卡平台的主动发现装置结构示意图,该装置包括:
爬取模块401,根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;
过滤模块402,根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
优选地,该装置进一步包括:
确认模块403,使用http请求所述发卡平台的域名,且所请求的网页中包含“发卡”内容,则进一步确认该域名对应发卡平台。
在得到发卡平台的域名之后,该装置进一步包括:
发现模块404,根据所述发卡平台的域名查询域名库获取该发卡平台的域名对应的注册人或者注册人邮箱;所述域名库包含注册人、注册人邮箱、以及每个注册人或注册人邮箱所注册的网站的域名、域名的注册时间、域名的到其时间;根据所述注册人或者注册人邮箱提取出该注册人注册的所有域名;使用http请求每一提取出的域名,且当所请求的网页中包含“发卡”内容时,则进一步确认该域名对应一新的发卡平台。
在发现发卡平台后,该装置进一步包括:数据保存模块405,对发卡平台的店铺信息和店铺商品信息的相关数据进行爬取,并保存入数据库。
所述爬取基于scrapy爬虫框架进行爬取。
综上,可以看出,采用本发明实施例提供的面向发卡平台的主动发现方法及装置,不仅能够通过爬取贴吧或者论坛内容主动发现发卡平台,而且还能够在此基础上通过已发现发卡平台的域名对应的注册信息发现新的发卡平台。从而通过主动发现技术进行持续发现追踪,为黑产业务监管提供了有利的支撑。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向发卡平台的主动发现方法,其特征在于,该方法包括:
根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;
根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
2.如权利要求1所述的方法,其特征在于,该方法进一步包括:
使用http请求所述发卡平台的域名,且所请求的网页中包含“发卡”内容,则进一步确认该域名对应发卡平台。
3.如权利要求1所述的方法,其特征在于,在得到发卡平台的域名之后,该方法进一步包括:
根据所述发卡平台的域名查询域名库获取该发卡平台的域名对应的注册人或者注册人邮箱;所述域名库包含注册人、注册人邮箱、以及每个注册人或注册人邮箱所注册的网站的域名、域名的注册时间、域名的到其时间;
根据所述注册人或者注册人邮箱提取出该注册人注册的所有域名;
使用http请求每一提取出的域名,且当所请求的网页中包含“发卡”内容时,则进一步确认该域名对应一新的发卡平台。
4.如权利要求2或3所述的方法,其特征在于,在发现发卡平台后,该方法进一步包括:对发卡平台的店铺信息和店铺商品信息的相关数据进行爬取,并保存入数据库。
5.如权利要求4所述的方法,其特征在于,所述爬取基于scrapy爬虫框架进行爬取。
6.一种面向发卡平台的主动发现装置,其特征在于,该装置包括:
爬取模块,根据与发卡相关的主题词爬取贴吧或者论坛内容,提取出与发卡相关的帖子内容;
过滤模块,根据发卡平台域名特征规则,对所提取出的帖子内容进行过滤,得到发卡平台的域名。
7.如权利要求6所述的装置,其特征在于,该装置进一步包括:
确认模块,使用http请求所述发卡平台的域名,且所请求的网页中包含“发卡”内容,则进一步确认该域名对应发卡平台。
8.如权利要求6所述的装置,其特征在于,在得到发卡平台的域名之后,该装置进一步包括:
发现模块,根据所述发卡平台的域名查询域名库获取该发卡平台的域名对应的注册人或者注册人邮箱;所述域名库包含注册人、注册人邮箱、以及每个注册人或注册人邮箱所注册的网站的域名、域名的注册时间、域名的到其时间;根据所述注册人或者注册人邮箱提取出该注册人注册的所有域名;使用http请求每一提取出的域名,且当所请求的网页中包含“发卡”内容时,则进一步确认该域名对应一新的发卡平台。
9.如权利要求7或8所述的装置,其特征在于,在发现发卡平台后,该装置进一步包括:
数据保存模块,对发卡平台的店铺信息和店铺商品信息的相关数据进行爬取,并保存入数据库。
10.如权利要求9所述的装置,其特征在于,所述爬取基于scrapy爬虫框架进行爬取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457222.6A CN113239254A (zh) | 2021-04-27 | 2021-04-27 | 一种面向发卡平台的主动发现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457222.6A CN113239254A (zh) | 2021-04-27 | 2021-04-27 | 一种面向发卡平台的主动发现方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239254A true CN113239254A (zh) | 2021-08-10 |
Family
ID=77129797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457222.6A Pending CN113239254A (zh) | 2021-04-27 | 2021-04-27 | 一种面向发卡平台的主动发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239254A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199493A1 (en) * | 2003-04-04 | 2004-10-07 | Tim Ruiz | Method for registering a stream of domain names received via a registrar's web site |
CN107808000A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN109951469A (zh) * | 2019-03-12 | 2019-06-28 | 中国平安人寿保险股份有限公司 | 一种创建域名黑白名单的方法、装置、存储介质和服务器 |
CN110909178A (zh) * | 2019-11-22 | 2020-03-24 | 上海交通大学 | 一种暗网威胁情报收集与信息关联系统和方法 |
-
2021
- 2021-04-27 CN CN202110457222.6A patent/CN113239254A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199493A1 (en) * | 2003-04-04 | 2004-10-07 | Tim Ruiz | Method for registering a stream of domain names received via a registrar's web site |
CN107808000A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN109951469A (zh) * | 2019-03-12 | 2019-06-28 | 中国平安人寿保险股份有限公司 | 一种创建域名黑白名单的方法、装置、存储介质和服务器 |
CN110909178A (zh) * | 2019-11-22 | 2020-03-24 | 上海交通大学 | 一种暗网威胁情报收集与信息关联系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7620725B2 (en) | Metadata collection within a trusted relationship to increase search relevance | |
US20090319361A1 (en) | Web-based communication system | |
CN108092963B (zh) | 网页识别方法、装置、计算机设备及存储介质 | |
EP2466499A1 (en) | Information processing device, information processing method, program for information processing device, and recording medium | |
US20110029398A1 (en) | Geo name service for validated locations and occupants and URLs | |
US20050102187A1 (en) | System and method for finding product and service related information on the internet | |
US20160314474A1 (en) | Geo-analytic system and method for authentication of goods | |
EP1847057A1 (en) | Open virtual secure crosscheck-link communication channel | |
CN112804210A (zh) | 数据关联方法、装置、电子设备和计算机可读存储介质 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN109272436A (zh) | 政策信息管理系统 | |
KR20120124135A (ko) | Sns를 이용한 쇼핑 서비스 제공 방법과 그를 위한 시스템 및 장치 | |
Al-Rousan et al. | Ads-guard: Detecting scammers in online classified ads | |
KR100325780B1 (ko) | 분실방지 겸 미아방지 방법과 시스템 및 이 방법을 기록한컴퓨터로 읽을 수 있는 기록 매체 | |
JP2004038367A (ja) | カメラ付き携帯電話を用いたインタネットホームページ接続システムおよびマーケティング情報収集システムとその方法 | |
WO2018061297A1 (ja) | 情報処理方法、プログラム、情報処理システム、及び情報処理装置 | |
JP6534255B2 (ja) | 不正取引検知システム | |
CN109871211A (zh) | 信息展示方法和装置 | |
KR20000059252A (ko) | 통신망을 통한 분실물 및 습득물 정보 관리 방법 | |
CN113239254A (zh) | 一种面向发卡平台的主动发现方法及装置 | |
CN111191747B (zh) | 信息管理方法、处理方法、设备及存储介质 | |
KR20090116429A (ko) | 개인 홈페이지 콘텐츠를 이용한 광고 시스템 및 방법 | |
KR20010103230A (ko) | 도메인 네임 검색/등록 시스템 및 그 방법 | |
NL1040219C2 (nl) | Automatisch opzoeksysteem voor geregistreerde objecten. | |
Tan | Intelligent application of artificial intelligence internet of things technology in the economic and legal fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |
|
RJ01 | Rejection of invention patent application after publication |