CN113378027A - 一种线索挖掘方法、装置、设备以及计算机可读存储介质 - Google Patents
一种线索挖掘方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113378027A CN113378027A CN202110789678.2A CN202110789678A CN113378027A CN 113378027 A CN113378027 A CN 113378027A CN 202110789678 A CN202110789678 A CN 202110789678A CN 113378027 A CN113378027 A CN 113378027A
- Authority
- CN
- China
- Prior art keywords
- clue
- website
- elements
- extracted
- element extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000009412 basement excavation Methods 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims abstract description 78
- 238000005065 mining Methods 0.000 claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims description 69
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种线索挖掘方法,包括:根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素,构建线索要素库。应用该线索挖掘方法能够高效的挖掘涉网犯罪线索,有利于发现、打击涉网犯罪。本申请还公开了一种线索挖掘装置、设备及计算机可读存储介质,均具有上述技术效果。
Description
技术领域
本申请涉及网站监督技术领域,特别涉及一种线索挖掘方法;还涉及一种线索挖掘装置、设备以及计算机可读存储介质。
背景技术
网络空间的无限扩展在给予人类便利的同时,也为犯罪提供了滋生的土壤。狭义的涉网犯罪是指以网络为侵害对象实施的犯罪行为。广义的涉网犯罪外延了网络犯罪的狭义说法,是指利用计算机网络实施的犯罪行为。目前,网络犯罪借助技术的发展更加隐蔽,变化形式多样,没有规律可循,给线索获取带来了严峻的挑战。现行的涉网犯罪线索的收集方法首先要根据案情在相关网站检索与案件有关的信息,当涉及到利用网站作为违法犯罪的载体时,从网站内容中可以直观获得嫌疑人联系方式、姓名、作案方式等简单信息,但在该过程中确认相关网站时需要耗费大量人力进行人工排查。同时涉及到网站的备案信息、IP信息、以及其他关联网站的域名、IP或者URL信息则无法直接获取。如果涉网犯罪的线索获取问题不能够得到有效解决,则无法进一步有效的开展涉网犯罪打击的工作。因此,如何高效的挖掘涉网犯罪线索已成为本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种线索挖掘方法,能够高效的挖掘涉网犯罪线索。本申请的另一个目的是提供一种线索挖掘装置、设备以及计算机可读存储介质,均具有上述技术效果。
为解决上述技术问题,本申请提供了一种线索挖掘方法,包括:
根据从违法网站提取出的情报要素确定要素提取规则;
采集目标网站的网站内容;
根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
重组提取的所述线索要素,构建线索要素库。
可选的,所述根据从违法网站提取出的情报要素确定要素提取规则包括:
根据从违法网站提取出的情报要素确定相应的正则表达式。
可选的,所述正则表达式包括:URL对应的正则表达式、IP对应的正则表达式、姓名对应的正则表达式、昵称对应的正则表达式、邮箱对应的正则表达式、手机号对应的正则表达式、固定电话对应的正则表达式、ICP备案号对应的正则表达式、网络账号对应的正则表达式、身份证号对应的正则表达式以及地址对应的正则表达式。
可选的,所述根据所述要素提取规则对采集的所述网站内容进行线索要素提取包括:
根据正则表达式对采集的所述网站内容进行线索要素提取。
可选的,所述重组提取的所述线索要素构建线索要素库包括:
若提取到的所述线索要素归属于同一个主体,则将所述线索要素存储到要素关联库;
若提取到的所述线索要素归属于不同主体,则将所述线索要素存储到要素关系库;
将所述线索要素出现的时间以及所述线索要素出现的区域存储到要素分布库。
可选的,还包括:
根据提取的所述线索要素判断是否存在关联网站;
若存在,则采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,以及重组从关联网站的网站内容提取的所述线索要素,构建线索要素库。
可选的,还包括:
修改所述正则表达式。
为解决上述技术问题,本申请还提供了一种线索挖掘装置,包括:
要素提取规则确定模块,用于根据从违法网站提取出的情报要素确定要素提取规则;
网站内容采集模块,用于采集目标网站的网站内容;
线索要素提取模块,用于根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
线索要素库构建模块,用于重组提取的所述线索要素,构建线索要素库。
为解决上述技术问题,本申请还提供了一种线索挖掘设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的线索挖掘方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的线索挖掘方法的步骤。
本申请所提供的线索挖掘方法,包括:根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素构建线索要素库。可见,本申请所提供的线索挖掘方法,以从违法网站提取出的情报要素为依据,确定要素提取规则,进而根据要素提取规则从目标网站提取线索要素,并构建线索要素库,实现线索要素的挖掘、扩展,能够发现更多的隐藏线索,有效提高了线索的可靠性,有利于发现、打击涉网犯罪。
本申请所提供的线索挖掘装置、设备以及计算机可读存储介质均具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种线索挖掘方法的流程示意图;
图2为本申请实施例所提供的一种线索挖掘装置的示意图;
图3为本申请实施例所提供的一种线索挖掘设备的示意图。
具体实施方式
本申请的核心是提供一种线索挖掘方法,能够高效的挖掘涉网犯罪线索。本申请的另一个核心是提供一种线索挖掘装置、设备以及计算机可读存储介质,均具有上述技术效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种线索提取方法的示意图,参考图1所示,该方法包括:
S101:根据从违法网站提取出的情报要素确定要素提取规则;
具体的,根据预先汇总的从违法网站的网站内容中提取的情报要素,确定要素提取规则,以后续根据要素提取规则进一步进行线索要素提取。例如,预先从多个违法网站的网站内容中提取出如下情报要素:URL(Uniform Resource Locator,统一资源定位器)、IP(Internet Protocol,网络协议)、姓名、昵称、邮箱、手机号等。进而根据各情报要素确定要素提取规则。
作为一种具体的实施方式,根据从违法网站提取出的情报要素确定要素提取规则方式为:根据从违法网站提取出的情报要素确定相应的正则表达式。
具体而言,正则表达式是对字符串操作的一种逻辑公式,即用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。本实施例以正则表达式作为要素提取规则进行线索要素提取。
其中,正则表达式可以包括:URL对应的正则表达式、IP对应的正则表达式、姓名对应的正则表达式、昵称对应的正则表达式、邮箱对应的正则表达式、手机号对应的正则表达式、固定电话对应的正则表达式、ICP备案号对应的正则表达式、网络账号(如QQ号、微信号等)对应的正则表达式、身份证号对应的正则表达式以及地址对应的正则表达式。
各要素类型与其对应的正则表达式可参考表1所示:
表1
可以明白的是,除上述所示的正则表达式外,还可以为其他要素类型对应的正则表达式,本申请对此不做唯一限定。
S102:采集目标网站的网站内容;
S103:根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
具体的,采集目标网站的网站内容,并在此基础上,根据所确定的要素提取规则,对所采集的目标网站的网站内容进行线索要素提取。
对应于要素提取规则为正则表达式的实施方式,根据所述要素提取规则对采集的所述网站内容进行线索要素提取即为根据正则表达式对采集的网站内容进行线索要素提取,并保存提取到的线索要素。所保存的内容包括要素ID、要素类型、IP、域名、子域名、要素内容、要素扩展内容、要素提取时间、网站标题等。
对于采集网站内容的具体实现过程,本申请不做赘述,可以采用现有的任意一种采集方案。
S104:重组提取的所述线索要素构建线索要素库。
具体的,要素重组是指根据数据应用需求,按照数据定义的标准统一、流程规范的组织方案,实现数据资源分类建库。
其中,重组提取的所述线索要素构建线索要素库包括:
若提取到的所述线索要素归属于同一个主体,则将所述线索要素存储到要素关联库;
若提取到的所述线索要素归属于不同主体,则将所述线索要素存储到要素关系库;
将所述线索要素出现的时间以及所述线索要素出现的区域存储到要素分布库。
具体而言,本实施例中,线索要素库包括三类,即要素关联库、要素关系库以及要素分布库。当提取到的线索要素归属于同一个主体时,此时将该线索要素存储到要素关联库中。例如,线索要素为身份证号1与手机号1,且身份证号1与手机号1都属于用户A,那么此时将身份证号1与手机号1存储到要素关联库。当提取到的线索要素不属于同于一个主体时,此时将该线索要素存储到要素关系库中。例如,地址1属于用户B,QQ号1属于用户C,那么此时将地址1与QQ号1存储到要素关系库中。对于线索要素出现的时间以及区域,则将其存储到要素分布库中。
后续进行线索要素查询时,可基于网站名、网站标题、要素类型、要素内容等查询线索要素库。
进一步,在上述实施例的基础上,作为一种具体的实施方式,还可以包括:
根据提取的所述线索要素判断是否存在关联网站;
若存在,则采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,以及重组从关联网站的网站内容提取的所述线索要素,构建线索要素库。
具体而言,在从目标网站的网站内容中提取出线索要素的基础上,根据所提取的线索要素判断是否存在与目标网站相关联的网站,即关联网站。如果不存在关联网站,那么此时只对从目标网站的网站内容中提取的线索要素进行要素重组,构建线索要素库。相反,如果存在关联网站,则还要采集关联网站的网站内容,对关联网站的网站内容进行线索要素提取,并重组从关联网站提取的线索要素,构建线索要素库。
其中,为了提高效率,避免多次进行线索要素重组、线索要素库构建的操作,优选的,可以在执行步骤S103之间,就根据从目标网站提取的线索要素判断是否存在关联网站;
如果不存在,则直接重组从目标网站提取的线索要素。如果存在,此时先采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,最后再一并重组从目标网站与关联网站提取的线索要素。
进一步,在上述实施例的基础上,还包括:修改所述正则表达式。包括,增加正则表达式、删除正则表达式等情况。
综上所述,本申请所提供的线索挖掘方法,包括:根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素构建线索要素库。可见,本申请所提供的线索挖掘方法,以从违法网站提取出的情报要素为依据,确定要素提取规则,进而根据要素提取规则从目标网站提取线索要素,并构建线索要素库,实现线索要素的挖掘、扩展,能够发现更多的隐藏线索,有效提高了线索的可靠性,有利于发现、打击涉网犯罪。
本申请还提供了一种线索挖掘装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图2,图2为本申请实施例所提供的一种线索挖掘装置示意图,结合图2所示,该装置包括:
要素提取规则确定模块,用于根据从违法网站提取出的情报要素确定要素提取规则;
网站内容采集模块,用于采集目标网站的网站内容;
线索要素提取模块,用于根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
线索要素库构建模块,用于重组提取的所述线索要素,构建线索要素库。
具体的,要素提取规则确定模块根据预先汇总的从违法网站的网站内容中提取的情报要素,确定要素提取规则,以后续根据要素提取规则进一步进行线索要素提取。例如,预先从多个违法网站的网站内容中提取出如下情报要素:URL(Uniform ResourceLocator,统一资源定位器)、IP(Internet Protocol,网络协议)、姓名、昵称、邮箱、手机号等。进而根据各情报要素确定要素提取规则。网站内容采集模块采集目标网站的网站内容,并在此基础上,线索要素提取模块根据所确定的要素提取规则,对所采集的目标网站的网站内容进行线索要素提取。最后线索要素库构建模块重组提取的所述线索要素,构建线索要素库。
在上述实施例的基础上,可选的,所述要素提取规则确定模块具体用于:
根据从违法网站提取出的情报要素确定相应的正则表达式。
在上述实施例的基础上,可选的,所述正则表达式包括:URL对应的正则表达式、IP对应的正则表达式、姓名对应的正则表达式、昵称对应的正则表达式、邮箱对应的正则表达式、手机号对应的正则表达式、固定电话对应的正则表达式、ICP备案号对应的正则表达式、网络账号对应的正则表达式、身份证号对应的正则表达式以及地址对应的正则表达式。
在上述实施例的基础上,可选的,所述线索要素提取模块具体用于:
根据正则表达式对采集的所述网站内容进行线索要素提取。
在上述实施例的基础上,可选的,所述线索要素库构建模块具体用于:
若提取到的所述线索要素归属于同一个主体,则将所述线索要素存储到要素关联库;
若提取到的所述线索要素归属于不同主体,则将所述线索要素存储到要素关系库;
将所述线索要素出现的时间以及所述线索要素出现的区域存储到要素分布库。
在上述实施例的基础上,可选的,还包括:
判断模块,用于根据提取的所述线索要素判断是否存在关联网站;若存在,则采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,以及重组从关联网站的网站内容提取的所述线索要素,构建线索要素库。
在上述实施例的基础上,可选的,还包括:
修改模块,用于修改所述正则表达式。
本申请所提供的线索挖掘装置,以从违法网站提取出的情报要素为依据,确定要素提取规则,进而根据要素提取规则从目标网站提取线索要素,并构建线索要素库,实现线索要素的挖掘、扩展,能够发现更多的隐藏线索,有效提高了线索的可靠性,有利于发现、打击涉网犯罪。
本申请还提供了一种线索挖掘设备,参考图3所示,该设备包括存储器1和处理器2。
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序实现如下的步骤:
根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素,构建线索要素库。
对于本申请所提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:
根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素,构建线索要素库。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的线索挖掘方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围。
Claims (10)
1.一种线索挖掘方法,其特征在于,包括:
根据从违法网站提取出的情报要素确定要素提取规则;
采集目标网站的网站内容;
根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
重组提取的所述线索要素,构建线索要素库。
2.根据权利要求1所述的线索挖掘方法,其特征在于,所述根据从违法网站提取出的情报要素确定要素提取规则包括:
根据从违法网站提取出的情报要素确定相应的正则表达式。
3.根据权利要求2所述的线索挖掘方法,其特征在于,所述正则表达式包括:URL对应的正则表达式、IP对应的正则表达式、姓名对应的正则表达式、昵称对应的正则表达式、邮箱对应的正则表达式、手机号对应的正则表达式、固定电话对应的正则表达式、ICP备案号对应的正则表达式、网络账号对应的正则表达式、身份证号对应的正则表达式以及地址对应的正则表达式。
4.根据权利要求1所述的线索挖掘方法,其特征在于,所述根据所述要素提取规则对采集的所述网站内容进行线索要素提取包括:
根据正则表达式对采集的所述网站内容进行线索要素提取。
5.根据权利要求1所述的线索挖掘方法,其特征在于,所述重组提取的所述线索要素构建线索要素库包括:
若提取到的所述线索要素归属于同一个主体,则将所述线索要素存储到要素关联库;
若提取到的所述线索要素归属于不同主体,则将所述线索要素存储到要素关系库;
将所述线索要素出现的时间以及所述线索要素出现的区域存储到要素分布库。
6.根据权利要求1所述的线索挖掘方法,其特征在于,还包括:
根据提取的所述线索要素判断是否存在关联网站;
若存在,则采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,以及重组从关联网站的网站内容提取的所述线索要素,构建线索要素库。
7.根据权利要求2所述的线索挖掘方法,其特征在于,还包括:
修改所述正则表达式。
8.一种线索挖掘装置,其特征在于,包括:
要素提取规则确定模块,用于根据从违法网站提取出的情报要素确定要素提取规则;
网站内容采集模块,用于采集目标网站的网站内容;
线索要素提取模块,用于根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
线索要素库构建模块,用于重组提取的所述线索要素,构建线索要素库。
9.一种线索挖掘设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的线索挖掘方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的线索挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110789678.2A CN113378027A (zh) | 2021-07-13 | 2021-07-13 | 一种线索挖掘方法、装置、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110789678.2A CN113378027A (zh) | 2021-07-13 | 2021-07-13 | 一种线索挖掘方法、装置、设备以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113378027A true CN113378027A (zh) | 2021-09-10 |
Family
ID=77581929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110789678.2A Pending CN113378027A (zh) | 2021-07-13 | 2021-07-13 | 一种线索挖掘方法、装置、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378027A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591965A (zh) * | 2011-12-30 | 2012-07-18 | 奇智软件(北京)有限公司 | 一种黑链检测的方法及装置 |
US9578048B1 (en) * | 2015-09-16 | 2017-02-21 | RiskIQ Inc. | Identifying phishing websites using DOM characteristics |
CN110069693A (zh) * | 2019-04-29 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 用于确定目标页面的方法和装置 |
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN110516173A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种非法网站识别方法、装置、设备及介质 |
CN112860844A (zh) * | 2021-01-13 | 2021-05-28 | 广东省公安厅 | 案件线索处理系统、方法、装置和计算机设备 |
-
2021
- 2021-07-13 CN CN202110789678.2A patent/CN113378027A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591965A (zh) * | 2011-12-30 | 2012-07-18 | 奇智软件(北京)有限公司 | 一种黑链检测的方法及装置 |
US9578048B1 (en) * | 2015-09-16 | 2017-02-21 | RiskIQ Inc. | Identifying phishing websites using DOM characteristics |
CN110069693A (zh) * | 2019-04-29 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 用于确定目标页面的方法和装置 |
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN110516173A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种非法网站识别方法、装置、设备及介质 |
CN112860844A (zh) * | 2021-01-13 | 2021-05-28 | 广东省公安厅 | 案件线索处理系统、方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022083417A1 (zh) | 一种数据包处理方法、装置、电子设备、计算机可读存储介质以及计算机程序产品 | |
CN109818970B (zh) | 一种数据处理方法及装置 | |
CN104253785B (zh) | 危险网址识别方法、装置及系统 | |
CN104571813B (zh) | 一种信息的显示方法及装置 | |
CN104967616A (zh) | 一种Web服务器中的WebShell文件的检测方法 | |
CN105653949B (zh) | 一种恶意程序检测方法及装置 | |
CN108900554B (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
CN105530265A (zh) | 一种基于频繁项集描述的移动互联网恶意应用检测方法 | |
CN102801698A (zh) | 一种基于url请求时序的恶意代码检测方法和系统 | |
CN108965337A (zh) | 规则匹配方法、装置、防火墙设备及机器可读存储介质 | |
CN105337776B (zh) | 一种生成网站指纹的方法、装置及电子设备 | |
CN108182360A (zh) | 一种风险识别方法及其设备、存储介质、电子设备 | |
Kebande et al. | Functional requirements for adding digital forensic readiness as a security component in IoT environments | |
CN104102697A (zh) | 管理web应用中外链的方法及装置 | |
CN105939328A (zh) | 网络攻击特征库的更新方法及装置 | |
CN108073808A (zh) | 基于pdb调试信息生成攻击者画像的方法及系统 | |
CN113378027A (zh) | 一种线索挖掘方法、装置、设备以及计算机可读存储介质 | |
CN105049452B (zh) | 资源下载方式的切换方法、装置及智能终端 | |
CN103067467B (zh) | 缓存方法及装置 | |
CN112003884B (zh) | 一种网络资产的采集和自然语言检索方法 | |
CN112615713B (zh) | 隐蔽信道的检测方法、装置、可读存储介质及电子设备 | |
CN108334778B (zh) | 病毒检测方法、装置、存储介质及处理器 | |
CN107220262A (zh) | 信息处理方法和装置 | |
CN107332856B (zh) | 地址信息的检测方法、装置、存储介质和电子装置 | |
CN113760764A (zh) | 应用程序检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |
|
RJ01 | Rejection of invention patent application after publication |