CN114168860A - 一种基于网络特征的暗网站点用户关联方法及装置 - Google Patents
一种基于网络特征的暗网站点用户关联方法及装置 Download PDFInfo
- Publication number
- CN114168860A CN114168860A CN202111366898.0A CN202111366898A CN114168860A CN 114168860 A CN114168860 A CN 114168860A CN 202111366898 A CN202111366898 A CN 202111366898A CN 114168860 A CN114168860 A CN 114168860A
- Authority
- CN
- China
- Prior art keywords
- network
- text
- user association
- dark
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于网络特征的暗网站点用户关联方法及装置,所述方法包括如下步骤:S10,采用pattern匹配提取暗网中的网络特征;S20,根据提取的网络特征通过聚类实现暗网用户关联。本发明通过网络特征提取以及基于网络特征聚类的用户关联,可精准识别具备关联关系的暗网用户,并且关联方式简单,关联准确率高。从而能够可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
Description
技术领域
本发明涉及暗网中用户关联技术的技术领域,具体而言,涉及一种基于网络特征的暗网站点用户关联方法及装置。
背景技术
目前暗网存在用户量少,数据稀疏的问题,尤其是用户社交网络特征和用户属性信息比较少,直接通过用户画像、社交网络特征对齐等方式实现用户关联效果较差。
暗网站点用户量少,数据稀疏,无法直接利用明网中的用户关联方法实现暗网用户关联,目前也没有通用的暗网用户关联方法;
发明内容
本发明旨在提供一种基于网络特征的暗网站点用户关联方法及装置,以解决由于暗网站点用户量少,数据稀疏导致无法直接利用明网中的用户关联方法实现暗网用户关联,从而缺少通用的暗网用户关联方法的问题。
本发明提供的一种基于网络特征的暗网站点用户关联方法,包括如下步骤:
S10,采用pattern匹配提取暗网中的网络特征;
S20,根据提取的网络特征通过聚类实现暗网用户关联。
进一步的,步骤S10包括如下子步骤:
S11,采集数据:采集暗网中包含联系方式的文本信息;
S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
S13,pattern匹配:根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
S14,联系方式抽取:根据子串的左侧文本内容判断该子串是否为联系方式;
S15,联系方式过滤:对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
进一步的,步骤S20包括如下子步骤:
S21,根据提取的网络特征对用户进行聚类:针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
S22,用户关联:针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
本发明提供的一种基于网络特征的暗网站点用户关联装置,包括:
网络特征提取单元,用于采用pattern匹配提取暗网中的网络特征;
用户关联处理单元,根据提取的网络特征通过聚类实现暗网用户关联。
进一步的,所述网络特征提取单元包括:
采集数据模块,用于采集暗网中包含联系方式的文本信息;
文本清洗模块,对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
pattern匹配模块,用于根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
联系方式抽取模块,根据子串的左侧文本内容判断该子串是否为联系方式;
联系方式过滤模块,对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
进一步的,所述用户关联处理单元包括:
用户聚类模块,用于针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
用户关联模块,用于针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过网络特征提取以及基于网络特征聚类的用户关联,可精准识别具备关联关系的暗网用户,并且关联方式简单,关联准确率高。从而能够可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例1的基于网络特征的暗网站点用户关联方法的原理框图。
图2为本发明实施例1的基于网络特征的暗网站点用户关联方法中采用pattern匹配提取暗网中的网络特征的流程图。
图3为本发明实施例1的基于网络特征的暗网站点用户关联方法中根据提取的网络特征通过聚类实现暗网用户关联的流程图。
图4为本发明实施例2的基于网络特征的暗网站点用户关联装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出一种基于网络特征的暗网站点用户关联方法,该用户关联方法包含两步,一是网络特征抽取,二是基于网络特征的暗网用户关联。网络特征抽取通过pattern匹配抽取贴文中的联系方式特征,包含telegram、微信、qq、wickr、whatsapp、potato等账号;基于网络特征的暗网用户关联则是通过抽取到的网络特征实现贴文之间的关联,再进一步构建贴文发布者之间的关联,从而实现暗网用户的关联。所述基于网络特征的暗网站点用户关联方法可精准识别具备关联关系的暗网用户,关联方式简单,关联准确率高。具体地,所述基于网络特征的暗网站点用户关联方法包括如下步骤:
S10,采用pattern匹配提取暗网中的网络特征;
如图2所示,步骤S10包括如下子步骤:
S11,采集数据:采集暗网中包含联系方式的文本信息;
S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
S13,pattern匹配:根据各平台(如QQ、微信、whatsapp、telegram、batchat、wickr、potato、email)的账号模式定义正则表达式(例如QQ的正则表达式为"[1-9]([0-9]{4,10})",表示为5-11位的数字串,其中首位不能为0),根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
S14,联系方式抽取:根据子串的左侧文本内容判断该子串是否为联系方式(例如微信的子串左侧文本内容为:{"+v","VX","vx","v+","私v+","加v","加v","VX","微信","微X","加+威+信","加微","徽信"}等);
S15,联系方式过滤:对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
S20,根据提取的网络特征通过聚类实现暗网用户关联;
如图3所示,步骤S20包括如下子步骤:
S21,根据提取的网络特征对用户进行聚类:针对每个网络特征((如telegram账号))聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”:“telgram”,“网络特征内容”:“bajia123”,“网络特征用户聚类结果”:[“4576485”,“798646”,“457646”]}的结构列表;
S22,用户关联:针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果:[(“4576485”,“798646”),(“798646”,“457646”),(“4576485”,“457646”)]。对于用户关联结果存储数据库中,可以在存入数据库中时判断数据库中是否已经有该用户关联结果,若有则不存入,若无则存入。
实施例2
对应实施例1实现的基于网络特征的暗网站点用户关联方法,本实施例提出一种基于网络特征的暗网站点用户关联装置,如图4所示,包括:
网络特征提取单元,用于采用pattern匹配提取暗网中的网络特征;具体地,所述网络特征提取单元包括:
采集数据模块,用于采集暗网中包含联系方式的文本信息;
文本清洗模块,对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
pattern匹配模块,用于根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
联系方式抽取模块,根据子串的左侧文本内容判断该子串是否为联系方式;
联系方式过滤模块,对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
用户关联处理单元,根据提取的网络特征通过聚类实现暗网用户关联;具体地,所述用户关联处理单元包括:
用户聚类模块,用于针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
用户关联模块,用于针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于网络特征的暗网站点用户关联方法,其特征在于,包括如下步骤:
S10,采用pattern匹配提取暗网中的网络特征;
S20,根据提取的网络特征通过聚类实现暗网用户关联。
2.根据权利要求1所述的基于网络特征的暗网站点用户关联方法,其特征在于,步骤S10包括如下子步骤:
S11,采集数据:采集暗网中包含联系方式的文本信息;
S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
S13,pattern匹配:根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
S14,联系方式抽取:根据子串的左侧文本内容判断该子串是否为联系方式;
S15,联系方式过滤:对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
3.根据权利要求2所述的基于网络特征的暗网站点用户关联方法,其特征在于,步骤S20包括如下子步骤:
S21,根据提取的网络特征对用户进行聚类:针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
S22,用户关联:针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
4.一种基于网络特征的暗网站点用户关联装置,其特征在于,包括:
网络特征提取单元,用于采用pattern匹配提取暗网中的网络特征;
用户关联处理单元,根据提取的网络特征通过聚类实现暗网用户关联。
5.根据权利要求4所述的基于网络特征的暗网站点用户关联装置,其特征在于,所述网络特征提取单元包括:
采集数据模块,用于采集暗网中包含联系方式的文本信息;
文本清洗模块,对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
pattern匹配模块,用于根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
联系方式抽取模块,根据子串的左侧文本内容判断该子串是否为联系方式;
联系方式过滤模块,对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
6.根据权利要求4所述的基于网络特征的暗网站点用户关联装置,其特征在于,所述用户关联处理单元包括:
用户聚类模块,用于针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
用户关联模块,用于针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111366898.0A CN114168860A (zh) | 2021-11-18 | 2021-11-18 | 一种基于网络特征的暗网站点用户关联方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111366898.0A CN114168860A (zh) | 2021-11-18 | 2021-11-18 | 一种基于网络特征的暗网站点用户关联方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168860A true CN114168860A (zh) | 2022-03-11 |
Family
ID=80479556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111366898.0A Pending CN114168860A (zh) | 2021-11-18 | 2021-11-18 | 一种基于网络特征的暗网站点用户关联方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168860A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114915599A (zh) * | 2022-07-19 | 2022-08-16 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
-
2021
- 2021-11-18 CN CN202111366898.0A patent/CN114168860A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114915599A (zh) * | 2022-07-19 | 2022-08-16 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
CN114915599B (zh) * | 2022-07-19 | 2022-11-11 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN108399180B (zh) | 一种知识图谱构建方法、装置及服务器 | |
CN110008343A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN114168860A (zh) | 一种基于网络特征的暗网站点用户关联方法及装置 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN110611655B (zh) | 一种黑名单筛选方法和相关产品 | |
CN110413901B (zh) | 一种基于社交网络分析的信用风险评估方法 | |
CN114021556A (zh) | 基于自然语言处理技术的日志敏感数据检测方法及系统 | |
CN106126495A (zh) | 一种基于大规模语料提词方法和装置 | |
CN108650145A (zh) | 一种家庭宽带WiFi下手机号码特征自动提取方法 | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN111526110B (zh) | 检测电子邮箱账户非授权登录的方法、装置、设备和介质 | |
CN106779080A (zh) | 一种人物信息知识库自动构建方法 | |
CN116468271A (zh) | 一种基于大数据的企业风险分析方法、系统及介质 | |
CN113420549B (zh) | 异常字符串识别方法及装置 | |
CN115827793A (zh) | 业务报文分类方法、装置、电子设备及存储介质 | |
CN113065892B (zh) | 一种信息推送方法、装置、设备及存储介质 | |
CN107729898B (zh) | 检测文本图像中的文本行的方法和装置 | |
CN114579403A (zh) | 告警处理方法以及装置 | |
CN113987206A (zh) | 异常用户的识别方法、装置、设备及存储介质 | |
CN113706279A (zh) | 欺诈分析方法、装置、电子设备及存储介质 | |
CN106294292A (zh) | 章节目录筛选方法及装置 | |
CN113746814A (zh) | 邮件处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |