CN113849759A - 一种基于图像特征的暗网站点用户关联方法 - Google Patents
一种基于图像特征的暗网站点用户关联方法 Download PDFInfo
- Publication number
- CN113849759A CN113849759A CN202111430236.5A CN202111430236A CN113849759A CN 113849759 A CN113849759 A CN 113849759A CN 202111430236 A CN202111430236 A CN 202111430236A CN 113849759 A CN113849759 A CN 113849759A
- Authority
- CN
- China
- Prior art keywords
- image
- dark
- commodity
- data
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图像特征的暗网站点用户关联方法,包括以下步骤:S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。本发明构建一种基于相似图像的暗网用户关联策略,可实现暗网用户关联,且关联准确率较高,可有效利用暗网中的图像模态信息。通过暗网数据采集、图像特征计算、贴文关联、用户关联,可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
Description
技术领域
本发明属于互联网技术领域,具体涉及一种基于图像特征的暗网站点用户关联方法。
背景技术
暗网市场(或“暗网”)是专门从事非法商品交易的商业网站,此类网站中的交易商品包含武器、假身份证、被盗信用卡、泄露数据等内容。目前用户画像的方法多基于人物属性信息收集、机器学习、人物社交关系分析等策略,主要针对普通用户,实现对明网人物的刻画。暗网交易市场中的用户画像维度和明网有所不同,无法直接利用明网的用户画像构建方案。
明网主要通过用户的社交网络特征和用户属性信息进行关联,而暗网由于数据稀疏,暗网站点中用户社交网络特征和用户属性信息比较少,直接通过用户画像、社交网络特征对齐等方式实现用户关联效果较差,无法直接沿用明网中的关联方法,目前没有通用的暗网用户关联方式。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了一种基于图像特征的暗网站点用户关联方法。
本发明目的通过下述技术方案来实现:一种基于图像特征的暗网站点用户关联方法,包括以下步骤:
S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;
S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。
进一步地:所述步骤S1的具体步骤为:
S11、对暗网数据进行采集;
S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;
S13、根据暗网数据计算图像特征md5值;
S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。
进一步地:所述步骤S11具体为:针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。
进一步地:所述数据采集包括结构化的商品信息和商品详情页的图片数据,所述结构化的商品信息存储在结构化数据库中,所述图片数据存储在分布式文件存储系统中,同时将图片位置存储在结构化数据库中。
进一步地:所述步骤S14具体为:基于数据采集阶段和图像特征md5计算阶段获取的对应关系,推断出商品id和图像md5值的对应关系。
进一步地:所述步骤S2的具体步骤为:
S21、根据图像特征对用户进行聚类,针对每个图像特征,聚类出发布贴文中包含该图像的所有用户,得到聚类结果;
S22、遍历聚类结果,若图像特征对应多个用户,则构建多个用户间的关联关系;
S23、若关联关系已存在,则将关联关系存入结构化数据库中。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:
(1)本发明构建一种基于相似图像的暗网用户关联策略,可实现暗网用户关联,且关联准确率较高,可有效利用暗网中的图像模态信息。
(2)本发明通过暗网数据采集、图像特征计算、贴文关联、用户关联,可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
附图说明
图1是本发明架构图;
图2是本发明中图像特征生成流程图;
图3是本发明中关系数据样例图;
图4是本发明中基于图像特征的暗网用户关联流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,为使本发明实施例的目的、技术方案和优点更加清楚,下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,本发明要指出的是,本发明中,如未特别写出具体涉及的结构、连接关系、位置关系、动力来源关系等,则本发明涉及的结构、连接关系、位置关系、动力来源关系等均为本领域技术人员在现有技术的基础上,可以不经过创造性劳动可以得知的。
实施例1:
参考图1所示,本发明公开了一种基于图像特征的暗网站点用户关联方法,包括以下步骤:
S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;如图2所示。
S11、对暗网数据进行采集;
针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。采集内容包含结构化的商品信息和商品详情页面的图片数据,其中结构化的商品信息(字段包含商品名、商品发布者、商品描述等)存储在结构化数据库中;商品图像数据存储分布式文件存储系统中,同时将图像位置存储在结构化数据中,以便于商品和商品图像之间的关联。
S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;
S13、根据暗网数据计算图像特征md5值;
使用通用的md5计算方式,获取图像的md5值。除md5值之外,也可用其他图像特征来唯一标识图像。md5的方式可降低后续通过图像特征进行商品关联所需的计算资源。
S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。
数据采集阶段获取商品id和商品图像位置的对应关系,图像md5计算阶段获取图像商品位置和图像md5值的对应关系,基于数据采集阶段和图像md5计算阶段获取的对应关系,推断出商品id和图像md5值的对应关系,推断的关系数据样例如图3所示,数据以“,”为间隔,第一列为md5值,第二列为该图片对应的商品id。
S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。如图4所示。
S21、根据图像特征对用户进行聚类,针对每个图像特征,聚类出发布贴文中包含该图像的所有用户,得到聚类结果;
最终得到{“图像特征内容”:“bajia123”,“图像特征用户聚类结果”:[“4576485”,“798646”,“457646”]}结构的列表。
S22、遍历聚类结果,若图像特征对应多个用户,则构建多个用户间的关联关系;
“图像特征用户聚类结果”中包含的用户具备两两关联关系,最终得到关联关系结果:[(“4576485”,“798646”),(“798646”,“457646”),(“4576485”,“457646”)]
S23、若关联关系已存在,则将关联关系存入结构化数据库中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于图像特征的暗网站点用户关联方法,其特征在于,包括以下步骤:
S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;
S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。
2.根据权利要求1所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S1的具体步骤为:
S11、对暗网数据进行采集;
S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;
S13、根据暗网数据计算图像特征md5值;
S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。
3.根据权利要求2所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S11具体为:针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。
4.根据权利要求3所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述数据采集包括结构化的商品信息和商品详情页的图片数据,所述结构化的商品信息存储在结构化数据库中,所述图片数据存储在分布式文件存储系统中,同时将图片位置存储在结构化数据库中。
5.根据权利要求2所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S14具体为:基于数据采集阶段和图像特征md5计算阶段获取的对应关系,推断出商品id和图像md5值的对应关系。
6.根据权利要求1所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S2的具体步骤为:
S21、根据图像特征对用户进行聚类,针对每个图像特征,聚类出发布贴文中包含该图像的所有用户,得到聚类结果;
S22、遍历聚类结果,若图像特征对应多个用户,则构建多个用户间的关联关系;
S23、若关联关系已存在,则将关联关系存入结构化数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111430236.5A CN113849759A (zh) | 2021-11-29 | 2021-11-29 | 一种基于图像特征的暗网站点用户关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111430236.5A CN113849759A (zh) | 2021-11-29 | 2021-11-29 | 一种基于图像特征的暗网站点用户关联方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113849759A true CN113849759A (zh) | 2021-12-28 |
Family
ID=78982212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111430236.5A Pending CN113849759A (zh) | 2021-11-29 | 2021-11-29 | 一种基于图像特征的暗网站点用户关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849759A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114915599A (zh) * | 2022-07-19 | 2022-08-16 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
CN115001861A (zh) * | 2022-07-20 | 2022-09-02 | 中国电子科技集团公司第三十研究所 | 一种基于混合指纹特征的暗网服务异常检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715374A (zh) * | 2013-12-11 | 2015-06-17 | 世纪禾光科技发展(北京)有限公司 | 一种电子商务平台重复产品的治理方法和系统 |
CN106446969A (zh) * | 2016-12-01 | 2017-02-22 | 北京小米移动软件有限公司 | 用户识别的方法及装置 |
CN107679560A (zh) * | 2017-09-15 | 2018-02-09 | 广东欧珀移动通信有限公司 | 数据传输方法、装置、移动终端及计算机可读存储介质 |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN112202788A (zh) * | 2020-09-30 | 2021-01-08 | 上海交通大学 | 一种基于机器学习的暗网威胁预测系统 |
-
2021
- 2021-11-29 CN CN202111430236.5A patent/CN113849759A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715374A (zh) * | 2013-12-11 | 2015-06-17 | 世纪禾光科技发展(北京)有限公司 | 一种电子商务平台重复产品的治理方法和系统 |
CN106446969A (zh) * | 2016-12-01 | 2017-02-22 | 北京小米移动软件有限公司 | 用户识别的方法及装置 |
CN107679560A (zh) * | 2017-09-15 | 2018-02-09 | 广东欧珀移动通信有限公司 | 数据传输方法、装置、移动终端及计算机可读存储介质 |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN112202788A (zh) * | 2020-09-30 | 2021-01-08 | 上海交通大学 | 一种基于机器学习的暗网威胁预测系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114915599A (zh) * | 2022-07-19 | 2022-08-16 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
CN114915599B (zh) * | 2022-07-19 | 2022-11-11 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
CN115001861A (zh) * | 2022-07-20 | 2022-09-02 | 中国电子科技集团公司第三十研究所 | 一种基于混合指纹特征的暗网服务异常检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107690657B (zh) | 根据影像发现商户 | |
CN101133429B (zh) | 文档和/或图像检索方法、文档和/或图像存储设备和检索设备 | |
Dener | Financial management information systems and open budget data: do governments report on where the money goes? | |
CN101297318B (zh) | 用于混合介质文档系统的数据组织和访问 | |
CN113849759A (zh) | 一种基于图像特征的暗网站点用户关联方法 | |
CN110427374B (zh) | 茶叶信息查询方法、设备、存储介质及装置 | |
CN103177128A (zh) | 钞票冠字号信息的处理方法和系统 | |
US20140233837A1 (en) | Systems and methods for storing image properties for recreating an image | |
CN106779278A (zh) | 资产信息的评价系统及其信息的处理方法和装置 | |
US11397976B2 (en) | Durable memento method | |
US20140233835A1 (en) | Systems and methods for recreating an image using white space and check element capture | |
CN112541698A (zh) | 基于企业外部特征识别企业风险的方法和系统 | |
CN111882403A (zh) | 一种基于用户数据的金融服务平台智能推荐方法 | |
CN111062770B (zh) | 商户识别方法、设备及计算机可读介质 | |
CN109299234A (zh) | 一种信息查询方法、装置及计算机可读存储介质 | |
WO2020007141A1 (zh) | 线下商品信息查询方法、装置、设备及系统 | |
JPWO2007004521A1 (ja) | マーカ特定装置及びマーカ特定方法 | |
CN105741171A (zh) | 一种用于征信系统的人物特征图像处理方法及其征信系统 | |
CN112949601A (zh) | 一种电子账本关联凭证分析方法、装置及系统 | |
CN110348877B (zh) | 基于大数据的智能业务推荐算法、计算机可读存储介质 | |
CN112365248B (zh) | 一种分析数字货币交易路径的方法及系统 | |
Lin et al. | Automatic receipt recognition system based on artificial intelligence technology | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 | |
He et al. | Textile fabric defect detection based on improved faster R-CNN | |
CN1870020A (zh) | 利用协同模式完成需求物料搜集的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211228 |