CN110942391A - 在区块链中多活动标签用户的主要活动标签确定方法 - Google Patents
在区块链中多活动标签用户的主要活动标签确定方法 Download PDFInfo
- Publication number
- CN110942391A CN110942391A CN201911177066.7A CN201911177066A CN110942391A CN 110942391 A CN110942391 A CN 110942391A CN 201911177066 A CN201911177066 A CN 201911177066A CN 110942391 A CN110942391 A CN 110942391A
- Authority
- CN
- China
- Prior art keywords
- transaction
- user
- activity
- labels
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于区块链领域,具体为一种在区块链中对多活动标签用户的主要活动标签确定的方法。本发明方法包括四个主要步骤:1)筛选多活动标签用户交易构建内部交易集,基于过滤规则构建多活动标签用户单一活动的内部交易集;2)提取多活动标签用户的内部交易指标的特征值;3)基于熵权法计算各内部交易指标的权重;4)根据交易指标的权重和特征值共同确定多活动标签用户的主要活动标签。本方法的优点在于:通过熵权法基于多活动标签用户在多种活动中各项影响活动标签的指标的离散分布情况来确定不同指标的权重,并通过标准化操作确保各指标的特征值能够在同一维度下进行计算,量化用户的主要活动标签归属。
Description
技术领域
本发明属于区块链技术领域,具体涉及在区块链中对多活动标签用户的主要活动标签确定方法。
背景技术
区块链技术是比特币等新型数字货币的底层技术支撑,在以比特币为代表的平台中,全球有几千万的用户持有比特币进行交易,每天的平均交易量数额巨大,区块链技术要在分布式环境下保障可信交易,因此运用密码学技术对用户的具体信息进行隐藏,这使得基于这些匿名支付网络的数据分析成为一个有价值的研究课题。在数据分析过程中,对于网络画像和用户身份的确定是很重要的一项环节。在比特币平台场景下,我们针对用户的行为类型提出了五类社区的概念,作为某一社区的用户,该用户在社区内部的活动密集,而在社区外部的活动稀疏,即活动有着明显的边界。因此作为用户的主要活动标签,以该身份参与的交易量会比其他身份进行的交易量大。尤其对于多活动标签用户而言,在其主要活动所在社区内部的行为更加显著。
为了量化多活动标签用户的行为习惯活动并掌握其活动偏好并确定其主要活动标签,需要提出一个定量模型来探索多活动标签用户的主要活动标签。目前未有人提出在区块链中对多活动标签用户主要活动标签确定的方法,多数只是对用户的身份基于机器学习方法进行预测,可能存在数据偏见等问题,并且区块链平台中的数据集格式差异较大,不能形成统一的方法,因此本发明对数据集中研究的条目进行了规范化处理。
发明内容
本发明的目的在于提出一种在区块链中对多活动标签用户主要活动标签的确定方法,以便于量化区块链中多活动标签用户的主要活动标签,即用户的行为模式和偏好。
本发明提出的多活动标签用户的主要活动标签确定方法,在一定时间窗口内,对用户的交易数据根据其已有标签进行社区内、外部交易进行区分,并对内部交易进行特征提取;基于信息熵模型定量评估用户的活动,在比特币区块链平台中,特别考虑两个指标:交易金额和交易时间间隔,经熵权法计算各指标所占的比重,并结合指标的标准化特征值,确定多活动标签用户的不同标签的得分高低,分数最高者即为用户在一定时间内的主要活动标签。
本发明中,首先定义用户的具体信息(用户对应的交易、交易金额、交易时间戳),并基于熵权法确定身份标签中多重指标的权重,结合指标的标准化数值,对多活动标签用户的主要身份进行确定。
本发明提供的在区块链中多活动标签用户的主要活动标签确定方法,具体步骤如下。
步骤一、过滤多活动标签用户的交易集,保留内部交易;
用户是具有多重活动标签的,标签由用户所在的社区和参与活动其中扮演的角色共同确定,即标签反映了用户所在的社区和在社区中扮演的角色。
本发明中定义了社区中的内部交易和外部交易,其中内部交易反映的是用户在社区内部的交易活动,外部交易指的是社区之间的交易活动。本发明中只考虑内部交易作为判断多活动标签用户主要活动标签的依据。
区块链中的社区类型有多种,本发明仅列举最常见的五类进行说明,包括暗网社区、交易所社区、赌博社区、矿工社区、服务商社区,每个社区又有组织者和参与者之分,共十种标签。对于区块链中的其它社区,其对应的组织者和参与者标签也可以按照同样的方式进行处理。
本发明中,对于一个多活动标签用户,根据下述两条规则来过滤多活动标签用户交易集合中的交易数据,得到该多活动标签用户对应在交易集中的社区标签的内部交易集。
本发明具体提出了在根据多活动标签用户的标签选取内部交易时的规则,设多活动标签用户为U,其拥有的标签为a:
规则1:用户U作为付款方(交易输入),且收款方(交易输出)的用户集合中必须存在以a为唯一标签的用户;
规则2:用户U作为收款方,且在付款方用户包含标签a的情况下,用户U属于输出用户集合且该集合中其他用户必须全为以a为唯一标签的用户。
步骤二、提取内部交易特征
以步骤一中提到的用户U和标签a为例进行说明:
按照每个活动标签,将用户内部交易集中相应的交易按照时间戳的大小进行排序。将时间戳最小的交易的相对时间记为零,并将随后其他交易的时间戳分别与前一交易的时间戳作差,将原本每条交易的时间戳转换为与相邻(前序)交易的交易时间间隔。
将交易金额和交易时间间隔作为多活动标签用户的每个标签的特征。
步骤三、基于熵权法计算交易金额序列和交易时间间隔序列指标的权重
(1)将标签特征中的交易金额和交易时间间隔序列进行标准化处理,即序列的绝对值转化为[0,1]范围内的相对值;其中,金额序列按照正向指标来处理,时间间隔序列按负向指标处理;
(2)计算交易金额指标序列和交易时间间隔指标序列中每项数据占该指标的比重;
(4)计算交易金额指标序列和交易时间间隔指标序列的熵值;
(5)计算交易金额指标序列和交易时间间隔指标序列的信息熵冗余度,其中,差异度越大代表该指标对评价参考依据越重;
(6)计算交易金额指标和交易时间间隔各指标的权重,将得到用户所有身份标签下交易金额序列和交易时间间隔指标的权重。
步骤四、对用户的主要活动标签进行判断
在本步骤中,根据步骤三得到的多活动标签用户的交易金额和交易时间间隔两个指标的权重,与相应的标准化后的交易时间总和以及标准化后的平均时间间隔进行加权求和,构成多活动标签用户的不同标签的得分。对多活动标签用户的所有标签的得分进行排序,分数最高的标签即为用户的主要活动标签。
本发明方法可以对多活动标签的用户进行唯一身份或主要身份的确定,由于用户的身份候选标签经由外部数据的收集已经确定,因此降低了实现难度。
本发明提出的技术方案是易于实现的,通过约束条件和简化来降低对复杂算法的依赖。
本发明提出的区块链下的多活动标签用户的主要活动标签确定方法,除了可以直接用在比特币平台上,其相应的计算方法也可为其它支付网络中的多活动标签用户主要活动标签确定方案提供参考,通过自定义修改标签的形式,即可设计出针对不同支付网络的多活动标签用户的主要活动标签确定方案。
附图说明
图1为本发明的流程图。其中,其中横向箭头表示整个方法的流程;纵向箭头中的虚线箭头表示某一步骤中所用的关键方法,实线箭头表示某一步骤中的输出数据。
具体实施方式
下面通过实施例对本发明作进一步详细说明。但本发明的作用范围不限于下述的实施例。
在本发明实施例中,选取比特币网络中多活动标签用户进行主要活动标签的确定。由于不同领域下用户的标签有所不同,因此这里以比特币网络中最常见的基本标签为例,这些基本标签包括暗网活动社区(d)、交易所活动社区(e)、赌博活动社区(g)、矿工活动社区(m)、服务商活动社区(s),其中每个标签又为组织者(o)和参与者(p)。用户实际被标注的标签是两种标签的组合,如赌博活动参与者(gp)、暗网活动组织者(do)等。随机选取一个多活动标签用户,来展示其主要活动标签的确定过程中的每一步结果。
1.输入数据的预处理
主要活动标签待确定的目标用户U(gp,dp),其他相关用户为A(gp,dp,ep),B(gp),C(dp),D(dp,sp),E(gp,mp),F(gp)。
与目标用户U相关的交易为表1中所示(为使表示更清晰,只保留后续要用到的交易字段),交易金额按顺序分别与交易输出中的用户相对应。用户的主要活动标签是基于一定时间段的,在本实施例中将时间窗口定义为7天,即用户的交易数据的时间跨度为七天。在使用本方法时,时间窗口的长度可根据需求自行定义。真实情况下交易金额都精确到小数点后八位,在本实施例中为增加可读性及表示方便,均以四位小数的金额示例进行说明。小数点位数的保留可根据需要进行调整,不影响本方法的整体有效性。
表1用户U在时间窗口内的交易数据。
2.对用户U相关的交易进行过滤,即将输入方的标签中非五类社区之中的交易进行剔除。由表1可得用户U相关的交易集TX={①,②,③,④,⑤,⑥,⑦,⑧,⑨}。
3.对用户U的交易集TX进行过滤,仅保留用户不同身份标签的社区下的内部交易,过滤规则如下:
规则1:用户U作为付款方(交易输入),且收款方(交易输出)的用户集合中必须存在以gp为唯一标签的用户;
规则2:用户U作为收款方(交易输出),且在交易输入用户包含gp标签的情况下,用户U属于输出用户集合且该集合中其他用户必须全为以gp为唯一标签的用户;
根据上述两条规则,对每项交易判断其是否为内部交易,构成用户U的不同标签Ti下的内部交易集IA-Ti:
对于用户U中的标签gp,其内部交易集IA-gp为:{①,②,⑦,⑨};
交易编号 | 交易输入 | 交易输出 | 交易金额(BTC) | 交易时间戳(秒) |
3 | U | B | 3.50000000 | 1500120630 |
② | U | B | 0.00600000 | 1500129372 |
⑦ | E | U | 1.65000000 | 1500433360 |
⑨ | A | U | 1.48600000 | 1500664540 |
表2标签gp对应社区的内部交易集IA-gp
对于用户U中的标签dp,其内部交易集IA-dp为:{②,④,⑥,⑧};
交易编号 | 交易输入 | 交易输出 | 交易金额 | 交易时间戳(秒) |
① | U | C | 0.09000000 | 1500120630 |
② | D | U | 13.68700000 | 1500151528 |
⑥ | A | U | 0.32000000 | 1500391964 |
⑧ | U | C | 1.98000000 | 1500650159 |
表3标签dp对应社区的内部交易集IA-dp。
4.提取不同标签的内部交易特征
将不同标签下的内部交易中的交易金额和交易时间戳进行提取,结果如表4和表5所示:
表4
表5
在每个标签下,对所有交易按照交易时间戳进行排序,每个标签下的第一笔交易默认相对时间为0,分别计算当前交易与上一笔交易的时间间隔,结果如表6和表7所示:
表6
表7。
5.基于熵权法计算交易金额指标和交易时间间隔指标的权重
(1)提取交易特征中的所有交易金额和时间间隔,产生对应的金额序列和时间间隔序列:
表8
(2)对数据序列标准化,计算公式如下:
交易金额序列作为正向指标:
交易时间间隔序列作为负向指标:
其中,i表示每条指标中的数据项,i=1,...,n;j表示指标V和F;
因此对用户U的不同标签下的交易金额序列和交易时间间隔序列进行归一化处理后,结果如表9所示(均保留六位小数):
表9
(3)计算指标序列中,每项数据占该指标的比重pij(均保留三位小数),计算公式如下:
计算结果为表10所示:
表10
(4)计算各指标序列的熵值ej,公式如下:
其中,k=1/ln(n)>0.满足ej≥0;
计算结果为表11所示:
表11
(5)计算信息熵冗余度dj,公式如下:
dj=1-ej,j∈{V,F} (5)
计算结果为表12所示:
交易金额序列信息熵冗余度d<sub>V</sub> | 交易时间间隔序列信息熵冗余度d<sub>V</sub> |
0.305871 | 0.163896 |
表12
(6)计算各指标的权重wj,公式如下:
计算结果为表13所示:
交易金额指标权重w<sub>V</sub> | 交易时间间隔序列权重w<sub>F</sub> |
0.651112 | 0.348888 |
表13。
6.主要活动标签确定
计算用户各标签最终得分,其中E为标准化后的特征值(金额序列标准化的总额和时间间隔序列标准化的平均值),w为指标的权重。计算各标签的最终得分。各标签的最终得分fs的计算公式如下:
对于用户U(gp,dp),其标准化特征值和权重如表14所示:
标签 | E<sub>iV</sub> | w<sub>V</sub> | E<sub>iF</sub> | w<sub>V</sub> |
gp | 1.895000 | 0.651112 | 0.568000 | 0.348888 |
dp | 1.156000 | 0.651112 | 0.487000 | 0.348888 |
表14
计算标签gp和dp的最终得分排序结果如下,如表15所示:
标签 | 最终得分fs |
gp | 1.432026 |
dp | 0.922593 |
表15。
7.输出结果
多活动标签用户U(gp,dp)在一周内的主要活动标签为gp,即赌博社区参与者。
Claims (3)
1.一种在区块链中多活动标签用户的主要活动标签确定方法,其特征在于,具体步骤为:
步骤一、过滤多活动标签用户的交易集,保留内部交易;
用户是具有多重活动标签的,标签由用户所在的社区和参与活动其中扮演的角色共同确定,即标签反映用户所在的社区和在社区中扮演的角色;
社区中活动分为内部交易和外部交易;内部交易反映的是用户在社区内部的交易活动,外部交易指的是社区之间的交易活动;只考虑内部交易作为判断多活动标签用户主要活动标签的依据;
步骤二、提取内部交易特征
按照每个活动标签,将用户内部交易集中相应的交易按照时间戳的大小进行排序;将时间戳最小的交易的相对时间记为零,并将随后其他交易的时间戳分别与前一交易的时间戳作差,将原本每条交易的时间戳转换为与相邻交易的交易时间间隔;
将交易金额和交易时间间隔作为多活动标签用户的每个标签的特征;
步骤三、基于熵权法计算交易金额序列和交易时间间隔序列指标的权重;具体流程为:
(1)将标签特征中的交易金额和交易时间间隔序列进行标准化处理,即将序列的绝对值转化为[0,1]范围内的相对值;其中,金额序列按照正向指标来处理,时间间隔序列按负向指标处理;
(2)计算交易金额指标序列和交易时间间隔指标序列中每项数据占该指标的比重;
(4)计算交易金额指标序列和交易时间间隔指标序列的熵值;
(5)计算交易金额指标序列和交易时间间隔指标序列的信息熵冗余度,其中,差异度越大代表该指标对评价参考依据越重;
(6)计算交易金额指标和交易时间间隔各指标的权重,将得到用户所有身份标签下交易金额序列和交易时间间隔指标的权重;
步骤四、对用户的主要活动标签进行判断
根据步骤三得到的多活动标签用户的交易金额和交易时间间隔两个指标的权重,与相应的标准化后的交易时间总和以及标准化后的平均时间间隔进行加权求和,构成多活动标签用户的不同标签的得分;对多活动标签用户的所有标签的得分进行排序,分数最高的标签即为用户的主要活动标签。
2.根据权利要求1所述的在区块链中多活动标签用户的主要活动标签确定方法,其特征在于,步骤一中,对于区块链中的社区类型选择五种:暗网社区、交易所社区、赌博社区、矿工社区、服务商社区,每个社区又有组织者和参与者之分,共有十种标签。
3.根据权利要求1所述的在区块链中多活动标签用户的主要活动标签确定方法,其特征在于,步骤一中,对于一个多活动标签用户,根据下述规则过滤多活动标签用户交易集合中的交易数据,得到该多活动标签用户对应在交易集中的社区标签的内部交易集;
设多活动标签用户为U,其拥有的标签为a:
规则1:用户U作为付款方即交易输入,且收款方即交易输出的用户集合中必须存在以a为唯一标签的用户;
规则2:用户U作为收款方,且在付款方用户包含标签a的情况下,用户U属于输出用户集合且该集合中其他用户必须全为以a为唯一标签的用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177066.7A CN110942391A (zh) | 2019-11-26 | 2019-11-26 | 在区块链中多活动标签用户的主要活动标签确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177066.7A CN110942391A (zh) | 2019-11-26 | 2019-11-26 | 在区块链中多活动标签用户的主要活动标签确定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110942391A true CN110942391A (zh) | 2020-03-31 |
Family
ID=69908954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911177066.7A Pending CN110942391A (zh) | 2019-11-26 | 2019-11-26 | 在区块链中多活动标签用户的主要活动标签确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942391A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766697A (zh) * | 2021-01-13 | 2021-05-07 | 上海源庐加佳信息科技有限公司 | 基于区块链系统的社区活跃度指数获取方法、系统、介质、终端 |
CN112784116A (zh) * | 2020-12-10 | 2021-05-11 | 复旦大学 | 一种在区块链中识别用户行业身份的方法 |
-
2019
- 2019-11-26 CN CN201911177066.7A patent/CN110942391A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784116A (zh) * | 2020-12-10 | 2021-05-11 | 复旦大学 | 一种在区块链中识别用户行业身份的方法 |
CN112766697A (zh) * | 2021-01-13 | 2021-05-07 | 上海源庐加佳信息科技有限公司 | 基于区块链系统的社区活跃度指数获取方法、系统、介质、终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Svabova et al. | Business failure prediction for Slovak small and medium-sized companies | |
US20180260891A1 (en) | Systems and methods for generating and using optimized ensemble models | |
US8032448B2 (en) | Detecting and measuring risk with predictive models using content mining | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
Cheng et al. | Financial distress prediction by a radial basis function network with logit analysis learning | |
CN110502638B (zh) | 一种基于目标实体的企业新闻风险分类方法 | |
US11423442B2 (en) | Method and system for predicting relevant offerings for users of data management systems using machine learning processes | |
Dincer et al. | The architecture and governance of financial supervision: Sources and implications | |
CN113095927A (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN104951843B (zh) | 销量预测系统及方法 | |
Naeem et al. | Machine learning-based USD/PKR exchange rate forecasting using sentiment analysis of Twitter data | |
CN110942391A (zh) | 在区块链中多活动标签用户的主要活动标签确定方法 | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
CN115759640A (zh) | 一种智慧城市的公共服务信息处理系统及方法 | |
Ma et al. | Early warning for internet finance industry risk: an empirical investigation of the P2P companies in the coastal regions of China | |
Kochaniak et al. | Risk-intolerant but risk-taking—towards a better understanding of inconsistent survey responses of the euro area households | |
CN112784116A (zh) | 一种在区块链中识别用户行业身份的方法 | |
Yangyudongnanxin | Financial credit risk control strategy based on weighted random forest algorithm | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
Harris et al. | Using real-world transaction data to identify money laundering: Leveraging traditional regression and machine learning techniques | |
CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN115587828A (zh) | 一种基于Shap值的电信欺诈场景的可解释方法 | |
CN113610638B (zh) | 基于smaa-ds的信用等级与违约损失率相匹配的评级系统及方法 | |
Lu et al. | Predicting P2P lenders' decisions: the prospect theory approach | |
RU2710830C1 (ru) | Способ автоматизированного обеспечения рекомендаций по принятию инвестиционно значимых решений на рынке цифровых активов и устройство для его осуществления |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |