CN113111935B - 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法 - Google Patents

一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法 Download PDF

Info

Publication number
CN113111935B
CN113111935B CN202110372411.3A CN202110372411A CN113111935B CN 113111935 B CN113111935 B CN 113111935B CN 202110372411 A CN202110372411 A CN 202110372411A CN 113111935 B CN113111935 B CN 113111935B
Authority
CN
China
Prior art keywords
transaction
data
clustering
data point
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110372411.3A
Other languages
English (en)
Other versions
CN113111935A (zh
Inventor
蒋嶷川
华名慧
柳天祎
狄凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110372411.3A priority Critical patent/CN113111935B/zh
Publication of CN113111935A publication Critical patent/CN113111935A/zh
Application granted granted Critical
Publication of CN113111935B publication Critical patent/CN113111935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,所述方法用于判断两个交易主体是否为相同交易主体,所述方法包括:对于实时到来的交易数据基于交易品种、交易时间和交易规模进行实时聚类;基于聚类结果中相同簇中的相似交易比例获得两个交易主体的交易相似度;若所述交易相似度大于相似度阈值,则判定所述两个交易主体是同一交易主体,本发明解决了传统的基于交易主体的注册信息判定相同主体的方法难以应用在大宗商品跨平台交易情景的问题,有效利用交易信息,聚集相似交易,实现从相似交易角度进行相同主体判定。

Description

一种大宗商品电子商务市场中基于交易数据实时聚类的相同 交易主体判定方法
技术领域
本发明属于大宗商品电子商务数据处理技术领域,尤其涉及一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法。
背景技术
近年来大宗商品电子商务市场由恶意主体导致的风险事件频发,呈现高隐蔽、有组织的趋势,现有研究由于缺乏平台间有效的数据共享、缺少异构数据耦合建模,导致市场主体跨平台行为、跨交易行为关联分析能力弱,缺乏系统性挖掘和评价主体信用的能力。
由于交易主体跨平台行为主要通过在多个平台进行相应交易操作,实现跨平台关联交易。然而,利用现有方法很难直接将同一交易主体在不同交易平台上的交易数据关联起来。同时,同一交易主体在不同平台的交易行为通常会具有高度的相似性,这些交易记录会集中于某一交易品种,具有相似甚至相同的交易周期,交易数量或交易金额会十分相近。针对这种情况,针对这种情况,我们希望能够将这些具有相似性的交易记录聚到一起,基于交易聚类,将不同平台的交易主体确定为同一个交易主体,将所述同一交易主体在不同交易平台的交易数据关联到一起。
发明内容
技术问题:
本发明的目的是提出一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,该方法对于实时到来的交易数据,基于交易品种、交易时间和交易规模进行实时聚类;基于聚类结果获得两个交易主体的交易相似度;若所述交易相似度大于相似度阈值,则确定所述两个交易主体是同一交易主体。
技术方案:在大宗商品电子商务场景下,交易主体会在不同的大宗商品电子交易平台进行相应的交易操作;因此我们将不同交易平台的交易主体确定为同一个交易主体,将同一交易主体在不同交易平台的所有的交易数据关联到一起,对于监管部门或交易平台进行有效监管有着至关重要的影响。该方法的主要技术方案如下:
一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,所述方法用于根据交易数据判断两个交易主体是否属于同一个交易主体,所述方法包括以下步骤:
(1)获得交易数据;
(2)蒋交易数据标准化处理;
(3)采用基于快速搜索与密度峰值的聚类方法,将交易数据进行实时聚类,得到交易聚类结果;
(4)基于聚类结果中的相似交易比例,计算两个交易主体的交易相识度;
(5)若交易相识度大于相似度阈值,则判定两个交易主体是同一交易主体。
作为本发明的一种优选方案,所述步骤(3)中基于交易数据的特征,选择基于快速搜索与密度峰值的聚类算法(CFSFDP)进行实时聚类,将相似高的交易分到相同的簇类,将相似度较低的交易分到不同的簇类。
作为本发明的一种优选方案,所述步骤(3)中聚类方法将交易记录看作数据点,i= 1,2,…,m表示m个交易,选取每笔交易的交易价格和交易数量进行标准化,将交易转化为二维平面上的数据点,其中标准化后的交易价格作为横坐标,标准化后的交易数量作为纵坐标。
作为本发明的一种优选方案,所述步骤(3)中所述聚类方法首先需要确定数据集的聚类中心。其特征在于需要计算数据点i的局部密度ρi和它与局部密度比其高的数据点之间的距离δi,算法根据数据点距离δi与数据点的局部密度ρi绘制决策图,将δi值大且ρi值较大的点作为簇的聚类中心。
作为本发明的一种优选方案,所述计算数据点i的局部密度ρi和它与局部密度比其高的数据点之间的距离δi,包括,首先用欧氏距离公式计算数据点i与数据点j之间的距离dij;其次定义数据点i的局部密度ρi
其中/>
其中δij为数据点之间的距离,dc为截断距离即距离阈值。使用该计算方式得到的数据点的局部密度ρi通常等于该数据点周围与之距离小于dc的数据点的个数,因此可以得出这样的结论:与数据点xi的距离小于dc的点越多,得到的局部密度P;就越大。定义数据点i与局部密度比其高的数据点之间的距离δi
数据点与局部密度比其高的数据点之间的距离δi是通过计算数据点i与比该数据点局部密度ρi高的其他数据点的距离得到的,一般而言,数据点与局部密度比其高的数据点之间的距离δi为数据点i与比该数据点局部密度ρi更高的其他数据点的所有距离中的最小值,但对于局部密度ρi最高的点,数据点之间的距离δi取与其他数据点与之距离的最大值。
作为本发明的一种优选方案,所述聚类方法需要将数据点划分到对应簇类中,其特征在于在确定数据集的聚类中心之后需要做的便将剩余非聚类中心的数据点按照局部密度ρi从大到小一次划分到局部密度比其高且与之距离最近的数据点所在的簇中。
作为本发明的一种优选方案,所述步骤(4)中根据两个交易主体的交易数据在聚类结果中的分布情况,计算所述两个交易主体的交易相似度。假设我们得到了n个簇类,交易主体 A和B各有交易记录,分布在这n个簇类中,计算交易主体A与B的交易相似度
其中ak、bk表示交易主体A、B划分在第k个簇类中的交易数量,分别表示交易主体A、B划分到n簇类中的交易数量的平均值。
有益效果:弥补传统方法的缺陷,助力发现相同交易主体的操纵行为,有效利用交易信息,聚集相似交易,实现从相似交易角度进行相同主体判定,弥补了恶意主体利用不同公司信息注册交易账户时传统方法难以判别的缺陷,同时聚集交易主体间的相似交易行为,可以挖掘交易主体间的关联,从而有效地发现相同交易主体的市场操纵行为。
附图说明
图1是本发明方法的主要原理图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,所述方法用于根据交易数据判断两个交易主体是否属于同一个交易主体,所述方法包括以下步骤:
(1)获得交易数据;
(2)蒋交易数据标准化处理:对于实时发生的交易数据,将交易数据转化为数据点,i= 1,2,…,m表示m个交易,选取每笔交易的交易价格和交易数量进行标准化,标准化后的交易价格作为横坐标,标准化后的交易数量作为纵坐标‘’
(3)采用基于快速搜索与密度峰值的聚类方法,将交易数据进行实时聚类,得到交易聚类结果;
选择基于快速搜索与密度峰值的聚类算法(CFSFDP)进行实时聚类,CFSFDP算法进行聚类时首先需要确定数据集的聚类中心,对于一个给定的数据集,CFSFDP算法需要为数据集内的每个数据点计算两个量化值:数据点的局部密度ρi和它与局部密度比其高的数据点之间的距离δi。首先用欧氏距离公式计算数据点i与数据点j之间的距离为dij。使用截断核计算局部密度ρi的方式如下所示:
其中/>
其中δij为数据点之间的距离,dc为截断距离即距离阈值。使用该计算方式得到的数据点的局部密度ρi通常等于该数据点周围与之距离小于dc的数据点的个数,因此可以得出这样的结论:与数据点xi的距离小于dc的点越多,得到的局部密度P;就越大。数据点与局部密度比其高的数据点之间的距离δi是通过计算数据点i与比该数据点局部密度ρi高的其他数据点的距离得到的,数据点之间的距离或可以根据以下公式计算得到:
一般而言,数据点与局部密度比其高的数据点之间的距离δi为数据点i与比该数据点局部密度ρi更高的其他数据点的所有距离中的最小值,但对于局部密度ρi最高的点,数据点之间的距离δi取与其他数据点与之距离的最大值。CFSFDP算法根据数据点距离δi与数据点的局部密度ρi绘制决策图,通过使用决策图人工辅助选取数据集的聚类中心,CFSFDP算法将δi值大且ρi值较大的点作为簇的聚类中心,在确定数据集的聚类中心之后需要做的便将剩余非聚类中心的数据点按照局部密度ρi从大到小一次划分到局部密度比其高且与之距离最近的数据点所在的簇中。
(4)基于聚类结果中的相似交易比例,计算两个交易主体的交易相识度;
(5)若交易相识度大于相似度阈值,则判定两个交易主体是同一交易主体。
基于聚类结果度量交易主体的交易相似度。假设我们得到了n个簇类,交易主体A和 B各有交易记录,分布在这n个簇类中,计算交易主体A与B的交易相似度
其中ak、bk表示交易主体A、B划分在第k个簇类中的交易数量,分别表示交易主体A、B划分到n簇类中的交易数量的平均值。如果交易相似度高于阈值,判断为相同交易主体。

Claims (5)

1.一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,其特征在于:所述方法用于根据交易数据判断两个交易主体是否属于同一个交易主体,所述方法包括以下步骤:
(1)获得交易数据;
(2)将交易数据标准化处理;
(3)采用基于快速搜索与密度峰值的聚类方法,将交易数据进行实时聚类,得到交易聚类结果;所述步骤(3)中所述聚类方法首先需要确定数据集的聚类中心;其特征在于需要计算数据点i的局部密度ρi和它与局部密度比其高的数据点之间的距离δi,算法根据数据点距离δi与数据点的局部密度ρi绘制决策图,将δi值大且ρi值较大的点作为簇的聚类中心;
所述计算数据点i的局部密度ρi和它与局部密度比其高的数据点之间的距离δi,包括,首先用欧氏距离公式计算数据点i与数据点j之间的距离dij;其次定义数据点i的局部密度ρi
其中dij为数据点之间的距离,dc为截断距离即距离阈值;使用该计算方式得到的数据点的局部密度ρi通常等于该数据点周围与之距离小于dc的数据点的个数,因此得出这样的结论:与数据点xi的距离小于dc的点越多,得到的局部密度ρi就越大;定义数据点i与局部密度比其高的数据点之间的距离δi
数据点与局部密度比其高的数据点之间的距离δi是通过计算数据点i与比该数据点局部密度ρi高的其他数据点的距离得到的,一般而言,数据点与局部密度比其高的数据点之间的距离δi为数据点i与比该数据点局部密度ρi更高的其他数据点的所有距离中的最小值,但对于局部密度ρi最高的点,数据点之间的距离δi取与其他数据点与之距离的最大值;
(4)基于聚类结果中的相似交易比例,计算两个交易主体的交易相识度;
(5)若交易相识度大于相似度阈值,则判定两个交易主体是同一交易主体。
2.根据权利要求1所述的大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,其特征在于:所述步骤(3)中基于交易数据的特征,选择基于快速搜索与密度峰值的聚类算法(CFSFDP)进行实时聚类,将相似高的交易分到相同的簇类,将相似度较低的交易分到不同的簇类。
3.根据权利要求2所述的大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,其特征在于:所述步骤(3)中聚类方法将交易记录看作数据点,i=1,2,…,m表示m个交易,选取每笔交易的交易价格和交易数量进行标准化,将交易转化为二维平面上的数据点,其中标准化后的交易价格作为横坐标,标准化后的交易数量作为纵坐标。
4.根据权利要求1所述的大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,其特征在于:所述聚类方法需要将数据点划分到对应簇类中,在确定数据集的聚类中心之后需要做的便将剩余非聚类中心的数据点按照局部密度ρi从大到小一次划分到局部密度比其高且与之距离最近的数据点所在的簇中。
5.根据权利要求1所述的大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,其特征在于:所述步骤(4)中根据两个交易主体的交易数据在聚类结果中的分布情况,计算所述两个交易主体的交易相似度;假设我们得到了n个簇类,交易主体A和B各有交易记录,分布在这n个簇类中,计算交易主体A与B的交易相似度
其中ak、bk表示交易主体A、B划分在第k个簇类中的交易数量,分别表示交易主体A、B划分到n簇类中的交易数量的平均值。
CN202110372411.3A 2021-04-07 2021-04-07 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法 Active CN113111935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110372411.3A CN113111935B (zh) 2021-04-07 2021-04-07 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110372411.3A CN113111935B (zh) 2021-04-07 2021-04-07 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法

Publications (2)

Publication Number Publication Date
CN113111935A CN113111935A (zh) 2021-07-13
CN113111935B true CN113111935B (zh) 2024-04-09

Family

ID=76714471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110372411.3A Active CN113111935B (zh) 2021-04-07 2021-04-07 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法

Country Status (1)

Country Link
CN (1) CN113111935B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628536B (zh) * 2023-07-26 2023-10-31 杭州易靓好车互联网科技有限公司 一种汽车在线交易数据处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087134A (zh) * 2018-07-24 2018-12-25 上海保资智能科技有限公司 时间分段决策方法、装置、介质及设备
CN110781971A (zh) * 2019-10-31 2020-02-11 支付宝(杭州)信息技术有限公司 一种商户类型识别方法、装置、设备和可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087134A (zh) * 2018-07-24 2018-12-25 上海保资智能科技有限公司 时间分段决策方法、装置、介质及设备
CN110781971A (zh) * 2019-10-31 2020-02-11 支付宝(杭州)信息技术有限公司 一种商户类型识别方法、装置、设备和可读介质

Also Published As

Publication number Publication date
CN113111935A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
WO2019214248A1 (zh) 一种风险评估方法、装置、终端设备及存储介质
WO2015085916A1 (zh) 数据挖掘方法
WO2020220758A1 (zh) 一种异常交易节点的检测方法及装置
WO2012018968A1 (en) Method and system for quantifying and rating default risk of business enterprises
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN111340086A (zh) 无标签数据的处理方法、系统、介质及终端
CN110895758A (zh) 存在作弊交易的信用卡账户的筛选方法、装置及系统
CN113111935B (zh) 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
TW201503029A (zh) 計算企業拖欠帳款機率之技術
CN112926592B (zh) 一种基于改进Fast算法的商标检索方法及装置
CN108090635B (zh) 一种基于聚类分类的路用性能预测方法
CN112329862A (zh) 基于决策树的反洗钱方法及系统
CN106779843B (zh) 一种基于客户群体特征的商户竞合关系分析的方法和装置
CN116739795A (zh) 基于知识图谱的保险风险评估方法、装置和电子设备
CN110837853A (zh) 一种快速分类模型构建方法
Kostić et al. Data mining and modeling use case in banking industry
CN112200272B (zh) 业务分类方法及装置
CN115081950A (zh) 企业成长性评估建模方法、系统、计算机及可读存储介质
CN108629506A (zh) 风控模型的建模方法、装置、计算机设备和存储介质
KR102266950B1 (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
CN114398942A (zh) 一种基于集成的个人所得税异常检测方法及装置
CN114201999A (zh) 异常账号的识别方法、系统、计算设备及存储介质
CN110570301A (zh) 风险识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant