CN111553726A - 一种基于hmm的刷单预测系统及方法 - Google Patents

一种基于hmm的刷单预测系统及方法 Download PDF

Info

Publication number
CN111553726A
CN111553726A CN202010322827.XA CN202010322827A CN111553726A CN 111553726 A CN111553726 A CN 111553726A CN 202010322827 A CN202010322827 A CN 202010322827A CN 111553726 A CN111553726 A CN 111553726A
Authority
CN
China
Prior art keywords
detected
hmm
commodity
time
hmm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010322827.XA
Other languages
English (en)
Other versions
CN111553726B (zh
Inventor
高娜
韩德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202010322827.XA priority Critical patent/CN111553726B/zh
Publication of CN111553726A publication Critical patent/CN111553726A/zh
Application granted granted Critical
Publication of CN111553726B publication Critical patent/CN111553726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于HMM的刷单预测方法,包含步骤:S1、通过获取t时刻第一至第μ待检测商品的信息数据,将t=0时刻的信息数据作为第一数据集,其余信息数据构成第二数据集,为第一数据集的待检测商品设置是否刷单的标签;S2、根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;S4、优化所述初始HMM模型,生成最终的HMM模型;S5、通过最终的HMM模型预测1≤t≤T时刻第二数据集内待检测商品的刷单结果。本发明还包含一种基于HMM的刷单预测系统。

Description

一种基于HMM的刷单预测系统及方法
技术领域
本发明涉及机器学习和电子商务技术领域,特别涉及一种基于HMM的刷单预测系统及方法。
背景技术
随着我国互联网经济的快速发展,网购因其方便、快捷、经济等优点得到广大消费者的青睐。与此同时,由于网络交易虚拟化的特征,刷单已经成为网络购物的普遍问题。所谓“刷单”是指网店经营者雇佣专业从事网店信誉提升的刷单平台,用虚假的购物方式提高店铺的信誉、销量及排名,来吸引消费者的行为。消费者在不知情的情况下,会首选这些“信誉好”的店铺,导致利益受损。
由于相关监管部门难以实时监察海量网购订单,因此迫切需要一种自动化的识别刷单的系统及方法。
发明内容
本发明的目的是提供一种基于HMM的刷单预测系统及方法,本发明根据自动收集网购商品的信息建立HMM模型模型,并根据优化后的HMM模型及时准确的预测网购商品是否为刷单商品。
为了达到上述目的,本发明提供一种基于HMM的刷单预测系统,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
所述基于HMM的刷单预测系统,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。
所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
一种基于HMM的刷单预测方法,采用本发明的基于HMM的刷单预测系统实现的,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure BDA0002462083860000021
其中,i∈[1,μ],k∈[1,9];
Figure BDA0002462083860000022
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure BDA0002462083860000023
生成第一至第六特征率
Figure BDA0002462083860000024
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure BDA0002462083860000025
Figure BDA0002462083860000031
S23、采用正规化方法,将
Figure BDA0002462083860000032
进行标准化;
S24、根据标准化后的
Figure BDA0002462083860000033
计算得到对应的特征组合值
Figure BDA0002462083860000034
为标准化后的
Figure BDA0002462083860000035
的权重。
步骤S24中,通过熵值法计算得到
Figure BDA0002462083860000036
具体包含:
S241、计算第j特征率的熵值
Figure BDA0002462083860000037
其中
Figure BDA0002462083860000038
j∈[1,6];k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure BDA0002462083860000039
S243、第j特征率的权重
Figure BDA00024620838600000310
步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态
Figure BDA00024620838600000311
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure BDA00024620838600000312
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure BDA00024620838600000313
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure BDA00024620838600000314
其中
Figure BDA00024620838600000315
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure BDA0002462083860000041
Figure BDA0002462083860000042
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure BDA0002462083860000043
πm (τ)=γ1(m);
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
步骤S5具体包含:
S51、令
Figure BDA0002462083860000044
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure BDA0002462083860000045
Figure BDA0002462083860000051
1≤t≤T,1≤m≤2;
S54、终止:
Figure BDA0002462083860000052
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,...,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
本发明与现有技术相比,具有以下有益效果:
(1)本发明自动化程度高,能够自动收集网上销售商品的信息数据,并识别该商品是否为刷单商品。解决了现有技术中,由于每天网上商品订单量巨大,无法及时发现异常订单的问题。
(2)本发明采用HMM模型得到基于时间序列的刷单结果,对商品异常订单的检测具有实时性。
(3)本发明中提取网上商品的信息数据,根据提取的信息数据得到商品的若干个特征率值,并通过熵值法确定各特征率值的权重,根据特征率值及该特征率值的权重得到商品的特征组合值,并通过所述特征组合值建立HMM模型。通过为特征率值设置权重,充分考虑到不同指标对刷单结果产生的影响不同,使得该HMM模型能够更加准的预测刷单结果。
附图说明
为了更清楚地说明本发明技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的基于HMM的刷单预测系统结构示意图;
图2为本发明的基于HMM的刷单预测方法流程图;
图中:1、数据收集模块;2、预处理模块;3、HMM模型训练模块;4、刷单预测模块;5、刷单结果输出模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
隐马尔可夫模型(Hidden Markov model,HMM)是关于时序的概率模型,本发明中描述由一个隐藏的马尔可夫链随机生成的不可观测的刷单状态序列,再由各个刷单状态生成一个可观测的特征组合值序列的过程,序列的每个位置又可以看作是一个时刻。考虑到各特征率值对刷单结果的判断影响程度不同,本发明采用熵值法求得各个特征率值的权重,再依权重对各特征率值求和得到特征组合值,将特征组合值输入HMM模型实现预测网上商品基于时间序列的刷单结果。
本发明提供一种基于HMM的刷单预测系统,如图1所示,包括:
数据收集模块1,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块2,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块3,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块4,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
所述基于HMM的刷单预测系统,还包含刷单结果输出模块5,其实时将预测的刷单结果反馈到监管部门。
所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
一种基于HMM的刷单预测方法,采用本发明的基于HMM的刷单预测系统实现的,如图2所示,包含步骤:
S1、通过数据收集模块1获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块2根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure BDA0002462083860000071
其中,i∈[1,μ],k∈[1,9];
Figure BDA0002462083860000072
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure BDA0002462083860000073
生成第一至第六特征率
Figure BDA0002462083860000074
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure BDA0002462083860000075
Figure BDA0002462083860000076
S23、采用正规化方法,将
Figure BDA0002462083860000077
进行标准化;(此为现有技术)
S24、根据标准化后的
Figure BDA0002462083860000078
计算得到对应的特征组合值
Figure BDA0002462083860000079
为标准化后的
Figure BDA00024620838600000710
的权重。
在本发明的实施例中,通过熵值法计算得到
Figure BDA00024620838600000711
具体包含:
S241、计算第j特征率的熵值
Figure BDA00024620838600000712
其中
Figure BDA00024620838600000713
j∈[1,6];k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure BDA00024620838600000714
S243、第j特征率的权重
Figure BDA00024620838600000715
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块3,采用监督学习方法得到初始HMM模型;
步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态
Figure BDA0002462083860000081
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure BDA0002462083860000082
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure BDA0002462083860000083
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure BDA0002462083860000084
其中
Figure BDA0002462083860000085
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure BDA0002462083860000086
Figure BDA0002462083860000087
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块4;
步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure BDA0002462083860000091
πm (τ)=γ1(m);
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块4,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
步骤S5具体包含:
S51、令
Figure BDA0002462083860000092
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure BDA0002462083860000093
Figure BDA0002462083860000094
1≤t≤T,1≤m≤2;
S54、终止:
Figure BDA0002462083860000095
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,...,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于HMM的刷单预测系统,其特征在于,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
2.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。
3.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
4.一种基于HMM的刷单预测方法,采用如权利要求1至3任一所述的基于HMM的刷单预测系统实现的,其特征在于,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
5.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure FDA0002462083850000021
其中,i∈[1,μ],k∈[1,9];
Figure FDA0002462083850000022
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure FDA0002462083850000023
生成第一至第六特征率
Figure FDA0002462083850000024
Figure FDA0002462083850000025
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure FDA0002462083850000026
Figure FDA0002462083850000027
S23、采用正规化方法,将
Figure FDA0002462083850000028
进行标准化;
S24、根据标准化后的
Figure FDA0002462083850000029
计算得到对应的特征组合值
Figure FDA00024620838500000210
Figure FDA00024620838500000217
为标准化后的
Figure FDA00024620838500000211
的权重。
6.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S24中,通过熵值法计算得到
Figure FDA00024620838500000212
具体包含:
S241、计算第j特征率的熵值
Figure FDA00024620838500000213
其中
Figure FDA00024620838500000214
j∈[1,6];k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure FDA00024620838500000215
S243、第j特征率的权重
Figure FDA00024620838500000216
7.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态ot={Vi t}i∈[1,μ]
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure FDA0002462083850000031
Figure FDA0002462083850000032
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure FDA0002462083850000033
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure FDA0002462083850000034
其中
Figure FDA0002462083850000035
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure FDA0002462083850000036
Figure FDA0002462083850000037
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
8.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure FDA0002462083850000041
πm (τ)=γ1(m);
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
9.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S5具体包含:
S51、令
Figure FDA0002462083850000042
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure FDA0002462083850000043
Figure FDA0002462083850000044
S54、终止:
Figure FDA0002462083850000045
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,...,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
CN202010322827.XA 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法 Active CN111553726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322827.XA CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322827.XA CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Publications (2)

Publication Number Publication Date
CN111553726A true CN111553726A (zh) 2020-08-18
CN111553726B CN111553726B (zh) 2023-04-28

Family

ID=72007566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322827.XA Active CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Country Status (1)

Country Link
CN (1) CN111553726B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737268A (zh) * 2019-10-14 2020-01-31 哈尔滨工程大学 一种基于Viterbi算法的确定指令的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
CN101615186A (zh) * 2009-07-28 2009-12-30 东北大学 一种基于隐马尔科夫理论的bbs用户异常行为审计方法
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
EP2685452A1 (en) * 2012-07-13 2014-01-15 Samsung Electronics Co., Ltd Method of recognizing speech and electronic device thereof
CN108182587A (zh) * 2018-01-29 2018-06-19 北京信息科技大学 一种电商平台刷单行为检测方法及系统
CN108550052A (zh) * 2018-04-03 2018-09-18 杭州呯嘭智能技术有限公司 基于用户行为数据特征的刷单检测方法及系统
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110288362A (zh) * 2019-07-03 2019-09-27 北京工业大学 刷单的预测方法、装置及电子设备
CN110458096A (zh) * 2019-08-09 2019-11-15 广州众聚智能科技有限公司 一种基于深度学习的大规模商品识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
CN101615186A (zh) * 2009-07-28 2009-12-30 东北大学 一种基于隐马尔科夫理论的bbs用户异常行为审计方法
EP2685452A1 (en) * 2012-07-13 2014-01-15 Samsung Electronics Co., Ltd Method of recognizing speech and electronic device thereof
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
CN108182587A (zh) * 2018-01-29 2018-06-19 北京信息科技大学 一种电商平台刷单行为检测方法及系统
CN108550052A (zh) * 2018-04-03 2018-09-18 杭州呯嘭智能技术有限公司 基于用户行为数据特征的刷单检测方法及系统
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110288362A (zh) * 2019-07-03 2019-09-27 北京工业大学 刷单的预测方法、装置及电子设备
CN110458096A (zh) * 2019-08-09 2019-11-15 广州众聚智能科技有限公司 一种基于深度学习的大规模商品识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宁宁; 廖智华: ""互联网+"背景下VR电商的风险预测分析" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737268A (zh) * 2019-10-14 2020-01-31 哈尔滨工程大学 一种基于Viterbi算法的确定指令的方法
CN110737268B (zh) * 2019-10-14 2022-07-15 哈尔滨工程大学 一种基于Viterbi算法的确定指令的方法

Also Published As

Publication number Publication date
CN111553726B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN103119607B (zh) 根据视频的人的活动确定的优化
Dumas et al. A deep generative model for probabilistic energy forecasting in power systems: normalizing flows
Kompella et al. Stock market prediction using machine learning methods
Li et al. Multi-factor based stock price prediction using hybrid neural networks with attention mechanism
Choudhury et al. A machine learning approach to identify potential customer based on purchase behavior
CN111028050A (zh) 一种基于数据驱动的异常投标行为检测评估方法及系统
CN114049222A (zh) 一种基于注意力机制和强化学习的趋势预测方法
CN115526652A (zh) 一种基于机器学习的客户流失预警方法及系统
Wijesinghe et al. Stock Market Price Forecasting using ARIMA vs ANN; A Case study from CSE
CN116739811A (zh) 一种自适应风险控制的企业财务信息智能管理系统及方法
CN111553726A (zh) 一种基于hmm的刷单预测系统及方法
Osterrieder A Primer on Artificial Intelligence and Machine Learning for the Financial Services Industry
Paul et al. Artificial intelligence in predictive analysis of insurance and banking
JP3152512U (ja) 金融証券商品売買意思決定支援装置
CN107480703A (zh) 交易故障检测方法及装置
CN116228403A (zh) 一种基于机器学习算法的个人不良资产估值方法和系统
Amellal et al. Improving Lead Time Forecasting and Anomaly Detection for Automotive Spare Parts with A Combined CNN-LSTM Approach
Amellal et al. An integrated approach for modern supply chain management: Utilizing advanced machine learning models for sentiment analysis, demand forecasting, and probabilistic price prediction
Su Take a Big BYTE
CN111815463A (zh) 基于边缘计算的征信方法和装置
Zouaghia et al. Hybrid Machine Learning Model for Predicting NASDAQ Composite Index
Kavitha et al. Big Data Analytics In Financial Market
CN111898417B (zh) 货柜系统、货品检测装置及方法
CN117593101B (zh) 基于多维数据的金融风险数据处理分析方法及系统
Pongsena et al. Deep Learning for Financial Time-Series Data Analytics: An Image Processing Based Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant