CN111553726B - 一种基于hmm的刷单预测系统及方法 - Google Patents

一种基于hmm的刷单预测系统及方法 Download PDF

Info

Publication number
CN111553726B
CN111553726B CN202010322827.XA CN202010322827A CN111553726B CN 111553726 B CN111553726 B CN 111553726B CN 202010322827 A CN202010322827 A CN 202010322827A CN 111553726 B CN111553726 B CN 111553726B
Authority
CN
China
Prior art keywords
detected
time
commodity
bill
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010322827.XA
Other languages
English (en)
Other versions
CN111553726A (zh
Inventor
高娜
韩德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202010322827.XA priority Critical patent/CN111553726B/zh
Publication of CN111553726A publication Critical patent/CN111553726A/zh
Application granted granted Critical
Publication of CN111553726B publication Critical patent/CN111553726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于HMM的刷单预测方法,包含步骤:S1、通过获取t时刻第一至第μ待检测商品的信息数据,将t=0时刻的信息数据作为第一数据集,其余信息数据构成第二数据集,为第一数据集的待检测商品设置是否刷单的标签;S2、根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;S4、优化所述初始HMM模型,生成最终的HMM模型;S5、通过最终的HMM模型预测1≤t≤T时刻第二数据集内待检测商品的刷单结果。本发明还包含一种基于HMM的刷单预测系统。

Description

一种基于HMM的刷单预测系统及方法
技术领域
本发明涉及机器学习和电子商务技术领域,特别涉及一种基于HMM的刷单预测系统及方法。
背景技术
随着我国互联网经济的快速发展,网购因其方便、快捷、经济等优点得到广大消费者的青睐。与此同时,由于网络交易虚拟化的特征,刷单已经成为网络购物的普遍问题。所谓“刷单”是指网店经营者雇佣专业从事网店信誉提升的刷单平台,用虚假的购物方式提高店铺的信誉、销量及排名,来吸引消费者的行为。消费者在不知情的情况下,会首选这些“信誉好”的店铺,导致利益受损。
由于相关监管部门难以实时监察海量网购订单,因此迫切需要一种自动化的识别刷单的系统及方法。
发明内容
本发明的目的是提供一种基于HMM的刷单预测系统及方法,本发明根据自动收集网购商品的信息建立HMM模型模型,并根据优化后的HMM模型及时准确的预测网购商品是否为刷单商品。
为了达到上述目的,本发明提供一种基于HMM的刷单预测系统,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述标签、特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
所述基于HMM的刷单预测系统,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。
所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
一种基于HMM的刷单预测方法,采用本发明的基于HMM的刷单预测系统实现的,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、基于第二数据集,对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure GDA0004103284720000021
其中,i∈[1,μ],k∈[1,9];
Figure GDA0004103284720000022
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure GDA0004103284720000023
生成第一至第六特征率
Figure GDA0004103284720000024
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure GDA0004103284720000025
Figure GDA0004103284720000031
S23、采用正规化方法,将
Figure GDA0004103284720000032
进行标准化;
S24、根据标准化后的
Figure GDA0004103284720000033
计算得到对应的特征组合值
Figure GDA0004103284720000034
为标准化后的
Figure GDA0004103284720000035
的权重。
步骤S24中,通过熵值法计算得到
Figure GDA00041032847200000314
具体包含:
S241、计算第j特征率的熵值
Figure GDA0004103284720000036
其中
Figure GDA0004103284720000037
k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure GDA0004103284720000038
S243、第j特征率的权重
Figure GDA0004103284720000039
步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态
Figure GDA00041032847200000315
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure GDA00041032847200000310
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure GDA00041032847200000311
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure GDA00041032847200000312
其中
Figure GDA00041032847200000313
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure GDA0004103284720000041
Figure GDA0004103284720000042
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,…,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure GDA0004103284720000043
πm (τ)=γ1(m);
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
步骤S5具体包含:
S51、令
Figure GDA0004103284720000044
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,…,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure GDA0004103284720000045
Figure GDA0004103284720000051
S54、终止:
Figure GDA0004103284720000052
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,…,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
本发明与现有技术相比,具有以下有益效果:
(1)本发明自动化程度高,能够自动收集网上销售商品的信息数据,并识别该商品是否为刷单商品。解决了现有技术中,由于每天网上商品订单量巨大,无法及时发现异常订单的问题。
(2)本发明采用HMM模型得到基于时间序列的刷单结果,对商品异常订单的检测具有实时性。
(3)本发明中提取网上商品的信息数据,根据提取的信息数据得到商品的若干个特征率值,并通过熵值法确定各特征率值的权重,根据特征率值及该特征率值的权重得到商品的特征组合值,并通过所述特征组合值建立HMM模型。通过为特征率值设置权重,充分考虑到不同指标对刷单结果产生的影响不同,使得该HMM模型能够更加准的预测刷单结果。
附图说明
为了更清楚地说明本发明技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的基于HMM的刷单预测系统结构示意图;
图2为本发明的基于HMM的刷单预测方法流程图;
图中:1、数据收集模块;2、预处理模块;3、HMM模型训练模块;4、刷单预测模块;5、刷单结果输出模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
隐马尔可夫模型(Hidden Markov model,HMM)是关于时序的概率模型,本发明中描述由一个隐藏的马尔可夫链随机生成的不可观测的刷单状态序列,再由各个刷单状态生成一个可观测的特征组合值序列的过程,序列的每个位置又可以看作是一个时刻。考虑到各特征率值对刷单结果的判断影响程度不同,本发明采用熵值法求得各个特征率值的权重,再依权重对各特征率值求和得到特征组合值,将特征组合值输入HMM模型实现预测网上商品基于时间序列的刷单结果。
本发明提供一种基于HMM的刷单预测系统,如图1所示,包括:
数据收集模块1,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块2,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块3,其根据第一数据集的待检测商品的所述标签、特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块4,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
所述基于HMM的刷单预测系统,还包含刷单结果输出模块5,其实时将预测的刷单结果反馈到监管部门。
所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
一种基于HMM的刷单预测方法,采用本发明的基于HMM的刷单预测系统实现的,如图2所示,包含步骤:
S1、通过数据收集模块1获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块2根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure GDA0004103284720000071
其中,i∈[1,μ],k∈[1,9];
Figure GDA0004103284720000072
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure GDA0004103284720000073
生成第一至第六特征率
Figure GDA0004103284720000074
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure GDA0004103284720000075
Figure GDA0004103284720000076
S23、采用正规化方法,将
Figure GDA0004103284720000077
进行标准化;(此为现有技术)
S24、根据标准化后的
Figure GDA0004103284720000078
计算得到对应的特征组合值
Figure GDA0004103284720000079
为标准化后的
Figure GDA00041032847200000710
的权重。
在本发明的实施例中,通过熵值法计算得到
Figure GDA00041032847200000711
具体包含:
S241、计算第j特征率的熵值
Figure GDA00041032847200000712
其中
Figure GDA00041032847200000713
k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure GDA00041032847200000714
S243、第j特征率的权重
Figure GDA00041032847200000715
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块3,采用监督学习方法得到初始HMM模型;
步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态ot={Vi t}i∈[1,μ]
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure GDA0004103284720000081
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure GDA0004103284720000082
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure GDA0004103284720000083
其中
Figure GDA0004103284720000084
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure GDA0004103284720000085
Figure GDA0004103284720000086
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
S4、基于第二数据集,对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块4;
步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,…,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure GDA0004103284720000091
πm (τ)=γ1(m);
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块4,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
步骤S5具体包含:
S51、令
Figure GDA0004103284720000092
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure GDA0004103284720000093
Figure GDA0004103284720000094
S54、终止:
Figure GDA0004103284720000095
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,...,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于HMM的刷单预测系统,其特征在于,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述标签、特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
2.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。
3.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
4.一种基于HMM的刷单预测方法,采用如权利要求1至3任一所述的基于HMM的刷单预测系统实现的,其特征在于,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、基于第二数据集,对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
5.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征
Figure FDA0004103284700000021
其中,i∈[1,μ],k∈[1,9];
Figure FDA0004103284700000022
分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据
Figure FDA0004103284700000023
生成第一至第六特征率
Figure FDA0004103284700000024
Figure FDA0004103284700000025
分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
Figure FDA0004103284700000026
Figure FDA0004103284700000027
S23、采用正规化方法,将
Figure FDA0004103284700000028
进行标准化;
S24、根据标准化后的
Figure FDA0004103284700000029
计算得到对应的特征组合值
Figure FDA00041032847000000210
Figure FDA00041032847000000211
为标准化后的
Figure FDA00041032847000000212
的权重。
6.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S24中,通过熵值法计算得到
Figure FDA00041032847000000213
具体包含:
S241、计算第j特征率的熵值
Figure FDA00041032847000000214
其中
Figure FDA00041032847000000215
k=1/ln(μ);
S242、计算第j特征率的信息熵冗余度
Figure FDA00041032847000000216
S243、第j特征率的权重
Figure FDA00041032847000000217
7.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S3具体包含:
S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态ot={Vi t}i∈[1,μ]
S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵
Figure FDA0004103284700000031
Figure FDA0004103284700000032
表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;
建立t=0时刻的隐状态转移概率矩阵A0==[anm (0)]2×2;其中,
Figure FDA0004103284700000033
S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵
Figure FDA0004103284700000034
其中
Figure FDA0004103284700000035
表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;
观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中
Figure FDA0004103284700000036
Figure FDA0004103284700000037
S34、计算t=0时刻的初始状态概率转移矩阵π0=[π12];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;
S35、得到初始HMM模型λ0=(A0,B00)。
8.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S4具体包含:
S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B00)的情况下,并且观测序列为O=o1,o2,…,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;
S42、由以下递推公式求解τ=1,…,T时刻的amn (τ),bn(i)(τ)m (τ)的值:
Figure FDA0004103284700000041
Aτ==[anm (τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ]
S43、令优化后最终的HMM模型为λT=(AT,BTT)。
9.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S5具体包含:
S51、令
Figure FDA0004103284700000042
表示在已知最终的HMM模型为λT=(AT,BTT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;
S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;
S53、递推:
Figure FDA0004103284700000043
Figure FDA0004103284700000044
S54、终止:
Figure FDA0004103284700000045
S55、最优路径回溯:对t=T-1,T-2,...,1,qt *=ψt+1(qt+1 *),求得最优路径Q*=q1 *,q2 *,…,qT *,即为最后得到的隐状态序列;其中qt *∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT *为与观测状态oT对应的刷单预测结果。
CN202010322827.XA 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法 Active CN111553726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322827.XA CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322827.XA CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Publications (2)

Publication Number Publication Date
CN111553726A CN111553726A (zh) 2020-08-18
CN111553726B true CN111553726B (zh) 2023-04-28

Family

ID=72007566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322827.XA Active CN111553726B (zh) 2020-04-22 2020-04-22 一种基于hmm的刷单预测系统及方法

Country Status (1)

Country Link
CN (1) CN111553726B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737268B (zh) * 2019-10-14 2022-07-15 哈尔滨工程大学 一种基于Viterbi算法的确定指令的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110458096A (zh) * 2019-08-09 2019-11-15 广州众聚智能科技有限公司 一种基于深度学习的大规模商品识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615186B (zh) * 2009-07-28 2012-07-04 东北大学 一种基于隐马尔科夫理论的bbs用户异常行为审计方法
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
CN108182587A (zh) * 2018-01-29 2018-06-19 北京信息科技大学 一种电商平台刷单行为检测方法及系统
CN108550052A (zh) * 2018-04-03 2018-09-18 杭州呯嘭智能技术有限公司 基于用户行为数据特征的刷单检测方法及系统
CN110288362A (zh) * 2019-07-03 2019-09-27 北京工业大学 刷单的预测方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110458096A (zh) * 2019-08-09 2019-11-15 广州众聚智能科技有限公司 一种基于深度学习的大规模商品识别方法

Also Published As

Publication number Publication date
CN111553726A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN110400022B (zh) 自助柜员机现金用量预测方法及装置
Clements et al. Sequential deep learning for credit risk monitoring with tabular financial data
Kompella et al. Stock market prediction using machine learning methods
Kirkos et al. Identifying qualified auditors' opinions: a data mining approach
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN111028050A (zh) 一种基于数据驱动的异常投标行为检测评估方法及系统
CN111553726B (zh) 一种基于hmm的刷单预测系统及方法
CN114154866A (zh) 一种上市企业财务风险预警方法和系统
Wimmer et al. Leveraging vision-language models for granular market change prediction
Li et al. Multiple linear regression with Kalman filter for predicting end prices of online auctions
JP3152512U (ja) 金融証券商品売買意思決定支援装置
CN107480703A (zh) 交易故障检测方法及装置
CN111047148B (zh) 一种基于强化学习的虚假评分检测方法
CN116502813A (zh) 一种基于集成学习的异常订单检测方法
Nematallah et al. Bitcoin Price Trend Prediction Using Deep Neural Network.
CN115496384A (zh) 工业设备的监控管理方法、装置和计算机设备
CN111815463A (zh) 基于边缘计算的征信方法和装置
Xie et al. Walmart Sale Forecasting Model Based On LSTM And LightGBM
Chatigny et al. A variable-order regime switching model to identify significant patterns in financial markets
CN111833173A (zh) 基于lstm的第三方平台支付欺诈行为在线检测方法
Pavel et al. Decision Making Process of Stock Trading Implementing DRQN And ARIMA
Zouaghia et al. Hybrid Machine Learning Model for Predicting NASDAQ Composite Index
CN117593101B (zh) 基于多维数据的金融风险数据处理分析方法及系统
Hemendiran et al. Predicting the Prices of the Used Cars using Machine Learning for Resale
Ghasemieh et al. Deep Learning Vs. Machine Learning in Predicting the Future Trend of Stock Market Prices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant