CN107004221A - 用于预测使用行业的卡使用模式分析方法及执行其的服务器 - Google Patents

用于预测使用行业的卡使用模式分析方法及执行其的服务器 Download PDF

Info

Publication number
CN107004221A
CN107004221A CN201580064437.4A CN201580064437A CN107004221A CN 107004221 A CN107004221 A CN 107004221A CN 201580064437 A CN201580064437 A CN 201580064437A CN 107004221 A CN107004221 A CN 107004221A
Authority
CN
China
Prior art keywords
industry
mentioned
card
user
hash function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580064437.4A
Other languages
English (en)
Other versions
CN107004221B (zh
Inventor
李泰荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BC Card Co Ltd
Original Assignee
BC Card Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BC Card Co Ltd filed Critical BC Card Co Ltd
Publication of CN107004221A publication Critical patent/CN107004221A/zh
Application granted granted Critical
Publication of CN107004221B publication Critical patent/CN107004221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

根据本发明的一实施例,本发明提供卡使用模式分析方法,用于预测卡用户的卡使用行业,上述卡使用模式分析方法包括:从多个用户收集卡使用行业信息的步骤;构成一个以上的哈希函数组的步骤,上述哈希函数组包括一个以上的哈希函数;对应每个上述哈希函数计算与上述卡使用行业信息有关的哈希值并提取其中的最小值的步骤;对应每个上述哈希函数组,以上述最小值为基础来生成聚集键的步骤;利用上述聚集键来对上述多个用户进行分组的步骤;以及利用进行上述分组的分组信息来预测卡用户的日后利用行业的步骤。

Description

用于预测使用行业的卡使用模式分析方法及执行其的服务器
技术领域
本发明涉及用于预测使用行业的卡使用模式分析方法及执行其的卡公司服务器,更详细地,涉及通过多个哈希函数组来执行对于用户的分组,利用后缀树及贝叶斯定理来迅速分析卡使用模式并使用上述结果的方法及执行其的卡公司服务器。
背景技术
在经济活动逐渐变得活跃的现代社会,对于物品或服务的结算方式也逐渐变得多样化、复杂化。
其中,通过卡的结算方式与现金结算一同为最为普遍的结算方式中的一种,储蓄卡、信用卡、借记卡等多种形式的卡被使用。
各个卡公司为了进行客户管理而分析客户的结算信息,来执行推荐对于客户频频使用的行业的卡的一种客户关系管理(CRM,Customer Relationship Management)业务,以往,为了向客户推荐卡,作为聚类客户信息的方法使用K最近邻(K-NN,Nearest Neighbor)、K均值(K-Means)等算法。
但是,一个卡公司具有很多客户,因此,为了使用基于内存的上述算法来计算客户的所有卡使用模式,需要使用如超级计算机等性能优秀的系统。因此,卡公司抽样规定量的客户信息并通过上述信息来比较并分析客户的卡使用模式,若增加抽样的数据量,则用于分析的时间增加,若减少量,则通过抽样的数据分析的准确度会降低。
因此,需要迅速处理庞大的客户信息,并更加准确地计算目标客户的按行业的利用概率的方法。
发明内容
技术问题
本发明用于解决上述现有技术的问题。
本发明的目的在于,以用户之前利用的行业为基础,更加准确地预测对于日后用户将利用的各个行业的概率。
本发明的再一目的在于,以对用户日后利用行业计算的概率为基础,提供适合于相应用户的卡商品推荐信息。
本发明的另一目的在于,以对用户日后利用行业计算的概率为基础来检测卡的不正当使用。
技术手段
为了实现上述目的,本发明提供卡使用模式分析方法,用于预测卡用户的卡使用行业,上述卡使用模式分析方法包括:从多个用户收集卡使用行业信息的步骤;构成一个以上的哈希函数组的步骤,上述哈希函数组包括一个以上的哈希函数;对应每个上述哈希函数计算与上述卡使用行业信息有关的哈希值并提取其中的最小值的步骤;对应每个上述哈希函数组,以上述最小值为基础来生成聚集键的步骤;利用上述聚集键来对上述多个用户进行分组的步骤;以及利用进行上述分组的分组信息来预测卡用户的日后利用行业的步骤。
上述利用上述聚集键来对上述多个用户进行分组的步骤还可包括将对应每个上述聚集键区分的各个组所包含的多个用户对各个行业的利用路径建立后缀树的步骤。
上述后缀树可根据用户对各个行业的利用频率来设定上述利用路径的加权值。
上述利用上述分组信息来预测卡用户的日后利用行业的步骤可包括:提取行业利用模式与作为利用行业预测对象的目标用户类似的多个用户的步骤;计算与所提取的上述多个用户的各个行业的利用明细有关的事先概率的步骤;以及利用贝叶斯定理,以上述目标用户的之前利用行业信息为基础来计算日后有可能利用的行业的概率的步骤。
上述卡使用模式分析方法可在上述用户在日后利用概率为规定值以下的行业使用卡的情况下,累计对其的异常数值,在达到规定数值的情况下,将相应用户的卡的使用判断为不正当使用。
上述利用上述聚集键来对上述多个用户进行分组的步骤可包括如下步骤:在执行映射归纳作业来生成与各个上述聚集键有关的用户组的过程中,向多个处理部分散数据处理来执行。
上述卡使用模式分析方法还可包括以预测的利用行业为基础来推荐包括相应行业优惠的卡商品的步骤。
为了实现上述目的,本发明另一实施例提供卡公司服务器,分析用户的卡使用模式,上述卡公司服务器包括:卡使用信息收集部,从多个用户收集卡使用行业信息;哈希函数组构成部,构成一个以上的哈希函数组,上述哈希函数组包括一个以上的哈希函数;映射归纳执行部,对应每个上述哈希函数计算与上述卡使用行业信息有关的哈希值并提取其中的最小值,以所提取的最小值为基础,对应每个上述哈希函数组生成聚集键,利用所生成的聚集键执行对于多个用户的分组;后缀树建立部,将对应每个上述聚集键区分的各个组所包含的多个用户的各个行业的利用路径建立为后缀树;以及各个行业利用概率计算部,以与作为分析对象的目标用户的之前利用行业有关的信息为基础,计算对于日后利用行业的利用概率。
上述后缀树建立部可根据用户对各个行业的利用频率来设定对于上述利用路径的加权值。
上述各个行业利用概率计算部可提取利用模式与上述目标用户类似的多个用户,来计算对于提取的用户的各个行业的利用明细的事先概率,利用贝叶斯定理来计算目标用户的对各个行业的利用概率。
上述卡公司服务器还可包括以所计算的上述各个行业的利用概率为基础来向用户提供卡商品推荐信息的卡商品推荐部。
上述卡公司服务器还可包括不正当使用检测部,上述不正当使用检测部以所计算的上述各个行业的利用概率为基础,在用户在利用概率为规定值以下的行业中使用卡的情况下,累积对其的异常数值,在上述异常数值达到规定数值的情况下,将相应用户的卡使用判断为不正当使用。
上述映射归纳执行部可向多个处理部分散在执行用户分组的过程中所需的数据处理来执行。
技术效果
根据本发明的一实施例,通过贝叶斯定理,以用户之前利用的行业信息为基础,可计算各个行业的利用概率。
根据本发明的一实施例,以对用户日后利用行业计算的概率为基础,可向用户提供优惠多的卡商品信息,并可检测到用户的卡被不正当使用。
本发明的效果并不局限于上述效果,而是均包括可从本发明的详细说明或发明要求保护范围中记载的发明的结构推论的所有效果。
附图说明
图1为简要示出本发明一实施例的卡使用模式分析系统的图。
图2示出本发明一实施例的哈希化用户使用卡来执行结算的行业的行业代码的过程及通过相应哈希值生成聚集键的过程。
图3为简要示出通过本发明一实施例的Min-Hash算法的用户分组方法的示意图。
图4为简要示出根据本发明一实施例构建立的后缀树的图。
图5为示出本发明一实施例的卡公司服务器的内部结构的框图。
具体实施方式
以下,参照附图,说明本发明。但是,本发明可具有多种不同形态,因此,本发明并不局限于在此说明的实施例。而且,为了明确说明本发明,图中省略了与说明无关的部分,在整体说明书中,对类似的部分赋予类似的附图标记。
在整体说明书中,当一个部分与另一个部分“连接”时,这不仅包括“直接连接”的情况,而且还包括在中间隔着其他间隔“间接连接”的情况。并且,当一个部分“包括”一种结构要素时,只要没有特殊反对的记载,意味着还可包括其他结构要素,而并非意味着排除其他结构要素。
以下,参照附图,详细说明本发明的实施例。
图1为简要示出本发明一实施例的卡使用模式分析系统的图。
本发明一实施例的卡使用模式分析系统可包括用户利用的卡100、加盟店200及卡公司服务器300。
一实施例的卡100可以为信用卡、储蓄卡、借记卡等用户通过相应卡可直接进行结算的所有卡。并且,卡100可以为磁卡、IC卡、移动卡、射频卡等形态。
一实施例的加盟店200可包括能够通过用户卡100执行结算的CAT终端、POS终端或此外的结算执行装置,可通过相应装置与卡公司服务器300执行通信。加盟店200的终端和卡公司服务器300之间的通信可通过VAN服务器实现。
一实施例的加盟店200可在卡公司服务器300上分为多个行业。例如,卡公司可将各个加盟店200分为便利店、餐厅、大型超市、移动通信、咖啡厅、医院、学院等,通过上述分类的行业,当通过特定卡在特定行业的加盟店中执行结算时,可提供折扣、积分等的各种优惠。
卡公司服务器300为了管理上述加盟店200的行业分类,可对各个行业分配代码。各个行业代码可呈多种形态,在本发明中,为了说明的便利,设定成4位数字。
卡公司服务器300管理多个用户卡100结算明细,可管理通过各个卡100执行结算的加盟店200的行业代码。举例说明4名用户,如下表1所示,可整理出多个用户对各个行业的使用明细。
[表1]
User 1 4072 4063 4012 4011 4566
User 2 4072 4063 4076 4099 4800
User 3 4095 4044 4042 4511 4566 4800 4099
User 4 4702 4063 4012 4011 4566 4042 4511 4566 4800
观察上述表1,第一用户及第二用户在5个行业、第三用户在7个行业、第四用户在9个行业的加盟店200中通过自己的卡100执行结算。并且,根据一实施例,各个用户根据在各个加盟店200中执行结算的顺序来管理行业代码信息。
卡公司服务器300以上述信息为基础分析用户的卡使用模式,并可执行各个用户下一次执行结算的加盟店200的日后利用行业预测。
说明卡公司服务器300预测用户日后利用行业的具体方法,卡公司服务器300可利用Min-Hash方式。Min-Hash算法是通过当执行对于数据的哈希化时所发生的作为固有的缩小值的多个哈希值的最小值来对用户进行分组的算法。
哈希将数据转换为其他形态来以多种目的使用,在本发明中,为了执行哈希化而使用的哈希函数可以为一方向哈希函数。一方向哈希函数通过利用哈希函数将原本数据进行哈希化时发生的固有的值(哈希值),具有无法了解原本数据的内容的特征。并且,若原本数据相同,则通过相同哈希函数发生的哈希值相同,但是,与相同哈希值有关的原本数据的相同性无法得到保障。
在本发明中公开的卡公司服务器300所利用的哈希算法为选自安全散列算法(SHA,Secure Hash Algorithm)函数组中的得到验证的哈希算法,也可由卡公司服务器300任意生成的多个算法来构成。
卡公司服务器300可生成包括一个以上的哈希函数的哈希函数组。并且,哈希函数组可设定为多个,以下,2个哈希函数组呈现在卡公司服务器300上,各个哈希函数组包括2个哈希函数,并对本发明进行说明。
将在卡公司服务器300上构成的2个哈希函数组成为q1及q2,并将哈希函数为h1至h4时,则q1可包括h1及h2,q2可包括h3和h4,这个数学式如下表示。
[数学式1]
q1=[h1(x),h2(x)], q2=[h3(x),h4(x)]
根据一实施例,在本发明中公开的哈希函数可分别以数学式2的形态构成。
[数学式2]
h(x)=ax+b(mod m)
例如,h1至h4的哈希函数可由如下数学式3构成。
[数学式3]
h1(x)=3x+5(mod 17)
h2(x)=4x+7(mod 11)
h3(x)=5x+3(mod 13)
h4(x)=7x+13(mod 17)
卡公司服务器在与h1至h4相应的各个哈希函数带入用户执行结算的加盟店200的行业代码来获得与各个行业代码相应的哈希值。
例如,根据获取与表1所示的数据有关的哈希值的过程,第一用户执行结算的行业的行业代码中,将4072带入到与h1相应的哈希函数,执行h1(4072)=3×4072+5(mod 17)=12221(mod 17)=15的计算,从而可算出15哈希值。
卡公司服务器300对各个用户执行结算的行业的行业代码执行如上所述的计算来获取与各个行业代码有关的哈希值。对此的结果可从图2所示的表中确认。
图2示出本发明一实施例的哈希化用户使用卡100来执行结算的行业的行业代码的过程及通过相应哈希值生成聚集键的过程。
参照图2,示出4名用户执行结算的加盟店200的行业代码,将各个行业代码带入到h1至h4的哈希函数来计算的哈希值。观察与第一用户相应的图2的(a),包含与4063及4012相应的行业代码。两个行业代码虽然不同,但是,通过h1计算的哈希值均为5,通过h2计算的哈希值为1和6,从而不相同。
卡公司服务器300所使用的Min-hash算法可提取在将使用各个用户卡100的加盟店200的行业代码哈希化的过程中使用的哈希函数通过上述函数计算的哈希值中的最小值。上述提取的最小值在图2所示的表中以阴影表示。
参照图2,当利用各个哈希函数来计算与各个用户卡利用行业有关的行业代码的哈希值时,提取与哈希函数数字相应的最小值。在本发明中,将其分为哈希函数组来用于各个用户的分组,参照图2的例示来进行说明,第一用户的情况下,与q1相应的哈希函数组中,生成00010000的聚集键。详细地,通过h1生成的哈希值中的最小值的1和通过h2生成的哈希值中的最小值的0相结合来生成00010000聚集键。类似地,对第一用户,在与q2相应的哈希函数组中生成00050006聚集键。通过相同方式,对第二用户至第四用户分别生成2个聚集键。
聚集键为在本发明中用于分类用户的基准值,具有相同值的聚集键的用户属于相同组。聚集键生成与卡公司服务器300随意设定的哈希函数组的数字,因此,各个用户均可属于哈希函数组数字的组。
图3为简要示出通过本发明一实施例的Min-Hash算法的用户分组方法的示意图。
参照图3,可看到通过图2中计算的聚集键,第一至第四用户被分组的过程。
例如,通过与00010000相应的聚集键,第一用户、第三用户及第四用户分为一组,通过与00030002相应的聚集键,第三用户及第四用户分为一组。对与剩余000050001、00050002、00050006相应的聚集键,分别有一名用户包含在相应组。
根据一实施例,在一个哈希函数组中的哈希函数的数字越大,各个聚集键具有固定值的概率增加,因此,在一个组中的用户的数量减少。
根据本发明的一实施例,在卡公司服务器300利用上述聚集键来对用户进行分组的过程中,可利用作为处理大数据的平台的Hadoop。
Hadoop为如下平台,为了有效处理如大数据的庞大容量的数据,通过多个数据处理系统来分散数据处理作业并进行处理。
Hadoop由分散文件系统(HDFS,Hadoop Distributed File System)和映射归纳算法,以下,说明卡公司服务器300利用映射归纳算法来分组用户的方法。
根据一实施例,映射归纳算法可执行测绘作业和减量作业。在本发明中,卡公司服务器300通过测绘作业,通过在用户执行结算的加盟店200行业代码的哈希值中最小值提取各个用户的聚集键,通过减量作业来对各个聚集键执行用户的分组。
说明卡公司服务器300通过测绘作业来体现Min-Hash算法的方法,卡公司服务器300向执行测绘的处理部分散各个用户的利用行业信息。各个处理部中,各个用户可将与各个用户执行结算的加盟店行业相应的行业代码带入到各个哈希函数来计算哈希值,各个哈希函数组生成聚集键。
如上所述,卡公司服务器300使用户行业利用信息带入到各个哈希函数,由此提取计算的哈希值中的最小值,在存在多个哈希函数的情况下,组合提取的最小值来生成聚集键。
如上所述,对应每个用户进行生成聚集键的过程,因此,包含在卡公司服务器300或者与此连接的多个处理部中分散用户信息,由此,在进行处理之后,通过减量作业分组。
在本说明书上的示例中,限定了用户为4名来说明,但是,为了通过一个系统处理与在各个卡公司存在的众多会员数有关的数据,需要如超级计算机等功能优秀的系统,或数据处理需要过长时间。因此,如上所述,包含在卡公司服务器300或者与卡公司服务器300相连接的多个处理部中分散处理用户数据,由此可提高数据处理速度。根据本发明实施例,随着处理速度的增加,能够预测用户日后执行结算的加盟店200的行业来实时向用户推荐具有与相应行业有关的优惠的卡。
卡公司服务器300以完成测绘的数据为基础执行减量作业,以各个用户导出的聚集键为基础执行分组。参照图3,从(b)转向(c)的过程为通过减量作业处理的过程。
之后,卡公司服务器300可将以聚集键区分的各个组中的多个用户的各个行业的利用路径建立为后缀树。后缀树为通过包含文字列的后缀来搜索相应文字列的索引资料结构,可使用为检测在后缀树是否存在特定文字列的模式的工具。
图4为简要示出根据本发明一实施例构建立的后缀树的图。
卡公司服务器300通过测绘作业和减量作业,可生成与以聚集键为基础的用户组有关的信息。卡公司服务器300根据具有相同聚集键的各个用户组来将多个用户的各个行业的利用路径建立为后缀树形态。
例如,在特定组中包括2名用户,当将其称为第一用户及第二用户时,第一用户可按A-B-C-D行业顺序使用卡100,第二用户可按A-F-B-C行业顺序使用卡100。
此时,卡公司服务器300以第一及第二用户的卡利用行业路径为基础来建立图4所示的后缀树。观察建立图4的后缀树的过程,第一用户的卡100使用的行业的顺序为A-B-C-D时,将上述文字列的后缀,即,后缀为D、C-D、B-C-D、A-B-C-D。同样,当使用第二用户卡100的行业的顺序为A-F-B-C时,上述文字列的后缀为C、B-C、F-B-C、A-F-B-C。如上所述,以呈现出各个用户使用的行业顺序的文字列的后缀的目录为基础,卡公司服务器300建立后缀树。
图4中,各个圈为节点,如在图中记载,包含行业信息。连接各个节点的线可以示出各个行业利用顺序。
参照图4,从后缀树最上端(Root节点)衍生的各个节点可分别具有A、BC、CD、D、FB、C的值。其中,与A相应的节点中,分别衍生具有BCD、FBC的值的节点,从与BC相应的节点中衍生具有D的值。
观察A节点,如在A-B-C-D和A-F-B-C中所示,A之后排列的行业为B-C-D和F-B-C,可衍生与此相应的节点,观察BC节点,在A-B-C-D之后可以为D,在A-F-B-C中没有后续的行业,只可衍生与D相应的节点。
如上所述,将通过聚集键生成的各组中的多个用户的各个行业的利用路径建立为后缀树,之后,可缩减搜索各个行业的利用路径所消耗的时间。即,在使用后缀树来搜索各个行业利用路径的情况下,可按O(n)的速度执行搜索。例如,当搜索特定用户利用的之前5个行业时,在最坏的情况下,也只通过5次的接近来搜索出相应模式。
根据一实施例,卡公司服务器300可向节点赋予加权值,上述节点与用户频繁使用的行业相对应,上述用户包含在作为建立后缀树的基础的组中。向构成后缀树的节点赋予的加权值在之后说明的利用行业预测过程中可适用于概率计算。
根据一实施例,卡公司服务器300以建立的后缀树为基础,分析特定用户的之前卡使用模式来预测日后用户进行结算的加盟店200的行业。
观察卡公司服务器300执行用户利用行业预测的方法,卡公司服务器300可选择作为利用行业预测对象的用户,以下,将选择的用户称为目标用户。根据一实施例,目标用户被选为最近通过卡100进行结算的用户,日后利用行业预测实时在卡公司服务器300上实现,用户的结算执行后,在规定时间内,可向相应用户传送基于利用行业预测的卡商品推荐信息等。
日后,卡公司服务器300均搜索目标用户所属的组内的各个行业利用路径,并可提取呈现出与目标用户类似的卡使用模式的规定数量的用户。
根据一实施例,在判断多个目标用户的各个行业卡使用模式和其他用户的各个行业的卡使用模式的类似度的过程中,可使用Jaccard Similarity、Pearson Correlation、Cosine Similarity等。
卡公司服务器300在预测目标用户的利用行业的过程中,可利用贝叶斯定理。简要说明贝叶斯定理,通过根据事先概率和新数据的追加变更的概率值来获得所需要的假设的概率,可通过如下数学式表示。
[数学式4]
将上述数学式4适用于本发明,X和Y为加盟店200的行业,P(X)和P(Y)为各个用户在与X行业和Y行业相应的加盟店200中使用卡100执行结算的概率,即,用户利用X行业和Y行业的概率。P(Y|X)为利用X行业的用户利用Y行业的概率,P(X|Y)为利用Y行业的用户利用X行业的概率。
卡公司服务器300通过聚集键分类的组中,计算与在目标用户所属的组中呈现出与目标用户类似的行业利用模式的规定数量的用户有关的上述概率,由此,可获得目标用户将来执行结算的概率最高的行业。并且,卡公司服务器300还可预测目标用户执行结算的概率高的行业的上位规定数量。
上述数学式4可如下变换。
[数学式5]
在上述数学式5中,上边的P(Y)为事先概率,是固定值,而下边是在利用除X之外的剩余行业之后,利用X行业的概率之和,即,用于计算利用X行业的概率。如上所述,通过利用Y行业的用户利用X行业的条件概率来求出利用X行业的用户利用Y行业的概率,反复上述过程,综合与利用X行业的用户下一次将会利用何种行业有关的概率,可提取概率最高的行业。并且,卡公司服务器300代替选择一个行业,可按概率高的顺序提取规定数量的行业。
根据一实施例,卡公司服务器300以与目标用户将要利用的行业有关的概率分析为基础,可向目标用户推荐新的卡商品。向目标用户推荐的卡商品可以为对目标用户日后利用概率最高的行业具有最大优惠的卡,也可以为综合考虑与目标用户日后利用的概率高的规定数量的行业有关的优惠来选择的卡。例如,与目标用户日后利用的行业有关的概率和对特定卡中的相应行业的优惠的评价点数相乘,来按综合评分高的卡商品顺序进行推荐。
卡公司服务器300的卡商品推荐可通过用户终端实时实现。如上所述,卡公司服务器300可实时推荐卡商品的理由如下,如上所述,通过映射归纳方式,在多个处理部分散进行数据处理作业,通过建立后缀树可迅速搜索用户的行业利用模式。
根据一实施例,卡公司服务器300通过目标用户日后利用的行业的概率来判断相应目标用户的卡100是否被不正当使用。
详细地,在卡公司服务器300的分类体系内存在的各个行业中,在计算目标用户日后利用相应行业的概率的状态下,若目标用户反复利用利用概率低于规定值的行业,则将其判断为不正当使用。
例如,卡公司服务器300管理各个用户的与不正当使用相关的异常数值,在目标用户利用日后利用的概率低于规定值的行业的情况下,可增加上述异常数值,通过上述方式,异常数值增加并达到规定值,则将目标用户的卡使用可判断为不正当使用。
根据一实施例,在卡公司服务器300将特定用户的卡使用判断为不正当使用的情况下,可设定成无法使用相应卡100的状态。
以下,参照图5,说明本发明一实施例的卡公司服务器300的结构。图5为示出本发明一实施例的卡公司服务器300的内部结构。
本发明一实施例的卡公司服务器可包括卡使用信息收集部310、哈希函数组构成部320、映射归纳执行部330、后缀树建立部340、各个行业利用概率计算部350、卡商品推荐部360、不正当使用检测部370、控制部380及通信部390。
根据本发明一实施例,卡使用信息收集部310、哈希函数组构成部320、映射归纳执行部330、后缀树建立部340、各个行业利用概率计算部350、卡商品推荐部360、不正当使用检测部370、控制部380及通信部390可以为与外部装置进行通信的程序模块或硬件。上述程序模块或硬件能够以操作系统、应用程序模块及其他程序模块的形态形成于卡公司服务器300或与其能够进行通信的其他装置,物理方面,可储存于多种公知的记忆装置。另一方面,上述程序模块或硬件包括根据本发明执行后述的特定业务或执行特定虚拟数据类型的例程、子例程、程序、对象、组件、数据结构等,当并不局限于此。
一实施例的卡使用信息收集部310可收集卡用户的结算信息。在本发明中,用于分析用户的卡使用模式的信息为利用用户卡100来执行结算的加盟店200的行业信息,卡使用信息收集部310可将上述行业信息以与各个行业相应的行业代码的形态进行存储。
卡使用信息收集部310存储与各个用户的结算信息有关的视觉信息,以用户利用的行业的顺序为基础,日后建立后缀树。
一实施例的哈希函数组构成部320可构成用于使与用户所使用的行业有关的行业代码哈希化的哈希函数及包括至少一个哈希函数的哈希函数组。
如上所述,在本发明中使用的哈希函数可以为与数学式2及数学式3相同的形态,可利用多个公认的哈希算法。
哈希函数组构成部320构成多个哈希函数组,所构成的哈希函数组的数量可根据用户卡使用模式分析结果调节。例如,哈希函数组的数量越增加,一个用户所属的组的数量会增加,由此可更加全范围分析各个用户的卡使用模式,但是,卡公司服务器300对各个用户需要进行分析的组的数字增加,数据分析需要花费很长时间,卡公司服务器300及与其相连接的进行数据分析的处理部的负荷将变大。
哈希函数组构成部320可调节在各个哈希函数组中的哈希函数的数量。若一个哈希函数组中的哈希函数变多,可生成随之生成的聚集键的数量也会一同增加,因此,一个组内的用户数量减少,因此,可提取之后包括在与目标用户相同的组中的呈现出与目标用户类似的行业利用明细的用户的对象也会减少。并且,与此相反,若一个哈希函数组中包括的哈希函数的数字变少,则一个组内包括的用户的数量变多,从而搜索呈现出与目标用户类似的行业利用模式的用户的准确度也会降低。哈希函数组构成部320把握如上所述的优点及缺点,可调节在一个哈希函数组包含适当数量的哈希函数。
一实施例的映射归纳执行部330可以执行测绘工作和减量工作,由此生成对于各个用户的聚集键,以生成的聚集键为基础执行对于用户的分组。映射归纳执行部330分为测绘执行部和减量执行部并执行各自的作用,测绘作业和减量作业可包括在服务器300中或者与卡公司服务器300相连接的多个处理部中分散来执行。
映射归纳执行部330通过测绘作业来体现Min-Hash算法,由此可生成聚集键。详细地,映射归纳执行部330通过在哈希函数组构成部320中生成的各个哈希函数来执行对于各个用户利用的行业的行业代码的哈希化,并可提取在各个哈希函数计算的哈希值中的最小值。之后,映射归纳执行部330以从每个哈希函数组提取的最小值为基础生成聚集键。
映射归纳执行部330以在各个用户生成的聚集键为基础来执行对于用户的分组。具有相同聚集键的用户分为一组,随着一个用户具有多个聚集键,一个用户可属于多个组。
一实施例的后缀树建立部340在通过聚集键区分的各个组中,以后缀树形态建立在相应组中包括的多个用户的各个行业的利用路径。如图4所示,后缀树为将属于一个组内的用户的各个行业的利用路径建立为树形态的资料结构,可包含用户所利用的行业的顺序信息。
后缀树建立部340可向后缀树内的各个节点赋予加权值。例如,后缀树建立部340向与频频发生的行业利用模式相关的节点赋予加权值,之后在计算各个行业的利用概率的过程中可考虑相应加权值。
一实施例的各个行业利用概率计算部350以与目标用户之前利用的行业有关的信息为基础,可计算日后目标用户可利用其他行业的概率。
为此,各个行业利用概率计算部350利用后缀树来搜索目标用户所属的组内的各个行业利用路径,在各个组内,可提取各个行业利用模式与目标用户最类似的规定数量的用户。
各个行业利用概率计算部350在计算多个目标用户的各个行业的利用概率的过程中,如上所述,可利用贝叶斯定理。详细地,如上所述,各个行业利用概率计算部350分析各个行业利用模式与目标用户类似的用户的整体利用明细,并可计算利用各个行业的事先概率。
各个行业利用概率计算部350为了计算与目标用户日后利用行业有关的概率,若收集与目标用户之前利用行业有关的信息,则以上述信息为基础,通过贝叶斯定理计算事后概率,即,基于之前利用行业的日后利用行业的概率。
根据一实施例,卡商品推荐部360以在各个行业利用概率计算部350中计算出的概率为基础,可向用户推荐新的卡商品等。向用户推荐卡商品的方式可以为如下方式,卡商品推荐部360向如计算机、电话等的用户终端传送相应信息的方式,卡公司的电话营销从卡商品推荐部360获取信息来执行电话营销的方式。
卡商品推荐部360向用户推荐卡的方式如下,可推荐与目标用户日后利用的概率最高的行业有关的优惠最大的卡,也可推荐均包括与用户日后利用的概率高的多个行业有关的优惠的卡。并且,卡商品推荐部360向用户提供卡商品推荐信息,与此同时,可一同提供分析用户的卡使用模式的信息。
一实施例的不正当使用检测部370以从各个行业利用概率计算部350导出的概率为基础来检测是否执行通过用户的卡的不正当使用。
不正当使用检测部370在判断为用户利用的概率低的行业中继续执行结算的情况下,通过将对其的异常数值以积分形式管理等的方法判断不正当使用。例如,在用户利用概率低于规定值的行业中执行结算的情况下,根据计算的概率分配规定的积分,若累积的积分达到规定值,则可将相应卡100选为不正当使用搜索对象。
如上所述,根据本发明的实施例,卡公司服务器300可迅速分析用户的卡使用模式,以用户日后利用行业的概率为基础,实时向用户推荐适合于用户的商品或者检测通过用户卡的不正当使用。
上述本发明的说明仅是例示性说明,本发明所属技术领域的普通技术人员在不变更技术思想或必要特征的情况下,可简单实施成其他具体形态。因此,以上记述的实施例均是例示性实施例,而并非用于限定本发明。例如,单一型的各个结构要素可被分散实施,同样,分散说明的结构要素可相结合。
本发明的范围体现在后述的发明要求保护范围,从发明要求保护范围的含义及范围及从其等同概念导出的所有变更或变形的形态均属于本发明的范围。

Claims (13)

1.一种卡使用模式分析方法,用于预测卡用户的卡使用行业,其特征在于,包括:
从多个用户收集卡使用行业信息的步骤;
构成一个以上的哈希函数组的步骤,上述哈希函数组包括一个以上的多个哈希函数;
对应每个上述哈希函数计算与上述卡使用行业信息有关的哈希值并提取其中的最小值的步骤;
对应每个上述哈希函数组,以上述最小值为基础来生成聚集键的步骤;
利用上述聚集键来对上述多个用户进行分组的步骤;以及
利用进行上述分组的分组信息来预测卡用户的日后利用行业的步骤。
2.根据权利要求1所述的卡使用模式分析方法,其特征在于,上述利用上述聚集键来对上述多个用户进行分组的步骤还包括将对应每个上述聚集键区分的各个组所包含的多个用户的各个行业的利用路径建立为后缀树的步骤。
3.根据权利要求2所述的卡使用模式分析方法,其特征在于,上述后缀树根据用户对各个行业的利用频率来设定上述利用路径的加权值。
4.根据权利要求1所述的卡使用模式分析方法,其特征在于,上述利用上述分组信息来预测卡用户的日后利用行业的步骤包括:
提取行业利用模式与作为利用行业预测对象的目标用户类似的多个用户的步骤;
计算与所提取的上述多个用户的各个行业的利用明细有关的事先概率的步骤;以及
利用贝叶斯定理,以上述目标用户的之前利用行业信息为基础,来计算日后有可能利用的行业的概率的步骤。
5.根据权利要求4所述的卡使用模式分析方法,其特征在于,还包括如下步骤:在上述用户在日后利用概率为规定值以下的行业使用卡的情况下,累计对其的异常数值,在达到规定数值的情况下,将相应用户的卡的使用判断为不正当使用。
6.根据权利要求1所述的卡使用模式分析方法,其特征在于,上述利用上述聚集键来对上述多个用户进行分组的步骤包括如下步骤:在执行映射归纳作业来生成与各个上述聚集键有关的用户组的过程中,向多个处理部分散数据处理来执行。
7.根据权利要求1所述的卡使用模式分析方法,其特征在于,还包括以预测的利用行业为基础来推荐包含相应行业优惠的卡商品的步骤。
8.一种卡公司服务器,用于分析用户的卡使用模式,其特征在于,包括:
卡使用信息收集部,从多个用户收集卡使用行业信息;
哈希函数组构成部,构成一个以上的哈希函数组,上述哈希函数组包括一个以上的多个哈希函数;
映射归纳执行部,对应每个上述哈希函数计算与上述卡使用行业信息有关的哈希值并提取其中的最小值,以所提取的最小值为基础,对应每个上述哈希函数组生成聚集键,利用所生成的聚集键执行对多个用户的分组;
后缀树建立部,将对应每个上述聚集键区分的各个组所包含的多个用户的各个行业的利用路径建立为后缀树;以及
各个行业利用概率计算部,以与作为分析对象的目标用户的之前利用行业有关信息为基础,计算对日后利用行业的利用概率。
9.根据权利要求8所述的卡公司服务器,其特征在于,上述后缀树建立部根据用户对各个行业的利用频率来设定上述利用路径的加权值。
10.根据权利要求8所述的卡公司服务器,其特征在于,上述各个行业利用概率计算部提取利用模式与上述目标用户类似的多个用户,来计算对于所提取的多个用户的各个行业的利用明细的事先概率,利用贝叶斯定理来计算目标用户的对各个行业的利用概率。
11.根据权利要求8所述的卡公司服务器,其特征在于,还包括卡商品推荐部,以所计算的上述各个行业的利用概率为基础来向用户提供卡商品推荐信息。
12.根据权利要求8所述的卡公司服务器,其特征在于,还包括不正当使用检测部,上述不正当使用检测部以所计算的上述各个行业的利用概率为基础,在用户在利用概率为规定值以下的行业中使用卡的情况下,累积对其的异常数值,在上述异常数值达到规定数值的情况下,将相应用户的卡使用判断为不正当使用。
13.根据权利要求8所述的卡公司服务器,其特征在于,上述映射归纳执行部向多个处理部分散在执行用户分组的过程中所需的数据处理来执行。
CN201580064437.4A 2014-11-28 2015-02-09 用于预测使用行业的卡使用模式分析方法及执行其的服务器 Active CN107004221B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2014-0168614 2014-11-28
KR1020140168614A KR101624272B1 (ko) 2014-11-28 2014-11-28 사용 업종 예측을 위한 카드 사용 패턴 분석 방법 및 이를 수행하는 서버
PCT/KR2015/001297 WO2016085042A1 (ko) 2014-11-28 2015-02-09 사용 업종 예측을 위한 카드 사용 패턴 분석 방법 및 이를 수행하는 서버

Publications (2)

Publication Number Publication Date
CN107004221A true CN107004221A (zh) 2017-08-01
CN107004221B CN107004221B (zh) 2021-07-09

Family

ID=56074577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580064437.4A Active CN107004221B (zh) 2014-11-28 2015-02-09 用于预测使用行业的卡使用模式分析方法及执行其的服务器

Country Status (3)

Country Link
KR (1) KR101624272B1 (zh)
CN (1) CN107004221B (zh)
WO (1) WO2016085042A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102580402B1 (ko) * 2021-03-18 2023-09-19 주식회사 신한디에스 카드추천방법 및 그 장치

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060012541A (ko) * 2004-08-03 2006-02-08 한국정보통신주식회사 카드거래정보를 이용한 연계정보 제공 장치 및 방법
KR20090083972A (ko) * 2008-01-31 2009-08-05 연세대학교 산학협력단 음악 검색을 위한 음악 데이터베이스 구축 방법, 허밍 질의를 입력으로 하여 음악을 검색하는 방법 및 장치
CN101583963A (zh) * 2006-10-04 2009-11-18 道克罗克私人有限公司 利用消费者行为模化的优惠或奖赏系统
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102591873A (zh) * 2011-01-12 2012-07-18 腾讯科技(深圳)有限公司 一种信息推荐方法和设备
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置
CN102693502A (zh) * 2012-06-04 2012-09-26 南京中兴软创科技股份有限公司 面向用户消费行为的时间推移数据分析模型的建立方法
CN102750647A (zh) * 2012-06-29 2012-10-24 南京大学 一种基于交易网络的商家推荐方法
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
KR20130062889A (ko) * 2011-12-05 2013-06-13 삼성전자주식회사 데이터 압축 방법 및 시스템
US20140040269A1 (en) * 2006-11-20 2014-02-06 Ebay Inc. Search clustering
CN103699593A (zh) * 2013-12-11 2014-04-02 中国科学院深圳先进技术研究院 一种广义后缀树快速遍历的方法及系统
CN103955842A (zh) * 2014-04-14 2014-07-30 武汉烽火普天信息技术有限公司 一种面向大规模媒体数据的在线广告推荐系统及方法
CN104077412A (zh) * 2014-07-14 2014-10-01 福州大学 一种基于多Markov链的微博用户兴趣预测方法
KR20140131471A (ko) * 2013-05-03 2014-11-13 삼성전자주식회사 시계열 패턴 마이닝 방법 및 장치

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060012541A (ko) * 2004-08-03 2006-02-08 한국정보통신주식회사 카드거래정보를 이용한 연계정보 제공 장치 및 방법
CN101583963A (zh) * 2006-10-04 2009-11-18 道克罗克私人有限公司 利用消费者行为模化的优惠或奖赏系统
US20140040269A1 (en) * 2006-11-20 2014-02-06 Ebay Inc. Search clustering
KR20090083972A (ko) * 2008-01-31 2009-08-05 연세대학교 산학협력단 음악 검색을 위한 음악 데이터베이스 구축 방법, 허밍 질의를 입력으로 하여 음악을 검색하는 방법 및 장치
CN102591873A (zh) * 2011-01-12 2012-07-18 腾讯科技(深圳)有限公司 一种信息推荐方法和设备
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置
KR20130062889A (ko) * 2011-12-05 2013-06-13 삼성전자주식회사 데이터 압축 방법 및 시스템
CN102693502A (zh) * 2012-06-04 2012-09-26 南京中兴软创科技股份有限公司 面向用户消费行为的时间推移数据分析模型的建立方法
CN102750647A (zh) * 2012-06-29 2012-10-24 南京大学 一种基于交易网络的商家推荐方法
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
KR20140131471A (ko) * 2013-05-03 2014-11-13 삼성전자주식회사 시계열 패턴 마이닝 방법 및 장치
CN103699593A (zh) * 2013-12-11 2014-04-02 中国科学院深圳先进技术研究院 一种广义后缀树快速遍历的方法及系统
CN103955842A (zh) * 2014-04-14 2014-07-30 武汉烽火普天信息技术有限公司 一种面向大规模媒体数据的在线广告推荐系统及方法
CN104077412A (zh) * 2014-07-14 2014-10-01 福州大学 一种基于多Markov链的微博用户兴趣预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIN-QING SHENG: "A predicting methodology of scattering by clusters of multi-objects/systems based on plane wave database", 《IEEE》 *
李佳珊: "个性化新闻推荐引擎中新闻分组聚类技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
WO2016085042A1 (ko) 2016-06-02
CN107004221B (zh) 2021-07-09
KR101624272B1 (ko) 2016-05-25

Similar Documents

Publication Publication Date Title
US10484413B2 (en) System and a method for detecting anomalous activities in a blockchain network
CN111614690B (zh) 一种异常行为检测方法及装置
Karim et al. Decision tree and naive bayes algorithm for classification and generation of actionable knowledge for direct marketing
Xing et al. Employing latent dirichlet allocation for fraud detection in telecommunications
CN104216881A (zh) 一种个性化标签的推荐方法及装置
WO2014062606A2 (en) Recommending product information
CN111698247A (zh) 异常账号检测方法、装置、设备及存储介质
CN108614832A (zh) 一种用户个性化商品搜索实现方法及装置
Yu et al. A coupled clustering approach for items recommendation
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN115578163A (zh) 一种组合商品信息的个性化推送方法及系统
Zaim et al. Developing a geomarketing solution
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
CN108537291A (zh) 一种样本分类方法和装置
CN113435900A (zh) 交易风险确定方法、装置和服务器
Zhang et al. Not too late to identify potential churners: early churn prediction in telecommunication industry
CN110020123A (zh) 一种推广信息投放方法、装置、介质及设备
CN107004221A (zh) 用于预测使用行业的卡使用模式分析方法及执行其的服务器
CN111245815A (zh) 数据处理方法、装置、存储介质及电子设备
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
CN110827044A (zh) 提取用户兴趣模式的方法和装置
CN113362098B (zh) 数据处理方法、装置及计算机可读存储介质
CN109389453A (zh) 一种价格分析方法及装置
CN114169965A (zh) 商品相似匹配方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant