CN111784448A - 一种商户数据的处理方法及系统 - Google Patents
一种商户数据的处理方法及系统 Download PDFInfo
- Publication number
- CN111784448A CN111784448A CN202010586566.2A CN202010586566A CN111784448A CN 111784448 A CN111784448 A CN 111784448A CN 202010586566 A CN202010586566 A CN 202010586566A CN 111784448 A CN111784448 A CN 111784448A
- Authority
- CN
- China
- Prior art keywords
- industry
- merchant
- processed
- division
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000013145 classification model Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 4
- 238000013507 mapping Methods 0.000 description 12
- 239000002699 waste material Substances 0.000 description 9
- 238000012954 risk control Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书公开了一种商户数据的处理方法及系统。该方法中,获得待处理商户;从所述待处理商户中提取出顾客画像数据和交易特征数据;将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
Description
技术领域
本说明书涉及支付技术领域,特别涉及一种商户数据的处理方法及系统。
背景技术
随着互联网的发展,越来越多种类的商户在网络上出现,而为了便于对商户的管理,一般都会将商户进行分类。例如划分到某个行业中,从而对不同的商户采用不同的风控策略,或者根据不同行业的表现决定未来的业务走向等等。
上述情景都需要知道商户所在行业数据,因此,需要提供更可靠的方案。
发明内容
本说明书实施例提供一种商户数据的处理方法及系统,以提高行业划分的成功率和准确率。
第一方面,本说明书实施例提供一种商户数据的处理方法,所述方法包括:
获得待处理商户;
从所述待处理商户中提取出顾客画像数据和交易特征数据;
将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
第二方面,本说明书实施例提供一种商户数据的处理方法,所述方法包括:
获得待处理商户;
从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果;
若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止;所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式;
若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
第三方面,本说明书实施例提供一种商户数据的处理系统,包括:
获得单元,用于获得待处理商户;
提取单元,用于从所述待处理商户中提取出顾客画像数据和交易特征数据;
输入单元,用于将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
第四方面,本说明书实施例提供一种商户数据的处理系统,包括:
获得模块,用于获得未划分行业的待处理商户;
第一划分模块,用于从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果;
第二划分模块,用于若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止;所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式;
行业预测模块,用于若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
第五方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
第六方面,本说明书实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本说明书公开了公开了一种商户数据的处理方法及系统。由于商户中的顾客画像数据和交易特征数据能够准确的表达出该商户的行业特征,故将其作为行业多分类模型的特征数据对待处理商户进行行业预测,能够准确获得其所属行业,提高行业划分的准确率。而商户的行业划分更准确,投入的计算机资源更能够获得丰厚的业务回报。因此,在行业划分准确的基础上,能够合理投入计算机资源,避免计算机资源的浪费,并获得高行业触达度和丰厚的业务回报。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的针对商户数据处理方法的流程图;
图2A为本说明书实施例提供的查找方法的一种流程图;
图2B为本说明书实施例提供的查找方法的另一种流程图;
图3为本说明书实施例提供的商户数据处理方法的另一个流程图;
图4为本说明书实施例提供的商户数据处理系统的示意图;
图5为本说明书实施例提供的商户数据处理系统的另一个示意图;
图6为本说明书实施例提供的一种电子设备的示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
商户:进行经营性商业活动的个人或集体。
行业:对商家所从事的经营性商业活动进行分类的方式,同类的商家属于同一个行业,常见的行业有快消零售、餐饮、医疗健康、婚纱摄影等。
本说明书的一个或者多个实施例中公开了一种商户数据的处理方法及系统。由于商户中的顾客画像数据和交易特征数据能够准确的表达出该商户的行业特征,故将其作为行业多分类模型的特征数据对待处理商户进行行业预测,能够准确获得其所属行业。
进一步的,而商户行业作为后续针对商户的各种风控、管理、决策、业务开发等等各种场景的基础,如果商户的行业划分准确,则能够大幅提高后续以商户为基础的各种业务开展的准确率,并能够大幅节约系统资源。
以管理决策为例,不同行业的商户会采用不同的管理模式或制定不同的决策进行管理。在管理资源方面投入后(例如管理系统开发资源投入),能够获得较高行业触达度和管理回报。而由于行业划分不准确,则很难精准定位商户的行业类型,即便投入同等管理资源,也难以获得相同水平的触达度和管理回报,导致计算机资源浪费,或者风险数据识别有误等等后果。而本实施例采取上述技术方案提高行业划分的准确率,则可据此为基础精准投入管理资源,避免管理资源的浪费,并获得高行业触达度和管理回报。
以风控为例,假如商户的行业划分不准确(如将医院划分为快消零售),则很难精准定位商户的行业类型,即便投入同等风控资源(例如制定风险控制决策、风险预测资源投入等等),风控的准确率也不好,例如本身应该是医疗行业,却使用和快消零售相关的各种策略和模型对商户进行风险控制、风险预测,如此会极大地浪费风控资源。而若行业划分准确,那么基于此所开展的一系列风控策略都能够精准的进行风险控制、风险预测,进而也能够极大的节约风控资源,避免资源浪费,并且获得较好的风险控制效果。
参看图1,本说明书的一个或者多个实施例中公开了商户数据的处理方法的具体实施过程,包括如下步骤:
步骤100,获得待处理商户。
其中,待处理商户是未划分行业的商户。例如,还未进行行业划分的商户(比如新上线的商户),或者有信息缺陷导致未能成功划分行业的商户(比如商户名称未填报)等等。
待处理商户根据填报的信息可分为几种:1、具有商户名称的商户,例如名称为“中心医院北门超市”的商户。2具有商户品牌,但有些商户并没有填报商户名称,但是填报了所属品牌信息,比如,如果一个商户的商户名称未知,但是知道它所属的品牌是“肯德基”。3、未填写任何信息的商户。比如:商户名称未知,品牌未知等等。
具体的,本实施例的系统会定期统计新商户和之前未成功划分行业的老商户进行处理。例如,购物平台会对新上线的商户进行统计,以及记录此前未成功划分行业的老商户。而本实施例的系统可在支付平台中设置,故支付平台可接收由购物平台发送的未划分行业的商户清单,并由本实施例的系统处理。
作为一种可选的实施例,在获得待处理商户之后,可根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果;若所述行业划分结果表示针对所述待处理商户的行业划分失败,再执行下述步骤102。
具体的,可根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果;若所述行业划分结果表示针对所述待处理商户的行业划分失败,则执行从所述待处理商户中提取出顾客画像数据和交易特征数据的步骤。
具体来说,预设行业划分方式至少包括:商户名称划分方式和/或商户品牌划分方式。当然其他划分方式也应当包括在本实施例的保护范围之内。
而根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果的过程中,根据所述商户名称划分方式对所述待处理商户进行行业划分;和/或根据所述商户品牌划分方式对所述待处理商户进行行业划分。
若预设行业划分方式仅包括商户名称划分方式或商户品牌划分方式,则直接选择商户名称划分方式或商户品牌划分方式进行划分即可,并且在划分失败后会跳转到步骤102执行。
若预设行业划分方式包括商户名称划分方式和商户品牌划分方式两种,则可按照优先级(例如商户名称划分方式优先级高于商户品牌划分方式)、随机或根据用户制定的策略等等,从预设行业划分方式中先确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果。若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止。
所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式。其中,所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的选项。若从预设行业划分方式中确定的划分方式对所述待处理商户进行行业划分的结果为行业划分失败,则可以从剩余划分方式中选择一种划分方式继续进行行业划分。举例来说,若预设行业划分方式中包括商户名称划分方式和商户品牌划分方式。则可以先选择商户名称划分方式进行行业划分,若其行业划分失败,再选择商户品牌划分方式进行行业划分。直到获得所述待处理商户的所属行业为止。而若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则需使用训练得到的行业多分类模型对所述待处理商户进行行业预测,故跳转到步骤102执行。
在本实施例中,由于各划分方式可能都有对方无法判断的商户,故将所有划分方式结合进行行业划分可以起到优势互补的作用,能够全面的对待处理商户进行行业划分,并且提高待处理商户行业识别的成功率。
进一步的,若预设行业划分方式的行业划分结果失败,则可以使用行业多分类模型兜底,来进行行业预测,以保证行业划分的成功率。并且,由于行业多分类模型使用的特征数据:顾客画像数据和交易特征数据,都能够准确的表达出该商户的行业特征,故据此入手对待处理商户进行行业预测,能够准确获得其所属行业,以提高行业划分的准确率。
下面分别对行业划分方式进行详细介绍。
在根据所述商户名称划分方式对所述待处理商户进行行业划分的过程中,从所述待处理商户的商户名称中提取出N个关键词。相对的,获得若干已确定行业的正负向关键词列表。然后将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
在本实施例中,N≥1且为正整数,即:关键词的数量不做限制。而提取关键词的方式有多种,例如正则表达式。举例来说,待处理商户的商户名称为“中心医院北门超市”,则可根据上述列举的方法提取出关键词“医院”、“超市”。
而本实施例的已确定行业至少有一种以上。例如已确定行业为:医疗健康行业、零售行业、服装行业等等。值得注意的是,在若干已确定行业中,每个行业具有优先等级排序。例如医疗行业的优先级高于食品行业的优先级。
进一步的,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表。所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词。以食品行业为例,零售行业的正向关键词列表中包括连锁便利店或连锁超市名称,比如XX连锁、XX超市等等。若从待处理商户的商户名称中提取出的N个关键词中,有第一预设数目的关键词在此正向关键词列表中,则表示待处理商户属于该行业。例如,提取的5个关键词,有1个关键词在此列表中即可。而其负向关键词列表中可包括本行业统计的负向关键词和/或其他行业的所有正向关键词。例如酒店。若从待处理商户的商户名称中提取出的N个关键词中,有第二预设数目的关键词列表在此负向关键词列表中,则表示待处理商户不属于该行业。
而将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配的过程中,从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表。然后基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找。
具体的,所述第一行业从所述若干已确定行业中随机提取或者按照优先级提取。而在匹配的过程中,包含两个步骤:基于所述N个关键词中的全部关键词在所述第一行业的负向关键词列表中进行查找;基于所述N个关键词中的全部关键词在所述第一行业的正向关键词列表中进行查找。这两个查找步骤可先后或者同时执行。参看图2A,是本实施例的其中一种查找方式。首先判断待处理商户的关键词是否出现在P行业的正向关键词列表中。若不在,则跳转到P+1行业继续判断。若在,则继续判断待处理商户的关键词是否出现在P行业的负向关键词列表中,若不在,则表示该待处理商户属于P行业。若在,则跳转到P+1行业继续判断。参看图2B,是本实施例的另一种查找方式。首先判断待处理商户的关键词是否出现在P行业的负向关键词列表中。若在,则跳转到P+1行业继续判断。若不在,则继续判断待处理商户的关键词是否出现在P行业的正向关键词列表中,若在,则表示该待处理商户属于P行业。若不在,则跳转到P+1行业继续判断。
而在从N个关键词中取出关键词查找时,可从N各关键词中逐一获得关键词,对每个关键词执行上述查找步骤。也可以从N个关键词中取出部分或者全部关键词,对取出的关键词同时执行上述查找步骤。具体方式可根据实际情况确定。
若在所述第一行业的负向关键词列表中未查找到所述N个关键词,并且在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个(也即第一预设数目的数)关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数。
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。例如剩余行业中包括行业A、行业B。则可先使用行业A执行上述查找步骤,若未查找到,则使用行业B查找。若仍旧未查找到,则表示所有已确定行业都已经执行查找步骤,则停止查找。当然,若查找到待处理商户所属行业,也可停止查找。
以待处理商户“中心医院北门超市”为示例。其提取出关键词为“医院”、“超市”。
在该示例中,若干已确定行业按照优先级排序为医疗健康行业、零售行业、服装行业。医疗健康行业的正向关键词列表中包括:医院。医疗健康行业的负向关键词列表中包括:超市。
在进行对比时,可先在医疗健康行业的正负向关键词列表中查找关键词“医院”。例如先在医疗健康行业的正向关键词列表中查找,则查找结果为:在正向关键词列表中查找到关键词“医院”。可继续取出关键词“超市”依次在正向关键词列表和负向关键词列表中查找,若“超市”出现在负向关键词列表中,则表示待处理商户不属于医疗健康行业,则跳转到零售行业继续判断。
当然,也可以先使用医疗健康行业的负向关键词列表进行判断,直接判断出“超市”出现在负向关键词列表中,则无需再判断关键词“医院”跳转到零售行业继续判断。
假设零售行业的正向关键词列表中包括:超市、便利店、小卖部。零售行业的负向关键词列表中包括:酒店。
在利用零售行业判断时,可得出结果:“超市”在零售行业的正向关键词列表中,并且在零售行业的负向关键词列表中未查找到关键词“医院”,则表示待处理商户属于零售行业。
以上是针对商户名称划分方式对所述待处理商户进行行业划分的实施方式,通过正负向关键词列表查找的方式,避免了商户名称中出现两个以上不同行业关键词时的矛盾问题,能够有效地识别出商户所属行业。
以上是针对商户名称划分方式对所述待处理商户进行行业划分的实施方式,通过正负向关键词列表查找的方式,避免了商户名称中出现两个以上不同行业关键词时的矛盾问题,能够有效地识别出商户所属行业。
而在据所述商户品牌划分方式对所述待处理商户进行行业划分的过程中,首先获得所述待处理商户的所属品牌。具体的,有些商户可能并没有填报商户名称,但是填报了所属品牌信息,比如,待处理商户的商户名称未知,但是知道它所属的品牌是“肯德基”。再根据所述所属品牌在品牌行业映射关系中进行查找。若在所述映射关系中查找到所述所属品牌对应的行业,则将所述所属品牌对应的行业确定为所述待处理商户的行业。在本实施例中,设置有“品牌”-“行业”的映射关系表,如果已知了商户所属品牌,并且映射表中包含了这个品牌,就可以判断这个商户所在的行业。例如关系映射表中的“肯德基”对应“餐饮”这个行业,那么可以判断该商户属于“餐饮”行业。若在所述映射关系中未查找到所述所属品牌对应的行业,则表示针对所述待处理商户的行业划分失败。
以上是针对商户品牌划分方式对所述待处理商户进行行业划分的实施方式,通过对待处理上述的所属品牌进行处理,能够弥补待处理商户未填写商户名称的缺陷,进而有效的识别出商户所属行业,能够提高商户所属行业识别的成功率。
步骤102,从所述待处理商户中提取出顾客画像数据和交易特征数据。
在具体的实施过程中,行业多分类模型针对的是待处理商户顾客画像样本数据和具有行业标签的交易特征样本数据进行预测,而这些数据都是待处理商户在营业过程中真实存在的数据。故即便是待处理商户的信息不全(例如名称不全或者所属品牌不全),也不会影响预测的准确性。
步骤104,将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
在具体的实施过程中,所述行业多分类模型根据以下步骤训练得到:获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签。参看表1。
例如,商户顾客画像特征包括近期(一般取最近30天)各性别、年龄段、职业的用户占比,商户的交易特征包括近期的交易笔数、交易金额、各时段的交易占比、单笔交易金额平均值、方差等。提取这些特征的原因是,不同行业的商户在这些交易特征上会有很大的区分性,比如对于餐饮类行业,在用餐时间段内的笔数占比就非常高,对于加油站类行业,每笔交易的金额都非常接近,因此其平均值在某个固定值左右,方差也比较小。故可利用取出的商户顾客画像和交易特征学习出一个行业多分类模型。构建初始多分类模型。本实施例常用的多分类模型有逻辑回归多分类、XGBoost多分类等等。利用所述训练样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
在具体的预测过程中,将所述顾客画像数据和所述交易特征数据输入所述行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
在本实施例中,由于每个商户都一定会有的顾客画像和交易特征,通过提取商户的顾客画像和交易特征,使用行业多分类模型预测商户所在行业的方法,对于那些没有所属品牌、没有商户名称或者商户名称不包含任何有效关键词的商户,仍然能通过行业多分类模型来进行行业预测解决商家名称或所属品牌缺失导致的行业无法判断的问题,商户所属行业的可判断性提高到了100%。
作为一种可选的实施例,针对识别出所属行业的商户投入管理决策进行管理;或者针对识别出所属行业的商户投入风控决策进行风险识别,以使管理系统或者风控系统根据识别出所属行业的商户调整计算机资源的投入,提高资源回报。
基于相同的发明构思,本实施例提供了一种商户数据的处理方法,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
在本实施例中,首先获得未划分行业的待处理商户;然后从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果。若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,通过预设行业划分方式中的各划分方式针对待处理商户进行处理,直到获得所述待处理商户的所属行业为止,故能够提高待处理商户的行业划分的成功率。而商户的行业划分更准确,投入的计算机资源更能够获得丰厚的业务回报。因此,在行业划分准确的基础上,能够合理投入计算机资源,避免计算机资源的浪费,并获得高行业触达度和丰厚的业务回报。
另外,若所述预设行业划分方式中的所有划分方式所述待处理商户的行业划分均失败,则可使用训练得到的行业多分类模型对所述待处理商户进行行业预测,通过行业多分类模型对行业划分进行兜底操作,对于那些没有所属品牌、没有商户名称或者商户名称不包含任何有效关键词的商户,仍然能通过行业多分类模型进行行业预测来解决商家名称或所属品牌缺失导致的行业无法判断的问题,故能够进一步提高待处理商户的行业划分的成功率。而商户的行业划分更准确,投入的计算机资源更能够获得丰厚的业务回报。因此,在行业划分准确的基础上,能够合理投入计算机资源,避免计算机资源的浪费,并获得高行业触达度和丰厚的业务回报。
进一步的,商户行业作为后续针对商户的各种风控、管理、决策、业务开发等等各种场景的基础,如果商户的行业划分准确,则能够大幅提高后续以商户为基础的各种业务开展的准确率,并能够大幅节约系统资源。
以管理决策为例,不同行业的商户会采用不同的管理模式或制定不同的决策进行管理。在管理资源方面投入后(例如管理系统开发资源投入),能够获得较高行业触达度和管理回报。而由于行业划分不准确,则很难精准定位商户的行业类型,即便投入同等管理资源,也难以获得相同水平的触达度和管理回报,导致计算机资源浪费,或者风险数据识别有误等等后果。而本实施例采取上述技术方案提高行业划分的准确率,则可据此为基础精准投入管理资源,避免管理资源的浪费,并获得高行业触达度和管理回报。
以风控为例,假如商户的行业划分不准确(如将医院划分为快消零售),则很难精准定位商户的行业类型,即便投入同等风控资源(例如制定风险控制决策、风险预测资源投入等等),风控的准确率也不好,例如本身应该是医疗行业,却使用和快消零售相关的各种策略和模型对商户进行风险控制、风险预测,如此会极大地浪费风控资源。而若行业划分准确,那么基于此所开展的一系列风控策略都能够精准的进行风险控制、风险预测,进而也能够极大的节约风控资源,避免资源浪费,并且获得较好的风险控制效果。
参看图3,本实施例公开了一种商户数据的处理方法,该方法包括如下步骤:
步骤300,获得未划分行业的待处理商户。
其中,待处理商户是未划分行业的商户。例如,还未进行行业划分的商户(比如新上线的商户),或者有信息缺陷导致未能成功划分行业的商户(比如商户名称未填报)等等。
待处理商户根据填报的信息可分为几种:1、具有商户名称的商户,例如名称为“中心医院北门超市”的商户。2具有商户品牌,但有些商户并没有填报商户名称,但是填报了所属品牌信息,比如,如果一个商户的商户名称未知,但是知道它所属的品牌是“肯德基”。3、未填写任何信息的商户。比如:商户名称未知,品牌未知等等。
具体的,本实施例的系统会定期统计新商户和之前未成功划分行业的老商户进行处理。例如,购物平台会对新上线的商户进行统计,以及记录此前未成功划分行业的老商户。而本实施例的系统可在支付平台中设置,故支付平台可接收由购物平台发送的未划分行业的商户清单,并由本实施例的系统处理。
步骤302,从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果。
在本实施例中,预设行业划分方式包括一种或者多种行业划分方式。具体的,其至少包括:商户名称划分方式和/或商户品牌划分方式。当然其他划分方式也应当包括在本实施例的保护范围之内。
若预设行业划分方式仅包括一种划分方式,例如商户名称划分方式或商户品牌划分方式,则直接选择商户名称划分方式或商户品牌划分方式进行划分即可,并且在划分失败后会即可使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
若预设行业划分方式包括两种以上划分方式,例如同时包括商户名称划分方式和商户品牌划分方式两种,则可按照优先级(例如商户名称划分方式优先级高于商户品牌划分方式)、随机或根据用户制定的策略等等确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果。
而在具体的行业划分过程中,可从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分;和/或从预设行业划分方式中确定商户品牌划分方式对所述待处理商户进行行业划分。下面分别进行介绍。
从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分的过程中:从所述待处理商户的商户名称中提取出N个关键词。相对的,获得若干已确定行业的正负向关键词列表。然后将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
在本实施例中,N≥1且为正整数,即:关键词的数量不做限制。而提取关键词的方式有多种,例如正则表达式。举例来说,待处理商户的商户名称为“中心医院北门超市”,则可根据上述列举的方法提取出关键词“医院”、“超市”。
而本实施例的已确定行业至少有一种以上。例如已确定行业为:医疗健康行业、零售行业、服装行业等等。值得注意的是,在若干已确定行业中,每个行业具有优先等级排序。例如医疗行业的优先级高于食品行业的优先级。
进一步的,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表。所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词。以食品行业为例,零售行业的正向关键词列表中包括连锁便利店或连锁超市名称,比如XX连锁、XX超市等等。若从待处理商户的商户名称中提取出的N个关键词中,有第一预设数目的关键词在此正向关键词列表中,则表示待处理商户属于该行业。例如,提取的5个关键词,有1个关键词在此列表中即可。而其负向关键词列表中可包括本行业统计的负向关键词和/或其他行业的所有正向关键词。例如酒店。若从待处理商户的商户名称中提取出的N个关键词中,有第二预设数目的关键词列表在此负向关键词列表中,则表示待处理商户不属于该行业。
而在将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配的过程中,从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表。然后基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找。
具体的,所述第一行业从所述若干已确定行业中随机提取或者按照优先级提取。而在匹配的过程中,包含以下步骤:基于所述N个关键词中的全部关键词在所述第一行业的负向关键词列表中进行查找。基于所述N个关键词中的全部关键词在所述第一行业的正向关键词列表中进行查找。这两个查找步骤可先后或者同时执行。图2A-图2B提供了两种查找方式,具体可见上述实施例的描述,在此不再赘述。
而在从N个关键词中取出关键词查找时,可从N各关键词中逐一获得关键词,对每个关键词执行上述查找步骤。也可以从N个关键词中取出部分或者全部关键词,对取出的关键词同时执行上述查找步骤。具体方式可根据实际情况确定。
若在所述第一行业的负向关键词列表中未查找到所述N个关键词,并且在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个(也即第一预设数目的数)关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数。
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。例如剩余行业中包括行业A、行业B。则可先使用行业A执行上述查找步骤,若未查找到,则使用行业B查找。若仍旧未查找到,则表示所有已确定行业都已经执行查找步骤,则停止查找。当然,若查找到待处理商户所属行业,也可停止查找。由于此实施过程和上述方法实施例中的实施过程类似,故在此不再举例赘述,具体可参见上述实施例的举例。
以上是针对商户名称划分方式对所述待处理商户进行行业划分的实施方式,通过正负向关键词列表查找的方式,避免了商户名称中出现两个以上不同行业关键词时的矛盾问题,能够有效地识别出商户所属行业。
而从预设行业划分方式中确定商户品牌划分方式对所述待处理商户进行行业划分的过程中。首先获得所述待处理商户的所属品牌。具体的,有些商户可能并没有填报商户名称,但是填报了所属品牌信息,比如,待处理商户的商户名称未知,但是知道它所属的品牌是“肯德基”。再根据所述所属品牌在品牌行业映射关系中进行查找。若在所述映射关系中查找到所述所属品牌对应的行业,则将所述所属品牌对应的行业确定为所述待处理商户的行业。在本实施例中,设置有“品牌”-“行业”的映射关系表,如果已知了商户所属品牌,并且映射表中包含了这个品牌,就可以判断这个商户所在的行业。例如关系映射表中的“肯德基”对应“餐饮”这个行业,那么可以判断该商户属于“餐饮”行业。若在所述映射关系中未查找到所述所属品牌对应的行业,则表示针对所述待处理商户的行业划分失败。
以上是针对商户品牌划分方式对所述待处理商户进行行业划分的实施方式,通过对待处理上述的所属品牌进行处理,能够弥补待处理商户未填写商户名称的缺陷,进而有效的识别出商户所属行业,能够提高商户所属行业识别的成功率。
步骤304,若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止。
其中,所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的选项。若从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分的结果为行业划分失败,则可以从剩余划分方式中选择一种划分方式继续进行行业划分,直到获得所述待处理商户的所属行业为止,或者直到所有的划分方式选择完毕为止。举例来说,若预设行业划分方式中包括商户名称划分方式和商户品牌划分方式。则可以先选择商户名称划分方式进行行业划分,若其行业划分失败,再选择商户品牌划分方式进行行业划分。而选择的方式包括但不限于是随机选择、按照划分方式的优先级选择、按照用户的操作选择等等。直到获得所述待处理商户的所属行业为止,或者直到所有的划分方式选择完毕为止。
在本实施例中,由于各划分方式可能都有对方无法判断的商户,故将所有划分方式结合进行行业划分可以起到优势互补的作用,能够全面的对待处理商户进行行业划分,并且提高待处理商户行业识别的成功率。
步骤306,若所述预设行业划分方式中的所有划分方式所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
其中,若本实施例中预设行业划分方式中仅有一种划分方式,比如商户名称划分方式或商户品牌划分方式。则若确定的划分方式失败后,则直接使用训练得到的行业多分类模型对所述待处理商户进行行业预测。而若本实施例中预设行业划分方式中不止一种划分方式,则若所有划分方式所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测。
具体来说,若预设行业划分方式的行业划分失败,则表示待处理商户的信息不全或错误,导致使用预设行业划分方式划分没有结果。因此会进一步采用行业多分类模型进行行业预测。由于行业多分类模型针对的是待处理商户顾客画像样本数据和具有行业标签的交易特征样本数据进行预测,而这些数据都是待处理商户在营业过程中真实存在的数据。故即便是待处理商户的信息不全(例如名称不全或者所属品牌不全),也不会影响预测的准确性。
在具体的实施过程中,所述行业多分类模型根据以下步骤训练得到:获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;构建初始多分类模型;利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
例如,商户顾客画像特征包括近期(一般取最近30天)各性别、年龄段、职业的用户占比,商户的交易特征包括近期的交易笔数、交易金额、各时段的交易占比、单笔交易金额平均值、方差等。提取这些特征的原因是,不同行业的商户在这些交易特征上会有很大的区分性,比如对于餐饮类行业,在用餐时间段内的笔数占比就非常高,对于加油站类行业,每笔交易的金额都非常接近,因此其平均值在某个固定值左右,方差也比较小。故可利用取出的商户顾客画像和交易特征学习出一个行业多分类模型。构建初始多分类模型。本实施例常用的多分类模型有逻辑回归多分类、XGBoost多分类等等。利用所述训练样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
而在具体的预测过程中,从所述待处理商户中提取出顾客画像数据和交易特征数据。将所述顾客画像数据和所述交易特征数据输入所述行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
在本实施例中,由于每个商户都一定会有的顾客画像和交易特征,通过提取商户的顾客画像数据和交易特征数据,使用行业多分类模型预测商户所在行业的方法,对于那些没有所属品牌、没有商户名称或者商户名称不包含任何有效关键词的商户,仍然能通过行业多分类模型来进行行业预测解决商家名称或所属品牌缺失导致的行业无法判断的问题,商户所属行业的可判断性提高到了100%。
作为一种可选的实施例,针对识别出所属行业的商户投入管理决策进行管理;或者针对识别出所属行业的商户投入风控决策进行风险识别,以使管理系统或者风控系统根据识别出所属行业的商户调整计算机资源的投入,提高资源回报。
基于相同的发明构思,本实施例提供了一种商户数据处理系统,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
参看图4,本说明书的一个或者多个实施例中公开了一种商户数据的处理系统,包括:
获得单元400,用于获得待处理商户;
提取单元402,用于从所述待处理商户中提取出顾客画像数据和交易特征数据;
输入单元404,用于将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
作为一种可选的实施例,该系统还包括:
划分单元,用于获得待处理商户之后,根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果;
若所述行业划分结果表示针对所述待处理商户的行业划分失败,则执行从所述待处理商户中提取出顾客画像数据和交易特征数据的步骤。
作为一种可选的实施例,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述划分单元,具体包括:
第一划分单元,用于根据所述商户名称划分方式对所述待处理商户进行行业划分;和/或
第二划分单元,用于根据所述商户品牌划分方式对所述待处理商户进行行业划分。
作为一种可选的实施例,所述第一划分单元,具体用于:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
作为一种可选的实施例,所述所述第一划分单元,具体用于:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
作为一种可选的实施例,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
基于相同的发明构思,本实施例提供了一种商户数据的处理系统,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
参看图5,本说明书的一个或者多个实施例中公开了一种商户数据的处理系统,包括:
获得模块500,用于获得未划分行业的待处理商户;
第一划分模块502,用于从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果;
第二划分模块504,用于若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止;所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式;
行业预测模块506,用于若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
作为一种可选的实施例,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述第一划分模块502,具体用于从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分;和/或从预设行业划分方式中确定商户品牌划分方式对所述待处理商户进行行业划分。
作为一种可选的实施例,所述第一划分模块502,具体用于:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
作为一种可选的实施例,所述第一划分模块502,具体用于:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
作为一种可选的实施例,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
作为一种可选的实施例,所述行业预测模块506,具体用于:
从所述待处理商户中提取出顾客画像数据和交易特征数据;
将所述顾客画像数据和所述交易特征数据输入所述行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图6所示,包括存储器604、处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现前文任一所述方法的步骤。
其中,在图4中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口606在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本说明书也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本说明书的内容,并且上面对特定语言所做的描述是为了披露本说明书的实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本说明书的示例性实施例的描述中,本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本说明书的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本说明书的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置的单元权利要求中,这些装置中的个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (26)
1.一种商户数据的处理方法,所述方法包括:
获得待处理商户;
从所述待处理商户中提取出顾客画像数据和交易特征数据;
将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
2.如权利要求1所述的方法,所述获得待处理商户之后,所述方法还包括:
根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果;
若所述行业划分结果表示针对所述待处理商户的行业划分失败,则执行从所述待处理商户中提取出顾客画像数据和交易特征数据的步骤。
3.如权利要求2所述的方法,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果,具体包括:
根据所述商户名称划分方式对所述待处理商户进行行业划分;和/或
根据所述商户品牌划分方式对所述待处理商户进行行业划分。
4.如权利要求3所述的方法,所述根据所述商户名称划分方式对所述待处理商户进行行业划分,具体包括:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
5.如权利要求4所述的方法,所述将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分,具体包括:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
6.如权利要求1所述的方法,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
7.一种商户数据的处理方法,所述方法包括:
获得待处理商户;
从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果;
若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止;所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式;
若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
8.如权利要求7所述的方法,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,包括:
从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分;和/或
从预设行业划分方式中确定商户品牌划分方式对所述待处理商户进行行业划分。
9.如权利要求8所述的方法,所述从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分,具体包括:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
10.如权利要求9所述的方法,所述将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分,具体包括:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
11.如权利要求7所述的方法,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
12.如权利要求7所述的方法,所述使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业,具体包括:
从所述待处理商户中提取出顾客画像数据和交易特征数据;
将所述顾客画像数据和所述交易特征数据输入所述行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
13.一种商户数据的处理系统,包括:
获得单元,用于获得待处理商户;
提取单元,用于从所述待处理商户中提取出顾客画像数据和交易特征数据;
输入单元,用于将所述顾客画像数据和所述交易特征数据输入训练得到的行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
14.如权利要求13所述的系统,所述系统还包括:
划分单元,用于获得待处理商户之后,根据预设行业划分方式对所述待处理商户进行行业划分,获得行业划分结果;
若所述行业划分结果表示针对所述待处理商户的行业划分失败,则执行从所述待处理商户中提取出顾客画像数据和交易特征数据的步骤。
15.如权利要求14所述的系统,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述划分单元,具体包括:
第一划分单元,用于根据所述商户名称划分方式对所述待处理商户进行行业划分;和/或
第二划分单元,用于根据所述商户品牌划分方式对所述待处理商户进行行业划分。
16.如权利要求15所述的系统,所述第一划分单元,具体用于:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
17.如权利要求16所述的系统,所述所述第一划分单元,具体用于:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
18.如权利要求13所述的系统,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
19.一种商户数据的处理系统,包括:
获得模块,用于获得未划分行业的待处理商户;
第一划分模块,用于从预设行业划分方式中确定一种划分方式对所述待处理商户进行行业划分,获得行业划分结果;
第二划分模块,用于若所述行业划分结果表示针对所述待处理商户的行业划分失败,则从剩余划分方式选项中选择其他划分方式对所述待处理商户进行行业划分,直到获得所述待处理商户的所属行业为止;所述剩余划分方式选项是所述预设行业划分方式中除所述划分方式之外的方式;
行业预测模块,用于若所述预设行业划分方式中的所有划分方式针对所述待处理商户的行业划分均失败,则使用训练得到的行业多分类模型对所述待处理商户进行行业预测,获得所述待处理商户的所属行业。
20.如权利要求19所述的系统,所述预设行业划分方式中包括商户名称划分方式和/或商户品牌划分方式;
所述第一划分模块,具体用于从预设行业划分方式中确定商户名称划分方式对所述待处理商户进行行业划分;和/或从预设行业划分方式中确定商户品牌划分方式对所述待处理商户进行行业划分。
21.如权利要求20所述的系统,所述第一划分模块,具体用于:
从所述待处理商户的商户名称中提取出N个关键词,N≥1且为正整数;
获得若干已确定行业的正负向关键词列表;其中,每个已确定行业的正负向关键词列表中包括一个正向关键词列表和一个负向关键词列表,所述每个已确定行业的正向关键词列表中包含用于确定该行业的关键词,所述每个已确定行业的负向关键词列表中包含用于否定该行业的关键词;
将所述N个关键词和所述若干已确定行业的正负向关键词列表中的关键词进行匹配,以进行行业划分。
22.如权利要求21所述的系统,所述第一划分模块,具体用于:
从所述若干已确定行业的正负向关键词列表中确定出第一行业的正负向关键词列表;
基于所述N个关键词在所述第一行业的正负向关键词列表中进行查找;
若在所述第一行业的正向关键词列表中查找到所述N个关键词中的M个关键词,并且在所述第一行业的负向关键词列表中未查找到所述N个关键词,则将所述第一行业作为所述待处理商户的行业;其中,1≤M≤N且为正整数;
若在所述第一行业的正向关键词列表中未查找到所述N个关键词的任意一个关键词,或者在所述第一行业的负向关键词列表中查找到所述N个关键词中的任意一个关键词,则从所述若干已确定行业中使用剩余行业执行上述查找步骤,直到所有已确定行业查找完毕为止,所述剩余行业是所述若干已确定行业中除所述第一行业之外的行业。
23.如权利要求19所述的系统,所述行业多分类模型根据以下步骤训练得到:
获得若干商户样本数据,在所述若干商户样本数据中,每个商户样本数据包括商户的顾客画像样本数据、交易特征样本数据和商户的行业标签;
构建初始多分类模型;
利用所述若干商户样本数据对所述初始多分类模型进行训练,获得所述行业多分类模型。
24.如权利要求19所述的系统,所述行业预测模块,具体用于:
从所述待处理商户中提取出顾客画像数据和交易特征数据;
将所述顾客画像数据和所述交易特征数据输入所述行业多分类模型进行行业预测,获得所述待处理商户的所属行业。
25.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-12任一项方法的步骤。
26.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-12任一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010586566.2A CN111784448A (zh) | 2020-06-24 | 2020-06-24 | 一种商户数据的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010586566.2A CN111784448A (zh) | 2020-06-24 | 2020-06-24 | 一种商户数据的处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111784448A true CN111784448A (zh) | 2020-10-16 |
Family
ID=72759767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010586566.2A Pending CN111784448A (zh) | 2020-06-24 | 2020-06-24 | 一种商户数据的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111784448A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
CN106296208A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种商品分类方法及装置 |
CN107016026A (zh) * | 2016-11-11 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 一种用户标签确定、信息推送方法和设备 |
CN109961296A (zh) * | 2017-12-25 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 商户类型识别方法及装置 |
CN110020427A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 策略确定方法和装置 |
CN110457291A (zh) * | 2019-07-18 | 2019-11-15 | 重庆智荟数创科技有限公司 | 一种企业实际经营与商标类别关联的算法和装置 |
CN110516175A (zh) * | 2019-08-29 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户标签的方法、装置、设备和介质 |
CN110766541A (zh) * | 2019-09-25 | 2020-02-07 | 平安科技(深圳)有限公司 | 贷款风险评估方法、装置、设备及计算机可读存储介质 |
CN111046952A (zh) * | 2019-12-12 | 2020-04-21 | 深圳市随手金服信息科技有限公司 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
-
2020
- 2020-06-24 CN CN202010586566.2A patent/CN111784448A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
CN106296208A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种商品分类方法及装置 |
CN107016026A (zh) * | 2016-11-11 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 一种用户标签确定、信息推送方法和设备 |
CN109961296A (zh) * | 2017-12-25 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 商户类型识别方法及装置 |
CN110020427A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 策略确定方法和装置 |
CN110457291A (zh) * | 2019-07-18 | 2019-11-15 | 重庆智荟数创科技有限公司 | 一种企业实际经营与商标类别关联的算法和装置 |
CN110516175A (zh) * | 2019-08-29 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户标签的方法、装置、设备和介质 |
CN110766541A (zh) * | 2019-09-25 | 2020-02-07 | 平安科技(深圳)有限公司 | 贷款风险评估方法、装置、设备及计算机可读存储介质 |
CN111046952A (zh) * | 2019-12-12 | 2020-04-21 | 深圳市随手金服信息科技有限公司 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210073283A1 (en) | Machine learning and prediction using graph communities | |
WO2020135535A1 (zh) | 一种推荐模型训练方法及相关装置 | |
US9607273B2 (en) | Optimal time to post for maximum social engagement | |
CN108596695B (zh) | 实体推送方法及系统 | |
CN109377328B (zh) | 商家门店地理位置的推荐方法及装置 | |
CN109300059B (zh) | 菜品推荐方法及装置 | |
US11205195B2 (en) | Information processing device, information processing method, and information processing program | |
US20140289171A1 (en) | Automatic Event Categorization for Event Ticket Network Systems | |
CN114706882A (zh) | 结构化信息卡的搜索和检索 | |
CN108563681B (zh) | 一种内容推荐方法、装置、电子设备及系统 | |
CN111090822A (zh) | 业务对象的推送方法及装置 | |
CN114663198A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN112241495A (zh) | 页面更新方法 | |
KR102402931B1 (ko) | 온라인 상품 판매 플랫폼을 제공하는 서버 및 서버가 고객에게 상품을 추천하는 방법 | |
CN111597447A (zh) | 对象推送方法、装置、电子设备及存储介质 | |
CN111666513A (zh) | 页面处理方法、装置、电子设备及可读存储介质 | |
CN110720099A (zh) | 基于种子监督学习提供推荐的系统和方法 | |
CN114547439A (zh) | 基于大数据和人工智能的业务优化方法及电子商务ai系统 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN108647986A (zh) | 一种目标用户确定方法、装置及电子设备 | |
CN110796178B (zh) | 决策模型训练方法及样本特征选择方法、装置和电子设备 | |
JP2019101579A (ja) | 推定装置、推定方法、および推定プログラム | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN111784448A (zh) | 一种商户数据的处理方法及系统 | |
CN110287492A (zh) | 数据处理及主类别识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201016 |