CN111784385A - 面向制造业的客户画像构建方法及装置、计算机存储介质 - Google Patents
面向制造业的客户画像构建方法及装置、计算机存储介质 Download PDFInfo
- Publication number
- CN111784385A CN111784385A CN202010565896.3A CN202010565896A CN111784385A CN 111784385 A CN111784385 A CN 111784385A CN 202010565896 A CN202010565896 A CN 202010565896A CN 111784385 A CN111784385 A CN 111784385A
- Authority
- CN
- China
- Prior art keywords
- data
- client
- customer
- order
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 39
- 238000010276 construction Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000009193 crawling Effects 0.000 claims abstract description 7
- 238000007637 random forest analysis Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 39
- 238000003066 decision tree Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 abstract description 12
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013139 quantization Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0224—Discounts or incentives, e.g. coupons or rebates based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了面向制造业的客户画像构建方法及装置、计算机存储介质,该客户画像构建方法可包括但不限于从互联网上爬取客户的企业数据,以及利用企业数据生成用于刻画客户性质和企业运营状态的外部标签;读取客户在第一预设时间段内的订购数据,以及利用订购数据生成用于描述客户行为的内部标签;然后根据外部标签和内部标签构建客户画像。该客户画像构建装置包括但不限于外部标签生成模块、内部标签生成模块及客户画像构建模块。本发明构建的面向制造业的客户画像能全面、客观地展示客户的下单行为和企业情况,而且能够为企业辅助提供客户流失风险建议,具有客观性较强、统一性较好及可量化等突出优点。
Description
技术领域
本发明涉及数据处理技术,更为具体来说,本发明涉及面向制造业的客户画像构建方法及装置、计算机存储介质。
背景技术
如今,全球掀起以制造业转型为首要任务的新一轮工业变革。在传统制造业数字化转型的过程中,应用大数据与人工智能技术是推动企业效益稳定增长的新路径。对于面向订单生产(MTO,Make To Order)的制造业企业,企业生产和运营往往要根据客户订单的实际需求开展;其中,实际需求即:客户要什么产品、数量要多少、什么时候要。所以对于面向订单生产的制造业企业,分析和挖掘订单背后的客户实际需求和情况、以维系客户订单规模是重要任务之一。目前,分析和挖掘订单背后的客户情况和需求,这一工作主要通过企业聘请的业务员完成。但是,业务员对客户的判断较为主观,判断结果对业务员的经验和能力依赖比较大;而且不同的人员(包括业务员和决策者)得出的客户分析和挖掘结果往往也不相同,存在主观性较强、结果难统一及无法进行量化等问题。
发明内容
为解决现有对制造业企业的客户的分析和挖掘结果存在较主观、无法统一和量化等问题,本发明提供了一种面向制造业的客户画像构建方法及装置、计算机存储介质。本发明以客户历史订单数据和企业数据为基础,能够结合大数据技术和机器学习技术构建面向制造业企业的客户的画像,达到得到客户分析和挖掘结果的目的,实现为得到客观、统一且可量化的客户分析和挖掘结果提供了较佳的技术方案。
为实现上述技术目的,本发明公开了一种面向制造业的客户画像构建方法,该构建方法包括但不限于如下的步骤。从互联网上爬取客户的企业数据,并利用所述企业数据生成用于刻画客户性质和企业运营状态的外部标签;读取客户在第一预设时间段内的订购数据,并利用所述订购数据生成用于描述客户行为的内部标签;然后根据所述外部标签和所述内部标签构建客户画像。
进一步地,所述订购数据包括历史订单数据;该方法包括还根据随机森林模型预测的客户流失风险值构建客户画像;随机森林模型的建立过程包括:对所有历史订单数据进行无量纲化预处理,以得到第一数据集;对所述第一数据集进行特征扩展,然后从扩展后的第一数据集中提取重要性高于或等于第一数据集内剩余特征的多个特征,以得到第二数据集;将所述第二数据集划分为训练集和测试集,基于所述训练集和测试集建立用于预测客户流失风险值的随机森林模型。
进一步地,建立用于预测客户流失风险值的随机森林模型的过程包括:通过所述训练集和所述测试集生成多棵决策树;利用所述多棵决策树形成随机森林模型。
进一步地,生成多棵决策树的过程包括:采用有放回地随机采样的方式从所述训练集中选出n个样本,从所述多个特征中随机选取k个特征,利用所述n个样本和所述k个特征生成待测试的决策树;利用所述测试集计算所述待测试的决策树存在的误差,并将误差小于设定值的决策树作为形成所述随机森林模型的决策树。
进一步地,预测客户流失风险值的过程包括:令新的历史订单数据分别经过随机森林模型中的每棵决策树,以得到多个决策结果,将所有决策结果中得到投票数最多的决策结果作为客户流失风险值。
进一步地,读取客户在第一预设时间段内的订购数据的过程包括:将历史订单数据按时间顺序存储至订单新表中;其中,按照设定频率对所述订单新表进行更新,更新过程中删除订单新表第二预设时间段内的数据以及将第二预设时间段内的最新订单数据插入至所述订单新表中。
进一步地,所述订购数据还包括财务数据,所述财务数据包括客户付款日期、订单发货日期及订单单号;所述历史订单数据包括开单单号、开单日期、订单金额、订单利润及订单规模;所述内部标签包括下单趋势标签、下单频次标签、利润程度标签及信用度标签;所述企业数据包括企业状态、注册资本、资本类型、融资、上市状态、失信记录及组织架构;所述外部标签包括单位简称标签、所属行业标签、地理位置标签、企业性质标签及企业体量标签。
为实现上述的技术目的,本发明还公开了面向制造业的客户画像构建装置,该构建装置包括但不限于外部标签生成模块、内部标签生成模块及客户画像构建模块。外部标签生成模块用于从互联网上爬取客户的企业数据,以及用于利用所述企业数据生成用于刻画客户性质和企业运营状态的外部标签;内部标签生成模块用于读取客户在第一预设时间段内的订购数据,以及用于利用所述订购数据生成用于描述客户行为的内部标签;客户画像构建模块用于根据所述外部标签和内部标签构建客户画像。
进一步地,所述客户画像构建模块,用于还根据随机森林模型预测的客户流失风险值构建客户画像;所述订购数据包括历史订单数据;所述客户画像构建装置还包括第一数据集建立模块、第二数据集建立模块及随机森林模型建立模块。第一数据集建立模块用于对所有历史订单数据进行无量纲化预处理,以得到第一数据集;第二数据集建立模块用于对所述第一数据集进行特征扩展,并用于从扩展后的第一数据集中提取重要性高于或等于第一数据集内剩余特征的多个特征,以得到第二数据集;随机森林模型建立模块用于将所述第二数据集划分为训练集和测试集,以及用于基于所述训练集和测试集建立用于预测客户流失风险值的随机森林模型。
为实现上述的技术目的,本发明还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现本发明任一实施例所述的面向制造业的客户画像构建方法或装置。
本发明的有益效果为:本发明构建的面向制造业的客户画像能全面、客观地展示客户的下单行为和企业情况等,而且能够为企业辅助提供客户流失风险建议,具有客观性较强、统一性较好及可量化等突出优点。
对于不同客户各自的画像,本发明针对性非常强,而且本发明还具有计算机执行效率高、自动化程度较高、降低接口模块开发难度等优点。
附图说明
图1示出了本发明一些实施例的面向制造业的客户画像构建方法的流程示意图。
图2示出了本发明一些实施例的面向制造业的客户画像构建装置的工作原理示意图。
图3示出了本发明一些实施例的用于预测客户流失风险值的随机森林模型的训练原理示意图。
具体实施方式
下面结合说明书附图对本发明所提供的面向制造业的客户画像构建方法及装置、计算机存储介质进行详细的解释和说明。
实施例一:
如图1、2所示,本实施例能够提供一种面向制造业的客户画像构建方法,可应用于制造业企业,该客户画像构建方法可包括但不限于如下的步骤。
从互联网上爬取客户的企业数据,并利用企业数据生成用于客观刻画客户性质和企业运营状态的外部标签。本实施例主要利用爬虫技术在记录客户信息的网站以及客户官网等爬取到外部标签需要的相关信息。其中,企业数据包括但不限于企业状态、注册资本、资本类型、融资、上市状态、失信记录及组织架构等多种数据;生成的外部标签包括但不限于单位简称标签、所属行业标签、地理位置标签、企业性质标签及企业体量标签等等标签。作为一种优化的外部标签生成方式,本实施例中可以将存储在标签数据表(数据库)中的数据直接与外部标签对应即可。
读取客户在第一预设时间段内的订购数据,并利用订购数据生成用于描述客户行为的内部标签,内部标签具体用于根据客户的下单行为与合作记录中从企业角度描述客户行为。订购数据包括历史订单数据,第一预设时间段可以是近五年,所以本发明可提供一种基于订单数据的制造业企业客户画像的构建方法。更为具体地,本实施例读取客户在第一预设时间段内订购数据的过程包括:将历史订单数据按时间顺序存储至订单新表中;其中,按照设定频率对订单新表进行更新,更新过程中删除订单新表第二预设时间段内的数据以及将新得到的第二预设时间段内的最新订单数据插入至订单新表中,第二预设时间段可以是一个月。本实施例的订单新表例如可如下所示。
本实施例订购数据还包括财务数据,财务数据包括但不限于客户付款日期、订单发货日期及订单单号,所以本发明还能够依据财务新表的支持反映客户信用度。本实施例的财务新表例如可如下表所示。
历史订单数据包括但不限于开单客户名、开单单号、开单日期、订单金额、订单利润及订单规模等;内部标签可包括但不限于下单趋势标签、下单频次标签、利润程度标签及信用度标签等。其中,下单趋势标签表示客户订单规模在未来增大还是减少,决定了制造业企业对生产和市场资源调整的策略。本实施例采用的下单趋势标签的生成策略可以包括:取订单新表中全部数据,依据开单日期字段,统计各客户在历年每月的下单量,包括下单规模、下单金额,绘制成时间序列图;并计算每月同比环比数据,标注出同比与环比降幅超过缺省值(例如:50%)的时间段,该值可人工调整,进而供业务员和/或决策层参考。下单频次标签表示客户是否为稳定下单的客户,作为是否应建立稳固的合作关系的参考。本实施例所采用的下单频次标签的生成策略可以包括:取订单新表中全部数据,统计各客户在过去一段时间(比如26周)有下单的周数;如果下单周数≥18周,被定义为短尾客户,该类客户需求频繁并且稳定;下单周数介于6周~17周之间,被定义为中尾客户,该类客户需求相对频繁但不稳定;下单周数≤5周,被定义为长尾客户,该类客户需求不频繁且不稳定。而信用度标签表示客户是否有违约和无法及时付款的风险;本实施例采用的信用度标签的生成策略可以包括:取财务新表中全部数据,依据字段发货日期与付款日期的时间差作为回款周期;结合外部标签获取到的有关企业规模、注册资本、纳税信用与失信信息,若客户体量较大、信用良好且历史回款周期短,可定义为高信用客户,采取先货后款策略,并给予付款周期为30~60天;若客户体量中等且外部信用一般,可定义为中等信用,采取付款周期10~15天措施;若客户体量较小且有失信记录,则被定义为低信用客户,采取先款后货措施。利润程度标签表示客户是高利润客户还是低利润客户,高利润客户可考虑加深合作。本实施例采用的利润程度标签的生成策略可包括:取订单新表中全部数据,选取订单加工工时、订单利润字段,统计计算每家客户总订单利润/工时的值,再按照等级进行划分成高利润、中等利润、低利润客户,进而为客户打上标签。该画像体系能够有效地为企业提供具有实际意义的多个指标,辅助制造业企业维持良好的合作生产环境,促进制造业企业长远健康发展及获得更多利益。
进一步来说,本实施例可以从企业内部已有信息系统提取相关的订单数据和/或财务数据,并进行定时抽取更新。本实施例通过每月新增的订单反映出最新变化,将每月新产生订单信息更新到新表中。更为具体地,可删除新表中时间最长的过去30天数据,查询最新30天的订单信息插入到新表中,以实现订购数据更新功能。本实施例可采用更新订单新表的方式更新财务新表,不再进行赘述。本发明能够按照设定频率对订单新表进行更新,相比于常规技术,本发明能够捕捉和关注到面向制造业企业的客户的动态变化,以及时发现客户信用和经营状态的变化,较适于制造业企业使用。
本实施例中,本发明形成的各个标签数据能够以数据表的形式存储在MySQL(mystructure quest language,关系型数据库)中。其中,可以将各标签作为字段名,数据表中每一行代表各客户名称。
最后根据外部标签和内部标签构建客户画像。本发明的实施顺序并不限于文字表述的顺序,例如内部标签生成步骤和外部标签生成步骤可同时进行或者一先一后进行均可。
该客户画像构建方法还可包括:还根据随机森林模型预测的客户流失风险值构建客户画像,以随时掌握客户行为变化;即使随着新订单的产生、客户的订单行为和经营状况发生变化,本发明仍然能够更好地捕捉到客户的动态变化以及及时做出反应和调整,即本发明能够起到客户流失预警等作用。本实施例预测客户流失风险值的过程包括:令新的历史订单数据分别经过随机森林模型中的每棵决策树,以得到多个决策结果;将所有决策结果中得到投票数最多的决策结果作为客户流失风险值。
本实施例中的随机森林模型的建立过程(本实施例以下单趋势为例)包括:选择订单新表中的所有数据(即所有历史订单数据)作为数据集,对所有历史订单数据采用无量纲化方式进行预处理,以得到第一数据集,预处理过程可以包括:对于不同规格的数据进行无量纲化,对于服从正态分布的特征值进行标准化,非正态分布的特征值利用区间缩放法,对定量特征进行二值化,对于缺失值用中位数、众数方式进行填补;然后对第一数据集进行特征扩展,然后从扩展后的第一数据集中提取多个特征,而且提取的多个特征的重要性高于或等于第一数据集内剩余特征,以得到第二数据集。本实施例中,选取订单信息新表中尽可能多的相关特征字段,可包括订单时间、订单规模、订单金额、加工时长等基本特征;特征扩展的过程中,扩展的特征例如包括过去13周/26周订单频次、过去13周/26周平均订单间隔、当月和最近6个月下单规模/金额均值的偏差比等等;本实施例可以使用使用随机森林做特征选择,即对数据集使用随机森林建模并对特征重要性进行排序,提取前20个特征,具体实施时如若特征矩阵过大,导致计算量大训练时间长,可进行降维;将第二数据集划分为训练集和测试集,然后再基于训练集和测试集建立用于预测客户流失风险值的随机森林模型。
更为具体来说,建立用于预测客户流失风险值的随机森林模型的过程包括:通过训练集和测试集生成多棵决策树,然后再利用多棵决策树形成随机森林模型。本实施例训练时设置客户流失的缺省值为客户下单量连续三月同比降幅超过80%,该值可通过人工调整或具体场景经验或学习进行设置。基于上述方式可对数据集中客户打上标签,判断是否存在流失。本实施例可将数据集按0.7比例进行拆分作为训练集、剩余的0.3作为测试集。本实施例采用随机森林方式,利用测试集计算待测试的决策树存在的误差,并将误差小于设定值的决策树作为形成随机森林模型的决策树。
本实施例采用的机制是根据客户历史下单行为预测是否存在流失的可能性,在预测结果涉及二分类问题。本实施例选用的随机森林模型可在分类问题的解决上表现良好,不仅具有较强的泛化能力,而且能够较好地处理离散型、连续型和缺失数据,所以本发明对于传统制造业的工业数据来源存在质量不高的问题具有较好的包容性,本实施例的随机森林可使用CART(Classification and Regression Tree,分类和回归)决策树作为弱学习器,并且在使用决策树的基础上对决策树的建立进行改进:随机选择树节点上的一部分样本特征,然后可在这些随机选择的样本特征中选择一个最优的特征来做决策树的左右子树划分。本实施例具体训练过程、即生成多棵决策树的过程可包括:
(1)采用有放回地随机采样的方式从训练集中选出n个样本。
(2)从多个特征中随机选取k个特征,利用n个样本和k个特征生成待测试的CART决策树,CART分类树算法的最优特征选择方法如下:CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。假设k个类别,第k个类别的概率为pk,概率分布的基尼系数表达式为:
对于二分类,第一个样本输出概率为p,概率分布的基尼系数表达式为:
Gini(p)=2p(1-p)
为了最优化特征,即将基尼系数最小化:
3)重复上述步骤1)和2)T次,即生成T棵决策树,形成随机森林。
4)对于新数据,经过每棵树决策,即经T个弱学习器最终得出投票数最多的类别,输出即为最终的强分类器结果,如图3所示。可将调参并训练好的模型应用到订单信息表,评估客户流失情况。对于有存在订单量减少、有流失风险的客户采取回访调查、挽回策略,从而增进企业发展。对于信用度标签,也采取同样机制评价客户指标。
如图2所示,本实施例还可设计接口开发,以方便企业内部人员使用。本实施例只要在应用接口界面输入需查询的客户,则能够直接看到该客户画像相关的信息,例如是否有流失风险、下单趋势分布、内部或外部标签等。如下表中所示,本实施例为制造业企业提供具有多个标签维度的客户画像。为了更好地辅助业务员和上级领导层掌握合作客户的标签信息,本发明开发的应用接口有助于便捷地获取标签信息。可实现的功能包括:当业务员在该系统输入客户单位简称或全称进行查询时,系统能给出该客户外部、内部标签,历史下单趋势分布图及客户是否存在流失风险等信息。
实施例二:
如图2所示,与实施例一基于相同的发明构思,本实施例具体提供了一种面向制造业的客户画像构建装置,能够执行实施例一中的构建方法,可应用于制造业企业。
该面向制造业的客户画像构建装置包括但不限于外部标签生成模块、内部标签生成模块及客户画像构建模块。
外部标签生成模块用于从互联网上爬取客户的企业数据,并用于利用企业数据生成用于刻画客户性质和企业运营状态的外部标签。本实施例中的企业数据包括企业状态、注册资本、资本类型、融资、上市状态、失信记录及组织架构,得到的外部标签包括单位简称标签、所属行业标签、地理位置标签、企业性质标签及企业体量标签。
内部标签生成模块用于读取客户在第一预设时间段内的订购数据,以及用于利用订购数据生成用于描述客户行为的内部标签;本实施例的订购数据包括历史订单数据。本实施例中,内部标签生成模块用于将历史订单数据按时间顺序存储至订单新表中;内部标签生成模块用于按照设定频率对订单新表进行更新,更新过程中还用于删除订单新表第二预设时间段内的数据以及用于将第二预设时间段内的最新订单数据插入至订单新表中。本实施例的订购数据还包括财务数据,财务数据包括客户付款日期、订单发货日期及订单单号;历史订单数据包括开单单号、开单日期、订单金额、订单利润及订单规模。内部标签包括下单趋势标签、下单频次标签、利润程度标签及信用度标签。
客户画像构建模块用于根据外部标签和内部标签构建客户画像。在本实施例一些较佳的方案中,客户画像构建模块还用于还根据随机森林模型预测的客户流失风险值构建客户画像。
本实施例中的客户画像构建装置还可包括第一数据集建立模块、第二数据集建立模块及随机森林模型建立模块。
第一数据集建立模块用于对所有历史订单数据进行无量纲化预处理,以得到第一数据集。
第二数据集建立模块用于对第一数据集进行特征扩展,并用于从扩展后的第一数据集中提取重要性高于或等于第一数据集内剩余特征的多个特征,以得到第二数据集。
随机森林模型建立模块用于将第二数据集划分为训练集和测试集,以及用于基于训练集和测试集建立用于预测客户流失风险值的随机森林模型。在本实施例中,随机森林模型建立模块可以通过训练集和测试集生成多棵决策树,然后利用多棵决策树形成随机森林模型。更为具体地,随机森林模型建立模块还可以用于采用有放回地随机采样的方式从训练集中选出n个样本,从多个特征中随机选取k个特征,再利用n个样本和k个特征生成待测试的决策树;随机森林模型建立模块还用于利用测试集计算待测试的决策树存在的误差,并将误差小于设定值的决策树作为形成随机森林模型的决策树。
本实施例的客户画像构建模块还用于预测客户流失风险值。具体地,客户画像构建模块用于令新的历史订单数据分别经过随机森林模型中的每棵决策树,以得到多个决策结果;客户画像构建模块还用于将所有决策结果中得到投票数最多的决策结果作为客户流失风险值。
实施例三:
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至7中任一权利要求的面向制造业的客户画像构建方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read-Only Memory),可擦除可编辑只读存储器(EPROM,Erasable Programmable Read-Only Memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM,Compact Disc Read-Only Memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA,Programmable Gate Array),现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向制造业的客户画像构建方法,其特征在于,包括:
从互联网上爬取客户的企业数据,并利用所述企业数据生成用于刻画客户性质和企业运营状态的外部标签;
读取客户在第一预设时间段内的订购数据,并利用所述订购数据生成用于描述客户行为的内部标签;
根据所述外部标签和所述内部标签构建客户画像。
2.根据权利要求1所述的面向制造业的客户画像构建方法,其特征在于,所述订购数据包括历史订单数据;该方法包括还根据随机森林模型预测的客户流失风险值构建客户画像;随机森林模型的建立过程包括:
对所有历史订单数据进行无量纲化预处理,以得到第一数据集;
对所述第一数据集进行特征扩展,然后从扩展后的第一数据集中提取重要性高于或等于第一数据集内剩余特征的多个特征,以得到第二数据集;
将所述第二数据集划分为训练集和测试集,基于所述训练集和测试集建立用于预测客户流失风险值的随机森林模型。
3.根据权利要求2所述的面向制造业的客户画像构建方法,其特征在于,建立用于预测客户流失风险值的随机森林模型的过程包括:
通过所述训练集和所述测试集生成多棵决策树;
利用所述多棵决策树形成随机森林模型。
4.根据权利要求3所述的面向制造业的客户画像构建方法,其特征在于,生成多棵决策树的过程包括:
采用有放回地随机采样的方式从所述训练集中选出n个样本,从所述多个特征中随机选取k个特征,利用所述n个样本和所述k个特征生成待测试的决策树;
利用所述测试集计算所述待测试的决策树存在的误差,并将误差小于设定值的决策树作为形成所述随机森林模型的决策树。
5.根据权利要求3所述的面向制造业的客户画像构建方法,其特征在于,预测客户流失风险值的过程包括:
令新的历史订单数据分别经过随机森林模型中的每棵决策树,以得到多个决策结果;
将所有决策结果中得到投票数最多的决策结果作为客户流失风险值。
6.根据权利要求2所述的面向制造业的客户画像构建方法,其特征在于,读取客户在第一预设时间段内的订购数据的过程包括:
将历史订单数据按时间顺序存储至订单新表中;其中,按照设定频率对所述订单新表进行更新,更新过程中删除订单新表第二预设时间段内的数据以及将第二预设时间段内的最新订单数据插入至所述订单新表中。
7.根据权利要求2所述的面向制造业的客户画像构建方法,其特征在于,
所述订购数据还包括财务数据,所述财务数据包括客户付款日期、订单发货日期及订单单号;所述历史订单数据包括开单单号、开单日期、订单金额、订单利润及订单规模;
所述内部标签包括下单趋势标签、下单频次标签、利润程度标签及信用度标签;
所述企业数据包括企业状态、注册资本、资本类型、融资、上市状态、失信记录及组织架构;
所述外部标签包括单位简称标签、所属行业标签、地理位置标签、企业性质标签及企业体量标签。
8.一种面向制造业的客户画像构建装置,其特征在于,包括:
外部标签生成模块,用于从互联网上爬取客户的企业数据,以及用于利用所述企业数据生成用于刻画客户性质和企业运营状态的外部标签;
内部标签生成模块,用于读取客户在第一预设时间段内的订购数据,以及用于利用所述订购数据生成用于描述客户行为的内部标签;
客户画像构建模块,用于根据所述外部标签和内部标签构建客户画像。
9.根据权利要求8所述的面向制造业的客户画像构建装置,其特征在于,
所述客户画像构建模块,用于还根据随机森林模型预测的客户流失风险值构建客户画像;
所述订购数据包括历史订单数据;所述客户画像构建装置还包括:
第一数据集建立模块,用于对所有历史订单数据进行无量纲化预处理,以得到第一数据集;
第二数据集建立模块,用于对所述第一数据集进行特征扩展,并用于从扩展后的第一数据集中提取重要性高于或等于第一数据集内剩余特征的多个特征,以得到第二数据集;
随机森林模型建立模块,用于将所述第二数据集划分为训练集和测试集,以及用于基于所述训练集和测试集建立用于预测客户流失风险值的随机森林模型。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至7中任一权利要求所述的面向制造业的客户画像构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565896.3A CN111784385A (zh) | 2020-06-19 | 2020-06-19 | 面向制造业的客户画像构建方法及装置、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565896.3A CN111784385A (zh) | 2020-06-19 | 2020-06-19 | 面向制造业的客户画像构建方法及装置、计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111784385A true CN111784385A (zh) | 2020-10-16 |
Family
ID=72756975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010565896.3A Pending CN111784385A (zh) | 2020-06-19 | 2020-06-19 | 面向制造业的客户画像构建方法及装置、计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111784385A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270350A (zh) * | 2020-10-23 | 2021-01-26 | 泰康保险集团股份有限公司 | 组织机构的画像方法、装置、设备及存储介质 |
CN113706220A (zh) * | 2021-09-15 | 2021-11-26 | 华人运通(上海)自动驾驶科技有限公司 | 用户画像确定、用户需求预测方法以及数据处理系统 |
CN114626870A (zh) * | 2020-12-11 | 2022-06-14 | 上海永银软件科技有限公司 | 一种企业数据智能分析系统及其分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784966A (zh) * | 2018-11-29 | 2019-05-21 | 昆明理工大学 | 一种音乐网站客户流失预测方法 |
CN109872173A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 构建用户画像标签的方法、系统及终端设备 |
CN110111156A (zh) * | 2019-05-14 | 2019-08-09 | 重庆天蓬网络有限公司 | 一种客户流失预警方法、系统、介质和电子设备 |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、系统、介质和电子设备 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
-
2020
- 2020-06-19 CN CN202010565896.3A patent/CN111784385A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872173A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 构建用户画像标签的方法、系统及终端设备 |
CN109784966A (zh) * | 2018-11-29 | 2019-05-21 | 昆明理工大学 | 一种音乐网站客户流失预测方法 |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、系统、介质和电子设备 |
CN110111156A (zh) * | 2019-05-14 | 2019-08-09 | 重庆天蓬网络有限公司 | 一种客户流失预警方法、系统、介质和电子设备 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270350A (zh) * | 2020-10-23 | 2021-01-26 | 泰康保险集团股份有限公司 | 组织机构的画像方法、装置、设备及存储介质 |
CN112270350B (zh) * | 2020-10-23 | 2023-11-21 | 泰康保险集团股份有限公司 | 组织机构的画像方法、装置、设备及存储介质 |
CN114626870A (zh) * | 2020-12-11 | 2022-06-14 | 上海永银软件科技有限公司 | 一种企业数据智能分析系统及其分析方法 |
CN114626870B (zh) * | 2020-12-11 | 2024-04-02 | 上海永银软件科技有限公司 | 一种企业数据智能分析系统及其分析方法 |
CN113706220A (zh) * | 2021-09-15 | 2021-11-26 | 华人运通(上海)自动驾驶科技有限公司 | 用户画像确定、用户需求预测方法以及数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Munappy et al. | Data management challenges for deep learning | |
CN101777147B (zh) | 预测建模 | |
US9811794B2 (en) | Qualitative and quantitative modeling of enterprise risk management and risk registers | |
US7039654B1 (en) | Automated bot development system | |
CN111784385A (zh) | 面向制造业的客户画像构建方法及装置、计算机存储介质 | |
US11537825B2 (en) | Systems and methods for features engineering | |
US20060059028A1 (en) | Context search system | |
US20080208661A1 (en) | Method and system of using anrtifacts to identify elements of a component business model | |
Papagiannidis et al. | Identifying industrial clusters with a novel big-data methodology: Are SIC codes (not) fit for purpose in the Internet age? | |
US20210110413A1 (en) | Systems and methods for dynamic demand sensing | |
US10614516B2 (en) | Method and system for auction information management | |
Miller | Statistics for data science: Leverage the power of statistics for data analysis, classification, regression, machine learning, and neural networks | |
US20240086726A1 (en) | Systems and methods for big data analytics | |
Abdullah et al. | Exploring key decisive factors in manufacturing strategies in the adoption of industry 4.0 by using the fuzzy DEMATEL method | |
CN115860800A (zh) | 一种节假日商品销量预测方法、装置及计算机存储介质 | |
Macioł | An application of rule-based tool in attributive logic for business rules modeling | |
Bendechache et al. | A systematic survey of data value: Models, metrics, applications and research challenges | |
JP5139967B2 (ja) | 需要予測装置 | |
JP2003524222A (ja) | 金融サービス商品を開発及び管理するシステムと方法 | |
Chen et al. | Strategic decision-making processes of NPD by hybrid classification model techniques | |
CN113705072A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
JP2021170244A (ja) | 学習モデル構築システムおよびその方法 | |
US20150213385A1 (en) | Method, system and tool for facilitating industrialised adhocracy | |
Mahanti | Application of Quality Tools to Data Warehousing Projects. | |
Makaleng | A framework for implementing a scalable business intelligence system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |