CN107358494A - 一种基于大数据的客户需求信息挖掘方法 - Google Patents

一种基于大数据的客户需求信息挖掘方法 Download PDF

Info

Publication number
CN107358494A
CN107358494A CN201710486833.7A CN201710486833A CN107358494A CN 107358494 A CN107358494 A CN 107358494A CN 201710486833 A CN201710486833 A CN 201710486833A CN 107358494 A CN107358494 A CN 107358494A
Authority
CN
China
Prior art keywords
demand
customer demand
gcra
client
gcri
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710486833.7A
Other languages
English (en)
Inventor
盛步云
舒瑶
萧筝
邓璘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201710486833.7A priority Critical patent/CN107358494A/zh
Publication of CN107358494A publication Critical patent/CN107358494A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0621Item configuration or customization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Manufacturing & Machinery (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的客户需求信息挖掘方法,包括以下步骤:S1、根据历史客户需求信息,按照客户对产品需求的层次性,将客户需求逐级分解和细化,得到GCRI模型;通过XML数据格式将GCRI模型进行结构化存储,得到CRIA文档;S2、对CRIA文档预处理,根据GCRI模型,提取CRIA文档的需求特征属性,将其映射到GCRI模型的结构中,保存结构化处理后的特征属性和特征属性值;S3、构建MR‑NB算法,该算法包括两个MapReduce阶段;通过第一MapReduce阶段对MR‑NB算法的分类器进行训练;S4、输入CRIA文档的特征属性和特征属性值,通过MR‑NB算法的第二MapReduce阶段,结合训练得到的分类器对不同客户需求确定不同的处理级别。本发明面对大数据量的客户需求能进行深度数据挖掘,数据处理效率高。

Description

一种基于大数据的客户需求信息挖掘方法
技术领域
本发明涉及大规模定制的产品配置设计领域,尤其涉及一种基于大数据的客户需求信息挖掘方法。
背景技术
大规模定制是将标准化技术、模块化设计、产品配置技术以及数据库技术等综合研究,在整合企业产品数据信息的基础上,以优质的产品满足客户需求的过程。大规模定制是以企业的实际生产能力作为主导,以客户对产品的功能需求为出发点,以多种技术为支撑,综合考虑产品市场状况,进行产品的定制生产过程。可以说,客户需求是企业开展产品配置设计的出发点和动力来源,也是大规模定制产品设计的基础。
大规模定制由信息化技术而兴起,其业务需求出发点是客户,所以设计阶段必须充分考虑客户需求的广度和深度,不能局限于考虑产品活动的过程。在大规模定制环境下的客户需求信息处理领域,相关学者从事了一些研究,并且取得了一定的理论与实践成果。郑华林等人的《面向大规模定制的产品需求建模方法研究》将产品需求数据映射为具有拓扑结构的客户需求,然后根据专家知识修改和完善客户需求的拓扑结构,最后通过Internet以规范的需求模板采集客户需求。这种方法便于客户需求的收集和处理,但是出发点仍然站在产品设计的角度,不利于客户对产品需求的个性化表达。车阿大、林志航在《产品设计中获取用户需求的研究及软件系统的开发》中提出以框架的形式表达树形结构的客户需求,将客户需求表达为父子节点的三级层次。万雪峰,但斌等人在《在线大规模定制下基于客户需求模板的产品配置研究》中研究了大规模定制下基于客户需求的产品配置方法,将客户需求分为一般客户和专业客户,以不同的需求采集形式和分析过程得到配置产品。针对多类型的客户类型,王江平在《MC模式下的多类型客户需求信息识别和表达方法研究》中提出了基于三角模糊数对描述性客户需求的处理,然后使用模糊聚类方法划分客户类型,并且分析了聚类阀值对聚类结果的影响。
需要指出的是,以上文献中的客户需求转换常采用质量功能展开(QualityFunction Deployment,QFD),但需求转换与映射的研究大多基于传统的单一产品设计的需求转换,并不完全适用于大规模定制中的客户求映射。在大规模定制中,由于客户需求获取的复杂性本身就很高,加之需求文档的数据量也异常庞大。实际处理客户需求时,明显出现了类似的客户需求订单,如果找到历史设计中相应的客户需求,则完全没必要再进行需求映射和后续设计工作;有时出现了复杂、新奇的客户需求,系统却往往识别不出到底是该进行配置设计还是创新设计。因此,为了有效解决即时的客户需求,实时对客户需求进行分流处理,在进行需求转化之前先对客户需求划分处理级别,根据不同的处理等级完成相应产品配置。
发明内容
本发明要解决的技术问题在于针对现有技术中面对大数据量的客户需求信息时,传统数据挖掘技术无法对数据进行深入分析和数据处理效率低下的缺陷,提供一种基于大数据的客户需求信息挖掘方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于大数据的客户需求信息挖掘方法,包括以下步骤:
S1、根据历史客户需求信息,按照客户对产品需求的层次性,将客户需求逐级分解和细化,得到客户需求规范化结构模型,即GCRI模型;再利用XML数据格式将GCRI模型进行结构化存储,得到客户需求信息获取文档,即CRIA文档;
S2、对CRIA文档预处理,根据GCRI模型,提取CRIA文档的需求特征属性,将其映射到GCRI模型的结构中,保存结构化处理后的特征属性和特征属性值;
S3、构建基于MapReduce的朴素贝叶斯算法,即MR-NB算法,该算法包括两个MapReduce阶段;通过第一MapReduce阶段对MR-NB算法的分类器进行训练,得到MR-NB算法的分类器,以及分类器的类别概率、特征属性值的出现概率;
S4、输入CRIA文档的特征属性和特征属性值,通过MR-NB算法的第二MapReduce阶段,结合训练得到的分类器对不同客户需求确定不同的处理级别。
进一步地,本发明的步骤S1中还包括建立客户需求表达规范化模型的方法:通过建立规范化的客户需求表达模板,实现客户需求的规范化表达。
进一步地,本发明的步骤S1中建立客户需求规范化结构模型的方法具体为:
根据客户需求规范化结构模型建立其对应的数学表达模型,通过将GCRI模型中的每一项客户需求抽象成通用客户需求特征属性GCRA,建立的客户需求规范化数学表达模型为:
GCRI={GCRA1,GCRA2,GCRA3,...,GCRAn}
GCRA是相似客户需求特征的抽象,通过与GCRA对应的不同特征值可以识别个性化的客户需求,GCRA存储模型的定义为:
GCRA={gcr_id,gcr_type,gcr_name,gcr_unit,gcr_range}
其中,gcr_id是GCRA的唯一标识;gcr_type是GCRA类别,根据客户需求信息规范化结构模型,通用客户需求特征类型分为“客户特征”、“功能需求”、“工作环境”以及“其它需求”四种类型;gcr_name是GCRA名称,按GCRA对应大类别名称细分为各个小类别名称;gcr_unit是GCRA单位;gcr_range是GCRA取值范围集合,离散值采用枚举集合表示,连续值采用区间表示。
进一步地,本发明的步骤S1中的GCRI模型包括客户自身的客户特征信息和客户对产品属性特征的需求信息;CRIA文档的核心内容是由<CRIA>元素描述的,它主要包括两大部分:文档基本信息描述和客户需求信息描述;文档基本信息包括文档识别码、产品识别码、需求提交时间、文档处理时间、文档处理人。
进一步地,本发明的步骤S3中的第一MapReduce阶段中训练分类器的方法具体为:
获取历史客户需求数据作为训练样本集,首先将其划分表示为{A1,A2,...,Am,Cj},其中Am表示按需求特征划分的对应特征值集合,Cj是该样本所属类别;接着将Am定量标定,得到属性Ai的标定值aik,然后进行统计和累加任务,将结果输出;第一Reducer阶段通过遍历第一Mapper的输出值,计算类别概率和联合概率,建立分类器概率模型。
进一步地,本发明的步骤S4中的第二MapReduce阶段的分类方法具体为:
第二MapReduce阶段完成需求文档的分类任务,其分类预测过程使用Map分布式计算;第二Mapper的特征属性提取方式与第一MapReduce阶段相同,然后再计算出样本属于各个类别的概率,第二Reducer阶段遍历第二Mapper中输出的各个概率值,找出待分级需求概率最大值对应文档的处理级别,然后输出分类结果。
进一步地,本发明的步骤S4中分类过程中的处理级别包括普通处理、中级处理和高级处理;普通处理级别的客户需求映射后能被直接指导配置映射活动,中级处理级别的客户需求映射后能间接指导产品配置活动,普通级别和中级级别的客户需求能进行常规的需求映射,采用质量功能配置将客户需求转换为产品配置需求,进而开展配置任务;高级处理级别用于产品创新设计。
本发明产生的有益效果是:本发明的基于大数据的客户需求信息挖掘方法,克服了面对大数据量的客户需求信息时,传统数据挖掘技术无法对数据进行深入分析和数据处理效率低下的技术的不足,能帮组制造业企业快速响应客户需求;
(1)建立基于大数据挖掘的客户需求分类处理模型。
(2)提供根据客户需求的不同划分等级向产品结构映射的方法,并将处理的数据详细信息以数据统计界面的形式展现给使用者。
(3)采集客户需求,分析客户配置结果,掌握产品市场规律,辅助产品的快速设计和开发。
(4)帮组企业和市场、客户进行交流,利用大数据挖掘的结果完善设计和生产,更好地满足客户和市场的需求。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的客户需求规范化结构模型;
图2是本发明实施例的乘用车GCRI模型;
图3是本发明实施例的客户需求规范化数学表达模型的建立过程;
图4是本发明实施例的客户需求预处理模型;
图5是本发明实施例的MR-NB算法设计思路;
图6是本发明实施例的MR-NB分类器训练过程;
图7是本发明实施例的CRIA文档分类过程;
图8是本发明实施例的单机与集群对比测试结果;
图9是本发明实施例的集群性能测试结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于大数据的客户需求信息挖掘方法,包括以下步骤:
S1、根据历史客户需求信息,按照客户对产品需求的层次性,将客户需求逐级分解和细化,得到客户需求规范化结构模型,即GCRI模型;再利用XML数据格式将GCRI模型进行结构化存储,得到客户需求信息获取文档,即CRIA文档;
S2、对CRIA文档预处理,根据GCRI模型,提取CRIA文档的需求特征属性,将其映射到GCRI模型的结构中,保存结构化处理后的特征属性和特征属性值;
S3、构建基于MapReduce的朴素贝叶斯算法,即MR-NB算法,该算法包括两个MapReduce阶段;通过第一MapReduce阶段对MR-NB算法的分类器进行训练,得到MR-NB算法的分类器,以及分类器的类别概率、特征属性值的出现概率;
S4、输入CRIA文档的特征属性和特征属性值,通过MR-NB算法的第二MapReduce阶段,结合训练得到的分类器对不同客户需求确定不同的处理级别。
该方法结合制造企业大规模定制现状,针对客户需求信息和产品配置信息进行了数据挖掘技术的研究。最终,以HDFS作为数据底层存储方案,以MapReduce作为数据挖掘算法实现技术,设计客户需求分类算法,智能化将客户需求按照处理级别分类和映射。
随着互联网的高速发展,企业设计、生产、管理和检测过程中的各种产品数据信息也随之以空前的速率快速增长。面对数据量庞大、数据结构复杂的产品信息,以信息检索和统计方法为主要功能的传统的数据库缺少分类、决策和预测等智能技术的支持。当制造企业存储的产品信息数据量达到TB级时,数据挖掘计算工作对数据挖掘系统提出了新时期的挑战:
(1)随着产品设计任务不断拓展,企业产生的客户需求数据、产品设计数据和制造监控数据不断增长,系统的数据挖掘过程变得很慢,超大的数据集合甚至导致数据挖掘系统的宕机。所以需要提高数据预处理的速度和数据挖掘的效率,使系统更有效的支持大规模定制环境;
(2)企业为了从不断变化的市场中脱颖而出,开始搭建多品种、大规模、低成本的大规模定制生产模式。如何高效、快速、精准的定位客户需求,如何快速的完成产品设计,如何缩短产品的研制周期,是急需解决的问题;
(3)提高传统的数据挖掘算法效率的同时,兼顾产品生命周期各个阶段的产品信息。在满足企业常规设计生产任务的同时,保证较好的伸缩性和扩展性。面对大规模定制中大数据量的产品信息,系统数据挖掘的兼容性和处理数据挖掘任务的能力有待进一步提高。
针对制造业数据量急剧增大,海量数据难以存储以及多源异构海量数据一致化问题,利用Hadoop大数据集群与存储方案,通过MapReduce并行计算框架对客户需求信息进行数据挖掘,对各种客户需求进行处理级别划分。
当企业处理客户需求信息的数据量到达一定量级,就可以开始训练客户需求分类器的工作。以下数据挖掘的数据来源于某汽车厂商采集的20万条用户对汽车产品提交的需求文档,实验过程是先将大数据挖掘系统与串行数据挖掘系统做横向对比,然后再将大数据挖掘系统本身的集群运行状况做纵向对比。
①集群与单机性能对比
分别利用MATLAB中的NB算法和MapReduce中编写的MP-NB算法进行客户需求分类器的训练和测试,集群设置为十个DN节点,其结果如图8所示。
从图8可以看出,当客户需求条数不到一万条时,两种方式中分类器的训练时间和测试精度相差无几。但随着客户需求文档数据条数的增加,Hadoop集群中数据挖掘算法的运行时间变化并不明显,其消耗时间趋于平缓;而单机的算法运行时间幅度变化接近于线性,不适用于大数据集的客户需求数据挖掘。
②集群性能评估
使用A中的第五组数据的200000条客户需求文档,分别在运行有2,4,8,10个DN节点的集群上进行客户需求分类器的训练和测试,记录其各自的训练阶段运行时间,并计算其各自的加速比。加速比定义:加速比=单机运行时间/集群运行时间,绘制加速比折线如图9。
从图9可以看出,MR-NB客户需求分类器的训练时间加速比趋向于理想的线性加速比。对于同等规模的客户需求文档,通过增加DN节点的个数可以明显提高数据挖掘算法的运行效率。但是随着DN节点个数的增加,Hadoop集群DN节点间的通信数据量也越来越大,造成智能配置系统在训练客户需求分类器时的开销越来越大,最终导致运算速率稍有下降。因此,当面对更大量级的客户需求文档,利用Hadoop集群的易拓展性,只需适当增加DN节点的数目,便能较理想的解决系统的时间消耗问题。
在本发明的另一个具体实施例中,基于大数据的客户需求信息挖掘方法,它应用于制造企业获取客户需求信息。该方法具体步骤如下:
第一步:建立面向大数据挖掘的客户需求模型,将客户需求规范化模型分为客户需求结构规范化和客户需求表达规范化两部分内容。客户需求规范化结构模型根据获取的历史客户需求信息,按照客户对产品需求本身的层次性,将客户需求逐级分解和细化,最终形成的结构清晰、逻辑分明的客户需求规范化结构模型。通过建立规范化的客户需求表达模板,实现客户需求完备化和规范化的表达。
在客户需求数据挖掘的过程中,为了便于计算机处理,需要根据客户需求规范化结构模型建立其数学表达模型。该数学表达模型的建立过程如图3所示;
通过将GCRI模型中的每一项客户需求抽象成通用客户需求特征属性(GeneralCustomer Requirement Attribute,GCRA)建立客户需求规范化数学表达模型如下:
GCRI={GCRA1,GCRA2,GCRA3,...,GCRAn}
GCRA是相似客户需求特征的抽象,通过与GCRA对应的不同特征值可以识别个性化的客户需求。GCRA存储模型的定义如下:
GCRA={gcr_id,gcr_type,gcr_name,gcr_unit,gcr_range}
其中,
gcr_id:GCRA的唯一标识。
gcr_type:GCRA类别,根据客户需求信息规范化结构模型,通用客户需求特征类型分为“客户特征”、“功能需求”、“工作环境”以及“其它需求”四种类型;
gcr_name:GCRA名称,如图按GCRA对应大类别名称可以细分为各个小类别名称。
gcr_unit:GCRA单位,对应于GCRA名称的GCRA单位包括mm,V,Hz,...;
gcr_range:GCRA取值范围集合,离散值采用枚举集合表示,连续值采用区间表示;
第二步:对采集到的客户需求信息进行预处理,以web为载体,以XML格式存储客户需求信息获取(Customer Requirement Information Acquisition,CRIA)文档的完整结构,提取CRIA的需求特征属性,将其映射到通用客户需求信息(General CustomerRequirement Information,GCRI)结构中,用结构化的特征属性和特征属性值保存CRIA文档。
第三步:开发基于MapReduce的客户需求信息挖掘算法,构建基于MapReduce的朴素贝叶斯算法(MapReduce-based Naive Bayes,MR-NB),整个算法利用两个MapReduce过程进行客户需求分析,MapReduceⅠ是MR-NB分类器的训练阶段,完成客户需求的特征属性提取、定量标定和分类器模型训练阶段的统计和累加任务,得到类别概率P(Cn)和特征值amj出现的频率P(amj|Cn)。MapReduceⅡ是训练器分类阶段,根据待分类客户需求的特征属性和属性值,完成客户需求分类工作。
第四步:利用大数据挖掘算法建立客户需求分类处理模型,通过分析历史客户需求信息处理规范,建立GCRI模型。对建立的CRIA文档模型进行预处理,利用MR-NB算法,训练客户需求分类器,最后将CRIA文档按处理级别分类。
为使本发明更明显易懂,兹以乘用车产品为例,说明其客户需求建模及客户需求数据挖掘过程,并配合附图作详细说明如下。
第一步:建立乘用车GCRI模型
客户需求规范化结构模型是根据获取的历史客户需求信息,按照客户对产品需求本身的层次性,将客户需求逐级分解和细化,最终形成的结构清晰、逻辑分明的客户需求规范化结构模型。客户需求规范化结构模型包含客户自身的特征信息和客户对产品属性特征的需求信息两部分内容。客户特征信息包括客户的基本资料和客户对产品的价格要求等;客户对产品的需求信息包括产品的功能需求、形式需求和其他需求。客户需求规范化结构模型如图1所示。以某企业乘用车客户需求为例,建立其客户需求结构模型,构建基于拓扑结构的乘用车GCRI模型,如图2所示。再根据图2描述的乘用车GCRI模型,利用XML数据格式将GCRI模型做结构化存储,如表1所示。此种格式的客户需求信息结构简单、内容清晰、占用存储空间极小,它不仅存储了GCRA的详细内容,还存储了各级GCRA之间的层级关系,有利于后续的数据挖掘。
表1基于XML格式的乘用车客户需求信息存储
接着,在表1所示的XML格式的GCRI基础上,增加如表2所示的客户需求文档基本信息,也就是用整个表1替换表2中的<GCRI>结点,就得到了客户需求信息获取文档,即CRIA文档。
表2基于XML格式的客户需求文档基本信息部分
第二步:乘用车客户需求数据预处理
基于XML格式的GCRI模型内容的定义工作完成后,通过对客户需求信息获取(Customer Requirement Information Acquisition,CRIA)文档预处理,为下一步CRIA数据挖掘做好数据准备,提供更好数据挖掘结果。客户需求信息预处理根据GCRI模型,提取CRIA的需求特征属性,将其映射到GCRI结构中,用结构化的特征属性和特征属性值保存CRIA文档,整个处理过程如图4所示。
由第一步可知:CRIA文档核心内容由XML格式文件中的<CRIA>元素描述,它主要包括两大部分:文档基本信息描述和客户需求信息描述。文档基本信息包括文档识别码、产品识别码、需求提交时间、文档处理时间、文档处理人。客户需求信息由<GCRI>元素描述,其内容存储着GCRI模型定义的部分或者全部的GCRA。
在乘用车客户需求中,<GCRI>元素下表达了该客户对乘用车的具体需求特征属性及特征属性值,例如,操纵形式:自动挡,车体尺寸:长4.0m,宽1.8m,高1.6m,风格:休闲型,油耗:7.0L/100km等。
根据客户需求表达内容的结构的不同,将客户需求分为结构化需求和非结构化需求。结构化客户需求明确表达了产品特性参数,其内容直接反映到产品的结构和性能上。例如:操纵形式——自动挡,油耗——7.0L/100km。非结构化客户需求以自然语言说明性的描述需求,具有模糊性,无法直接提取特征属性,例如:车型美观,车内舒适,油耗少等需求。针对非结构化需求需要对其进行特征属性提取和特征值定量标定,以保证分解后的子需求是GCRA中表达的特征属性。例如将需求描述“油耗少”,解析为“油耗<6.5L/100km”;然后再将其映射到相应的GCRA,进行下一步数据操作。
第三步:设计MR-NB算法并训练MR-NB分类器
首先构建基于MapReduce的朴素贝叶斯算法(MapReduce-based Naive Bayes,MR-NB),整个算法分为两个MapReduce阶段。MapReduceⅠ是MR-NB分类器的训练阶段,完成客户需求的特征属性提取、定量标定和分类器模型训练阶段的统计和累加任务,得到类别概率P(Cn)和特征值amj出现的频率P(amj|Cn)。MapReduceⅡ是训练器分类阶段,根据待分类客户需求的特征属性和属性值,完成客户需求分类工作。如图5所示。
在Mapper1中对输入的训练样本预处理,首先将其划分表示为{A1,A2,...,Am,Cj},其中Am表示按需求特征划分的对应特征值集合,Cj是该样本所属类别。接着将Am定量标定,得到属性Ai的标定值aik,然后进行统计和累加任务,将结果输出。Reducer1阶段通过遍历Mapper1输出值,计算类别概率P(Cj)和联合概率P(Ai=aik|Cj),建立分类器概率模型。Mapper1阶段和Reducer1阶段的算法具体实现过程分别如表3和表4所示。
表3 Mapper1阶段算法实现过程
表4 Reducer1阶段算法实现过程
MapReduceⅡ的任务是完成需求文档的分类任务,由于各个待分类的需求之间的计算互不影响,所以其分类预测过程可以使用Map分布式计算。Mapper2的特征属性提取与MapReduceⅠ类似,然后再计算出样本属于各个类别的概率,Reducer2只需要遍历Mapper2中输出的各个概率值,找出待分级需求概率最大值对应文档的处理级别,然后输出分类结果。Mapper2阶段和Reducer2阶段的算法具体实现过程分别如表5和表6所示。
表5 Mapper2阶段:
表6 Reducer2阶段
针对企业乘用车产品,将客户对该产品的需求信息收集整理形成大量数据文档,以XML形式存入HDFS中。然后将XML逐个进行需求特征属性的提取及对应特征值的定量标定,完成需求数据预处理。然后结合MR-NB算法,将CRIA文档的处理级别作为分类指标,建立基于MP-NB的客户需求分类器,具体流程如图6所示。
第四步:乘用车CRIA文档分类及按分类等级映射客户需求
对待分类的大规模客户需求进行处理级别划分,得出分类结果,确定CRIA文档的处理级别。本发明将将理级别划分为普通处理、中级处理和高级处理。其具体过程如图7所示。
普通处理级别的客户需求映射后能被直接指导配置映射活动,中级处理级别的客户需求映射后能间接指导产品配置活动,所以普通级别和中级级别的客户需求可进行常规的需求映射,采用质量功能配置(Quality Function Deployment,QFD)将客户需求转换为产品配置需求,进而开展配置任务。高级处理级别的客户需求表达了GCRA中没有出现的产品功能特征或者特征值,不能被直接映射为配置需求。高级处理级别的客户需求文档将会被专业工程师人工处理,在完成需求分析后,考虑对产品局部或者全面进行创新设计。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于大数据的客户需求信息挖掘方法,其特征在于,包括以下步骤:
S1、根据历史客户需求信息,按照客户对产品需求的层次性,将客户需求逐级分解和细化,得到客户需求规范化结构模型,即GCRI模型;再利用XML数据格式将GCRI模型进行结构化存储,得到客户需求信息获取文档,即CRIA文档;
S2、对CRIA文档预处理,根据GCRI模型,提取CRIA文档的需求特征属性,将其映射到GCRI模型的结构中,保存结构化处理后的特征属性和特征属性值;
S3、构建基于MapReduce的朴素贝叶斯算法,即MR-NB算法,该算法包括两个MapReduce阶段;通过第一MapReduce阶段对MR-NB算法的分类器进行训练,得到MR-NB算法的分类器,以及分类器的类别概率、特征属性值的出现概率;
S4、输入CRIA文档的特征属性和特征属性值,通过MR-NB算法的第二MapReduce阶段,结合训练得到的分类器对不同客户需求确定不同的处理级别。
2.根据权利要求1所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S1中还包括建立客户需求表达规范化模型的方法:通过建立规范化的客户需求表达模板,实现客户需求的规范化表达。
3.根据权利要求1所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S1中建立客户需求规范化结构模型的方法具体为:
根据客户需求规范化结构模型建立其对应的数学表达模型,通过将GCRI模型中的每一项客户需求抽象成通用客户需求特征属性GCRA,建立的客户需求规范化数学表达模型为:
GCRI={GCRA1,GCRA2,GCRA3,...,GCRAn}
GCRA是相似客户需求特征的抽象,通过与GCRA对应的不同特征值可以识别个性化的客户需求,GCRA存储模型的定义为:
GCRA={gcr_id,gcr_type,gcr_name,gcr_unit,gcr_range}
其中,gcr_id是GCRA的唯一标识;gcr_type是GCRA类别,根据客户需求信息规范化结构模型,通用客户需求特征类型分为“客户特征”、“功能需求”、“工作环境”以及“其它需求”四种类型;gcr_name是GCRA名称,按GCRA对应大类别名称细分为各个小类别名称;gcr_unit是GCRA单位;gcr_range是GCRA取值范围集合,离散值采用枚举集合表示,连续值采用区间表示。
4.根据权利要求1所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S1中的GCRI模型包括客户自身的客户特征信息和客户对产品属性特征的需求信息;CRIA文档的核心内容通过XML格式文件中的<CRIA>元素进行描述,它主要包括两大部分:文档基本信息描述和客户需求信息描述;文档基本信息包括文档识别码、产品识别码、需求提交时间、文档处理时间、文档处理人。
5.根据权利要求1所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S3中的第一MapReduce阶段中训练分类器的方法具体为:
获取历史客户需求数据作为训练样本集,首先将其划分表示为{A1,A2,...,Am,Cj},其中Am表示按需求特征划分的对应特征值集合,Cj是该样本所属类别;接着将Am定量标定,得到属性Ai的标定值aik,然后进行统计和累加任务,将结果输出;第一Reducer阶段通过遍历第一Mapper的输出值,计算类别概率P(Cj)和联合概率P(Ai=aik|Cj),建立分类器概率模型。
6.根据权利要求5所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S4中的第二MapReduce阶段的分类方法具体为:
第二MapReduce阶段完成需求文档的分类任务,其分类预测过程使用Map分布式计算;第二Mapper的特征属性提取方式与第一MapReduce阶段相同,然后再计算出样本属于各个类别的概率,第二Reducer阶段遍历第二Mapper中输出的各个概率值,找出待分级需求概率最大值对应文档的处理级别,然后输出分类结果。
7.根据权利要求1所述的基于大数据的客户需求信息挖掘方法,其特征在于,步骤S4中分类过程中的处理级别包括普通处理、中级处理和高级处理;普通处理级别的客户需求映射后能被直接指导配置映射活动,中级处理级别的客户需求映射后能间接指导产品配置活动,普通级别和中级级别的客户需求能进行常规的需求映射,采用质量功能配置将客户需求转换为产品配置需求,进而开展配置任务;高级处理级别用于产品创新设计。
CN201710486833.7A 2017-06-23 2017-06-23 一种基于大数据的客户需求信息挖掘方法 Pending CN107358494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710486833.7A CN107358494A (zh) 2017-06-23 2017-06-23 一种基于大数据的客户需求信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710486833.7A CN107358494A (zh) 2017-06-23 2017-06-23 一种基于大数据的客户需求信息挖掘方法

Publications (1)

Publication Number Publication Date
CN107358494A true CN107358494A (zh) 2017-11-17

Family

ID=60273600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710486833.7A Pending CN107358494A (zh) 2017-06-23 2017-06-23 一种基于大数据的客户需求信息挖掘方法

Country Status (1)

Country Link
CN (1) CN107358494A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570173A (zh) * 2021-09-24 2021-10-29 深圳市大创科技信息有限公司 基于大数据整合处理的供应链管理预测方法
CN114387009A (zh) * 2021-12-10 2022-04-22 北京卓思天成数据咨询股份有限公司 客户需求确定方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN104036330A (zh) * 2014-05-22 2014-09-10 南京信息工程大学 一种基于MapReduce的降雨量分类预测方法
CN104102702A (zh) * 2014-07-07 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现软硬件结合的面向应用的大数据系统及方法
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN104036330A (zh) * 2014-05-22 2014-09-10 南京信息工程大学 一种基于MapReduce的降雨量分类预测方法
CN104102702A (zh) * 2014-07-07 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现软硬件结合的面向应用的大数据系统及方法
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
萧筝: "客户需求信息处理理论和方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570173A (zh) * 2021-09-24 2021-10-29 深圳市大创科技信息有限公司 基于大数据整合处理的供应链管理预测方法
CN114387009A (zh) * 2021-12-10 2022-04-22 北京卓思天成数据咨询股份有限公司 客户需求确定方法、装置、设备及计算机可读存储介质
CN114387009B (zh) * 2021-12-10 2023-08-04 北京卓思天成数据咨询股份有限公司 客户需求确定方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
McArthur et al. Machine learning and BIM visualization for maintenance issue classification and enhanced data collection
CN101093559B (zh) 一种基于知识发现的专家系统构造方法
Ang et al. RSPOP: Rough set–based pseudo outer-product Fuzzy rule identification algorithm
JP2024075662A (ja) アイテムを分類する装置、方法及び媒体
CN106096748A (zh) 基于聚类分析和决策树算法的装车工时预测模型
Chug et al. Software defect prediction using supervised learning algorithm and unsupervised learning algorithm
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN101315644B (zh) 基于可拓聚类的零件分类方法
CN104112026A (zh) 一种短信文本分类方法及系统
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
Gerhana et al. Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
Koutrika et al. Generating reading orders over document collections
Velayutham et al. Improved Rough set algorithms for optimal attribute reduct
CN112308230A (zh) 一种资产管理全生命周期知识库的构建及应用方法
Kumar et al. Knowledge discovery from data mining techniques
CN107358494A (zh) 一种基于大数据的客户需求信息挖掘方法
CN107679209A (zh) 分类表达式生成方法和装置
Sulhi Data mining technology used in an Internet of Things-based decision support system for information processing intelligent manufacturing
Ross et al. A case-based reasoning system for conflict resolution: design and implementation
Lamirel et al. An overview of the history of Science of Science in China based on the use of bibliographic and citation data: a new method of analysis based on clustering with feature maximization and contrast graphs
Müller et al. Extracting knowledge from life courses: Clustering and visualization
CN104615438B (zh) 一种软件产品线的特征切片模型检测方法
Wang et al. Stacking based LightGBM-CatBoost-RandomForest algorithm and its application in big data modeling
CN112306730B (zh) 基于历史项目伪标签生成的缺陷报告严重程度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171117