CN108228837A - 客户挖掘处理方法及装置 - Google Patents
客户挖掘处理方法及装置 Download PDFInfo
- Publication number
- CN108228837A CN108228837A CN201810008924.4A CN201810008924A CN108228837A CN 108228837 A CN108228837 A CN 108228837A CN 201810008924 A CN201810008924 A CN 201810008924A CN 108228837 A CN108228837 A CN 108228837A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- crawl
- predetermined
- potential customers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种客户挖掘处理方法及装置。其中,该方法包括:通过网络爬虫方法从预定信息源上抓取数据;判断抓取的数据是否为有价值数据;在判断结果为抓取的数据为有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;在判断结果为抓取的数据与预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,潜在客户包括企业客户;对辨识的潜在客户进行挖掘处理。本发明解决了由于相关技术中客户挖掘工作智能化程度不足造成的效率低且人工成本高的技术问题。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种客户挖掘处理方法及装置。
背景技术
当今信息化社会中,信息的重要性在企业发展中体现的越来越重要。如何快速有效的在众多数据和信息中挖掘出对企业发展有利的线索,尤其是客户信息及需求的收集整理,对企业的业务开拓有尤为重要的作用。而相关技术中的客户挖掘方法,多数是基于客户行为的,这种方法根据客户的访问行为、访问轨迹等数据建立特征,通过对特征分析可以识别出是否是公司的潜在客户,但是这种技术往往比较适用于电商类或者个人用户类,可以通过广告吸引用户,通过数据分析发现客户,但针对客户类别是企业的,则往往不适用,或者获客成本过高。
另外还有一些客户挖掘方法,是以人为主导的,通过人的分析挖掘,最终形成一些分析报告,提供给相应人员进行跟进处理,但这些挖掘的方法往往会付出较大的人力物力,并且分析挖掘的速度、效率及全面性都有一定的限制。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种客户挖掘处理方法及装置,以至少解决由于相关技术中客户挖掘工作智能化程度不足造成的效率低且人工成本高的技术问题。
根据本发明实施例的一个方面,提供了一种客户挖掘处理方法,包括:通过网络爬虫方法从预定信息源上抓取数据;判断抓取的数据是否为有价值数据;在判断结果为抓取的数据为所述有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;在判断结果为抓取的数据与所述预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,所述潜在客户包括企业客户;对辨识的所述潜在客户进行挖掘处理。
可选的,通过所述网络爬虫方法从所述预定信息源上抓取数据包括:确定从所述预定信息源上抓取数据的数据量;根据确定的所述数据量,从所述预定信息源上抓取数据。
可选的,判断抓取的数据是否为所述有价值数据包括:对抓取的数据进行分词,得到分词结果;对得到的所述分词结果进行过滤,得到过滤结果;对得到的所述过滤结果中的词进行特征向量构建,得到抓取的数据的特征向量;根据得到的所述特征向量,以及预定价值模型,确定与得到的所述特征向量对应的用于标识抓取的数据是否为有价值数据的标识结果,其中,所述预定价值模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:特征向量和与所述特征向量对应的用于标识所述特征向量所属的抓取数据是否为有价值数据的识别结果。
可选的,判断抓取的数据是否与所述预定业务存在关联包括:确定所述预定业务的多个关键词,以及分别确定所述多个关键词的权重;确定抓取的数据中出现所述多个关键词中的关键词;根据出现的关键词,以及出现的关键词对应的权重,确定抓取的数据的累积权重;判断确定的所述累积权重是否超过预定阈值;在判断结果为是的情况下,确定抓取的数据与所述预定业务存在关联。
可选的,确定所述预定业务的所述多个关键词包括:确定所述预定业务的种子关键词,获取预定数据中的预定词与所述种子关键词同时出现的第一同现概率,在所述第一同现概率达到第一预定概率阈值的情况下,确定所述预定词为一级关键词,在所述第一同现概率达到所述第一预定概率阈值的种子关键词的数量达到第一预定数量的情况下,将所述预定词提升为种子关键词;获取预定数据中的预定词与所述一级关键词同时出现的第二同现概率,在所述第二同现概率达到第二预定概率阈值的情况下,确定所述预定词为二级关键词,在所述第二同现概率达到所述第二预定概率阈值的一级关键词的数量达到第二预定数量的情况下,将所述预定词提升为一级关键词;对预定数量的所述预定数据,重复执行所述预定数量次数的上述更新种子关键词,一级关键词以及二级关键词的步骤,得到所述预定业务的稳定的种子关键词,一级关键词和二级关键词。
可选的,所述第一预定数量依据对应的种子关键词的数量确定,所述第二预定数量依据对应的一级关键词的数量确定。
可选的,分别确定所述多个关键词的权重包括:通过分别确定所述多个关键词与所述预定业务的相关性,确定所述多个关键词的权重。
可选的,从抓取的数据中辨识所述潜在客户包括:确定辨识的关键词或关键词组合;根据确定的所述关键词或关键词组合,从抓取的数据中辨识所述潜在客户。
可选的,对辨识的所述潜在客户进行挖掘处理包括:确定用于分配所述潜在客户的分配策略,其中,所述分配策略包括以下至少之一:所述潜在客户是否是已合作客户,所述潜在客户是否为已分配客户,所述潜在客户的行业是否为待分配销售人员的擅长行业,所述潜在客户所属地域是否为待分配销售人员所在区域,依据销售人员的排列顺序;根据确定的所述分配策略为所述潜在客户分配销售人员,其中,分配所述潜在客户的销售人员对所述潜在客户进行挖掘处理。
根据本发明实施例的另一方面,还提供了一种客户挖掘处理装置,包括:抓取模块,用于通过网络爬虫方法从预定信息源上抓取数据;第一判断模块,用于判断抓取的数据是否为有价值数据;第二判断模块,用于在第一判断模块的判断结果为抓取的数据为所述有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;辨识模块,用于在判断结果为抓取的数据与所述预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,所述潜在客户包括企业客户;处理模块,用于对辨识的所述潜在客户进行挖掘处理。
在本发明实施例中,采用智能化挖掘的方式,通过网络爬虫方法从预定信息源上抓取数据,进而在判断出抓取的数据为有价值数据且该抓取的数据与预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,从而达到了对辨识的所述潜在客户进行挖掘处理的目的,其中,所述潜在客户包括企业客户。通过本发明实施例的客户挖掘处理方法,实现了客户挖掘全程自动化、智能化的技术效果,进而解决了由于相关技术中客户挖掘工作智能化程度不足造成的效率低且人工成本高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的客户挖掘处理方法的流程图;
图2是根据本发明实施例的客户分配方案的流程图;
图3是根据本发明实施例的一种基于网络爬虫的潜在客户挖掘系统的结构框图;
图4是根据本发明实施例的客户挖掘处理装置的结构框图;
图5是根据本发明实施例的客户挖掘处理装置的抓取模块41的结构框图;
图6是根据本发明实施例的客户挖掘处理装置的第一判断模块42的结构框图;
图7是根据本发明实施例的客户挖掘处理装置的第二判断模块43的结构框图;
图8是根据本发明实施例的客户挖掘处理装置的第二判断模块43的第二确定单元71的结构框图;
图9是根据本发明实施例的客户挖掘处理装置的辨识模块44的结构框图;
图10是根据本发明实施例的客户挖掘处理装置的处理模块45的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种客户挖掘处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的客户挖掘处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,通过网络爬虫方法从预定信息源上抓取数据;
步骤S102,判断抓取的数据是否为有价值数据;
步骤S103,在判断结果为抓取的数据为有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;
步骤S104,在判断结果为抓取的数据与预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,潜在客户包括企业客户;
步骤S105,对辨识的潜在客户进行挖掘处理。
通过上述步骤,可以实现在本发明实施例中,基于智能化挖掘的方式,通过网络爬虫方法从预定信息源上抓取数据,进而在判断出抓取的数据为有价值数据且该抓取的数据与预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,从而达到了对辨识的潜在客户进行挖掘处理的目的,其中,潜在客户包括企业客户。通过本发明实施例的客户挖掘处理方法,实现了包括企业客户在内的客户挖掘全程自动化、智能化的技术效果,进而解决了由于相关技术中客户挖掘工作智能化程度不足造成的效率低且人工成本高的技术问题,同时,还实现了对企业客户的挖掘分析。
优选的,通过网络爬虫方法从预定信息源上抓取数据可以包括:确定从预定信息源上抓取数据的数据量,其中,预定信息源可以包含多种类型,例如,可以包含有传统媒体的杂志、书刊等,也可以包含有新兴媒体的:新闻网站,微博,微信,搜索引擎,招标网站,工商企业信息登记点等,只要是用来传播信息的来源即可;进而根据确定的数据量,从预定信息源上抓取数据。具体的,可以依据上述各个预定信息源的特点及自身业务方向,灵活分配从预定信息源上抓取数据的数量,例如,若开展的客户业务多为政府项目类,则在新闻网站、招标网站等设置较高比例的抓取数据量比值;若开展的客户业务多为企业项目类,则在相关企业官方网站、工商企业信息网站等设置较高比例的抓取数据量比值;若开展的客户业务多为社会舆情分析类,则在微博、微信、搜索引擎等各高流量信息交流平台类网站设置较高比例的抓取数据量比值。即依据一些客户开拓经验确定更容易找到客户的信息源,从该信息源上设置抓取数据的数据量更多一些,进而提高客户挖掘成功率。
可选地,针对自上述预订信息源抓取出的数据,判断该抓取数据是否为有价值数据可以包括:对抓取的数据进行分词,得到分词结果;对得到的分词结果进行过滤,得到过滤结果;对得到的过滤结果中的词进行特征向量构建,得到抓取的数据的特征向量;根据得到的特征向量,以及预定价值模型,确定与得到的特征向量对应的用于标识抓取的数据是否为有价值数据的标识结果,其中,预定价值模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:特征向量和与特征向量对应的用于标识特征向量所属的抓取数据是否为有价值数据的识别结果。通过上述人工智能化的预定价值模型的方式确定标识结果,不仅可以有效提高识别的效率,而且可以提高识别的准确性。
优选的,在对抓取的数据进行分词之前,还可以针对网络爬虫抓取到的数据进行随机抽样,假设抽取多篇信息,再通过人工标记的方式对每篇信息是否有价值进行标记,如有价值的标记为有,没有价值的标记为无。可选地,上述判断过程及其优选实施方案可以看作是一个预定价值模型的构建和训练的过程,其中,可以选用自然语言处理NLP(NaturalLanguage Processing)的分词方法对抓取的数据进行分词,并对词进行标记;可选地,对得到的分词结果进行过滤的过程可以为无效词过滤过程,可以设为过滤停用词和对价值判断无意义的介词、连词等;可选地,对得到的过滤结果中的词进行特征向量构建,可以根据词库的顺序,设置在抓取的数据中没有出现的特征向量标记为0,有出现的特征向量标记为出现的次数;同时,在训练预定价值模型时,可以选择逻辑回归,也可以选择朴素贝叶斯算法、支持向量机SVM(Support Vector Machines)、神经网络等算法作为训练算法进行模型训练,在模型训练过程中,通过机器学习对模型不断调优,最终生成最优的预定价值模型。
通过上述步骤,在判断结果为抓取的数据为有价值数据的情况下,判断抓取的数据是否与预定业务存在关联可以包括;确定预定业务的多个关键词,以及分别确定多个关键词的权重;确定抓取的数据中出现多个关键词中的关键词;根据出现的关键词,以及出现的关键词对应的权重,确定抓取的数据的累积权重;判断确定的累积权重是否超过预定阈值;在判断结果为是的情况下,确定抓取的数据与预定业务存在关联。
其中,判断抓取的数据与预订业务是否存在关联可以通过多种方式,如上述根据出现的预订业务关键词对应权重的方式,或根据抓取数据与预订业务文字重复率的方式,或根据抓取数据与预订业务相似度的方式,来判断两者是否关联。而根据抓取数据与预订业务文字重复率的方式,及根据抓取数据与预订业务相似度的方式对自然语言处理的要求较高,故此处选择通过根据出现的预订业务关键词对应权重的方式来判断抓取的数据与预订业务是否存在关联,且该方式可以使判断结果更为准确。
优选的,确定预定业务的多个关键词可以包括:确定预定业务的种子关键词,获取预定数据中的预定词与种子关键词同时出现的第一同现概率,在第一同现概率达到第一预定概率阈值的情况下,确定预定词为一级关键词,在第一同现概率达到第一预定概率阈值的种子关键词的数量达到第一预定数量的情况下,将预定词提升为种子关键词;获取预定数据中的预定词与一级关键词同时出现的第二同现概率,在第二同现概率达到第二预定概率阈值的情况下,确定预定词为二级关键词,在第二同现概率达到第二预定概率阈值的一级关键词的数量达到第二预定数量的情况下,将预定词提升为一级关键词;对预定数量的预定数据,重复执行预定数量次数的上述更新种子关键词,一级关键词以及二级关键词的步骤,得到预定业务的稳定的种子关键词,一级关键词和二级关键词。通过上述不断迭代优化的方式来确定用于判断抓取数据是否与预定业务的种子关键词,一级关键词和二级关键词,可以使得确定的种子关键词,一级关键词和二级关键词更优化,从而提高对关联性判断的准确性。
具体的,可以通过如下方式进行关键词自动维护,即确定一级关键词和二级关键词,以实现新词发现和级别提升:
(1)对于每一个预定业务人工设定一系列的种子关键词,假设为a个;
(2)对最近一段时间内所有抓取的信息内容进行分词;
(3)计算不同信息中每个词与种子关键词的同现概率;
(4)假设某词与种子关键词的同现概率超过第一预定概率阈值p则确定该词为一级关键词,假设超过第一预定概率阈值p的种子关键词数量超过个,则将该关键词提升为种子关键词。例如下表1所示,当种子关键词为a~i(共9个),第一预定概率阈值为0.5时,某一新词j与其中3个词的同现概率均等于或超过阈值0.5,则将新词j提升为种子关键词;
表1
反之,如下表2所示,某一新词k只与1个种子关键词的同现概率超过第一预定概率阈值0.5,则设定新词k为一级关键词;
表2
(5)如果没有等于或超过第一预定概率阈值0.5的,则不设置为关键词,继续遍历计算其他关键词。
(6)同理,计算语料分词中与一级关键词的同现概率,确定二级关键词和补充一级关键词;
(7)重复执行m次(其中,m为自然数),直至种子关键词、一级关键词和二级关键词达到稳定状态。
通过上述关键词自动扩散算法,可以智能化的自动确定预定业务的多个关键词。
根据关键词确定过程各参数设置的优选方案之一,上述第一预定概率阈值可以设定为0.5,第二预定概率阈值可以为0.5,第一预定数量可以为对应的种子关键词的数量的开平方,第二预定数量可以为对应的一级关键词的数量的开平方。
同时,根据各类关键词的重要程度,在判断抓取的数据是否与预定业务存在关联的过程中,分别确定多个关键词的权重可以包括:通过分别确定多个关键词与预定业务的相关性,确定所述多个关键词的权重,例如,如果关键词与预定业务的相关性大,而确定该关键词的权重大一些,如果关键词与预定业务的相关性相对较小时,则确定该关键词的权重小一些。当然,该相关性也可以通过一定的数值来表示,例如,通过同时出现的频次来确定两者的相关性。需要说明的是,此处关键词与预定业务的相关性可以是:关键词与历史数据中用于标识该预定业务的一些信息内容的相关性,例如,一篇文章是用于推广该预定业务的,即关键词与预定业务的相关性即可以是该关键词与该预定业务的名称同时出现的频次,或者该关键词与该预定业务的代名词同时出现的频次等。可选地,可以确定种子关键词的权重为1,一级关键词的权重为0.7,二级关键词的权重为0.3。
进而通过上述权重,判断抓取的数据是否与预定业务存在关联可以通过以下方式实现:
(1)对一篇信息内容中的所有关键词按照业务分别对关键词权重进行累加,例如:信息内容中出现业务i的关键词共n个,权重分别为Q0~Qn,则累积权重Zi=Q0+Q1+...+Qn;
(2)若上述累积权重超过预定阈值p则认定为该信息内容与该预定业务有一定关联性;
(3)进而输出所有有关联的业务。
通过本发明实施例及上述各优选实施方案,该客户挖掘处理方法可以适用于多种客户类别的客户挖掘,而针对相关技术中多为适用于客户为电商类或个人用户类的客户挖掘方式,优选的,本发明实施例中从抓取的数据中辨识潜在客户可以包括:确定辨识的关键词或关键词组合,其中,关键词或关键词组合可以包含多种,例如,可以包含以下至少之一:企业名称,企业简称,企业高管称呼,企业产品名称,企业产品销量,企业产品口碑,企业合作伙伴,企业供应商,企业服务客户等;根据确定的关键词或关键词组合,从抓取的数据中辨识潜在客户。具体的,为了保证信息全面,可以在信息内容中所有包含客户企业名称的,均认定为与该企业相关,或者是若包含部分客户企业信息,才认定该信息与企业相关,如企业简称+高管名称、企业简称+产品名称、企业高管+产品名等。通过上述关键词或关键词组合的设定,可以有效的低成本满足业务模式中客户为公司或组织的企业客户挖掘需求。
针对挖掘出的潜在客户,设定优质高效的联络和跟踪方案才是能将有效信息创造最大价值的最必要途径。故优选的,对辨识的潜在客户进行挖掘处理可以包括:确定用于分配潜在客户的分配策略,其中,分配策略包括以下至少之一:潜在客户是否是已合作客户,潜在客户是否为已分配客户,潜在客户的行业是否为待分配销售人员的擅长行业,潜在客户所属地域是否为待分配销售人员所在区域,依据销售人员的排列顺序;根据确定的分配策略为潜在客户分配销售人员,其中,分配潜在客户的销售人员对潜在客户进行挖掘处理。
其中,确定用于分配潜在客户的分配策略可以采取是否已合作客户、是否已分配客户、销售人员擅长的行业、销售人员所属地域等条件进行计算,具体可以采取如下实施方式:
(1)数据预处理,从其他系统中获取公司已合作客户、销售人员地域属性、销售人员行业业绩分布等数据;
(2)如果该客户是已合作客户或已分配,则分配为原销售人员;
(3)如果该客户是新客户,则针对所有销售人员,取历史分配数量作为排序依据;
(4)针对客户所属地与销售人员匹配的,排序数值减预定数值;
(5)针对客户所属行业与销售人员业绩行业匹配的,排序数值见减预定数值;
(6)重新从小到大排序后,取第一个销售人员作为分配人员。
图2是根据本发明实施例的客户分配方案的流程图,如图2所示,通过采用上述方案,可以分配出最优最适合的销售人员对挖掘出的潜在客户进行进一步挖掘处理,以备后续的业务联络与沟通。
通过本发明实施例及上述各优选实施方案,提供了一种可自我学习,自动进化,并且反应迅速的客户挖掘方法,该客户挖掘处理方法可以用于信息处理、数据挖掘领域,特别是针对客户挖掘、客户发现的细分领域,尤其适合业务模式中客户是企业类的客户使用。具体的,该客户挖掘处理方法可以实现如下优点:
1、该方法是根据人类思维针对特定事件或信息的思考模式所进行设计的,是一种能够智能化、自动化运转的人工智能处理方法,并且可以自我学习进化;
2、该方法采用网络爬虫实时监控各大新闻网站、微博、微信和搜索引擎,可以实现7*24小时不间断进行信息采集和客户挖掘,可以非常及时的提供挖掘客户信息,针对一些事件驱动类的客户挖掘,往往时间决定成败,更快的反应和挖掘时间保障了信息质量;
3、该方法业务关键词部分采用关键词自动扩散算法,使得业务关键词具备自我学习和自我进化功能,初始运行阶段只需要设置种子业务关键词,随着方法的不断运行,可以自动生成一系列业务关键词;
4、该方法客户关联部分除了企业名称以外,可以根据企业简称、企业高管、企业产品等信息进行智能匹配,针对报道中不具备企业全称的信息,大幅提升了客户关联成功率;
5、该方法在销售人员分配时,保证了已合作和已分配客户的信息总是分配给原登记的销售人员,以保障销售人员和业务合作的稳定性,同时针对新挖掘的客户,又充分参考销售人员和客户的地域关系、客户行业和销售人员擅长行业的关系等进行分配,以有效客户合作的成功概率;
6、该方法经过各个步骤的有机配合,结合运行效率和信息抓取的及时度,可以有效的提升客户挖掘的准确度、及时率和挖掘效率,并且随着不断运行,该方法的智能化程度会越来越高。
根据本发明实施例的另一方面,还提供了一种潜在客户挖掘系统,图3是根据本发明实施例的一种基于网络爬虫的潜在客户挖掘系统的结构框图,如图3所示,该潜在客户挖掘系统包括网络爬虫模块31、信息价值分析模块32、业务关联度分析模块33、客户识别模块34、客户播报模块35和管理模块36。下面对该潜在客户挖掘系统进行详细说明。
网络爬虫模块31,负责监控各大新闻网站、微博、微信、搜索引擎和各地招标网站等网络信息源和工商企业信息,每天差量抓取,并且将抓取到的数据保存到数据仓库中;
信息价值分析模块32,连接于上述网络爬虫模块31,主要负责分析网络爬虫抓取到的数据是否存在相应的价值,通过信息价值分析模型进行判断,针对断定为有价值的信息,进入业务关联度分析模块;
业务关联度分析模块33,连接于上述信息价值分析模块32,主要负责新闻、招标等信息的业务关联识别,通过业务关联度模型进行判断,针对关联度超过一定阈值的,认为与业务有关联,进入下一个模块;
客户识别模块34,连接于上述业务关联度分析模块33,负责识别信息内容中所涉及到的公司,通过客户识别模型进行识别,针对成功识别出公司名称的,进入下一个模块;
客户播报模块35,连接于上述客户识别模块34,负责对识别出来的公司进行分配销售,通过客户分配模型进行计算,分配完成后通过短信和邮件的方式通知销售人员。
管理模块36,与上述各个模块相互通信,对整个系统进行管理设置,同时也负责业务关键词的自动维护,以保障系统业务关联度的自我学习和进化功能。
本发明实施例的潜在客户挖掘系统以业务模式中客户为公司或组织的客户挖掘为原始出发点,通过使用网络爬虫技术和人工智能技术,实现了客户挖掘全程的自动化、智能化,并且后续可自我学习自动进化,实现系统的完全自动运行。
同时,本潜在客户挖掘系统使用网络爬虫技术和人工智能技术,符合人类针对信息分析挖掘的思考模式,且能通过机器克服人的精力有限的先天性局限,通过网络爬虫和人工智能技术相结合,解决传统方式的客户挖掘速度慢,效率低,数据片面的缺点,并且系统可以完全自动化运行,并且可以自我学习、自动进化,是人工智能时代客户挖掘的一种有效方式。
根据本发明实施例的另一方面,还提供了一种客户挖掘处理的装置,图4是根据本发明实施例的客户挖掘处理装置的结构框图,如图4所示,该客户挖掘处理装置包括:抓取模块41,第一判断模块42,第二判断模块43,辨识模块44,处理模块45。下面对该客户挖掘处理装置进行详细说明。
抓取模块41,用于通过网络爬虫方法从预定信息源上抓取数据;
第一判断模块42,连接于上述抓取模块41,用于判断抓取的数据是否为有价值数据;
第二判断模块43,连接于上述第一判断模块42,用于在第一判断模块的判断结果为抓取的数据为有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;
辨识模块44,连接于上述第二判断模块43,用于在判断结果为抓取的数据与预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,潜在客户包括企业客户;
处理模块45,连接于上述辨识模块44,用于对辨识的潜在客户进行挖掘处理。
图5是根据本发明实施例的客户挖掘处理装置的抓取模块41的结构框图,如图5所示,该抓取模块41包括:第一确定单元52,抓取单元54。下面对该抓取模块41进行详细说明。
第一确定单元52,用于确定从预定信息源上抓取数据的数据量,其中,该预定信息源可以包含多种类型,例如,可以包含有传统媒体的杂志、书刊等,也可以包含有新兴媒体的:新闻网站,微博,微信,搜索引擎,招标网站,工商企业信息登记点等,只要是用来传播信息的来源即可;
抓取单元54,连接于上述第一确定单元52,用于根据确定的数据量,从预定信息源上抓取数据。
图6是根据本发明实施例的客户挖掘处理装置的第一判断模块42的结构框图,如图6所示,该第一判断模块42包括:分词单元62,过滤单元64,得到单元66和第二确定单元68。下面对该第一判断模块42进行详细说明。
分词单元62,用于对抓取的数据进行分词,得到分词结果;
过滤单元64,连接于上述分词单元62,用于对得到的分词结果进行过滤,得到过滤结果;
得到单元66,连接于上述过滤单元64,用于对得到的过滤结果中的词进行特征向量构建,得到抓取的数据的特征向量;
第二确定单元68,连接于上述得到单元66,用于根据得到的特征向量,以及预定价值模型,确定与得到的特征向量对应的用于标识抓取的数据是否为有价值数据的标识结果,其中,预定价值模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:特征向量和与特征向量对应的用于标识特征向量所属的抓取数据是否为有价值数据的识别结果。
图7是根据本发明实施例的客户挖掘处理装置的第二判断模块43的结构框图,如图7所示,该第二判断模块43包括:第三确定单元71,第四确定单元72,第五确定单元73,判断单元74,第六确定单元75。下面对该第二判断模块43进行详细说明。
第三确定单元71,用于确定预定业务的多个关键词,以及分别确定多个关键词的权重;
第四确定单元72,连接于上述第三确定单元71,用于确定抓取的数据中出现多个关键词中的关键词;
第五确定单元73,连接于上述第四确定单元72,用于根据出现的关键词,以及出现的关键词对应的权重,确定抓取的数据的累积权重;
判断单元74,连接于上述第五确定单元73,用于判断确定的累积权重是否超过预定阈值;
第六确定单元75,连接于上述判断单元74,用于在判断结果为是的情况下,确定抓取的数据与预定业务存在关联。
图8是根据本发明实施例的客户挖掘处理装置的第二判断模块43的第三确定单元71的结构框图,如图8所示,该第三确定单元71包括:第一确定子单元81,第二确定子单元82,得到子单元83。下面对该第三确定单元71进行详细说明。
第一确定子单元81,用于确定预定业务的种子关键词,获取预定数据中的预定词与种子关键词同时出现的第一同现概率,在第一同现概率达到第一预定概率阈值的情况下,确定预定词为一级关键词,在第一同现概率达到第一预定概率阈值的种子关键词的数量达到第一预定数量的情况下,将预定词提升为种子关键词;
第二确定子单元82,连接于上述第一确定子单元81,用于获取预定数据中的预定词与一级关键词同时出现的第二同现概率,在第二同现概率达到第二预定概率阈值的情况下,确定预定词为二级关键词,在第二同现概率达到第二预定概率阈值的一级关键词的数量达到第二预定数量的情况下,将预定词提升为一级关键词;
得到子单元83,连接于上述第二确定子单元82,用于对预定数量的预定数据,重复执行预定数量次数的上述更新种子关键词,一级关键词以及二级关键词的步骤,得到预定业务的稳定的种子关键词,一级关键词和二级关键词。
其中,上述第一预定数量依据对应的种子关键词的数量确定,上述第二预定数量依据对应的一级关键词的数量确定,例如,第一预定概率阈值为0.5,第二预定概率阈值为0.5,第一预定数量为对应的种子关键词的数量的开平方,第二预定数量为对应的一级关键词的数量的开平方。需要说明的是,此处的开平方为确定上述第一预定数量,第二预定数量的一种方法,属于一种关系表述方式,当然也可以采用其它的关系表述方式,例如,通过预定关系函数的方式,比如,分别以种子关键词的数量为自变量,以第一预定数量为因变量的数学函数;以一级关键词的数量为自变量,以第二预定数量为因变量的数学函数。
其中,分别确定多个关键词的权重可以包括:通过分别确定多个关键词与预定业务的相关性,确定所述多个关键词的权重,例如,如果关键词与预定业务的相关性大时,则确定该关键词的权重大一些,如果关键词与预定业务的相关性相对较小时,则确定该关键词的权重小一些。当然,该相关性也可以通过一定的数值来表示,例如,通过同时出现的频次来确定两者的相关性。可选地,可以确定种子关键词的权重为1,一级关键词的权重为0.7,二级关键词的权重为0.3。
图9是根据本发明实施例的客户挖掘处理装置的辨识模块44的结构框图,如图9所示,该辨识模块44包括:第七确定单元92和辨识单元93。下面对该辨识模块44进行详细说明。
第七确定单元92,用于确定辨识的关键词或关键词组合,其中,关键词或关键词组合包括以下至少之一:企业名称,企业简称,企业高管称呼,企业产品名称;
辨识单元93,连接于上述第七确定单元92,用于根据确定的关键词或关键词组合,从抓取的数据中辨识潜在客户。
图10是根据本发明实施例的客户挖掘处理装置的处理模块45的结构框图,如图10所示,该处理模块45包括:第八确定单元102和分配单元104。下面对该处理模块45进行详细说明。
第八确定单元102,用于确定用于分配潜在客户的分配策略,其中,分配策略包括以下至少之一:潜在客户是否是已合作客户,潜在客户是否为已分配客户,潜在客户的行业是否为待分配销售人员的擅长行业,潜在客户所属地域是否为待分配销售人员所在区域,依据销售人员的排列顺序;
分配单元104,连接于上述第八确定单元102,用于根据确定的分配策略为潜在客户分配销售人员,其中,分配潜在客户的销售人员对潜在客户进行挖掘处理。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的客户挖掘处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任意一项的客户挖掘处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种客户挖掘处理方法,其特征在于,包括:
通过网络爬虫方法从预定信息源上抓取数据;
判断抓取的数据是否为有价值数据;
在判断结果为抓取的数据为所述有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;
在判断结果为抓取的数据与所述预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,所述潜在客户包括企业客户;
对辨识的所述潜在客户进行挖掘处理。
2.根据权利要求1所述的方法,其特征在于,通过所述网络爬虫方法从所述预定信息源上抓取数据包括:
确定从所述预定信息源上抓取数据的数据量;
根据确定的所述数据量,从所述预定信息源上抓取数据。
3.根据权利要求1所述的方法,其特征在于,判断抓取的数据是否为所述有价值数据包括:
对抓取的数据进行分词,得到分词结果;
对得到的所述分词结果进行过滤,得到过滤结果;
对得到的所述过滤结果中的词进行特征向量构建,得到抓取的数据的特征向量;
根据得到的所述特征向量,以及预定价值模型,确定与得到的所述特征向量对应的用于标识抓取的数据是否为有价值数据的标识结果,其中,所述预定价值模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:特征向量和与所述特征向量对应的用于标识所述特征向量所属的抓取数据是否为有价值数据的识别结果。
4.根据权利要求1所述的方法,其特征在于,判断抓取的数据是否与所述预定业务存在关联包括:
确定所述预定业务的多个关键词,以及分别确定所述多个关键词的权重;
确定抓取的数据中出现所述多个关键词中的关键词;
根据出现的关键词,以及出现的关键词对应的权重,确定抓取的数据的累积权重;
判断确定的所述累积权重是否超过预定阈值;
在判断结果为是的情况下,确定抓取的数据与所述预定业务存在关联。
5.根据权利要求4所述的方法,其特征在于,确定所述预定业务的所述多个关键词包括:
确定所述预定业务的种子关键词,获取预定数据中的预定词与所述种子关键词同时出现的第一同现概率,在所述第一同现概率达到第一预定概率阈值的情况下,确定所述预定词为一级关键词,在所述第一同现概率达到所述第一预定概率阈值的种子关键词的数量达到第一预定数量的情况下,将所述预定词提升为种子关键词;
获取预定数据中的预定词与所述一级关键词同时出现的第二同现概率,在所述第二同现概率达到第二预定概率阈值的情况下,确定所述预定词为二级关键词,在所述第二同现概率达到所述第二预定概率阈值的一级关键词的数量达到第二预定数量的情况下,将所述预定词提升为一级关键词;
对预定数量的所述预定数据,重复执行所述预定数量次数的上述更新种子关键词,一级关键词以及二级关键词的步骤,得到所述预定业务的稳定的种子关键词,一级关键词和二级关键词。
6.根据权利要求5所述的方法,其特征在于,所述第一预定数量依据对应的种子关键词的数量确定,所述第二预定数量依据对应的一级关键词的数量确定。
7.根据权利要求5所述的方法,其特征在于,分别确定所述多个关键词的权重包括:
通过分别确定所述多个关键词与所述预定业务的相关性,确定所述多个关键词的权重。
8.根据权利要求1至7中任一项所述的方法,其特征在于,从抓取的数据中辨识所述潜在客户包括:
确定辨识的关键词或关键词组合;
根据确定的所述关键词或关键词组合,从抓取的数据中辨识所述潜在客户。
9.根据权利要求8所述的方法,其特征在于,对辨识的所述潜在客户进行挖掘处理包括:
确定用于分配所述潜在客户的分配策略,其中,所述分配策略包括以下至少之一:所述潜在客户是否是已合作客户,所述潜在客户是否为已分配客户,所述潜在客户的行业是否为待分配销售人员的擅长行业,所述潜在客户所属地域是否为待分配销售人员所在区域,依据销售人员的排列顺序;
根据确定的所述分配策略为所述潜在客户分配销售人员,其中,分配所述潜在客户的销售人员对所述潜在客户进行挖掘处理。
10.一种客户挖掘处理装置,其特征在于,包括:
抓取模块,用于通过网络爬虫方法从预定信息源上抓取数据;
第一判断模块,用于判断抓取的数据是否为有价值数据;
第二判断模块,用于在第一判断模块的判断结果为抓取的数据为所述有价值数据的情况下,判断抓取的数据是否与预定业务存在关联;
辨识模块,用于在判断结果为抓取的数据与所述预定业务存在关联的情况下,从抓取的数据中辨识潜在客户,其中,所述潜在客户包括企业客户;
处理模块,用于对辨识的所述潜在客户进行挖掘处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008924.4A CN108228837A (zh) | 2018-01-04 | 2018-01-04 | 客户挖掘处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008924.4A CN108228837A (zh) | 2018-01-04 | 2018-01-04 | 客户挖掘处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228837A true CN108228837A (zh) | 2018-06-29 |
Family
ID=62645246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810008924.4A Pending CN108228837A (zh) | 2018-01-04 | 2018-01-04 | 客户挖掘处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228837A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119466A (zh) * | 2019-03-29 | 2019-08-13 | 五渡(杭州)科技有限责任公司 | 一种大数据智能营销系统及其方法 |
CN112100237A (zh) * | 2020-09-04 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种用户数据处理方法、装置、设备以及存储介质 |
CN112732886A (zh) * | 2021-01-08 | 2021-04-30 | 京东数字科技控股股份有限公司 | 一种会话管理方法、装置、系统及介质 |
CN113177151A (zh) * | 2021-05-28 | 2021-07-27 | 中山世达模型制造有限公司 | 一种潜在客户筛选方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
CN102737038A (zh) * | 2011-04-07 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 关联度确定方法及装置、信息提供方法及装置 |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103714139A (zh) * | 2013-12-20 | 2014-04-09 | 华南理工大学 | 一种移动海量客户群识别的并行数据挖掘方法 |
-
2018
- 2018-01-04 CN CN201810008924.4A patent/CN108228837A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
CN102737038A (zh) * | 2011-04-07 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 关联度确定方法及装置、信息提供方法及装置 |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103714139A (zh) * | 2013-12-20 | 2014-04-09 | 华南理工大学 | 一种移动海量客户群识别的并行数据挖掘方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119466A (zh) * | 2019-03-29 | 2019-08-13 | 五渡(杭州)科技有限责任公司 | 一种大数据智能营销系统及其方法 |
CN112100237A (zh) * | 2020-09-04 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种用户数据处理方法、装置、设备以及存储介质 |
CN112100237B (zh) * | 2020-09-04 | 2023-08-15 | 北京百度网讯科技有限公司 | 一种用户数据处理方法、装置、设备以及存储介质 |
CN112732886A (zh) * | 2021-01-08 | 2021-04-30 | 京东数字科技控股股份有限公司 | 一种会话管理方法、装置、系统及介质 |
CN112732886B (zh) * | 2021-01-08 | 2024-08-16 | 京东科技控股股份有限公司 | 一种会话管理方法、装置、系统及介质 |
CN113177151A (zh) * | 2021-05-28 | 2021-07-27 | 中山世达模型制造有限公司 | 一种潜在客户筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228837A (zh) | 客户挖掘处理方法及装置 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
Yoon | Detecting weak signals for long-term business opportunities using text mining of Web news | |
CN108154244A (zh) | 地产电力设备的运维方法、装置和系统 | |
CN107145586A (zh) | 一种基于电力营销数据的标签产出方法和装置 | |
CN109064221A (zh) | 基于大数据技术的关键词广告智能投放方法及设备 | |
Saraçoğlu et al. | A fuzzy clustering approach for finding similar documents using a novel similarity measure | |
CN108520365A (zh) | 基于大数据分析的教育决策系统 | |
CN105930347A (zh) | 基于文本分析的停电原因识别系统 | |
CN107122432A (zh) | 企业社会责任分析方法、装置和系统 | |
CN109978061A (zh) | 一种基于资源回收o2o平台的资源回收方法 | |
CN109559152A (zh) | 一种网络营销方法、系统及计算机存储介质 | |
Elmsili et al. | Artificial neural networks applications in economics and management research: An exploratory literature review | |
CN112184484A (zh) | 一种电力用户差异化服务方法及系统 | |
CN106951565A (zh) | 文本分类方法及获得的文本分类器 | |
Soegoto et al. | Development of desktop-based information system on waste management bank | |
CN104915388B (zh) | 一种基于谱聚类和众包技术的图书标签推荐方法 | |
Nasser et al. | Online recruitment fraud detection using ann | |
CN111666499A (zh) | 一种基于大数据的舆情监测云服务平台 | |
Eom | The current state of multiple criteria decision support systems | |
CN109558887A (zh) | 一种预测行为的方法和装置 | |
Ali et al. | Identification of critical factors for the implementation of reverse logistics in the manufacturing industry of Pakistan | |
CN109903080A (zh) | 一种用于电商平台的客户分析系统 | |
CN109544271A (zh) | 一种交易管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |