CN108921431A - 政企客户聚类方法及装置 - Google Patents

政企客户聚类方法及装置 Download PDF

Info

Publication number
CN108921431A
CN108921431A CN201810716913.1A CN201810716913A CN108921431A CN 108921431 A CN108921431 A CN 108921431A CN 201810716913 A CN201810716913 A CN 201810716913A CN 108921431 A CN108921431 A CN 108921431A
Authority
CN
China
Prior art keywords
government
enterprise customers
score value
participle
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810716913.1A
Other languages
English (en)
Inventor
胡博
张宇
张鲲
乔瑞
于斌
于庆淼
付喆
丁微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810716913.1A priority Critical patent/CN108921431A/zh
Publication of CN108921431A publication Critical patent/CN108921431A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种政企客户聚类方法及装置。本发明提供的政企客户聚类方法,包括:获取政企客户数据以及名单制客户数据,分别对第一政企客户名称以及第一名单制客户名称进行分词处理,得到第一分词集合和第二分词集合,在计算第一分词集合与第二分词集合的偏离度分值,若偏离度分值小于预设的偏离度分值,则第一政企客户名称与第一名单制客户名称匹配成功。本发明提供的政企客户聚类方法,实现政企客户智能聚类的自动构建,大大提高了处理效率以及聚类结果的准确性。

Description

政企客户聚类方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种政企客户聚类方法及装置。
背景技术
随着政企客户营销管理工作的深入,基于客户维度、行业维度的管理要求越来越迫切,对名单制大客户的收入、业务量数据统计、分析展现已经成为政企客户事业部日常管理考核的需要。
其中,政企客户指的是集团客户,例如腾讯集团、阿里集团或者上汽集团等。而名单制客户指的是为满足营销管理需要而人为规定的具有强相关性的客户集合,客户集合包括下一级名单制客户与实体客户的组合,名单制客户是真实客户的归集,用于界定销售人员的营销目标和负责范围、统计其管理客户的相关营收情况,例如深圳市腾讯计算机系统有限公司就属于名单制客户。
目前,名单制以及行业聚类的规则通常都是分散在各个客户经理以及行业经理手中,集客部为了获取对政企客户进行聚类,需要先要求各个客户经理对手头的数据进行人工筛选和处理,例如集客部需要对腾讯集团下属所有的子公司进行聚类,则需要依靠人工进行筛选出腾讯集团下属所有公司的名称,效率低下,且准确率也不高。
发明内容
本发明提供一种政企客户聚类方法及装置,以建立政企客户智能聚类能力,并通过自动构建的方式提升处理效率,以及聚类结果的准确性。
第一方面,本发明提供一种政企客户聚类方法,包括:
获取政企客户数据以及名单制客户数据,其中,所述政企客户数据至少包括第一政企客户名称,所述名单制客户数据至少包括第一名单制客户名称;
分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理,其中,所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合;
计算所述第一分词集合与所述第二分词集合的偏离度分值;
若所述偏离度分值小于预设的偏离度分值,则所述第一政企客户名称与所述第一名单制客户名称匹配成功。
在一种可能的设计中,在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后,还包括:
根据词频-逆文本频率指数算法生成二维词频矩阵,其中,所述二维词频矩阵的横向为第三分词集合中的分词,所述第三分词集合为所述第一分词集合和所述第二分词集合的合集,所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称,并且,所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值;
为所述二维词频矩阵横向上的每个分词分配分词索引号。
在一种可能的设计中,在为所述二维词频矩阵的横向上的分配分词索引号之后,还包括:
判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素,其中,所述名单制客户数据中包括所述至少包含词集合;
若判断结果为是,则判断所述第一分词集合与不能包含词集合是否有交集,其中,所述名单制客户数据中包括所述不能包含词集合,判断结果为否。
在一种可能的设计中,在计算所述第一分词集合与所述第二分词集合的偏离度分值之前,还包括:
根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值;
判断所述相似度分值是否小于预设的相似度分值,判断结果为是。
在一种可能的设计中,所述根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值,包括:
根据所述二维词频矩阵以及所述分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组;
合并所述第一名单制客户索引数组以及所述第一政企客户索引数组生成索引数组,并对所述索引数组中的所有所述分词索引号进行升序排序;
合并所述第一名单制客户分值数组以及第一政企客户分值数组生成分值数组,并根据所述索引数组中的所述分词索引号的排列顺序对所述分值数组中所有所述分值进行排序;
根据所述索引数组、所述分值数组以及欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值。
在一种可能的设计中,所述计算所述第一分词集合与所述第二分词集合的偏离度分值,包括:
判断所述第一分词集合中的第一分词是否属于第二分词集合;
若判断结果为是,则所述第一分词在偏离分值数组中对应的元素值为1;
若判断结果为否,则所述第一分词在所述偏离分值数组中对应的元素值为0;
计算所述偏离度分值,所述偏离度分值为所述偏离分值数组的每个元素值与预设权重值的乘积之和。
在一种可能的设计中,所述计算所述偏离度分值,包括:
计算所述偏离分值数组中序号为0的元素值与所述预设权重值的乘积,结果为第0偏离度分值;
计算所述偏离分值数组中序号为n的元素值与衰减预设权重值的乘积,结果为第n偏离度分值;
叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值。
在一种可能的设计中,在所述叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值之后,还包括:
判断预设的降低偏离度词集合中的第一元素是否属于所述第一分词集合;
若判断结果为是,则将所述偏离度分值更新为所述偏离度分值与第一降低距离系数相乘后的计算结果,其中,所述第一降低距离系数与所述第一元素对应。
在一种可能的设计中,在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后,还包括:
从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,其中,所述政企客户数据还包括:第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。
在一种可能的设计中,在计算所述第一分词集合与所述第二分词集合的偏离度分值之后,还包括:
输出政企客户聚类结果文件,所述政企客户聚类结果文件中至少包括:所述第一名单制客户名称、所述第一政企客户代号、所述第一政企客户名称、所述第一政企客户省份名称、所述第一政企客户地市名称、所述相似度分值以及所述偏离度分值,并且,所述政企客户聚类结果文件中任意相邻的两个参数之间均设置有分隔符。
第二方面,本发明还提供一种政企客户聚类装置,包括:
获取模块,用于获取政企客户数据以及名单制客户数据,其中,所述政企客户数据至少包括第一政企客户名称,所述名单制客户数据至少包括第一名单制客户名称;
分词模块,用于分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理,其中,所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合;
计算模块,用于计算所述第一分词集合与所述第二分词集合的偏离度分值;
匹配模块,用于若所述偏离度分值小于预设的偏离度分值,则所述第一政企客户名称与所述第一名单制客户名称匹配成功。
在一种可能的设计中,所述计算模块,还用于根据词频-逆文本频率指数算法生成二维词频矩阵,其中,所述二维词频矩阵的横向为第三分词集合中的分词,所述第三分词集合为所述第一分词集合和所述第二分词集合的合集,所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称,并且,所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值;
所述匹配模块,还用于为所述二维词频矩阵横向上的每个分词分配分词索引号。
在一种可能的设计中,所述政企客户聚类装置,还包括:
判断模块,用于判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素,其中,所述名单制客户数据中包括所述至少包含词集合;
所述判断模块,还用于判断所述第一分词集合与不能包含词集合是否有交集,其中,所述名单制客户数据中包括所述不能包含词集合。
在一种可能的设计中,所述计算模块,还用于根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值;
所述判断模块,还用于判断所述相似度分值是否小于预设的相似度分值。
在一种可能的设计中,所述计算模块,具体用于:
根据所述二维词频矩阵以及所述分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组;
合并所述第一名单制客户索引数组以及所述第一政企客户索引数组生成索引数组,并对所述索引数组中的所有所述分词索引号进行升序排序;
合并所述第一名单制客户分值数组以及第一政企客户分值数组生成分值数组,并根据所述索引数组中的所述分词索引号的排列顺序对所述分值数组中所有所述分值进行排序;
根据所述索引数组、所述分值数组以及欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值。
在一种可能的设计中,所述计算模块,具体用于:
判断所述第一分词集合中的第一分词是否属于第二分词集合;
若判断结果为是,则所述第一分词在偏离分值数组中对应的元素值为1;
若判断结果为否,则所述第一分词在所述偏离分值数组中对应的元素值为0;
计算所述偏离度分值,所述偏离度分值为所述偏离分值数组的每个元素值与预设权重值的乘积之和。
在一种可能的设计中,所述计算模块,具体用于:
计算所述偏离分值数组中序号为0的元素值与所述预设权重值的乘积,结果为第0偏离度分值;
计算所述偏离分值数组中序号为n的元素值与衰减预设权重值的乘积,结果为第n偏离度分值;
叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值。
在一种可能的设计中,所述计算模块,具体用于:
判断预设的降低偏离度词集合中的第一元素是否属于所述第一分词集合;
若判断结果为是,则将所述偏离度分值更新为所述偏离度分值与第一降低距离系数相乘后的计算结果,其中,所述第一降低距离系数与所述第一元素对应。
在一种可能的设计中,所述分词模块,还用于从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,其中,所述政企客户数据还包括:第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。
第三方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中所提供的任意一种所述的政企客户聚类方法。
第四方面,本发明还提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中所提供的任意一种所述的政企客户聚类方法。
本发明提供的一种政企客户聚类方法及装置,通过先获取政企客户数据以及名单制客户数据,然后再分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理得到第一分词集合和第二分词集合,最后通过计算所述第一分词集合与所述第二分词集合的偏离度分值,并通过计算获得的偏离度分值与预设的偏离度分值进行比较以确定第一政企客户名称与第一名单制客户名称是否匹配成功,从而实现政企客户智能聚类的自动构建,大大提高了处理效率以及聚类结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的政企客户聚类方法的流程示意图;
图2是根据另一示例性实施例示出的政企客户聚类方法的流程示意图;
图3是根据一示例性实施例示出的政企客户聚类装置的结构示意图;
图4是根据另一示例性实施例示出的政企客户聚类装置的结构示意图;
图5是根据一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的政企客户聚类方法的流程示意图。如图1所示,本实施例所提供的政企客户聚类方法,包括:
步骤101、获取政企客户数据以及名单制客户数据。
具体地,获取数据库中政企客户数据以及名单制客户数据,其中,政企客户数据至少包括第一政企客户名称,而名单制客户数据至少包括第一名单制客户名称,例如,第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”,而第一名单制客户名称可以为“腾讯集团”。
其中,获取数据库中政企客户数据以及名单制客户数据的过程可以通过利用第三方平台在固定的周期内从集客数据库中抽取获得,所拉取的可以是全国集团客户数据,并且在获取数据之后,还可以实现对数据进行清洗。具体地,可以通过相应数据清洗规则,去除小微企业的名称、去除小于3个字的名称、去除特殊字符以及去除阿拉伯数字等。值得说明地,在本实施例中并不对政企客户数据以及名单制客户数据具体的获取方法以及数据清洗的方法进行限定。
此外,通过获取数据库中政企客户数据时,还可以同时获取到第一政企客户代号、第一政企客户省份名称以及第一政企客户地市名称等信息。
步骤102、分别对第一政企客户名称以及第一名单制客户名称进行分词处理。
具体地,分别对第一政企客户名称以及第一名单制客户名称进行分词处理,其中,第一政企客户名称和第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合。
对于上述的分词方法可以通过采用jieba分词方法进行分词,但是值得说明地,在本实施例中并不对上述具体分词的方法进行限定,只需保证能够对第一政企客户名称和第一名单制客户名称进行有效的分词处理即可。此外,由于首地名通常只是代表的是客户公司名称在各个区域的位置,因此,可以通过在分词之后从第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,从而提高后续政企客户聚类的准确性。
例如,当第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”,而第一名单制客户名称可以为“腾讯集团”时。针对第一政企客户名称分词后的第一分词集合包括:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”。而对于第一名单制客户名称分词后的第二分词集合包括:“腾讯”以及“集团”。
步骤103、计算第一分词集合与第二分词集合的偏离度分值。
具体地,可以判断第一分词集合中的第一分词是否属于第二分词集合,若判断结果为是,则第一分词在偏离分值数组中对应的元素值为1,若判断结果为否,则第一分词在偏离分值数组中对应的元素值为0。例如,判断第一分词集合中的“腾讯”是否属于第二分词集合,由于第二分词集合包括“腾讯”,所以“腾讯”在偏离分值数组中对应的元素值为1;还可以继续判断第一分词集合中的“计算”是否属于第二分词集合,由于第二分词集合不包括“计算”,所以“计算”在偏离分值数组中对应的元素值为0。
在依次对比并生成偏离分值数组之后,依次将偏离分值数组中的每个元素数值与预设权重值进行乘积,并求和得到最终的偏离度分值。其中,预设权重值可以更加实际分析的对象进行确定,可以取任意小于1的正数值,例如可以取0.4,但是,值得说明地,在本实施例中并不对预设权重值具体的取值进行限定。
步骤104、判断偏离度分值是否小于预设的偏离度分值,判断结果为是,则执行步骤105。
在计算得到偏离度分值之后,可以进一步判断偏离度分值是否小于预设的偏离度分值,其中,预设的偏离度分值可以根据实际分析的对象进行确定,可以取正数值,例如可以取1200,而偏离度分值取值越小则代表对第一分词集合与第二分词集合的偏离度分值要求越严苛,即要求第一分词集合与第二分词集合要求相似度越高,但是,值得说明地,在本实施例中并不对预设权重值具体的取值进行限定。
步骤105、第一政企客户名称与第一名单制客户名称匹配成功。
具体地,若上述计算第一分词集合与第二分词集合的偏离度分值小于预设的偏离度分值时,则第一政企客户名称与第一名单制客户名称匹配成功。例如,上述第一政企客户名称“深圳市腾讯计算机系统有限公司”,与第一名单制客户名称“腾讯集团”的偏离度分值为0.668571428571,小于预设的偏离度分值1200,则说明第一政企客户名称“深圳市腾讯计算机系统有限公司”与第一名单制客户名称“腾讯集团”匹配成功。
在本实施例中,通过先获取政企客户数据以及名单制客户数据,然后再分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理得到第一分词集合和第二分词集合,最后通过计算所述第一分词集合与所述第二分词集合的偏离度分值,并通过计算获得的偏离度分值与预设的偏离度分值进行比较以确定第一政企客户名称与第一名单制客户名称是否匹配成功,从而实现政企客户智能聚类的自动构建,大大提高了处理效率以及聚类结果的准确性。
图2是根据另一示例性实施例示出的政企客户聚类方法的流程示意图,如图2所示,本实施例提供的政企客户聚类方法,包括:
步骤201、获取政企客户数据以及名单制客户数据。
具体地,获取数据库中政企客户数据以及名单制客户数据,其中,政企客户数据至少包括第一政企客户名称,而名单制客户数据至少包括第一名单制客户名称,例如,第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”,而第一名单制客户名称可以为“腾讯集团”。
其中,获取数据库中政企客户数据以及名单制客户数据的过程可以通过利用第三方平台在固定的周期内从集客数据库中抽取获得,所拉取的可以是全国集团客户数据,并且在获取数据之后,还可以实现对数据进行清洗。具体地,可以通过相应数据清洗规则,去除小微企业的名称、去除小于3个字的名称、去除特殊字符以及去除阿拉伯数字等。值得说明地,在本实施例中并不对政企客户数据以及名单制客户数据具体的获取方法以及数据清洗的方法进行限定。
此外,通过获取数据库中政企客户数据时,还可以同时获取到第一政企客户代号、第一政企客户省份名称以及第一政企客户地市名称等信息。
并且,名单制客户数据中还可以包括匹配规则数据,其中,匹配规则数据中可以包括预设的至少包含词集合以及不能包含词集合。例如,针对第一政企客户名称为“深圳市腾讯计算机系统有限公司”,第一名单制客户名称为“腾讯集团”,其至少包含词集合可以包括“腾讯”、“腾讯搜搜网”、“腾讯易迅网”、“微视视频”、“财付通支付科技”、“腾讯理财通”、“搜搜”、“易迅”、“微信”、“微视”、“财付通”以及“理财通”等词,值得说明地,至少包含词集合可以根据具体客户集团下的业务名称进行确定,也可以通过互联网爬取或者购买第三方平台数据,补全客户资料。此外,不能包含词集合可以包括“店”、“客栈”、“物流”、“数码”、“安腾讯”、“金腾讯”、“世纪腾讯”等词,值得说明地,不能包含词集合可以根据具体市面上容易对客户集团下相关名称进行混用的词汇确定,也可以通过互联网爬取或者购买第三方平台数据,补全客户资料
步骤202、分别对第一政企客户名称以及第一名单制客户名称进行分词处理。
具体地,分别对第一政企客户名称以及第一名单制客户名称进行分词处理,其中,第一政企客户名称和第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合。
对于上述的分词方法可以通过采用jieba分词方法进行分词,但是值得说明地,在本实施例中并不对上述具体分词的方法进行限定,只需保证能够对第一政企客户名称和第一名单制客户名称进行有效的分词处理即可。此外,由于首地名通常只是代表的是客户公司名称在各个区域的位置,因此,可以通过在分词之后从第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,从而提高后续政企客户聚类的准确性。
而对于拆词的算法,可以是通过将政企客户名称按照词库、关键字等规则进行拆词,将名称拆分成多个词语分词,拆词计算是信息检索技术的通用方法。拆词步骤如下:加载字典(可维护),生成词语树,给定待分词的企业名称,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG(查字典)和动态规划,得到最大概率路径,对DAG中那些没有在字典中查到的字,组合成一个新的片段短语,使用HMM模型识别新词并进行分词。
例如,当第一政企客户名称可以为“深圳市腾讯计算机系统有限公司”,而第一名单制客户名称可以为“腾讯集团”时。针对第一政企客户名称分词后的第一分词集合包括:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”。而对于第一名单制客户名称分词后的第二分词集合包括:“腾讯”以及“集团”。
步骤203、根据词频-逆文本频率指数算法生成二维词频矩阵。
根据TF-IDF算法,即词频-逆文本频率指数算法生成二维词频矩阵,其中,二维词频矩阵的横向为第三分词集合中的分词,第三分词集合为第一分词集合和第二分词集合的合集,二维词频矩阵的纵向为第一政企客户名称以及第一名单制客户名称,并且,二维词频矩阵中每个矩阵元素为矩阵元素对应的横向分词和纵向客户名称的TF-IDF分值。
值得说明地,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。而针对政企客户聚类的场景中,由于客户名称长度有限,从单客户名称中很难分析出具体哪个分词是对客户名称具有代表意义的词。所以单纯使用用来分析两个客户名称的相似度不适合,也无法达到预期的结果。
而针对第一政企客户名称分词后的第一分词集合包括:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”,以及第一名单制客户名称分词后的第二分词集合包括:“腾讯”以及“集团”。第一分词集合和第二分词集合的合集第三分词集合包括:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”、“腾讯”以及“集团”
因此,所构建的二维词频矩阵的横向为“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”、“腾讯计算机系统有限公司”以及“集团”,纵向为“腾讯集团”与“深圳市腾讯计算机系统有限公司”,并计算出该二维词频矩阵每个节点对应的TF-IDF分值。
步骤204、为二维词频矩阵横向上的每个分词分配分词索引号。
例如,“腾讯”对应的分词索引号为7,“计算”对应的分词索引号为4,而“算机”对应的分词索引号为8,“系统”对应的分词索引号为5,“计算机”对应的分词索引号为6,“计算机”对应的分词索引号为9,“计算机系统”对应的分词索引号为3,“有限”对应的分词索引号为10,“公司”对应的分词索引号为1,“有限公司”对应的分词索引号为0,“腾讯计算机系统有限公司”对应的分词索引号为2,“集团”对应的分词索引号11。
步骤205、判断第一分词集合是否包括预设的至少包含词集合中至少一个元素,若判断结果为是,则执行步骤206。
具体地,判断第一分词集合是否包括预设的至少包含词集合中至少一个元素。例如,判断第一分词集合:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”是否包括至少包含词集合:“腾讯”、“腾讯搜搜网”、“腾讯易迅网”、“微视视频”、“财付通支付科技”、“腾讯理财通”、“搜搜”、“易迅”、“微信”、“微视”、“财付通”以及“理财通”中的一个,可见,上述第一分词集合至少包括了预设的至少包含词集合中的“腾讯”。
步骤206、判断第一分词集合与不能包含词集合是否有交集,若判断结果为否,则执行步骤207。
具体地,判断第一分词集合与不能包含词集合是否有交集。例如,判断第一分词集合:“腾讯”、“计算”、“算机”、“系统”、“计算机”、“计算机系统”、“有限”、“公司”、“有限公司”以及“腾讯计算机系统有限公司”与不能包含词集合:“店”、“客栈”、“物流”、“数码”、“安腾讯”、“金腾讯”、“世纪腾讯”无交集。
步骤207、根据欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值。
具体地,根据上述二维词频矩阵以及分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组,然后,合并第一名单制客户索引数组以及第一政企客户索引数组生成索引数组,并对索引数组中的所有分词索引号进行升序排序,合并第一名单制客户分值数组以及第一政企客户分值数组生成分值数组,并根据索引数组中的分词索引号的排列顺序对分值数组中所有分值进行排序,最后,根据索引数组、分值数组以及欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值。
步骤208、判断相似度分值是否小于预设的相似度分值,若判断结果为是,则执行步骤209。
具体地,在根据欧式距离算法计算第一政企客户名称与第一名单制客户名称的相似度分值之后,判断相似度分值是否小于预设的相似度分值。
其中,欧式距离算法经过数据代入计算,在政企客户聚类的场景中对比众多的其他聚类算法中结果相对准确率较高,但是还远远达不到业务部门对智能自动聚类操作的准确率要求。
步骤209、计算第一分词集合与第二分词集合的偏离度分值。
具体地,可以判断第一分词集合中的第一分词是否属于第二分词集合,若判断结果为是,则第一分词在偏离分值数组中对应的元素值为1,若判断结果为否,则第一分词在偏离分值数组中对应的元素值为0。例如,判断第一分词集合中的“腾讯”是否属于第二分词集合,由于第二分词集合包括“腾讯”,所以“腾讯”在偏离分值数组中对应的元素值为1;还可以继续判断第一分词集合中的“计算”是否属于第二分词集合,由于第二分词集合不包括“计算”,所以“计算”在偏离分值数组中对应的元素值为0。
在一种可能的设计中,在依次对比并生成偏离分值数组之后,依次将偏离分值数组中的每个元素数值与预设权重值进行乘积,并求和得到最终的偏离度分值。其中,预设权重值可以更加实际分析的对象进行确定,可以取任意小于1的正数值,例如可以取0.4,但是,值得说明地,在本实施例中并不对预设权重值具体的取值进行限定。
为了进一步的提高后续判断的准确度,对于计算偏离度分值,还可以引入衰减权重值算法,具体包括:计算偏离分值数组中序号为0的元素值与预设权重值的乘积,结果为第0偏离度分值,计算偏离分值数组中序号为n的元素值与衰减预设权重值的乘积,结果为第n偏离度分值,叠加第0偏离度分值至第n偏离度分值,得到偏离度分值。
此外,还可以在叠加第0偏离度分值至第n偏离度分值,得到偏离度分值之后,判断预设的降低偏离度词集合中的第一元素是否属于第一分词集合,若判断结果为是,则将偏离度分值更新为偏离度分值与第一降低距离系数相乘后的计算结果,其中,第一降低距离系数与第一元素对应。例如,此处的降低偏离度词集合可以包括“腾讯”,而对于腾讯集团,若在相关客户名称中存在“腾讯”,则可以说明该客户名称与腾讯集团具有较高的联系,即若“腾讯”属于第一分词集合,则将偏离度分值更新为偏离度分值与第一降低距离系数相乘后的计算结果,其中,第一元素为“腾讯”,其所对应的第一降低距离系数为小于1的正数。
步骤210、判断偏离度分值是否小于预设的偏离度分值,判断结果为是,则执行步骤211。
在计算得到偏离度分值之后,可以进一步判断偏离度分值是否小于预设的偏离度分值,其中,预设的偏离度分值可以根据实际分析的对象进行确定,可以取正数值,例如可以取1200,而偏离度分值取值越小则代表对第一分词集合与第二分词集合的偏离度分值要求越严苛,即要求第一分词集合与第二分词集合要求相似度越高,但是,值得说明地,在本实施例中并不对预设权重值具体的取值进行限定。
步骤211、第一政企客户名称与第一名单制客户名称匹配成功。
具体地,若上述计算第一分词集合与第二分词集合的偏离度分值小于预设的偏离度分值时,则第一政企客户名称与第一名单制客户名称匹配成功。例如,上述第一政企客户名称“深圳市腾讯计算机系统有限公司”,与第一名单制客户名称“腾讯集团”的偏离度分值为0.668571428571,小于预设的偏离度分值1200,则说明第一政企客户名称“深圳市腾讯计算机系统有限公司”与第一名单制客户名称“腾讯集团”匹配成功。
此外,在确定第一政企客户名称与第一名单制客户名称匹配成功之后,还可以输出政企客户聚类结果文件,其中,政企客户聚类结果文件中至少包括:第一名单制客户名称、第一政企客户代号、第一政企客户名称、第一政企客户省份名称、第一政企客户地市名称、相似度分值以及偏离度分值,并且,政企客户聚类结果文件中任意相邻的两个参数之间均设置有分隔符。
图3是根据一示例性实施例示出的政企客户聚类装置的结构示意图。如图3所示,本实施例提供的政企客户聚类装置,包括:
获取模块301,用于获取政企客户数据以及名单制客户数据,其中,所述政企客户数据至少包括第一政企客户名称,所述名单制客户数据至少包括第一名单制客户名称;
分词模块302,用于分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理,其中,所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合;
计算模块303,用于计算所述第一分词集合与所述第二分词集合的偏离度分值;
匹配模块304,用于若所述偏离度分值小于预设的偏离度分值,则所述第一政企客户名称与所述第一名单制客户名称匹配成功。
在图3所示实施例的基础上,图4是根据另一示例性实施例示出的政企客户聚类装置的结构示意图。如图4所示,在本实施例提供的政企客户聚类装置中,所述计算模块303,还用于根据词频-逆文本频率指数算法生成二维词频矩阵,其中,所述二维词频矩阵的横向为第三分词集合中的分词,所述第三分词集合为所述第一分词集合和所述第二分词集合的合集,所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称,并且,所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值;
所述匹配模块304,还用于为所述二维词频矩阵横向上的每个分词分配分词索引号。
在一种可能的设计中,所述政企客户聚类装置,还包括:
判断模块305,用于判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素,其中,所述名单制客户数据中包括所述至少包含词集合;
所述判断模块305,还用于判断所述第一分词集合与不能包含词集合是否有交集,其中,所述名单制客户数据中包括所述不能包含词集合。
在一种可能的设计中,所述计算模块303,还用于根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值;
所述判断模块305,还用于判断所述相似度分值是否小于预设的相似度分值。
在一种可能的设计中,所述计算模块303,具体用于:
根据所述二维词频矩阵以及所述分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组;
合并所述第一名单制客户索引数组以及所述第一政企客户索引数组生成索引数组,并对所述索引数组中的所有所述分词索引号进行升序排序;
合并所述第一名单制客户分值数组以及第一政企客户分值数组生成分值数组,并根据所述索引数组中的所述分词索引号的排列顺序对所述分值数组中所有所述分值进行排序;
根据所述索引数组、所述分值数组以及欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值。
在一种可能的设计中,所述计算模块303,具体用于:
判断所述第一分词集合中的第一分词是否属于第二分词集合;
若判断结果为是,则所述第一分词在偏离分值数组中对应的元素值为1;
若判断结果为否,则所述第一分词在所述偏离分值数组中对应的元素值为0;
计算所述偏离度分值,所述偏离度分值为所述偏离分值数组的每个元素值与预设权重值的乘积之和。
在一种可能的设计中,所述计算模块303,具体用于:
计算所述偏离分值数组中序号为0的元素值与所述预设权重值的乘积,结果为第0偏离度分值;
计算所述偏离分值数组中序号为n的元素值与衰减预设权重值的乘积,结果为第n偏离度分值;
叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值。
在一种可能的设计中,所述计算模块303,具体用于:
判断预设的降低偏离度词集合中的第一元素是否属于所述第一分词集合;
若判断结果为是,则将所述偏离度分值更新为所述偏离度分值与第一降低距离系数相乘后的计算结果,其中,所述第一降低距离系数与所述第一元素对应。
在一种可能的设计中,所述分词模块302,还用于从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,其中,所述政企客户数据还包括:第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。
图3-图4所示的实施例提供的政企客户聚类装置,可用于执行上述图1-图2提供的方法,具体实现方式和技术效果类似,这里不再赘述。
此外,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项方法实施例所述的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5是根据一实施例提供的电子设备的结构示意图。如图5所示,本实施例提供的电子设备,包括:
处理器401;以及
存储器402,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行前述任一项方法实施例所述的技术方案,其实现原理和技术效果类似,此处不再赘述。
并且,上述设备中的各模块的功能可以通过处理器401实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种政企客户聚类方法,其特征在于,包括:
获取政企客户数据以及名单制客户数据,其中,所述政企客户数据至少包括第一政企客户名称,所述名单制客户数据至少包括第一名单制客户名称;
分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理,其中,所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合;
计算所述第一分词集合与所述第二分词集合的偏离度分值;
若所述偏离度分值小于预设的偏离度分值,则所述第一政企客户名称与所述第一名单制客户名称匹配成功。
2.根据权利要求1所述的政企客户聚类方法,其特征在于,在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后,还包括:
根据词频-逆文本频率指数算法生成二维词频矩阵,其中,所述二维词频矩阵的横向为第三分词集合中的分词,所述第三分词集合为所述第一分词集合和所述第二分词集合的合集,所述二维词频矩阵的纵向为所述第一政企客户名称以及所述第一名单制客户名称,并且,所述二维词频矩阵中每个矩阵元素为所述矩阵元素对应的横向分词和纵向客户名称的词频-逆文本频率指数分值;
为所述二维词频矩阵横向上的每个分词分配分词索引号。
3.根据权利要求2所述的政企客户聚类方法,其特征在于,在为所述二维词频矩阵的横向上的分配分词索引号之后,还包括:
判断所述第一分词集合是否包括预设的至少包含词集合中至少一个元素,其中,所述名单制客户数据中包括所述至少包含词集合;
若判断结果为是,则判断所述第一分词集合与不能包含词集合是否有交集,其中,所述名单制客户数据中包括所述不能包含词集合,判断结果为否。
4.根据权利要求3所述的政企客户聚类方法,其特征在于,在计算所述第一分词集合与所述第二分词集合的偏离度分值之前,还包括:
根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值;
判断所述相似度分值是否小于预设的相似度分值,判断结果为是。
5.根据权利要求4所述的政企客户聚类方法,其特征在于,所述根据欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值,包括:
根据所述二维词频矩阵以及所述分词索引号生成第一名单制客户索引数组、第一名单制客户分值数组、第一政企客户索引数组以及第一政企客户分值数组;
合并所述第一名单制客户索引数组以及所述第一政企客户索引数组生成索引数组,并对所述索引数组中的所有所述分词索引号进行升序排序;
合并所述第一名单制客户分值数组以及第一政企客户分值数组生成分值数组,并根据所述索引数组中的所述分词索引号的排列顺序对所述分值数组中所有所述分值进行排序;
根据所述索引数组、所述分值数组以及欧式距离算法计算所述第一政企客户名称与所述第一名单制客户名称的相似度分值。
6.根据权利要求1-5中任意一项所述的政企客户聚类方法,其特征在于,所述计算所述第一分词集合与所述第二分词集合的偏离度分值,包括:
判断所述第一分词集合中的第一分词是否属于第二分词集合;
若判断结果为是,则所述第一分词在偏离分值数组中对应的元素值为1;
若判断结果为否,则所述第一分词在所述偏离分值数组中对应的元素值为0;
计算所述偏离度分值,所述偏离度分值为所述偏离分值数组的每个元素值与预设权重值的乘积之和。
7.根据权利要求6所述的政企客户聚类方法,其特征在于,所述计算所述偏离度分值,包括:
计算所述偏离分值数组中序号为0的元素值与所述预设权重值的乘积,结果为第0偏离度分值;
计算所述偏离分值数组中序号为n的元素值与衰减预设权重值的乘积,结果为第n偏离度分值;
叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值。
8.根据权利要求7所述的政企客户聚类方法,其特征在于,在所述叠加所述第0偏离度分值至所述第n偏离度分值,得到所述偏离度分值之后,还包括:
判断预设的降低偏离度词集合中的第一元素是否属于所述第一分词集合;
若判断结果为是,则将所述偏离度分值更新为所述偏离度分值与第一降低距离系数相乘后的计算结果,其中,所述第一降低距离系数与所述第一元素对应。
9.根据权利要求8所述的政企客户聚类方法,其特征在于,在分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理之后,还包括:
从所述第一分词集合删除第一政企客户省份名称以及第一政企客户地市名称,其中,所述政企客户数据还包括:第一政企客户代号、所述第一政企客户省份名称以及所述第一政企客户地市名称。
10.一种政企客户聚类装置,其特征在于,包括:
获取模块,用于获取政企客户数据以及名单制客户数据,其中,所述政企客户数据至少包括第一政企客户名称,所述名单制客户数据至少包括第一名单制客户名称;
分词模块,用于分别对所述第一政企客户名称以及所述第一名单制客户名称进行分词处理,其中,所述第一政企客户名称和所述第一名单制客户名称分词处理后的分词结果分别为第一分词集合和第二分词集合;
计算模块,用于计算所述第一分词集合与所述第二分词集合的偏离度分值;
匹配模块,用于若所述偏离度分值小于预设的偏离度分值,则所述第一政企客户名称与所述第一名单制客户名称匹配成功。
CN201810716913.1A 2018-07-03 2018-07-03 政企客户聚类方法及装置 Pending CN108921431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810716913.1A CN108921431A (zh) 2018-07-03 2018-07-03 政企客户聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810716913.1A CN108921431A (zh) 2018-07-03 2018-07-03 政企客户聚类方法及装置

Publications (1)

Publication Number Publication Date
CN108921431A true CN108921431A (zh) 2018-11-30

Family

ID=64424629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810716913.1A Pending CN108921431A (zh) 2018-07-03 2018-07-03 政企客户聚类方法及装置

Country Status (1)

Country Link
CN (1) CN108921431A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902148A (zh) * 2019-02-21 2019-06-18 陈包容 一种通讯录联系人的企业名称自动补全的方法
CN111898378A (zh) * 2020-07-31 2020-11-06 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
US20170060985A1 (en) * 2015-08-28 2017-03-02 Magna Services, LLC System and method for matching resource capacity with resource needs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060985A1 (en) * 2015-08-28 2017-03-02 Magna Services, LLC System and method for matching resource capacity with resource needs
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902148A (zh) * 2019-02-21 2019-06-18 陈包容 一种通讯录联系人的企业名称自动补全的方法
CN109902148B (zh) * 2019-02-21 2023-05-26 陈包容 一种通讯录联系人的企业名称自动补全的方法
CN111898378A (zh) * 2020-07-31 2020-11-06 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质
CN111898378B (zh) * 2020-07-31 2023-09-19 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US8554618B1 (en) Automatic advertising campaign structure suggestion
US8190621B2 (en) Method, system, and computer readable recording medium for filtering obscene contents
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
WO2008106668A1 (en) User query mining for advertising matching
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN101692223A (zh) 响应于用户输入精炼搜索空间
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
US11263523B1 (en) System and method for organizational health analysis
KR101806452B1 (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
CN111444304A (zh) 搜索排序的方法和装置
CN104537341A (zh) 人脸图片信息获取方法和装置
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CA2956627A1 (en) System and engine for seeded clustering of news events
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
KR101784559B1 (ko) 사용자의 소비 패턴/관심사 분석 방법 및 장치
US20200183893A1 (en) Affinity Scoring
CN113239268A (zh) 一种商品推荐方法、装置及系统
CN108921431A (zh) 政企客户聚类方法及装置
CN115187066A (zh) 风险识别方法、装置、电子设备及存储介质
CN111512304B (zh) 在二维方面立方体上进行方面聚类的方法和系统
Kamruzzaman et al. Text categorization using association rule and naive Bayes classifier
CN107562761A (zh) 一种信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130