CN112818031B

CN112818031B - 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质

Info

Publication number: CN112818031B
Application number: CN202110101363.4A
Authority: CN
Inventors: 邓君华; 赵磊; 陈奕彤; 王贺; 罗恒
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2023-10-27
Anticipated expiration: 2041-01-26
Also published as: CN112818031A

Abstract

本发明涉NLP中文分词计算技术，为基于NLP中文分词计算技术的潜在高耗能企业挖掘方法、系统及存储介质，可有效地挖掘出潜在的高耗能企业。其方法包括：根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集，搜集方式包括专项采购、公开渠道及人工采录；将搜集的内部数据和外部数据引入并融合到统一数据中心；围绕潜在高耗能客户挖掘的需求，对融合后的数据进行数据治理，最终实现企业客户数据治理及高耗能企业标签的设置，得到潜在高耗能客户、企业客户相关信息；将数据治理的结果通过关系图谱的形势进行展示。

Description

基于NLP中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质

技术领域

本发明涉及NLP自然语言处理技术，具体为基于NLP中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质。

背景技术

目前，对除高耗能行业用户外的一般工商业电力用户实行5％优惠电价政策；而高耗能行业企业不执行该电价政策。对高耗能用电户的认定，由供电公司依据国家发改委办公厅《关于明确阶段性降低用电成本政策落实相关事项的函》、国民经济行业分类及营业执照进行。而目前，电力营销系统中存在行业版本与国标行业版本不同、行业信息准确性不可控、企业信息维度不足等企业行业信息不准确的情况。因此，如何准确的认定企业行业的问题是挖掘潜在高耗能企业亟待解决的重要课题。

发明内容

为了解决现有技术所存在的问题，本发明提出基于NLP中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质，在NLP中文分词技术的基础之上，结合搜集的企业产品、经营信息、产品行业关联等信息，对企业行业与高耗能行业进行匹配，通过关系图谱展示高耗能企业标签及企业经营信息等客户关系信息，为业务人员核查高耗能客户提供信息参考与数据支撑。

根据本发明的基于NLP中文分词技术的潜在高耗能企业挖掘方法，包括以下步骤：

步骤一、根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集，搜集方式包括专项采购、公开渠道及人工采录；

步骤二、将搜集的内部数据和外部数据引入并融合到统一数据中心；

步骤三、围绕潜在高耗能客户挖掘的需求，对融合后的数据进行数据治理，最终实现企业客户数据治理及高耗能企业标签的设置，得到潜在高耗能客户、企业客户相关信息；

步骤四、将数据治理的结果通过关系图谱的形势进行展示。

根据本发明的基于NLP中文分词技术的潜在高耗能企业挖掘系统，包括：

数据搜集模块，根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集，搜集方式包括专项采购、公开渠道及人工采录；

数据融合模块，将搜集的内部数据和外部数据引入并融合到统一数据中心；

数据治理模块，围绕潜在高耗能客户挖掘的需求，对融合后的数据进行数据治理，最终实现企业客户数据治理及高耗能企业标签的设置，得到潜在高耗能客户、企业客户相关信息；

数据应用模块，将数据治理的结果通过关系图谱的形势进行展示。

本发明的存储介质，其上存储有计算机指令，计算机指令被处理器执行时，实现本发明潜在高耗能企业挖掘方法的步骤。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用自然语言处理技术对文本数据进行分词、去除停用词、同义词代换等预处理操作，最终将每个企业名称生成对应的词向量。在分词技术的基础之上，结合搜集的企业产品、经营信息、产品行业关联等信息，对企业行业与高耗能行业进行匹配，通过关系图谱展示高耗能企业标签及企业经营信息等客户关系信息，为业务人员核查高耗能客户提供信息参考与数据支撑。

2、NLP中文分词技术对企业名称和产品名称进行语义解析，通过建立专业词库的方式来对数据进行自动的结构化处理，有利于形成更加有效的解决方案。

附图说明

图1为本发明实施例中潜在高耗能企业挖掘方法的整体流程图；

图2为本发明实施例中潜在高耗能企业挖掘方法的数据治理环节图；

图3为本发明实施例中潜在高耗能企业挖掘方法的客户关系图谱示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步详细的说明，但本发明的实施方式不限于此。

参见图1，本实施例的潜在高耗能企业挖掘方法，包括如下步骤，其中步骤一到步骤四是整个潜在高耗能企业挖掘的大流程；S301-S311是步骤三数据治理的流程，即利用NLP中文分词技术的潜在高耗能企业挖掘流程：

步骤一、数据搜集

根据潜在高耗能企业挖掘需求，通过专项采购、公开渠道及人工采录等方式搜集基础信息，即内部数据和外部数据。

搜集的数据结果如表1、表2所示。所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据；内部数据包括营销客户。

表1数据搜集结果表

表2《国民经济和社会发展统计报告》六大高耗能行业

行业编码	行业名称	上级行业
			25	石油、煤炭及其他燃料加工业	制造业
26	化学原料和化学制品制造业	制造业
			30	非金属矿物制品业	制造业
31	黑色金属冶炼和压延加工业	制造业
			32	有色金属冶炼和压延加工业	制造业
44	电力、热力生产和供应业	电力、热力、燃气及水生产和供应业

步骤二、数据融合

将搜集的内部数据和外部数据引入并融合到统一数据中心。对搜集的外部数据(多种文件存储形式，包括TXT、EXCEL等)，通过ETL工具或Python脚本进行预处理、清洗转换，将非结构化数据转化成结构化数据，汇聚到统一数据中心；对搜集的内部数据，例如营销系统客户数据，通过ETL工具或oracle存储过程脚本进行预处理、清洗转换，将需要的字段汇聚到统一数据中心，从而在统一数据中心实现内外部数据的融合。上述数据融合的方式如表3所示。

表3数据融合与存储方式

步骤三、数据治理

数据治理环节围绕潜在高耗能客户挖掘的需求，对融合后的数据通过读取数据、构建词库，构建算法模型、数据验证、反向完善产品行业库、写入数据/应用等治理步骤，最终实现企业客户数据治理及高耗能企业标签的设置，得到潜在高耗能客户、企业客户相关信息；具体治理思路参见图2。

S301、读取客户经营信息表(为外部数据)与用电客户表，匹配两个表的客户统一信用标识和客户名称，提取客户统一信用标识完全相同的客户经营信息与客户名称完全相同的客户经营信息，并补充至客户经营信息表。

S302、对于客户经营信息表与用电客户表，客户名称不完全相同的部分，提取两个表的客户名称并进行分词，通过NLP技术中的TF-IDF模型提取出客户经营信息表中与用电客户表中客户名称最相似的客户名称，再通过余弦相似度计算最相似的客户名称之间的相似度。

TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常备搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级，TF-IDF加权计算公式如下：

其中n_i，j是该词在文件中出现的次数，∑_k n_kj则是文件中所有词汇出现的次数总和；|D|是语料库中的文件总数，|{j：t_i∈d_j}|表示包含词语t_i的文件数目(即n_i，j≠0的文件数目)。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j：t_i∈d_j}|。

余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1，并且最小值是-1；从而根据两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果与向量的长度无关，仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。这上下界对任何维度的向量空间中都适用，而且余弦相似度最常用于高维正空间。例如在信息检索中，每个词项被赋予不同的维度，而一个文档由一个向量表示，其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。余弦相似度的计算公式如下：

余弦值的范围在[-1，1]之间，余弦值越趋近于1，代表两个向量的方向越接近；余弦值越趋近于-1，代表两个向量的方向越相反；余弦值接近于0，表示两个向量近乎于正交。

本实施例选取余弦相似度等于1的两个客户名称作为相似的企业名称。

S303、提取相似度等于1的客户经营信息，补充至客户经营信息表。

S304、读取客户产品信息表(为外部数据)与用电客户表，匹配两个表的客户统一信用标识与客户名称，对于客户统一信用标识完全相同或者客户名称完全相同的情形，再与客户产品行业关系表中的产品名称匹配；产品名称完全相同时，若其行业关系有缺失，则在中华行业数据库中获取相应的行业关系，对行业关系缺失的数据进行补充完善后，保存至客户产品行业关系表中；最后对所获取的客户基本信息、客户产品信息、产品与行业的关系数据进行融合，对融合的信息进行应用，以此来构建企业客户信息图谱。

在本步骤中，对产品名称进行匹配时，利用NLP中文分词技术对企业经营信息分词并匹配标准产品名称，保存至客户产品行业关系表中，构建企业客户信息图谱。

S305、对于客户产品信息表与用电客户表中客户名称不完全相同的部分，提取两个表的客户名称，利用NLP技术中的TF-IDF模型，在多个客户名称中找到与目标客户名称最相似的客户名称，并提取出客户产品信息表中与用电客户表中客户名称最相似的客户名称，再通过余弦相似度计算最相似的客户名称之间的相似度。

S306、选取余弦相似度大于0.8的两个客户名称作为相似的企业名称。再把客户的产品名称与客户产品行业关系表中的产品名称进行匹配，将产品名称完全相同的产品信息保存至客户产品行业关系表中；对于产品名称不相同的产品信息，利用NLP中文分词技术对客户的产品名称进行分词，并把客户产品信息表转换成长表。

S307、将分词后的客户产品信息表中的产品与客户产品行业关系表中的产品继续匹配，找出产品名称完全相同的产品信息，并保存至客户产品行业关系表中。

S308、读取客户产品产销量表，确定客户的主产品，再结合客户产品行业关系表，确定客户的主产品所属的行业，以此来确定客户的主行业。

客户的主行业确定方式为：读取客户产品产销量表，按照产品产销量排名确定客户的主产品，再根据客户产品行业关系表，把客户的主产品所属的行业作为客户的主行业。

S309、读取高耗能行业表，结合客户的主行业，查看客户主行业是否属于高耗能行业，为主行业是高耗能行业的客户设置高耗能标签。

S310、根据企业客户相关信息、标签等，通过知识图谱形式展示客户关系图谱。

知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性，实体间通过关系相互联结，构成网状的知识结构。知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。本发明的客户关系图谱，如图3所示，主要展示了企业、企业产品、企业产品行业、企业关联信息等数据构建的知识网络。从图的角度来看，知识图谱在本质上是一种概念网络，本发明把客户产品、行业、客户经营信息等作为知识图谱的节点表示物理世界的实体，而实体间的各种关系(如客户与产品的关系、产品与行业的关系、客户与客户的关系)则构成网络中的边。

S311、根据高耗能产品表的产品数据构建高耗能产品词库，利用NLP中文分词技术对企业的经营范围分词，对分词后的产品与高耗能标准产品表中的产品匹配。若企业经营范围包含任意一个高耗能产品，则认定该企业为高耗能企业，并设置高耗能标签。

本实施例中，利用NLP自然语言技术处理的流程主要包括：

搜集数据，收齐企业的产品数据、产品所属行业数据、企业经营数据等；

清洗数据，主要包括特殊符号的处理、缺失值处理、文本格式处理；

文本处理，主要包括删除不相关的字符、对文本分词、去除停用词、合并同义词；本实施例通过构建词库对文本进行分析，而词库主要是根据已搜集的产品名称、基本的名词、动词等积累的；

模型分析，对分好的词，计算每个词的TF-IDF值然后按照降序排序，不仅可以用于提取文档的关键词，还可以在多个文本中找出与目标文本最相似的文本。通过将目标文本的分词结果作为搜索词，然后计算其余文本的搜索词的TF-IDF值并相加，得到所有文本的TF-IDF值，那么这个值最高的文本就是与目标文档最相似的。再利用余弦相似度计算两个文本的相似度。余弦相似度就是利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。

步骤四、数据应用

数据应用将数据治理的结果(潜在高耗能客户、企业客户相关信息)，通过关系图谱的形势进行展示，为业务人员核查高耗能客户提供信息参考支撑。展现形式参见图3。

基于相同的发明构思，本实施例还提出基于NLP中文分词技术的潜在高耗能企业挖掘系统，包括：

数据搜集模块，用于执行步骤一，根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集，搜集方式包括专项采购、公开渠道及人工采录；

数据融合模块，用于执行步骤二，将搜集的内部数据和外部数据引入并融合到统一数据中心；

数据治理模块，用于执行步骤三，围绕潜在高耗能客户挖掘的需求，对融合后的数据进行数据治理，最终实现企业客户数据治理及高耗能企业标签的设置，得到潜在高耗能客户、企业客户相关信息；

数据应用模块，用于执行步骤四，将数据治理的结果通过关系图谱的形势进行展示。

本实施例还提出存储介质，其上存储有计算机指令，当计算机指令被处理器执行时，实现上述的潜在高耗能企业挖掘方法的步骤一到步骤四。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于NLP中文分词技术的潜在高耗能企业挖掘方法，其特征在于，包括以下步骤：

步骤四、将数据治理的结果通过关系图谱的形势进行展示；

步骤三包括：

S301、读取客户经营信息表与用电客户表，匹配两个表的客户统一信用标识和客户名称，提取客户统一信用标识完全相同的客户经营信息与客户名称完全相同的客户经营信息，并补充至客户经营信息表；

S302、对于客户经营信息表与用电客户表，客户名称不完全相同的部分，提取两个表的客户名称并进行分词，通过NLP技术中的TF-IDF模型提取出客户经营信息表中与用电客户表中客户名称最相似的客户名称，再通过余弦相似度计算最相似的客户名称之间的相似度；

S303、提取相似度等于1的客户经营信息，补充至客户经营信息表；

S304、读取客户产品信息表与用电客户表，匹配两个表的客户统一信用标识与客户名称，对于客户统一信用标识完全相同或者客户名称完全相同的情形，再与客户产品行业关系表中的产品名称匹配；产品名称完全相同时，若其行业关系有缺失，则在行业数据库中获取相应的行业关系，对行业关系缺失的数据进行补充完善后，保存至客户产品行业关系表中；最后对所获取的客户基本信息、客户产品信息、产品与行业的关系数据进行融合，对融合的信息进行应用，构建企业客户信息图谱；

S305、对于客户产品信息表与用电客户表中客户名称不完全相同的部分，提取两个表的客户名称，利用NLP技术中的TF-IDF模型，在多个客户名称中找到与目标客户名称最相似的客户名称，并提取出客户产品信息表中与用电客户表中客户名称最相似的客户名称，再通过余弦相似度计算最相似的客户名称之间的相似度；

S306、选取余弦相似度大于0.8的两个客户名称作为相似的企业名称，再把客户的产品名称与客户产品行业关系表中的产品名称进行匹配，将产品名称完全相同的产品信息保存至客户产品行业关系表中；对于产品名称不相同的产品信息，利用NLP中文分词技术对客户的产品名称进行分词，并把客户产品信息表转换成长表；

S307、将分词后的客户产品信息表中的产品与客户产品行业关系表中的产品继续匹配，找出产品名称完全相同的产品信息，并保存至客户产品行业关系表中；

S308、读取客户产品产销量表，确定客户的主产品，再结合客户产品行业关系表，确定客户的主产品所属的行业，以确定客户的主行业；

S309、读取高耗能行业表，结合客户的主行业，查看客户主行业是否属于高耗能行业，为主行业是高耗能行业的客户设置高耗能标签；

S310、根据企业客户相关信息、标签，通过知识图谱形式展示客户关系图谱；

S311、根据高耗能产品表的产品数据构建高耗能产品词库，利用NLP中文分词技术对企业的经营范围分词，对分词后的产品与高耗能标准产品表中的产品匹配；若企业经营范围包含任意一个高耗能产品，则认定该企业为高耗能企业，并设置高耗能标签。

2.根据权利要求1所述的潜在高耗能企业挖掘方法，其特征在于，步骤一所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据；内部数据包括营销客户。

3.根据权利要求1所述的潜在高耗能企业挖掘方法，其特征在于，步骤二进行数据融合时，对搜集的外部数据通过ETL工具或Python脚本进行预处理、清洗转换，将非结构化数据转化成结构化数据，汇聚到统一数据中心；对搜集的内部数据通过ETL工具或oracle存储过程脚本进行预处理、清洗转换，将需要的字段汇聚到统一数据中心。

4.根据权利要求1所述的潜在高耗能企业挖掘方法，其特征在于，步骤三的数据治理包括读取数据、构建词库，构建算法模型、数据验证及反向完善产品行业库。

5.基于NLP中文分词技术的潜在高耗能企业挖掘系统，其特征在于，包括：

数据应用模块，将数据治理的结果通过关系图谱的形势进行展示；

数据治理模块对外部数据和内部数据的治理过程包括：

6.根据权利要求5所述的潜在高耗能企业挖掘系统，其特征在于，数据搜集模块所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据；内部数据包括营销客户。

7.根据权利要求5所述的潜在高耗能企业挖掘系统，其特征在于，数据融合模块进行数据融合时，对搜集的外部数据通过ETL工具或Python脚本进行预处理、清洗转换，将非结构化数据转化成结构化数据，汇聚到统一数据中心；对搜集的内部数据通过ETL工具或oracle存储过程脚本进行预处理、清洗转换，将需要的字段汇聚到统一数据中心。

8.存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现权利要求1-4中任一项所述的潜在高耗能企业挖掘方法的步骤。