CN112818031B - 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 - Google Patents
基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112818031B CN112818031B CN202110101363.4A CN202110101363A CN112818031B CN 112818031 B CN112818031 B CN 112818031B CN 202110101363 A CN202110101363 A CN 202110101363A CN 112818031 B CN112818031 B CN 112818031B
- Authority
- CN
- China
- Prior art keywords
- customer
- data
- product
- industry
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 78
- 238000005065 mining Methods 0.000 title claims abstract description 36
- 238000005516 engineering process Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000013523 data management Methods 0.000 claims abstract description 17
- 238000007726 management method Methods 0.000 claims description 29
- 230000005611 electricity Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000013502 data validation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 17
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000003723 Smelting Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003490 calendering Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- CWYNVVGOOAEACU-UHFFFAOYSA-N Fe2+ Chemical compound [Fe+2] CWYNVVGOOAEACU-UHFFFAOYSA-N 0.000 description 1
- 239000013064 chemical raw material Substances 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉NLP中文分词计算技术,为基于NLP中文分词计算技术的潜在高耗能企业挖掘方法、系统及存储介质,可有效地挖掘出潜在的高耗能企业。其方法包括:根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;将搜集的内部数据和外部数据引入并融合到统一数据中心;围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;将数据治理的结果通过关系图谱的形势进行展示。
Description
技术领域
本发明涉及NLP自然语言处理技术,具体为基于NLP中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质。
背景技术
目前,对除高耗能行业用户外的一般工商业电力用户实行5%优惠电价政策;而高耗能行业企业不执行该电价政策。对高耗能用电户的认定,由供电公司依据国家发改委办公厅《关于明确阶段性降低用电成本政策落实相关事项的函》、国民经济行业分类及营业执照进行。而目前,电力营销系统中存在行业版本与国标行业版本不同、行业信息准确性不可控、企业信息维度不足等企业行业信息不准确的情况。因此,如何准确的认定企业行业的问题是挖掘潜在高耗能企业亟待解决的重要课题。
发明内容
为了解决现有技术所存在的问题,本发明提出基于NLP中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质,在NLP中文分词技术的基础之上,结合搜集的企业产品、经营信息、产品行业关联等信息,对企业行业与高耗能行业进行匹配,通过关系图谱展示高耗能企业标签及企业经营信息等客户关系信息,为业务人员核查高耗能客户提供信息参考与数据支撑。
根据本发明的基于NLP中文分词技术的潜在高耗能企业挖掘方法,包括以下步骤:
步骤一、根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;
步骤二、将搜集的内部数据和外部数据引入并融合到统一数据中心;
步骤三、围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;
步骤四、将数据治理的结果通过关系图谱的形势进行展示。
根据本发明的基于NLP中文分词技术的潜在高耗能企业挖掘系统,包括:
数据搜集模块,根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;
数据融合模块,将搜集的内部数据和外部数据引入并融合到统一数据中心;
数据治理模块,围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;
数据应用模块,将数据治理的结果通过关系图谱的形势进行展示。
本发明的存储介质,其上存储有计算机指令,计算机指令被处理器执行时,实现本发明潜在高耗能企业挖掘方法的步骤。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用自然语言处理技术对文本数据进行分词、去除停用词、同义词代换等预处理操作,最终将每个企业名称生成对应的词向量。在分词技术的基础之上,结合搜集的企业产品、经营信息、产品行业关联等信息,对企业行业与高耗能行业进行匹配,通过关系图谱展示高耗能企业标签及企业经营信息等客户关系信息,为业务人员核查高耗能客户提供信息参考与数据支撑。
2、NLP中文分词技术对企业名称和产品名称进行语义解析,通过建立专业词库的方式来对数据进行自动的结构化处理,有利于形成更加有效的解决方案。
附图说明
图1为本发明实施例中潜在高耗能企业挖掘方法的整体流程图;
图2为本发明实施例中潜在高耗能企业挖掘方法的数据治理环节图;
图3为本发明实施例中潜在高耗能企业挖掘方法的客户关系图谱示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步详细的说明,但本发明的实施方式不限于此。
参见图1,本实施例的潜在高耗能企业挖掘方法,包括如下步骤,其中步骤一到步骤四是整个潜在高耗能企业挖掘的大流程;S301-S311是步骤三数据治理的流程,即利用NLP中文分词技术的潜在高耗能企业挖掘流程:
步骤一、数据搜集
根据潜在高耗能企业挖掘需求,通过专项采购、公开渠道及人工采录等方式搜集基础信息,即内部数据和外部数据。
搜集的数据结果如表1、表2所示。所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据;内部数据包括营销客户。
表1数据搜集结果表
表2《国民经济和社会发展统计报告》六大高耗能行业
行业编码 | 行业名称 | 上级行业 |
25 | 石油、煤炭及其他燃料加工业 | 制造业 |
26 | 化学原料和化学制品制造业 | 制造业 |
30 | 非金属矿物制品业 | 制造业 |
31 | 黑色金属冶炼和压延加工业 | 制造业 |
32 | 有色金属冶炼和压延加工业 | 制造业 |
44 | 电力、热力生产和供应业 | 电力、热力、燃气及水生产和供应业 |
步骤二、数据融合
将搜集的内部数据和外部数据引入并融合到统一数据中心。对搜集的外部数据(多种文件存储形式,包括TXT、EXCEL等),通过ETL工具或Python脚本进行预处理、清洗转换,将非结构化数据转化成结构化数据,汇聚到统一数据中心;对搜集的内部数据,例如营销系统客户数据,通过ETL工具或oracle存储过程脚本进行预处理、清洗转换,将需要的字段汇聚到统一数据中心,从而在统一数据中心实现内外部数据的融合。上述数据融合的方式如表3所示。
表3数据融合与存储方式
步骤三、数据治理
数据治理环节围绕潜在高耗能客户挖掘的需求,对融合后的数据通过读取数据、构建词库,构建算法模型、数据验证、反向完善产品行业库、写入数据/应用等治理步骤,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;具体治理思路参见图2。
S301、读取客户经营信息表(为外部数据)与用电客户表,匹配两个表的客户统一信用标识和客户名称,提取客户统一信用标识完全相同的客户经营信息与客户名称完全相同的客户经营信息,并补充至客户经营信息表。
S302、对于客户经营信息表与用电客户表,客户名称不完全相同的部分,提取两个表的客户名称并进行分词,通过NLP技术中的TF-IDF模型提取出客户经营信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度。
TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常备搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级,TF-IDF加权计算公式如下:
其中ni,j是该词在文件中出现的次数,∑k nkj则是文件中所有词汇出现的次数总和;|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目(即ni,j≠0的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+|{j:ti∈dj}|。
余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且最小值是-1;从而根据两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果与向量的长度无关,仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为0到1之间。这上下界对任何维度的向量空间中都适用,而且余弦相似度最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。余弦相似度的计算公式如下:
余弦值的范围在[-1,1]之间,余弦值越趋近于1,代表两个向量的方向越接近;余弦值越趋近于-1,代表两个向量的方向越相反;余弦值接近于0,表示两个向量近乎于正交。
本实施例选取余弦相似度等于1的两个客户名称作为相似的企业名称。
S303、提取相似度等于1的客户经营信息,补充至客户经营信息表。
S304、读取客户产品信息表(为外部数据)与用电客户表,匹配两个表的客户统一信用标识与客户名称,对于客户统一信用标识完全相同或者客户名称完全相同的情形,再与客户产品行业关系表中的产品名称匹配;产品名称完全相同时,若其行业关系有缺失,则在中华行业数据库中获取相应的行业关系,对行业关系缺失的数据进行补充完善后,保存至客户产品行业关系表中;最后对所获取的客户基本信息、客户产品信息、产品与行业的关系数据进行融合,对融合的信息进行应用,以此来构建企业客户信息图谱。
在本步骤中,对产品名称进行匹配时,利用NLP中文分词技术对企业经营信息分词并匹配标准产品名称,保存至客户产品行业关系表中,构建企业客户信息图谱。
S305、对于客户产品信息表与用电客户表中客户名称不完全相同的部分,提取两个表的客户名称,利用NLP技术中的TF-IDF模型,在多个客户名称中找到与目标客户名称最相似的客户名称,并提取出客户产品信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度。
S306、选取余弦相似度大于0.8的两个客户名称作为相似的企业名称。再把客户的产品名称与客户产品行业关系表中的产品名称进行匹配,将产品名称完全相同的产品信息保存至客户产品行业关系表中;对于产品名称不相同的产品信息,利用NLP中文分词技术对客户的产品名称进行分词,并把客户产品信息表转换成长表。
S307、将分词后的客户产品信息表中的产品与客户产品行业关系表中的产品继续匹配,找出产品名称完全相同的产品信息,并保存至客户产品行业关系表中。
S308、读取客户产品产销量表,确定客户的主产品,再结合客户产品行业关系表,确定客户的主产品所属的行业,以此来确定客户的主行业。
客户的主行业确定方式为:读取客户产品产销量表,按照产品产销量排名确定客户的主产品,再根据客户产品行业关系表,把客户的主产品所属的行业作为客户的主行业。
S309、读取高耗能行业表,结合客户的主行业,查看客户主行业是否属于高耗能行业,为主行业是高耗能行业的客户设置高耗能标签。
S310、根据企业客户相关信息、标签等,通过知识图谱形式展示客户关系图谱。
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性,实体间通过关系相互联结,构成网状的知识结构。知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。本发明的客户关系图谱,如图3所示,主要展示了企业、企业产品、企业产品行业、企业关联信息等数据构建的知识网络。从图的角度来看,知识图谱在本质上是一种概念网络,本发明把客户产品、行业、客户经营信息等作为知识图谱的节点表示物理世界的实体,而实体间的各种关系(如客户与产品的关系、产品与行业的关系、客户与客户的关系)则构成网络中的边。
S311、根据高耗能产品表的产品数据构建高耗能产品词库,利用NLP中文分词技术对企业的经营范围分词,对分词后的产品与高耗能标准产品表中的产品匹配。若企业经营范围包含任意一个高耗能产品,则认定该企业为高耗能企业,并设置高耗能标签。
本实施例中,利用NLP自然语言技术处理的流程主要包括:
搜集数据,收齐企业的产品数据、产品所属行业数据、企业经营数据等;
清洗数据,主要包括特殊符号的处理、缺失值处理、文本格式处理;
文本处理,主要包括删除不相关的字符、对文本分词、去除停用词、合并同义词;本实施例通过构建词库对文本进行分析,而词库主要是根据已搜集的产品名称、基本的名词、动词等积累的;
模型分析,对分好的词,计算每个词的TF-IDF值然后按照降序排序,不仅可以用于提取文档的关键词,还可以在多个文本中找出与目标文本最相似的文本。通过将目标文本的分词结果作为搜索词,然后计算其余文本的搜索词的TF-IDF值并相加,得到所有文本的TF-IDF值,那么这个值最高的文本就是与目标文档最相似的。再利用余弦相似度计算两个文本的相似度。余弦相似度就是利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。
步骤四、数据应用
数据应用将数据治理的结果(潜在高耗能客户、企业客户相关信息),通过关系图谱的形势进行展示,为业务人员核查高耗能客户提供信息参考支撑。展现形式参见图3。
基于相同的发明构思,本实施例还提出基于NLP中文分词技术的潜在高耗能企业挖掘系统,包括:
数据搜集模块,用于执行步骤一,根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;
数据融合模块,用于执行步骤二,将搜集的内部数据和外部数据引入并融合到统一数据中心;
数据治理模块,用于执行步骤三,围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;
数据应用模块,用于执行步骤四,将数据治理的结果通过关系图谱的形势进行展示。
本实施例还提出存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现上述的潜在高耗能企业挖掘方法的步骤一到步骤四。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (8)
1.基于NLP中文分词技术的潜在高耗能企业挖掘方法,其特征在于,包括以下步骤:
步骤一、根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;
步骤二、将搜集的内部数据和外部数据引入并融合到统一数据中心;
步骤三、围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;
步骤四、将数据治理的结果通过关系图谱的形势进行展示;
步骤三包括:
S301、读取客户经营信息表与用电客户表,匹配两个表的客户统一信用标识和客户名称,提取客户统一信用标识完全相同的客户经营信息与客户名称完全相同的客户经营信息,并补充至客户经营信息表;
S302、对于客户经营信息表与用电客户表,客户名称不完全相同的部分,提取两个表的客户名称并进行分词,通过NLP技术中的TF-IDF模型提取出客户经营信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度;
S303、提取相似度等于1的客户经营信息,补充至客户经营信息表;
S304、读取客户产品信息表与用电客户表,匹配两个表的客户统一信用标识与客户名称,对于客户统一信用标识完全相同或者客户名称完全相同的情形,再与客户产品行业关系表中的产品名称匹配;产品名称完全相同时,若其行业关系有缺失,则在行业数据库中获取相应的行业关系,对行业关系缺失的数据进行补充完善后,保存至客户产品行业关系表中;最后对所获取的客户基本信息、客户产品信息、产品与行业的关系数据进行融合,对融合的信息进行应用,构建企业客户信息图谱;
S305、对于客户产品信息表与用电客户表中客户名称不完全相同的部分,提取两个表的客户名称,利用NLP技术中的TF-IDF模型,在多个客户名称中找到与目标客户名称最相似的客户名称,并提取出客户产品信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度;
S306、选取余弦相似度大于0.8的两个客户名称作为相似的企业名称,再把客户的产品名称与客户产品行业关系表中的产品名称进行匹配,将产品名称完全相同的产品信息保存至客户产品行业关系表中;对于产品名称不相同的产品信息,利用NLP中文分词技术对客户的产品名称进行分词,并把客户产品信息表转换成长表;
S307、将分词后的客户产品信息表中的产品与客户产品行业关系表中的产品继续匹配,找出产品名称完全相同的产品信息,并保存至客户产品行业关系表中;
S308、读取客户产品产销量表,确定客户的主产品,再结合客户产品行业关系表,确定客户的主产品所属的行业,以确定客户的主行业;
S309、读取高耗能行业表,结合客户的主行业,查看客户主行业是否属于高耗能行业,为主行业是高耗能行业的客户设置高耗能标签;
S310、根据企业客户相关信息、标签,通过知识图谱形式展示客户关系图谱;
S311、根据高耗能产品表的产品数据构建高耗能产品词库,利用NLP中文分词技术对企业的经营范围分词,对分词后的产品与高耗能标准产品表中的产品匹配;若企业经营范围包含任意一个高耗能产品,则认定该企业为高耗能企业,并设置高耗能标签。
2.根据权利要求1所述的潜在高耗能企业挖掘方法,其特征在于,步骤一所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据;内部数据包括营销客户。
3.根据权利要求1所述的潜在高耗能企业挖掘方法,其特征在于,步骤二进行数据融合时,对搜集的外部数据通过ETL工具或Python脚本进行预处理、清洗转换,将非结构化数据转化成结构化数据,汇聚到统一数据中心;对搜集的内部数据通过ETL工具或oracle存储过程脚本进行预处理、清洗转换,将需要的字段汇聚到统一数据中心。
4.根据权利要求1所述的潜在高耗能企业挖掘方法,其特征在于,步骤三的数据治理包括读取数据、构建词库,构建算法模型、数据验证及反向完善产品行业库。
5.基于NLP中文分词技术的潜在高耗能企业挖掘系统,其特征在于,包括:
数据搜集模块,根据潜在高耗能企业挖掘需求进行内部数据和外部数据的搜集,搜集方式包括专项采购、公开渠道及人工采录;
数据融合模块,将搜集的内部数据和外部数据引入并融合到统一数据中心;
数据治理模块,围绕潜在高耗能客户挖掘的需求,对融合后的数据进行数据治理,最终实现企业客户数据治理及高耗能企业标签的设置,得到潜在高耗能客户、企业客户相关信息;
数据应用模块,将数据治理的结果通过关系图谱的形势进行展示;
数据治理模块对外部数据和内部数据的治理过程包括:
S301、读取客户经营信息表与用电客户表,匹配两个表的客户统一信用标识和客户名称,提取客户统一信用标识完全相同的客户经营信息与客户名称完全相同的客户经营信息,并补充至客户经营信息表;
S302、对于客户经营信息表与用电客户表,客户名称不完全相同的部分,提取两个表的客户名称并进行分词,通过NLP技术中的TF-IDF模型提取出客户经营信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度;
S303、提取相似度等于1的客户经营信息,补充至客户经营信息表;
S304、读取客户产品信息表与用电客户表,匹配两个表的客户统一信用标识与客户名称,对于客户统一信用标识完全相同或者客户名称完全相同的情形,再与客户产品行业关系表中的产品名称匹配;产品名称完全相同时,若其行业关系有缺失,则在行业数据库中获取相应的行业关系,对行业关系缺失的数据进行补充完善后,保存至客户产品行业关系表中;最后对所获取的客户基本信息、客户产品信息、产品与行业的关系数据进行融合,对融合的信息进行应用,构建企业客户信息图谱;
S305、对于客户产品信息表与用电客户表中客户名称不完全相同的部分,提取两个表的客户名称,利用NLP技术中的TF-IDF模型,在多个客户名称中找到与目标客户名称最相似的客户名称,并提取出客户产品信息表中与用电客户表中客户名称最相似的客户名称,再通过余弦相似度计算最相似的客户名称之间的相似度;
S306、选取余弦相似度大于0.8的两个客户名称作为相似的企业名称,再把客户的产品名称与客户产品行业关系表中的产品名称进行匹配,将产品名称完全相同的产品信息保存至客户产品行业关系表中;对于产品名称不相同的产品信息,利用NLP中文分词技术对客户的产品名称进行分词,并把客户产品信息表转换成长表;
S307、将分词后的客户产品信息表中的产品与客户产品行业关系表中的产品继续匹配,找出产品名称完全相同的产品信息,并保存至客户产品行业关系表中;
S308、读取客户产品产销量表,确定客户的主产品,再结合客户产品行业关系表,确定客户的主产品所属的行业,以确定客户的主行业;
S309、读取高耗能行业表,结合客户的主行业,查看客户主行业是否属于高耗能行业,为主行业是高耗能行业的客户设置高耗能标签;
S310、根据企业客户相关信息、标签,通过知识图谱形式展示客户关系图谱;
S311、根据高耗能产品表的产品数据构建高耗能产品词库,利用NLP中文分词技术对企业的经营范围分词,对分词后的产品与高耗能标准产品表中的产品匹配;若企业经营范围包含任意一个高耗能产品,则认定该企业为高耗能企业,并设置高耗能标签。
6.根据权利要求5所述的潜在高耗能企业挖掘系统,其特征在于,数据搜集模块所搜集的外部数据包括产品数据、行业数据、高耗能行业数据、产品行业关联、企业产品数据、企业经营数据;内部数据包括营销客户。
7.根据权利要求5所述的潜在高耗能企业挖掘系统,其特征在于,数据融合模块进行数据融合时,对搜集的外部数据通过ETL工具或Python脚本进行预处理、清洗转换,将非结构化数据转化成结构化数据,汇聚到统一数据中心;对搜集的内部数据通过ETL工具或oracle存储过程脚本进行预处理、清洗转换,将需要的字段汇聚到统一数据中心。
8.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-4中任一项所述的潜在高耗能企业挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101363.4A CN112818031B (zh) | 2021-01-26 | 2021-01-26 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101363.4A CN112818031B (zh) | 2021-01-26 | 2021-01-26 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818031A CN112818031A (zh) | 2021-05-18 |
CN112818031B true CN112818031B (zh) | 2023-10-27 |
Family
ID=75859227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101363.4A Active CN112818031B (zh) | 2021-01-26 | 2021-01-26 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818031B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308572A (zh) * | 2018-08-29 | 2019-02-05 | 张连祥 | 基于政策目标导向的招商引资项目预期效益评估方法 |
CN112131275A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 全息城市大数据模型和知识图谱的企业画像构建方法 |
WO2021000676A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273356B (zh) * | 2017-06-14 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于人工智能的分词方法、装置、服务器和存储介质 |
-
2021
- 2021-01-26 CN CN202110101363.4A patent/CN112818031B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308572A (zh) * | 2018-08-29 | 2019-02-05 | 张连祥 | 基于政策目标导向的招商引资项目预期效益评估方法 |
WO2021000676A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN112131275A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 全息城市大数据模型和知识图谱的企业画像构建方法 |
Non-Patent Citations (1)
Title |
---|
基于深度神经网络的电力客户诉求预判;彭路;朱君;邹云峰;;计算机与现代化(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818031A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066599B (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Chung | BizPro: Extracting and categorizing business intelligence factors from textual news articles | |
Ur-Rahman et al. | Textual data mining for industrial knowledge management and text classification: A business oriented approach | |
CN110781246A (zh) | 一种企业关联关系构建方法及系统 | |
CN112256762B (zh) | 基于产业地图的企业画像方法、系统、设备及介质 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
Nagar et al. | Using text and data mining techniques to extract stock market sentiment from live news streams | |
Li et al. | Risk dependence between energy corporations: A text-based measurement approach | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
Kim et al. | Trend analysis by using text mining of journal articles regarding consumer policy | |
Smirnova et al. | A comprehensive analysis of acknowledgement texts in web of science: a case study on four scientific domains | |
Al-Hakim | Challenges of managing information quality in service organizations | |
Ward et al. | Empath: A framework for evaluating entity-level sentiment analysis | |
CN112818031B (zh) | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 | |
Ziv et al. | CompanyName2Vec: Company entity matching based on job ads | |
De La Hoz‐M et al. | Trends and topics in geographically weighted regression research from 1996 to 2019 | |
Das et al. | Opinion based on polarity and clustering for product feature extraction | |
Zhu | Financial data analysis application via multi-strategy text processing | |
CN114691835A (zh) | 基于文本挖掘的审计计划数据生成方法、装置和设备 | |
CN114706996A (zh) | 一种基于多元异构数据挖掘的供应链在线知识图谱构建方法 | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
Wang et al. | Text Analysis and Visualization Research on the Hetu Dangse During the Qing Dynasty of China | |
Ji et al. | Opinion mining of product reviews based on semantic role labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |