CN113946686A - 电力营销知识图谱构建方法及系统 - Google Patents
电力营销知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN113946686A CN113946686A CN202111198996.8A CN202111198996A CN113946686A CN 113946686 A CN113946686 A CN 113946686A CN 202111198996 A CN202111198996 A CN 202111198996A CN 113946686 A CN113946686 A CN 113946686A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- power marketing
- data
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 23
- 238000003860 storage Methods 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 14
- 230000005611 electricity Effects 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种电力营销知识图谱构建方法及系统,属于电力营销系统技术领域,电力营销知识源数据预处理;对预处理后的源数据进行电力营销知识抽取;将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。本发明优化了电力营销知识抽取方法与流程,针对电力营销领域内零散的知识点,实现了知识自动批量抽取,实现了电力营销知识可视化展示;提升了基于知识图谱技术的电力营销领域知识抽取的效率,提高了知识抽取准确率,为实现智能搜索、智能问答、知识推荐等场景应用打好技术基础。
Description
技术领域
本发明涉及电力营销系统技术领域,具体涉及一种电力营销知识图谱构建方法及系统。
背景技术
知识图谱(Knowledge Graph)是对客观现实世界的概念、实体、事件及其间关系进行形式化描述的一种语义网络。目前,知识图谱技术已在通用领域以及金融、能源、医疗、教育、农业等特定领域广泛应用,主要聚焦于智能语义搜索、智能深度问答、移动个人助理、个性化推荐等场景。
电力营销知识图谱具有特定行业和不同业务场景(营业、市场、客服、计量、智能用电等)的属性,其涉及电力营销服务领域知识数据模式比较丰富(包括结构化、半结构化、非结构化等),知识的实体、关系、属性、本体比较多样化,电力营销业务范畴的专业语言与用户的日常语言也存在差异,需要考虑特定行业背景下的不同业务场景来进行平台的构建。电力营销知识根据数据的业务类别,可以分为“分类知识”、“差异化信息”、“附件”三种,其中分类知识较为规范,是知识表达的核心构成,差异化信息和附件规范性较差,属于附属数据。
现有有关知识图谱的应用,如:基于知识图谱的农业问答系统,该问答系统主要解决了农业领域命名实体识别和属性链接两个子任务,其中,对命名实体识别这一任务,使用多特征的CRF农业领域命名实体识别算法来获取问句实体,应用双向的LSTM模型实现属性链接,达到很好的效果。基于CRF的实体识别算法及融入语义特征的CRF同义词抽取算法,解决了在问句理解和知识库构建时存在的别名、缩写尤其是中英文混杂的商品领域名词的问题;应用中文问句模板自动生成的语义解析方法,解决了不能处理同一语义不同表达的问句语义理解问题;提出CyberSchema核心本体知识表示模型,解决了知识表示模式复杂、语义模糊、难以扩展等问题。
上述知识图谱技术应用于电力营销系统等特定领域存在如下问题:一是电力营销领域业务知识和专业术语庞杂,需要依靠专业的实践经验和总结,定义本领域内的各种描述精准、满足数据挖掘需求的实体类型,为后续实体抽取、实体间关系抽取和实体链接做准备。而知识抽取的质量(准确率和召回率等)对后续知识获取效率和质量影响极大,是知识图谱构建过程中最基础、最关键的部分。鉴于电力营销领域相关业务规则标准化程度高、规则覆盖面广、业务知识和专业术语庞杂,知识抽取的质量仍有待提升。二是电力营销领域知识体系是动态开放、不断更新的,但目前,在新增问题收集、新增知识采编、知识反馈修订、知识审核、知识图谱更新实施等方面还存在时效性偏低、智能化水平不高等问题,基于知识图谱技术的电力营销领域知识抽取效率有待提升。
发明内容
本发明的目的在于提供一种电力营销知识图谱构建方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种电力营销知识图谱构建方法,包括:
电力营销知识源数据预处理;
对预处理后的源数据进行电力营销知识抽取;
将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
优选的,电力营销知识数据预处理包括:数据源选择,数据单元选择,明确待抽取数据字段,选择数据记录范围,明确待抽取的数据的起始和结束位置,确定待抽取知识类型,选择抽取参数。
优选的,对预处理后的源数据进行电力营销知识抽取,包括:任务定义、知识类型表示、抽取模型、抽取方式和词典入库。
优选的,将抽取到的电力营销知识同步存储到图谱库包括:按照原始信息保存、知识实例存储、实体存储、增量状态保存、同步图谱库的步骤进行。
优选的,将原始信息保存到“原始文本数据信息”表中,原始信息包括:唯一定位数据来源、在数据来源里唯一确定一个数据单元、在数据单元里唯一确定一个字段的名字、在数据单元里的唯一记录的id。
优选的,形成图关系,得到电力营销知识图谱,包括:按照明确查询元素、图计算、图关系展示的步骤,实现用户自定义组合查询条件来生成复杂的查询语义,同时提供图关系可视化展示。
优选的,图查询中查询元素包括实体、关系和标签,图计算包括路径搜索、统计分析、关系分析、中心度分析、群体分析。
第二方面,本发明提供一种电力营销知识图谱构建系统,包括:
预处理模块,用于对电力营销知识源数据预处理;
抽取模块,用于对预处理后的源数据进行电力营销知识抽取;
存储模块,用于将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
可视化展示模块,用于根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的电力营销知识图谱构建方法。
第四方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的电力营销知识图谱构建方法的指令。
本发明有益效果:优化了电力营销知识抽取方法与流程,针对电力营销领域内零散的知识点,实现了知识自动批量抽取,实现了电力营销知识可视化展示;提升了基于知识图谱技术的电力营销领域知识抽取的效率,提高了知识抽取准确率,为实现智能搜索、智能问答、知识推荐等场景应用打好技术基础。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的电力营销知识图谱构建方法流程示意图。
图2为本发明实施例所述的电力营销知识抽取流程架构示意图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1提供一种电力营销知识图谱构建系统,包括:
预处理模块,用于对电力营销知识源数据预处理;
抽取模块,用于对预处理后的源数据进行电力营销知识抽取;
存储模块,用于将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
可视化展示模块,用于根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
本实施例1中,利用上述的电力营销知识图谱构建系统,可实现一种电力营销知识图谱构建方法,该方法包括:
利用预处理模块对电力营销知识源数据预处理;然后利用抽取模块对预处理后的源数据进行电力营销知识抽取;利用存储模块将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;最后使用可视化展示模块根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
本实施例1中,电力营销知识数据预处理包括:数据源选择,数据单元选择,明确待抽取数据字段,选择数据记录范围,明确待抽取的数据的起始和结束位置,确定待抽取知识类型,选择抽取参数。
具体的,数据源选择,包括电力营销业务的各类基础数据以构建业务数据源,包括业扩、电费、账务、市场、客服、计量、智能用电等结构化、半结构化和非结构化营销知识源数据。其中,业扩数据包括客户、工单、工程、合同、档案、增值服务、综合管理等数据;电费数据包括电价计费、抄表统计、流程管理等数据;账务数据包括费控、银行交易、用户信息、缴费充值等数据;市场数据包括市场拓展、市场指标、市场信息、有序用电、能效管理等数据;客服数据包括95598工单、客户关系(客户群评估信息、客户群服务信息、满意度评价信息、客户联络信息)等数据;计量数据包括资产管理、用电信息采集、供应商管理、考核评价等数据;智能用电数据包括电动汽车用户档案、电动汽车清分结算等数据。二是选择数据单元,包括数据表、网页、文件等,可通过知识下拉框多选、多个数据单元串行或数据单元名的正则表达式匹配,实现数据单元多选。三是从数据源中,选取待抽取数据字段(可多选),如csv或者表的字段等,多个字段可被分别处理。四是选择数据记录范围,明确待抽取的数据的起始和结束位置。五是待抽取知识类型,包括事件三元组、关键词、新词(通过调用新词抽取模型,结合人工审核的方法实现新词抽取)、短语、复合实体关系等知识类型。六是选择抽取参数,包括每批次记录数、每批次文件数等。
本实施例1中,对预处理后的源数据进行电力营销知识抽取,包括:任务定义、知识类型表示、抽取模型、抽取方式和词典入库。
具体的,任务定义,需明确:1)任务名称;2)任务描述3)待抽取的知识类型列表,如知识事务、事件、关键词等;4)并行任务数;5)是否采用模糊匹配;6)多数据单元选择,包括模糊匹配(数据单元id、表名匹配的正则模板)、数据单元名多选(单元名列表);7)数据单元里待抽取的字段名(多选)。
知识表示类型,基于知识的构成和关系的不同,系统设计了三个知识表示模型:知识事物三元组、事件三元组、关键词。知识事物三元组的元组数据包含了完整的原始信息,采用两层或三层知识组织结构:(实体-属性)或(实体-事务-属性);事件三元组通过分析句法结构,从标准问题里抽取以谓词为中心的事实三元组,每个三元组表达了原始信息里的关键实体及实体之间存在的关系(主语-谓词-宾语);对于其它模式都无法识别的问题,通过提取标准问题中关键词,实现辅助的知识表示模型,对知识表达全覆盖。
知识抽取模型,该知识抽取模型包括了基于规则、自然语言处理、概率统计和机器学习等模型集合,其中:1)启发式规则,结合知识分类体系,从知识库知识标题中抽取知识主体;2)句法分析,采用基于句法分析和规则的方式从文本里抽取知识事务属性,抽取出来的属性可能存在错误,需要进行人工审核修正,修正后作为正式属性;3)概率统计模型,包括TF/IDF、TextRank、LDA等,通过概率统计模型实现利用数据学习模型、利用模型推断数据;4)机器学习模型,包括文本卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi-LSTM)等,通过收集数据、清洗数据、训练模型、基于验证或测试错误或其他评价指标选择相应机器学习模型,最终输出决策判断。
知识抽取方式,包括:1)一个任务进行多数据单元抽取,数据单元的多选包括多表选择和基于正则的表名模糊查询;2)基于datax并发执行多个抽取任务;3)异步执行多个不同抽取任务;4)基于增量变量的方式(包括时间戳、增量序列两种方式)抽取任务。
词典入库,包括:1)词典辅助生成,分别包括新词短语发现、词性标注和分词等,其中,新词短语发现针对随时代发展而新出现或旧词新用的词语,通过对已有语料进行挖掘,包括但不限于基于规则的方法、有监督或无监督的统计的方法,从中识别出新词;分词主要通过基于词典的分词算法、基于统计的分词算法和基于规则的分词算法,实现分词;2)词典入库,包括分词词典、IDF词典、同义词典等。
本实施例1中,将抽取到的电力营销知识同步存储到图谱库包括:按照原始信息保存、知识实例存储、实体存储、增量状态保存、同步图谱库的步骤进行。一是将原始信息保存到“原始文本数据信息”表中,原始信息包括:唯一定位数据来源、在数据来源里唯一确定一个数据单元、在数据单元里唯一确定一个字段的名字、在数据单元里的唯一记录的id。二是将知识抽取子系统返回的知识实例,存储到关系型数据库中。三是对于知识事物三元组,还需要将对应的实体、事件元素保存到对应的词典表。四是保存成功后更新增量状态。五是将知识按结构关系同步存储到图谱库中。
本实施例1中,形成图关系,得到电力营销知识图谱,包括:按照明确查询元素、图计算、图关系展示的步骤,实现用户自定义组合查询条件来生成复杂的查询语义,同时提供图关系可视化展示。
具体的,一是图查询,查询元素包括实体、关系和标签等。实体包括实体Label文本匹配,属性值匹配(文本匹配、数值大小比较等);关系包括关系Label文本匹配、属性值匹配(文本匹配、数值值大小比较等);标签包括实体Label文本匹配、标签值匹配。二是图计算,包括路径搜索、统计分析、关系分析、中心度分析、群体分析等。路径搜索,主要基于节点间路径搜索,根据呼入电话与户号的联系,查找两个指定电话之间的最直接联系,包括最短路径和路径搜索器。统计分析,根据呼入电话与户号的联系,从标签、关系、属性、中心度、交集、三角形计数等不同维度进行户号与其对应呼入电话的统计,包括标签统计、关系统计、属性统计、中心度统计、交集统计、三角形计数统计、标签云、关键词云等。关系分析,根据呼入电话与户号的联系,从不同维度进行关系分析,包括关系挖掘、关系交集分析、属性交集分析、关键节点分析、属性相似度分析、紧密度分析、三角形计数等。中心度分析,根据呼入电话与户号的联系,查找所有存在的关系中的中心节点,包括中心度分析、加权中心度分析、紧密中心度分析、特征向量中心度分析、PageRank等。群体分析,根据呼入电话与户号的联系,查找所有存在的紧密关系的群体,包括全图分析(紧密度、隶属网络分析等)、社区发现(标签传播、随机游走等)、凝聚子群、子图分析(连通分量、三角形网络、层次聚类等)等。三是图关系展示,主要以网络方式展示关系,包括选择指定节点、关系,显示对应的属性值;点击节点,展示与该节点关联的关系和关联节点。
实施例2
本实施例2中,提供了一种实现电力营销自动批量知识抽取与可视化展示的知识图谱构建方法,其按照源数据准备、知识抽取、知识存储和知识图查询的步骤进行,总体方法流程如附图1所示。
首先,进行电力营销知识源数据准备,包括:
电力营销知识源数据准备包括数据源选择、数据单元选择、数据字段选择、数据记录范围选择、抽取知识类型选择和抽取参数选择六个步骤,以实现源数据配置与选择。
汇总选择数据源,包括电力营销业务的各类基础数据以构建业务数据源,包括营业、市场、客服、计量、智能用电等结构化、半结构化和非结构化营销知识源数据。
选择数据单元,包括数据表、网页、文件等,可通过知识下拉框多选、多个数据单元串行或数据单元名的正则表达式匹配,实现数据单元多选。
明确待抽取数据字段,如csv或者表的字段等,多个字段可被分别处理。四是选择数据记录范围,明确待抽取的数据的起始和结束位置。
待抽取知识类型,包括事件三元组、关键词、新词、短语、复合实体关系等知识类型。
选择抽取参数,包括每批次记录数、每批次文件数等。
其次,进行电力营销知识抽取,包括:
如图2所示,知识抽取包括任务定义、知识类型表示、抽取模型、抽取方式和词典入库五个步骤。
任务定义,需明确:1)任务名称;2)任务描述3)待抽取的知识类型列表,如知识事务、事件、关键词等;4)并行任务数;5)是否采用模糊匹配;6)多数据单元选择,包括模糊匹配(数据单元id、表名匹配的正则模板)、数据单元名多选(单元名列表);7)数据单元里待抽取的字段名(多选)。
知识表示类型,基于知识的构成和关系的不同,系统设计了三个知识表示模型:知识事物三元组、事件三元组、关键词。知识事物三元组的元组数据包含了完整的原始信息,采用两层或三层知识组织结构:(实体-属性)或(实体-事务-属性);事件三元组通过分析句法结构,从标准问题里抽取以谓词为中心的事实三元组,每个三元组表达了原始信息里的关键实体及实体之间存在的关系(主语-谓词-宾语);对于其它模式都无法识别的问题,通过提取标准问题中关键词,实现辅助的知识表示模型,对知识表达全覆盖。
知识抽取模型,包括:1)启发式规则,结合知识分类体系,从知识库知识标题中抽取知识主体;2)句法分析,采用基于句法分析和规则的方式从文本里抽取知识事务属性,抽取出来的属性可能存在错误,需要进行人工审核修正,修正后作为正式属性;3)概率统计模型,包括TF/IDF、TextRank、LDA等;4)机器学习模型,包括文本卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi-LSTM)等。
知识抽取方式,包括:1)一个任务进行多数据单元抽取,数据单元的多选包括多表选择和基于正则的表名模糊查询;2)基于datax并发执行多个抽取任务;3)异步执行多个不同抽取任务;4)基于增量变量的方式(包括时间戳、增量序列两种方式)抽取任务。
词典入库,包括:1)词典辅助生成,分别包括新词短语发现、词性标注和分词等;2)词典入库,包括分词词典、IDF词典、同义词典等。
再次,进行电力营销知识存储,包括:
知识存储按照原始信息保存、知识实例存储、实体存储、增量状态保存、同步图谱库的步骤进行。
将原始信息保存到“原始文本数据信息”表中,原始信息包括:唯一定位数据来源、在数据来源里唯一确定一个数据单元、在数据单元里唯一确定一个字段的名字、在数据单元里的唯一记录的id。
将知识抽取子系统返回的知识实例,存储到关系型数据库中。
对于知识事物三元组,还需要将对应的实体、事件元素保存到对应的词典表。
保存成功后更新增量状态。
将知识按结构关系同步存储到图谱库中。
最后,可进行电力营销知识图查询,包括:
可视化展示按照明确查询元素、图计算、图关系展示的步骤,实现用户自定义组合查询条件来生成复杂的查询语义,同时提供图关系可视化展示。
图查询,查询元素包括实体、关系和标签等。实体包括实体Label文本匹配,属性值匹配(文本匹配、数值大小比较等);关系包括关系Label文本匹配、属性值匹配(文本匹配、数值值大小比较等);标签包括实体Label文本匹配、标签值匹配。
图计算,包括路径搜索、统计分析、关系分析、中心度分析、群体分析等。路径搜索,主要基于节点间路径搜索,包括最短路径和路径搜索器。统计分析,包括标签统计、关系统计、属性统计、中心度统计、交集统计、三角形计数统计、标签云、关键词云等。关系分析,包括关系挖掘、关系交集分析、属性交集分析、关键节点分析、属性相似度分析、紧密度分析、三角形计数等。中心度分析,包括中心度分析、加权中心度分析、紧密中心度分析、特征向量中心度分析、PageRank等。群体分析,包括全图分析(紧密度、隶属网络分析等)、社区发现(标签传播、随机游走等)、凝聚子群、子图分析(连通分量、三角形网络、层次聚类等)等。
图关系展示,主要以网络方式展示关系,包括选择指定节点、关系,显示对应的属性值;点击节点,展示与该节点关联的关系和关联节点。
本实施例2中,基于启发式规则进行的实体辅助抽取实例,其中,
服务名:
kg_extract/full_kg_entity_aid_extract_service
调用方式:
同步调用,methods=['POST']
输入参数如表1所示,输出参数如表2所示。
表1
表2
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的电力营销知识图谱构建方法,该方法包括:
电力营销知识源数据预处理;
对预处理后的源数据进行电力营销知识抽取;
将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
实施例4
本发明实施例4提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的电力营销知识图谱构建方法,该方法包括:
电力营销知识源数据预处理;
对预处理后的源数据进行电力营销知识抽取;
将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
实施例5
本发明实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的电力营销知识图谱构建方法的指令,该方法包括:
电力营销知识源数据预处理;
对预处理后的源数据进行电力营销知识抽取;
将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种电力营销知识图谱构建方法,其特征在于,包括:
电力营销知识源数据预处理;
对预处理后的源数据进行电力营销知识抽取;
将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
2.根据权利要求1所述的电力营销知识图谱构建方法,其特征在于,电力营销知识数据预处理包括:数据源选择,数据单元选择,明确待抽取数据字段,选择数据记录范围,明确待抽取的数据的起始和结束位置,确定待抽取知识类型,选择抽取参数。
3.根据权利要求1所述的电力营销知识图谱构建方法,其特征在于,对预处理后的源数据进行电力营销知识抽取,包括:任务定义、知识类型表示、抽取模型、抽取方式和词典入库。
4.根据权利要求1所述的电力营销知识图谱构建方法,其特征在于,将抽取到的电力营销知识同步存储到图谱库包括:按照原始信息保存、知识实例存储、实体存储、增量状态保存、同步图谱库的步骤进行。
5.根据权利要求4所述的电力营销知识图谱构建方法,其特征在于,将原始信息保存到“原始文本数据信息”表中,原始信息包括:唯一定位数据来源、在数据来源里唯一确定一个数据单元、在数据单元里唯一确定一个字段的名字、在数据单元里的唯一记录的id。
6.根据权利要求1所述的电力营销知识图谱构建方法,其特征在于,形成图关系,得到电力营销知识图谱,包括:按照明确查询元素、图计算、图关系展示的步骤,实现用户自定义组合查询条件来生成复杂的查询语义,同时提供图关系可视化展示。
7.根据权利要求6所述的电力营销知识图谱构建方法,其特征在于,图查询中查询元素包括实体、关系和标签,图计算包括路径搜索、统计分析、关系分析、中心度分析、群体分析。
8.一种电力营销知识图谱构建系统,其特征在于,包括:
预处理模块,用于对电力营销知识源数据预处理;
抽取模块,用于对预处理后的源数据进行电力营销知识抽取;
存储模块,用于将抽取到的电力营销知识按照原始信息保存、知识实例存储、实体存储、增量状态保存的步骤同步存储到图谱库;
可视化展示模块,用于根据查询元素,结合图计算,生成查询语义,基于图谱库,形成图关系,得到电力营销知识图谱。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述的电力营销知识图谱构建方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-9任一项所述的电力营销知识图谱构建方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198996.8A CN113946686A (zh) | 2021-10-14 | 2021-10-14 | 电力营销知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198996.8A CN113946686A (zh) | 2021-10-14 | 2021-10-14 | 电力营销知识图谱构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113946686A true CN113946686A (zh) | 2022-01-18 |
Family
ID=79329902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111198996.8A Pending CN113946686A (zh) | 2021-10-14 | 2021-10-14 | 电力营销知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946686A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691878A (zh) * | 2022-02-18 | 2022-07-01 | 中国汽车工程研究院股份有限公司 | 一种汽车标准知识图谱的构建方法 |
CN115599966A (zh) * | 2022-12-15 | 2023-01-13 | 杭州欧若数网科技有限公司(Cn) | 一种分布式图数据的数据局部性度量方法和系统 |
CN116910250A (zh) * | 2023-06-28 | 2023-10-20 | 北京百度网讯科技有限公司 | 知识处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-10-14 CN CN202111198996.8A patent/CN113946686A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691878A (zh) * | 2022-02-18 | 2022-07-01 | 中国汽车工程研究院股份有限公司 | 一种汽车标准知识图谱的构建方法 |
CN115599966A (zh) * | 2022-12-15 | 2023-01-13 | 杭州欧若数网科技有限公司(Cn) | 一种分布式图数据的数据局部性度量方法和系统 |
CN115599966B (zh) * | 2022-12-15 | 2023-03-10 | 杭州欧若数网科技有限公司 | 一种分布式图数据的数据局部性度量方法和系统 |
CN116910250A (zh) * | 2023-06-28 | 2023-10-20 | 北京百度网讯科技有限公司 | 知识处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Research on enterprise risk knowledge graph based on multi-source data fusion | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
WO2004013774A2 (en) | Search engine for non-textual data | |
CN112925901B (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
Wu et al. | A novel community answer matching approach based on phrase fusion heterogeneous information network | |
Bai et al. | Applied research of knowledge in the field of artificial intelligence in the intelligent retrieval of teaching resources | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
Ma et al. | Content Feature Extraction-based Hybrid Recommendation for Mobile Application Services. | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Li et al. | Research on distributed search technology of multiple data sources intelligent information based on knowledge graph | |
Chang et al. | Multi-information preprocessing event extraction with BiLSTM-CRF attention for academic knowledge graph construction | |
CN115048503A (zh) | 一种基于内容分析的用户偏好标签设计方法 | |
Weikum et al. | Temporal knowledge for timely intelligence | |
Yang | An active recommendation approach to improve book-acquisition process | |
CN113127650A (zh) | 一种基于图数据库的技术图谱构建方法和系统 | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
Wang et al. | An ontology automation construction scheme for Chinese e‐government thesaurus optimizing | |
Chen et al. | Construction Methods of Knowledge Mapping for Full Service Power Data Semantic Search System | |
Sun et al. | Construction of Mass Cultural and Sports Activity Knowledge Graph based on the Fusion of MultiSource Data | |
Gajderowicz | Using decision trees for inductively driven semantic integration and ontology matching | |
Chythanya et al. | A survey on mechanisms of reusable code component retrieval from component repository |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |