CN112527997A - 一种基于电网领域调度场景知识图谱的智能问答方法及系统 - Google Patents
一种基于电网领域调度场景知识图谱的智能问答方法及系统 Download PDFInfo
- Publication number
- CN112527997A CN112527997A CN202011508168.5A CN202011508168A CN112527997A CN 112527997 A CN112527997 A CN 112527997A CN 202011508168 A CN202011508168 A CN 202011508168A CN 112527997 A CN112527997 A CN 112527997A
- Authority
- CN
- China
- Prior art keywords
- result
- entity
- sentence pattern
- question
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电网领域调度场景知识图谱的智能问答方法及系统,方法包括以下过程:获取电网领域调度场景下的问题语料;对问题语料进行命名实体识别获得命名实体识别结果;将命名实体识别结果转换为知识图谱中实体和属性;对转换后结果进行句式分类获得句式分类结果;对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则抽取与知识库相关的三元组信息;基于三元组信息生成cypher查询语句;从Neo4j知识库中获得查询结果;将查询结果输入场景分类模型中问答模板生成答案。本发明通过自然语言处理技术对问题进行语义解析,结合实体链接和属性链接转换为图库查询语句,从知识库中查询得到结果并结合问答模板得到答案。
Description
技术领域
本发明属于电网调度技术领域,具体涉及一种基于电网领域调度场景知识图谱的智能问答方法,还涉及一种基于电网领域调度场景知识图谱的智能问答系统。
背景技术
电网包含发电、输电和配电三大环节,整个物理结构就是一个庞大且复杂的网络。由于电网物理结构的特性,采用图数据结构,创建电网数据模型,非常贴合;且图数据结构不存在关联外键,由关系节点之间关联,性能较传统数据结构本就有巨大提升。
智能问答系统,目前已经在社会上多个领域开花结果,但是电力领域依然缺乏相关产品,或者回答问题的能力不强,不够智能。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种基于电网领域调度场景知识图谱的智能问答方法及系统,通过自然语言处理技术对问题进行语义解析,结合实体链接和属性链接转换为图库查询语句,从知识库中查询得到结果并结合问答模板得到答案。
为解决上述技术问题,本发明提供了一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,包括以下过程:
获取电网领域调度场景下的问题语料;
对问题语料进行命名实体识别获得命名实体识别结果;
将命名实体识别结果转换为知识图谱中实体和属性;
对转换后结果进行句式分类获得句式分类结果;
对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则根据句式分类结果和命名实体识别结果,抽取与知识库相关的三元组信息;
基于三元组信息生成cypher查询语句;
基于cypher查询语句从Neo4j知识库中获得查询结果;
将查询结果输入场景分类模型中问答模板生成答案。
进一步的,所述命名实体识别采用Transformer-crf深度学习模型。
进一步的,所述句式分类采用BI-LSTM模型,根据问题包含的实体、属性和关系结构,来标注并训练的。
进一步的,所述语义解析后,还包括:
若语句解析结果是不可理解的句式,则根据依据字典工具重新分词;
将分词名称输入ES检索实体,返回实体及所有属性;
基于实体及属性查询ES获得ES查询结果;
将ES查询结果输入场景分类模型中问答模板生成答案。
进一步的,所述ES属性检索过程为:
先检索该实体,然后判断返回的结果是否包含所检索的属性,如果包含,则返回对应的值。
进一步的,所述ES检索实体若为多跳查询,则在检索出一个属性对应的属性值后,需要再判断知识库是否存在以该属性值为名称的实体,如果存在,则以该属性值和实体名称检索对应的实体,再判断结果是否包含检索的第二个属性,如此循环,直到得到最终结果。
进一步的,所述抽取与知识库相关的三元组信息的过程中,实体类型如果非依据字典确定,则计算实体类型与知识库中实体相似度,如果相似度大于阈值,则认为是同一实体。
进一步的,所述相似度计算过程为:假设该实体的字符长度是L1,知识库中目标实体的长度是L2,编辑距离是N,那么相似度为1-N/(L1+L2)。
进一步的,所述问答模板为AIML模板。
相应的,本发明还提供了一种基于电网领域调度场景知识图谱的智能问答系统,其特征是,包括:
问题获取模块,用于获取电网领域调度场景下的问题语料;
实体识别模块,用于对问题语料进行命名实体识别获得命名实体识别结果;
特征转换模块,用于将命名实体识别结果转换为知识图谱中实体和属性;
句式分类模块,用于对转换后结果进行句式分类获得句式分类结果;
知识抽取模块,用于对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则根据句式分类结果和命名实体识别结果,抽取与知识库相关的三元组信息;
查询语句模块,用于基于三元组信息生成cypher查询语句;
查询模块,用于基于cypher查询语句从Neo4j知识库中获得查询结果;
答案生成模块,用于将查询结果输入场景分类模型中问答模板生成答案。
与现有技术相比,本发明所达到的有益效果是:
1)Transformer-crf深度学习模型,采用了注意力机制,是目前命名实体识别算法中,精度最高的算法模型之一;
2)自训练的Transformer-crf命名实体模型,与hanlp通过管道模式结合;
3)引入句式分类模型,主要代替传统的依存句法分析来提取信息解析语义,依存句法分析性能较差,一般的语句需要2s左右的分析时间,通过句式分类可以达到10毫秒级,且目前分类精度高达98%;
4)加入es搜索引擎,来补充句式分类模型不能完成的情形,使智能问答系统基本上可以接近100%的回答知识库包含的所有知识。
附图说明
图1为本发明方法的具体流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明中涉及到的名词解释:
知识图谱:知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成;
实体:指的是具有可区别性且独立存在的某种事物。电网领域多指:电网公司、调度机构、各种厂站、线路和各种设备;实体是知识图谱中的最基本元素,不同的实体间存在不同的关系;
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
实施例1
本发明的一种基于电网领域调度场景知识图谱的智能问答方法,结合电力领域数据特点和调度场景的业务需求,该问答系统,还包含四个前期准备过程,分别是:
(1)构建电力调度场景知识图谱
其过程包含数据收集整理,然后经过知识建模、知识抽取和知识融合等步骤,完成知识图谱的构建,知识库选用Neo4j来存储。
(2)基础信息维护
当知识图谱构建完成后,根据电力调度场景的业务数据特点和其对搞精度的要求,要做大量的数据维护工作。
◆字典维护
a、特殊实体维护
因为调度业务数据,包含大量的结构和设备名词,而有些此类对象作为问题使用率的频率极高,需要维护必要字典,以提高命名实体精度;
b、属性维护
基本属性维护:维护所有的实体的属性信息,格式为{类型:属性list集合}的字典形势;
带量纲的属性维护:如110千伏,此种类型的属性信息,要实体化,类型为电压等级,节点名词是110千伏,单位是千伏,值是110,这样做的目的是为了根据量纲的比较查询;
c、关系维护
要维护关系的性质:传递性、函数性、对称性和限定性等;
d、同义词维护
e、问答术语维护
为增加对语义的解析,增强句式特征,根据常见问题,整理问答术语,如:有多少,统计,几个,数量等等;
f、时间转译
根据构建好的知识图谱,分析时间特征,因为Neo4j并没有时间格式,所以当所问问题涉及时间时,要做转换,如问题是:9月份有多少线路跳闸,九月要做时间转换,转换为标准时间格式2020-09;
◆条件维护
维护问题中常见的条件查询等字典,如:
"等于":"=",
"不等于":"<>",
"大于等于":">=",
"小于等于":"<=",
"大于":">",
"小于":"<",
"最大":"MIN",
"最小":"MAX",
"以上":">"
其中最大和最小是聚合函数;
◆AIML模板维护
AIML模板要维护两类数据:一是问候介绍性常见模板,如你好、谢谢之类的模板,二是专业问题的回答模板,答案模块如图1流程图给出,在此主要功能为对答案的封装回答。
(3)基于知识图库构建索引
知识库中的数据由三元组组成,取出里面所有的节点数据构建索引。首先要知识库格式转换,所有的实体要和属性绑定描述,作为一个整体,一个整体对应ES的一个文档。
如事件类日志原数据是:
事件内容:06-26 10:17'**站220kV祯东甲线4710开关A相跳闸,重合成功。
区域:东莞
电网名称:**供电局
记录人:陈**
记录时间:2019-06-26 12:00
要转换为如下json格式:
注意的是除了记录时间,所有属性都存在“Po”的list对象中,每个属性及其属性值作为一个小的object,分别用键”pred”和”obj”来标识属性名和属性值。之所以把记录时间单独考虑,是因为时间类型不能简单做为字符串来处理,因为时间类型经常面临比较问答场景,类似的还有带量纲的属性信息如电压等级等;
然后就是导入elasticsearch(Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,简称ES,elasticsearch要求文档的输入格式为json;将实验数据集转化为json格式后,每个实体对应一个json的object,也即elasticsearch中的一个文档),并维护同义词典。
最后是维护自然语言转换为Logical form(逻辑表单),其里有如下几个元素:
三元组的成分:S(subject),P(predicate),O(object);
单个属性条件的OP(operator)::,<,>,<=,>=.例如“电网名称:江门供电公司”,”区域>东莞”;
属性条件之间的与、或关系:,And,Or.例如“区域>东莞And记录时间>=2019-06”;
(4)基础模型的训练
根据大量的文本语料,训练word2vec模型,用于属性链接和实体链接;
根据大量的文本语料,采用BIOES标记法标记,训练基于Transformer-crf算法的命名实体识别模型;
收集问题,训练场景分类模型和句式分类模型,两模型均为BI-LSTM模型,但是选取句式特征不同,场景分类模型输入特征为词向量,主要用来为AIML模板选取使用,句式分类选取输入特征为实体属性和词性,目的为问答流程中的句式是否可理解使用。
准备工作完成后,参见图1所示,问答系统流程为:
步骤1:获取电网领域调度场景下的问题语料,对问题语料进行命名实体识别获得命名实体标签。
命名实体识别过程较为复杂,本发明参考现有hanlp的管道命名实体,并进行改进来功能增强,具体改进过程为:对中间的hanlp的神经网络替换为本发明已训练的Transformer-crf模型,Transformer-crf的模型调用为python服务,hanlp选用的1.7版本,通过集成pipe接口,达到可以在hanlp管道调用的目的,这样做的好处,可以完美利用hanlp的字典管理和正则表达,即使面对电网各种语料,也能达到高精度的目的,如“**线1#母线”也能正确识别出来是母线设备;
该命名实体标签区别所有的设备,如“变电站、发电站、电网公司、电网、调度部门、t接线、T接线端、交流线路、直流线路、开关、刀闸等”。
步骤2:特征转换
为场景分类和句式分类输入数据,其中场景分类输入特征为:词向量和位置信息;句式分类输入特征为:词性和位置信息,如果词性实体属于图谱节点的实体标签,则统一替换为entity,如果为属性,则统一替换为pro;
步骤3:句式分类
句式分类标注如下所示,算法模型选择BILSTM。
1)独立查询
如:南京;江苏;江苏电网;****变电站;******线路
特征:n;ns;node
标注为:ns
扩充:如发生****变电站,****变电站,*****线路
2)带属性无指向关系的关联查询
如:江苏电网有多少等于110千伏的变电站?
标注为:n_p_m
3)无属性有指向关系的同lable查询
如:上级电网是江苏电网的电网有哪些?
标注为:n_r_n
4)带反向关系的同lable查询
如:江苏电网有多少下级单位
标注为:n_rn_n
5)复杂语义
如:江苏电网包含其下属单位总共有多少变电站;
江苏电网包含下属单位总共有多少110千伏的变电站;
标注为:n_r_n_p_m
6)无lable多不确定性属性查询
如:八月份有多少主变跳闸,八月份有多少线路跳闸
标注为:ps_non
通过该分类模型,得出分类结果,用于语义解析。
步骤4:语义解析
根据步骤3的句式分类结果,如果是可理解的句式,则根据句式上的分类内容,判断句式结构后,再结合提取的命名实体,针对性的编写解析代码,抽取与知识库相关的三元组信息。
如果不是可理解的句式,说明不可解析,选择索引流程步骤10。
如:江苏电网包含其下属单位总共有多少变电站;
标注为:n_r_n_p_m;
对应的解析代码,抽取label、property和relation;句式分类结果就决定了其关系。
步骤5:实体链接
实体类型如果非依据字典确定,则需要根据实体类型,与知识库中实体做距离分析,此时选用考虑拼音的文本编辑距离,假设该实体的字符长度是L1,知识库中目标实体的长度是L2,编辑距离是N,那么相似度为1-N/(L1+L2),这里需要设置一个阈值作为是同一实体的条件,一般设置为0.8。如果相似度小于该值,则开始走ES文本搜索分支步骤。
步骤6:属性链接
属性链接,要结合句式分类结果,
如果有属性key值同时有属性value值,如“江苏电网有多少电压等级是110千伏变电站”,属性key值是“电压等级”,属性值是“110千伏”,且句式结果包含实体,则选取对应的实体类型所包含的所有属性,做文本距离分析,这时不用设置阈值,直接选取最接近的一个属性;如果只有属性value值,没有key值,如,“江苏电网有多少110千伏变电站”,获取疑似属性信息的“110千伏”,则要根据词向量,选取前20个最接近的词,然后遍历与“江苏电网”类型所包含的属性,做文本距离分析,选取最接近的一个属性,做为value值得key;
步骤7:生成cypher语句
根据步骤4、5、6的结果,转换生成用于neo4j查询的cypher语句,包括格式封装;
步骤8:返回Neo4j查询结果
基于cypher语句查询neo4j知识库,neo4j知识库返回查询结果。
步骤9:场景分类选取模板生成答案
根据预先准备好的场景分类模型,判断问句类型,选取预先准备好的AIML模板,返回最后结果。
步骤10:根据分词实体索引查询
主要针对步骤4中不可解析的问句,根据ES带有字典工具,重新分词;
步骤11:按名称检索实体,并返回实体的所有属性和属性值。将预先准备好的logical form种的实体名填入ES实体查询的模板生成对应的ES查询;
步骤12:实体属性检索
检索一个实体的某个属性的值,也是先检索该实体,然后判断返回的结果是否包含所检索的属性,如果包含,则返回对应的值,因此,这种检索的查询语句同步骤11;
步骤13:多跳查询
主要是步骤12的补充,如果是多跳查询,则在检索出一个属性对应的属性值后,需要再判断知识库是否存在以该属性值为名称的实体,如果存在,则以该属性值和实体名称检索对应的实体,再判断结果是否包含检索的第二个属性,如此循环,直到得到最终结果。
步骤14:返回ES查询结果
跳转到步骤9
步骤15:结束
本发明通过自然语言处理技术对问题进行语义解析,结合实体链接和属性链接转换为图库查询语句,可快速从知识库中查询到答案。
本发明的有益效果为:
1)Transformer-crf深度学习模型,采用了注意力机制,是目前命名实体识别算法中,精度最高的算法模型之一;
2)自训练的Transformer-crf命名实体模型,与hanlp通过管道模式结合;
3)引入句式分类模型,主要代替传统的依存句法分析来提取信息解析语义,依存句法分析性能较差,一般的语句需要2s左右的分析时间,通过句式分类可以达到10毫秒级,且目前分类精度高达98%;
4)加入es搜索引擎,来补充句式分类模型不能完成的情形,使智能问答系统基本上可以接近100%的回答知识库包含的所有知识。
实施例2
相应的,本发明的一种基于电网领域调度场景知识图谱的智能问答系统,包括:
问题获取模块,用于获取电网领域调度场景下的问题语料;
实体识别模块,用于对问题语料进行命名实体识别获得命名实体识别结果;
特征转换模块,用于将命名实体识别结果转换为知识图谱中实体和属性;
句式分类模块,用于对转换后结果进行句式分类获得句式分类结果;
知识抽取模块,用于对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则根据句式分类结果和命名实体识别结果,抽取与知识库相关的三元组信息;
查询语句模块,用于基于三元组信息生成cypher查询语句;
查询模块,用于基于cypher查询语句从Neo4j知识库中获得查询结果;
答案生成模块,用于将查询结果输入场景分类模型中问答模板生成答案。
本系统中各模块的实现方案参见实施例1方法中的各步骤实现过程。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,包括以下过程:
获取电网领域调度场景下的问题语料;
对问题语料进行命名实体识别获得命名实体识别结果;
将命名实体识别结果转换为知识图谱中实体和属性;
对转换后结果进行句式分类获得句式分类结果;
对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则根据句式分类结果和命名实体识别结果,抽取与知识库相关的三元组信息;
基于三元组信息生成cypher查询语句;
基于cypher查询语句从Neo4j知识库中获得查询结果;
将查询结果输入场景分类模型中问答模板生成答案。
2.根据权利要求1所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述命名实体识别采用Transformer-crf深度学习模型。
3.根据权利要求1所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述句式分类采用BI-LSTM模型。
4.根据权利要求1所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述语义解析后,还包括:
若语句解析结果是不可理解的句式,则根据依据字典工具重新分词;
将分词名称输入ES检索实体,返回实体及所有属性;
基于实体及属性查询ES获得ES查询结果;
将ES查询结果输入场景分类模型中问答模板生成答案。
5.根据权利要求4所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述ES属性检索过程为:
先检索该实体,然后判断返回的结果是否包含所检索的属性,如果包含,则返回对应的值。
6.根据权利要求4所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所ES检索实体若为多跳查询,则在检索出一个属性对应的属性值后,需要再判断知识库是否存在以该属性值为名称的实体,如果存在,则以该属性值和实体名称检索对应的实体,再判断结果是否包含检索的第二个属性,如此循环,直到得到最终结果。
7.根据权利要求1所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述抽取与知识库相关的三元组信息的过程中,实体类型如果非依据字典确定,则计算实体类型与知识库中实体相似度,如果相似度大于阈值,则认为是同一实体。
8.根据权利要求7所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述相似度计算过程为:假设该实体的字符长度是L1,知识库中目标实体的长度是L2,编辑距离是N,那么相似度为1-N/(L1+L2)。
9.根据权利要求1所述的一种基于电网领域调度场景知识图谱的智能问答方法,其特征是,所述问答模板为AIML模板。
10.一种基于电网领域调度场景知识图谱的智能问答系统,其特征是,包括:
问题获取模块,用于获取电网领域调度场景下的问题语料;
实体识别模块,用于对问题语料进行命名实体识别获得命名实体识别结果;
特征转换模块,用于将命名实体识别结果转换为知识图谱中实体和属性;
句式分类模块,用于对转换后结果进行句式分类获得句式分类结果;
知识抽取模块,用于对句式分类结果进行语义解析,若语句解析结果是可理解的句式,则根据句式分类结果和命名实体识别结果,抽取与知识库相关的三元组信息;
查询语句模块,用于基于三元组信息生成cypher查询语句;
查询模块,用于基于cypher查询语句从Neo4j知识库中获得查询结果;
答案生成模块,用于将查询结果输入场景分类模型中问答模板生成答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508168.5A CN112527997B (zh) | 2020-12-18 | 2020-12-18 | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508168.5A CN112527997B (zh) | 2020-12-18 | 2020-12-18 | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112527997A true CN112527997A (zh) | 2021-03-19 |
CN112527997B CN112527997B (zh) | 2024-01-23 |
Family
ID=75001640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011508168.5A Active CN112527997B (zh) | 2020-12-18 | 2020-12-18 | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527997B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113065722A (zh) * | 2021-05-08 | 2021-07-02 | 河北工业大学 | 一种基于深度学习的连续多步预测道路智能养护系统 |
CN113360616A (zh) * | 2021-06-04 | 2021-09-07 | 科大讯飞股份有限公司 | 自动问答处理方法、装置、设备及存储介质 |
CN113609264A (zh) * | 2021-06-28 | 2021-11-05 | 国网北京市电力公司 | 电力系统节点的数据查询方法、装置 |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
US20170011092A1 (en) * | 2015-07-10 | 2017-01-12 | Trendkite Inc. | Systems and methods for the creation, update and use of models in finding and analyzing content |
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN107679240A (zh) * | 2017-10-27 | 2018-02-09 | 中国计量大学 | 一种虚拟身份挖掘方法 |
CN109241258A (zh) * | 2018-08-23 | 2019-01-18 | 江苏索迩软件技术有限公司 | 一种应用税务领域的深度学习智能问答系统 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN111782763A (zh) * | 2020-05-22 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于语音语义的信息检索方法、及其相关设备 |
-
2020
- 2020-12-18 CN CN202011508168.5A patent/CN112527997B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
US20170011092A1 (en) * | 2015-07-10 | 2017-01-12 | Trendkite Inc. | Systems and methods for the creation, update and use of models in finding and analyzing content |
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN107679240A (zh) * | 2017-10-27 | 2018-02-09 | 中国计量大学 | 一种虚拟身份挖掘方法 |
CN109241258A (zh) * | 2018-08-23 | 2019-01-18 | 江苏索迩软件技术有限公司 | 一种应用税务领域的深度学习智能问答系统 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN111782763A (zh) * | 2020-05-22 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于语音语义的信息检索方法、及其相关设备 |
Non-Patent Citations (1)
Title |
---|
环评报告书: "民族节日知识图谱构建与应用研究", 《HTTPS://WWW.DOCIN.COM/P-24689》, pages 44 - 61 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113065722A (zh) * | 2021-05-08 | 2021-07-02 | 河北工业大学 | 一种基于深度学习的连续多步预测道路智能养护系统 |
CN113065722B (zh) * | 2021-05-08 | 2022-07-01 | 河北工业大学 | 一种基于深度学习的连续多步预测道路智能养护系统 |
CN113360616A (zh) * | 2021-06-04 | 2021-09-07 | 科大讯飞股份有限公司 | 自动问答处理方法、装置、设备及存储介质 |
CN113609264A (zh) * | 2021-06-28 | 2021-11-05 | 国网北京市电力公司 | 电力系统节点的数据查询方法、装置 |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN113779220B (zh) * | 2021-09-13 | 2023-06-23 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN116703075B (zh) * | 2023-05-29 | 2024-04-16 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
CN117743506B (zh) * | 2023-09-04 | 2024-05-28 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112527997B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112527997B (zh) | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 | |
CN112860872B (zh) | 基于自学习的配电网操作票语义合规性的校验方法及系统 | |
CN111985653B (zh) | 基于知识图谱的电网故障知识推荐与知识管理系统及方法 | |
CN112905804B (zh) | 一种电网调度知识图谱的动态更新方法及装置 | |
CN108549650B (zh) | 一种智能变电站防误闭锁逻辑规则源端配置方法及系统 | |
CN113553420A (zh) | 基于知识图谱的电网故障处理规程推荐方法和系统 | |
CN110188345A (zh) | 一种电力操作票的智能识别方法与装置 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN115544773A (zh) | 非精确量测模型重构方法、系统、计算机设备及存储介质 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN114860942A (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN113312356A (zh) | 基于多模式字符串的设备材料名称匹配方法 | |
CN111340253B (zh) | 一种主网检修申请单的解析方法及系统 | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
CN114757191B (zh) | 基于深度学习的电力舆情领域命名实体识别方法及系统 | |
CN111160022A (zh) | 一种基于改进skip-gram模型的电网调度日志词向量提取方法 | |
CN113673219B (zh) | 一种停电计划文本解析方法 | |
CN110515926A (zh) | 基于分词和语义依存分析的异构数据源海量数据梳理方法 | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 | |
CN114722809A (zh) | 一种基于智能语音交互技术的电网设备运行状态查询方法、装置及存储介质 | |
CN114283030A (zh) | 一种基于知识图谱的配电方案推荐方法及装置 | |
CN113987164A (zh) | 一种基于领域事件知识图谱的项目研判方法及装置 | |
CN114386427A (zh) | 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |