CN111651569A - 一种电力领域的知识库问答方法及系统 - Google Patents
一种电力领域的知识库问答方法及系统 Download PDFInfo
- Publication number
- CN111651569A CN111651569A CN202010332207.4A CN202010332207A CN111651569A CN 111651569 A CN111651569 A CN 111651569A CN 202010332207 A CN202010332207 A CN 202010332207A CN 111651569 A CN111651569 A CN 111651569A
- Authority
- CN
- China
- Prior art keywords
- key
- question
- phrase
- attribute
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000014509 gene expression Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 99
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000005012 migration Effects 0.000 claims description 15
- 238000013508 migration Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000005611 electricity Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Automation & Control Theory (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种电力领域的知识库问答方法,包括:对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语,本发明避免了现有技术中电力领域模型训练对术语的高度依赖,仅利用容易获得的开放域的资源即可实现电力领域的知识库问答。
Description
技术领域
本发明属于自然语言处理和智能问答领域,具体涉及一种电力领域的知识库问答方法及系统。
背景技术
面向特定领域的知识库问答技术是一种利用该领域知识信息的重要手段。与传统搜索引擎以接收关键词作为索引不同,面向特定领域的知识库问答技术接收自然语言问句作为系统或装置的输入,并通过领域知识库检索直接给出准确且专业的答案。领域知识库问答系统或装置通常能够作为面向特定领域的办公助手,为用户提供专业的领域知识检索服务,并已广泛应用在工作、生活中,如:微软的“小娜”、阿里巴巴的“方糖”,都是基于此类技术的智能助理。
知识库问答主要有问句理解和知识库检索两部分内容。问句理解主要是解析问句意图,问句意图可以通过问句中的关键实体短语和属性短语进行表示。知识库检索是将问句中的短语与知识库中的语义项进行连接,并通过知识库内容输出答案。
目前作为特定领域之一的电力领域知识库问答主要有基于手写模板或规则的方法和基于神经网络的端到端的方法。然而,手写模板是一个人力成本和时间成本很高的过程,尤其对于复杂的知识库,很难覆盖全部的问句形式或知识库内容,具有不完整性;端到端的方法没有手写模板过程,成本较低,但通常需要大量的知识库内容相关的电力领域问答数据对模型进行训练,具有较强的领域依赖性,然而问答数据很难获得或者整理。因此,如何解决现有技术中存在的问题是本领域技术人员需要解决的问题。
发明内容
为克服上述现有技术的不足,本发明提供一种电力领域的知识库问答方法,包括:
对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,关键短语识别模型的构建,包括:
基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,包括:
基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,词性序列包括单词词性和分隔符,所述单词词性包括:名词、助词、动词、数字、量词和字符串中的一种或几种;所述句法分析序列包括:问句中各词语之间的关系和分隔符,所述问句中各词语之间的关系包括:定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。
优选的,语料库的重构,包括:
将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语别模型,包括:
采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
然后利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve;
利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,向量Ve的表达式如下:
Ve=concat(Vpos,Vpar)
其中,Ve为拼接向量,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量;
所述关键实体和关键属性短语起始和终止位置的概率如下式所示:
所述交叉熵损失函数如下计所示:
优选的,基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,包括:
基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合,包括:
使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
基于同一构思,本发明还提供了一种电力领域知识库问答系统,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,该系统还括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,该系统还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特这表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve;
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
与最接近的现有技术相比,本发明具有的有益效果如下:
本发明提供了一种电力领域的知识库问答方法,包括:对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语,本发明避免了现有技术中电力领域模型训练对术语的高度依赖,仅利用容易获得的开放域的资源即可实现电力领域的知识库问答。
附图说明
图1为本发明提供的一种电力领域的知识库问答方法示意图;
图2为本发明提供的一种电力领域知识库问答系统示意图;
图3为本发明实施例中提供的词性标注和句法分析结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
实施例1:
本发明实施例公开了一种电力领域的知识库问答方法,示意图如图1所示,包括:
S1对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
S3基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
下面结合具体实例展示本发明的问答效果。
S1对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,即对于给定的电力领域问句,利用自然语言处理工具进行句法分析和词性标注,得到问句序列模板,具体包括:
S1-1重构自然语言处理的语料库,具体的:
S1-1-1基于电力领域知识库中所有实体、属性的标签(Label)和属性值构建术语迁移词典,对词典中的每个词赋予“名词”词性,同时赋予较高的词频;
S1-1-2基于S1-1-1中构建的术语迁移词典,对自然语言处理语料库中名词进行更新,完成自然语言处理语料库的重构;
基于重构语料库的自然语言处理,可以使电力领域问题与开放域问题在句法分析和词性的特征空间中具有相似的序列模式和特征分布。
S1-2基于重构的语料库,使用自然语言处理工具对电力领域的问句进行词性标注和句法分析,获得电力领域问句的词性序列和句法分析序列,具体的:
词性序列Xpos表示实行如:n|uj|n|v|m|q|x,句法分析序列Xpar表示实行如:ATT|RAD|SBV|HED|ATT|VOB|WP,将两个结果序列作为问句(序列)模板,对问句进行表示;其中,上文所述n、uj、v、m、q、x分别表示名词、助词、动词、数字、量词、字符串;ATT、RAD、SBV、HED、VOB、WP分别表示定中关系、后附加关系、主谓关系、核心、动宾关系、结束;
例如:输入句子“营业厅办理更名过户流程”,经过词性标注和句法分析后,得到词性标注序列“n|v|n|v”,句法分析序列“HED|SBV|VOB|ATT”,具体过程如图3所示,其中Root表示根结点。
S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语,其中问句的关键实体是问句中重点关注的事物,关键属性是关键实体对应的关键特性,具体包括:
S2-1:基于S1-1重构的自然语言处理语料库,使用自然语言处理工具对开放域问句进行词性标注和句法分析,获得开放域问句的序列模板,基于问句和序列模板,手工标注用于关键实体和属性识别的训练数据D,其中训练数据D主要包含部分:问句词性序列Xpos,问句句法分析序列Xpar,关键实体和属性的起始和终止位置
{keyEntitystart,keyEntityend,keyPropertystart,keyPropertyend}。
S2-2:基于S2-1中的训练数据D训练基于开放域问句的关键实体和属性识别模型,具体的:
首先,采用独热编码(One-hot)分别对序列Xpos和Xpar进行向量化表示,编码为[1,0,0,......,1,0,0,0,0,1]表示的向量;
然后,利用双向递归神经网络模型(Bi-RNN)分别对Xpos和Xpar进行特征编码,得到隐向量Vpos和Vpar,其中,Vpos和Vpar分别表示词性序列隐向量和句法分析序列隐向量,之后将两个隐向量进行拼接,得到向量Ve:
Ve=concat(Vpos,Vpar) (1)
接着,利用一个线性层对Ve进行解码,进而通过网络中的归一化指数函数(Softmax)层输出每个位置分别作为关键实体和属性短语起始和终止位置的概率:
其中,Wv和be为线性层的参数;
最后,利用交叉熵(Cross-entropy)作为损失函数L对模型进行训练,得到关键短语识别模型,其中交叉熵损失函数如下式:
S2-3:基于S1中所得的电力领域问句的问句序列模板(包括词性序列Xpos和句法分析序列Xpar)和S2-2中训练的关键短语识别模型,进行电力领域问句关键实体短语和属性识别,得到电力领域问句的关键实体短语和属性短语;
例如,输入句子“营业厅办理更名过户流程”,识别得到关键实体短语为“营业厅”和关键属性短语为“更名过户”。
S3基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,具体包括:
S3-1字向量训练:模糊匹配指的是通过基于字向量表示的余弦相似度计算,实现问句中的词汇与知识库中的语义项之间的语义连接;相对于词向量,字向量拥有更好的灵活性和覆盖度,本实施例中使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型(CBOW)进行字向量的训练,并通过词汇中各个字向量进行相加得到词的向量表示;
S3-2基于S2-3中所得的关键实体短语,通过模糊匹配的方式对知识库进行检索,具体的:经过基于字向量表示的余弦相似度计算,从电力领域知识库中检索到“营业厅”、“营业网点”与关键实体相似度较高,取“营业厅”“营业网点”作为目标实体;使用目标实体在电力领域知识库中检索,获取到“更名”、“过户”、“分时电价”、“电价补贴”等实体的全部属性,生成候选属性集{“更名”、“过户”、“分时电价”、“电价补贴”...};
S3-3基于S2-3中所得的关键属性短语和S3-2中所得的候选属性集,进行相似计算并排序,取相似度最高的候选属性作为领域问句的属性,并将属性值作为答案,具体包括:
S3-3-1:基于S2-3中所得的关键属性短语和S3-2中所得的候选属性,利用S3-1中所得的字向量,对关键属性短语和候选属性集合中的每个属性分别进行向量表示;
S3-3-2:基于S3-3-1中得到的属性向量,将关键属性短语和候选属性集中的每个属性进行余弦相似度计算,得分较高的候选属性作为目标属性,经过计算,“更名”“过户”与关键属性短语“更名过户”相似度较高,最后将关键属性短语“更名过户”和相似属性“更名”、“过户”作为目标属性;
S3-3-3:基于S3-2中所得的目标实体和S3-3-2中所得的目标属性进行电力领域知识库检索,获得属性值作为答案输出,具体的,将“过户”的属性值“电表过户是指因用电地址物业权属改变,引起用电户主变更”,“更名过户”属性值“根据《供电营业规则》第二十九条规定,用户更名或过户(依法变更用户名称或居民用户房屋变更户主),应持有关证明向供电企业提出申请。供电企业应按下列规定办理:1.在用电地址、用电容量、用电类别不变条件下,允许办理更名或过户;2.原用户应与供电企业结清债务,才能解除原供用电关系;3.不申请办理过户手续而私自过户者,新用户应承担原用户所负债务。经供电企业检查发现用户私自过户时,供电企业应通知该户补办手续,必要时可中止供电”作为最后答案输出。
实施例2:
本发明实施例公开了一种电力领域知识库问答系统如图2所示,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,该系统还括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,该系统还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特这表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve;
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。
Claims (16)
1.一种电力领域的知识库问答方法,其特征在于,包括:
对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
2.如权利要求1所述的方法,其特征在于,所述关键短语识别模型的构建,包括:
基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
3.如权利要求1所述的方法,其特征在于,所述对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,包括:
基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
4.如权利要求2或3所述的方法,其特征在于,所述词性序列包括单词词性和分隔符,所述单词词性包括:名词、助词、动词、数字、量词和字符串中的一种或几种;所述句法分析序列包括:问句中各词语之间的关系和分隔符,所述问句中各词语之间的关系包括:定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。
5.如权利要求2或3所述的方法,其特征在于,所述语料库的重构,包括:
将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
6.如权利要求2所述的方法,其特征在于,所述基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语别模型,包括:
采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
然后利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve;
利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
8.如权利要求1所述的方法,其特征在于,所述基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,包括:
基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
9.如权利要求8所述的方法,其特征在于,所述基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合,包括:
使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
10.一种电力领域的知识库问答系统,其特征在于,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
11.如权利要求10所述的系统,其特征在于,还包括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
12.如权利要求10所述的系统,其特征在于,所述问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
13.如权利要求11或12所述的系统,其特征在于,还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
14.如权利要求11所述的系统,其特征在于,所述模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特这表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve;
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
15.如权利要求10所述的系统,其特征在于,所述知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
16.如权利要求15所述的系统,其特征在于,所述检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332207.4A CN111651569B (zh) | 2020-04-24 | 2020-04-24 | 一种电力领域的知识库问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332207.4A CN111651569B (zh) | 2020-04-24 | 2020-04-24 | 一种电力领域的知识库问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651569A true CN111651569A (zh) | 2020-09-11 |
CN111651569B CN111651569B (zh) | 2022-04-08 |
Family
ID=72344470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332207.4A Active CN111651569B (zh) | 2020-04-24 | 2020-04-24 | 一种电力领域的知识库问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651569B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN113033209A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN114444488A (zh) * | 2022-01-26 | 2022-05-06 | 中国科学技术大学 | 一种少样本机器阅读理解方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
US20180081871A1 (en) * | 2016-09-16 | 2018-03-22 | Iqintell, Inc. | System and method of attribute, entity, and action organization of a data corpora |
CN108345690A (zh) * | 2018-03-09 | 2018-07-31 | 广州杰赛科技股份有限公司 | 智能问答方法与系统 |
CN108417205A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
-
2020
- 2020-04-24 CN CN202010332207.4A patent/CN111651569B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
US20180081871A1 (en) * | 2016-09-16 | 2018-03-22 | Iqintell, Inc. | System and method of attribute, entity, and action organization of a data corpora |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108417205A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
CN108345690A (zh) * | 2018-03-09 | 2018-07-31 | 广州杰赛科技股份有限公司 | 智能问答方法与系统 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
姚澜: "基于改进自注意力的机器阅读理解系统设计与实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN112307171B (zh) * | 2020-10-30 | 2022-02-11 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN113033209A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN113033209B (zh) * | 2021-05-25 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN114444488A (zh) * | 2022-01-26 | 2022-05-06 | 中国科学技术大学 | 一种少样本机器阅读理解方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651569B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN111368048B (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及系统 | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN114357127A (zh) | 基于机器阅读理解及常用问题解答模型的智能问答方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN117033571A (zh) | 知识问答系统构建方法及系统 | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN117743315B (zh) | 一种为多模态大模型系统提供高质量数据的方法 | |
Guo et al. | Deep semantic-based feature envy identification | |
Dong et al. | Imposing category trees onto word-embeddings using a geometric construction | |
CN117453851B (zh) | 基于知识图谱的文本索引增强问答方法及系统 | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116756266A (zh) | 基于外部知识和主题信息的服装文本摘要生成方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN117609419A (zh) | 基于元学习与知识增强的领域检索方法 | |
Zhu et al. | Construction of transformer substation fault knowledge graph based on a depth learning algorithm | |
Luo | Automatic short answer grading using deep learning | |
Jin et al. | Representation and Extraction of Diesel Engine Maintenance Knowledge Graph with Bidirectional Relations Based on BERT and the Bi-LSTM-CRF Model | |
Kainan et al. | Extraction method of judicial language entities based on regular expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |