CN111651569B - 一种电力领域的知识库问答方法及系统 - Google Patents

一种电力领域的知识库问答方法及系统 Download PDF

Info

Publication number
CN111651569B
CN111651569B CN202010332207.4A CN202010332207A CN111651569B CN 111651569 B CN111651569 B CN 111651569B CN 202010332207 A CN202010332207 A CN 202010332207A CN 111651569 B CN111651569 B CN 111651569B
Authority
CN
China
Prior art keywords
key
question
phrase
attribute
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010332207.4A
Other languages
English (en)
Other versions
CN111651569A (zh
Inventor
徐会芳
王继业
谈元鹏
吴杏平
胡若云
杨维
张鹏
沈然
吕诗宁
金良峰
张晓慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Co ltd Customer Service Center
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center, State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Co ltd Customer Service Center
Priority to CN202010332207.4A priority Critical patent/CN111651569B/zh
Publication of CN111651569A publication Critical patent/CN111651569A/zh
Application granted granted Critical
Publication of CN111651569B publication Critical patent/CN111651569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Automation & Control Theory (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种电力领域的知识库问答方法,包括:对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语,本发明避免了现有技术中电力领域模型训练对术语的高度依赖,仅利用容易获得的开放域的资源即可实现电力领域的知识库问答。

Description

一种电力领域的知识库问答方法及系统
技术领域
本发明属于自然语言处理和智能问答领域,具体涉及一种电力领域的知识库问答方法及系统。
背景技术
面向特定领域的知识库问答技术是一种利用该领域知识信息的重要手段。与传统搜索引擎以接收关键词作为索引不同,面向特定领域的知识库问答技术接收自然语言问句作为系统或装置的输入,并通过领域知识库检索直接给出准确且专业的答案。领域知识库问答系统或装置通常能够作为面向特定领域的办公助手,为用户提供专业的领域知识检索服务,并已广泛应用在工作、生活中,如:微软的“小娜”、阿里巴巴的“方糖”,都是基于此类技术的智能助理。
知识库问答主要有问句理解和知识库检索两部分内容。问句理解主要是解析问句意图,问句意图可以通过问句中的关键实体短语和属性短语进行表示。知识库检索是将问句中的短语与知识库中的语义项进行连接,并通过知识库内容输出答案。
目前作为特定领域之一的电力领域知识库问答主要有基于手写模板或规则的方法和基于神经网络的端到端的方法。然而,手写模板是一个人力成本和时间成本很高的过程,尤其对于复杂的知识库,很难覆盖全部的问句形式或知识库内容,具有不完整性;端到端的方法没有手写模板过程,成本较低,但通常需要大量的知识库内容相关的电力领域问答数据对模型进行训练,具有较强的领域依赖性,然而问答数据很难获得或者整理。因此,如何解决现有技术中存在的问题是本领域技术人员需要解决的问题。
发明内容
为克服上述现有技术的不足,本发明提供一种电力领域的知识库问答方法,包括:
对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,关键短语识别模型的构建,包括:
基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,包括:
基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,词性序列包括单词词性和分隔符,所述单词词性包括:名词、助词、动词、数字、量词和字符串中的一种或几种;所述句法分析序列包括:问句中各词语之间的关系和分隔符,所述问句中各词语之间的关系包括:定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。
优选的,语料库的重构,包括:
将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语别模型,包括:
采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
然后利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve
利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,向量Ve的表达式如下:
Ve=concat(Vpos,Vpar)
其中,Ve为拼接向量,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量;
所述关键实体和关键属性短语起始和终止位置的概率如下式所示:
Figure BDA0002465360560000031
其中,
Figure BDA0002465360560000032
问句的关键实体和关键属性短语的预测位置,Ve为拼接向量,Wv和be为线性层的参数;
所述交叉熵损失函数如下计所示:
Figure BDA0002465360560000033
其中,Yi是第i个问句中关键实体和关键属性短语的真实位置,
Figure BDA0002465360560000034
是第i个问句的关键实体和关键属性短语的预测位置,n为问句总数量,L为Yi
Figure BDA0002465360560000035
的差距值。
优选的,基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,包括:
基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合,包括:
使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
基于同一构思,本发明还提供了一种电力领域知识库问答系统,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,该系统还括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,该系统还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特这表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
与最接近的现有技术相比,本发明具有的有益效果如下:
本发明提供了一种电力领域的知识库问答方法,包括:对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语,本发明避免了现有技术中电力领域模型训练对术语的高度依赖,仅利用容易获得的开放域的资源即可实现电力领域的知识库问答。
附图说明
图1为本发明提供的一种电力领域的知识库问答方法示意图;
图2为本发明提供的一种电力领域知识库问答系统示意图;
图3为本发明实施例中提供的词性标注和句法分析结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
实施例1:
本发明实施例公开了一种电力领域的知识库问答方法,示意图如图1所示,包括:
S1对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
S3基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
下面结合具体实例展示本发明的问答效果。
S1对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,即对于给定的电力领域问句,利用自然语言处理工具进行句法分析和词性标注,得到问句序列模板,具体包括:
S1-1重构自然语言处理的语料库,具体的:
S1-1-1基于电力领域知识库中所有实体、属性的标签(Label)和属性值构建术语迁移词典,对词典中的每个词赋予“名词”词性,同时赋予较高的词频;
S1-1-2基于S1-1-1中构建的术语迁移词典,对自然语言处理语料库中名词进行更新,完成自然语言处理语料库的重构;
基于重构语料库的自然语言处理,可以使电力领域问题与开放域问题在句法分析和词性的特征空间中具有相似的序列模式和特征分布。
S1-2基于重构的语料库,使用自然语言处理工具对电力领域的问句进行词性标注和句法分析,获得电力领域问句的词性序列和句法分析序列,具体的:
词性序列Xpos表示实行如:n|uj|n|v|m|q|x,句法分析序列Xpar表示实行如:ATT|RAD|SBV|HED|ATT|VOB|WP,将两个结果序列作为问句(序列)模板,对问句进行表示;其中,上文所述n、uj、v、m、q、x分别表示名词、助词、动词、数字、量词、字符串;ATT、RAD、SBV、HED、VOB、WP分别表示定中关系、后附加关系、主谓关系、核心、动宾关系、结束;
例如:输入句子“营业厅办理更名过户流程”,经过词性标注和句法分析后,得到词性标注序列“n|v|n|v”,句法分析序列“HED|SBV|VOB|ATT”,具体过程如图3所示,其中Root表示根结点。
S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语,其中问句的关键实体是问句中重点关注的事物,关键属性是关键实体对应的关键特性,具体包括:
S2-1:基于S1-1重构的自然语言处理语料库,使用自然语言处理工具对开放域问句进行词性标注和句法分析,获得开放域问句的序列模板,基于问句和序列模板,手工标注用于关键实体和属性识别的训练数据D,其中训练数据D主要包含部分:问句词性序列Xpos,问句句法分析序列Xpar,关键实体和属性的起始和终止位置
{keyEntitystart,keyEntityend,keyPropertystart,keyPropertyend}。
S2-2:基于S2-1中的训练数据D训练基于开放域问句的关键实体和属性识别模型,具体的:
首先,采用独热编码(One-hot)分别对序列Xpos和Xpar进行向量化表示,编码为[1,0,0,......,1,0,0,0,0,1]表示的向量;
然后,利用双向递归神经网络模型(Bi-RNN)分别对Xpos和Xpar进行特征编码,得到隐向量Vpos和Vpar,其中,Vpos和Vpar分别表示词性序列隐向量和句法分析序列隐向量,之后将两个隐向量进行拼接,得到向量Ve
Ve=concat(Vpos,Vpar) (1)
接着,利用一个线性层对Ve进行解码,进而通过网络中的归一化指数函数(Softmax)层输出每个位置分别作为关键实体和属性短语起始和终止位置的概率:
Figure BDA0002465360560000071
其中,Wv和be为线性层的参数;
最后,利用交叉熵(Cross-entropy)作为损失函数L对模型进行训练,得到关键短语识别模型,其中交叉熵损失函数如下式:
Figure BDA0002465360560000081
其中,Yi是第i个问句中关键实体和属性的真实位置,
Figure BDA0002465360560000082
是第i个问句的预测位置。
S2-3:基于S1中所得的电力领域问句的问句序列模板(包括词性序列Xpos和句法分析序列Xpar)和S2-2中训练的关键短语识别模型,进行电力领域问句关键实体短语和属性识别,得到电力领域问句的关键实体短语和属性短语;
例如,输入句子“营业厅办理更名过户流程”,识别得到关键实体短语为“营业厅”和关键属性短语为“更名过户”。
S3基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,具体包括:
S3-1字向量训练:模糊匹配指的是通过基于字向量表示的余弦相似度计算,实现问句中的词汇与知识库中的语义项之间的语义连接;相对于词向量,字向量拥有更好的灵活性和覆盖度,本实施例中使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型(CBOW)进行字向量的训练,并通过词汇中各个字向量进行相加得到词的向量表示;
S3-2基于S2-3中所得的关键实体短语,通过模糊匹配的方式对知识库进行检索,具体的:经过基于字向量表示的余弦相似度计算,从电力领域知识库中检索到“营业厅”、“营业网点”与关键实体相似度较高,取“营业厅”“营业网点”作为目标实体;使用目标实体在电力领域知识库中检索,获取到“更名”、“过户”、“分时电价”、“电价补贴”等实体的全部属性,生成候选属性集{“更名”、“过户”、“分时电价”、“电价补贴”...};
S3-3基于S2-3中所得的关键属性短语和S3-2中所得的候选属性集,进行相似计算并排序,取相似度最高的候选属性作为领域问句的属性,并将属性值作为答案,具体包括:
S3-3-1:基于S2-3中所得的关键属性短语和S3-2中所得的候选属性,利用S3-1中所得的字向量,对关键属性短语和候选属性集合中的每个属性分别进行向量表示;
S3-3-2:基于S3-3-1中得到的属性向量,将关键属性短语和候选属性集中的每个属性进行余弦相似度计算,得分较高的候选属性作为目标属性,经过计算,“更名”“过户”与关键属性短语“更名过户”相似度较高,最后将关键属性短语“更名过户”和相似属性“更名”、“过户”作为目标属性;
S3-3-3:基于S3-2中所得的目标实体和S3-3-2中所得的目标属性进行电力领域知识库检索,获得属性值作为答案输出,具体的,将“过户”的属性值“电表过户是指因用电地址物业权属改变,引起用电户主变更”,“更名过户”属性值“根据《供电营业规则》第二十九条规定,用户更名或过户(依法变更用户名称或居民用户房屋变更户主),应持有关证明向供电企业提出申请。供电企业应按下列规定办理:1.在用电地址、用电容量、用电类别不变条件下,允许办理更名或过户;2.原用户应与供电企业结清债务,才能解除原供用电关系;3.不申请办理过户手续而私自过户者,新用户应承担原用户所负债务。经供电企业检查发现用户私自过户时,供电企业应通知该户补办手续,必要时可中止供电”作为最后答案输出。
实施例2:
本发明实施例公开了一种电力领域知识库问答系统如图2所示,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。
优选的,该系统还括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置。
优选的,问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
优选的,该系统还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
优选的,模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特这表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
优选的,知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
优选的,检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (12)

1.一种电力领域的知识库问答方法,其特征在于,包括:
对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语;
所述关键短语识别模型的构建,包括:
基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置;
所述基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型,包括:
采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
然后利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve
利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
2.如权利要求1所述的方法,其特征在于,所述对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示,包括:
基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
3.如权利要求1或2所述的方法,其特征在于,所述词性序列包括单词词性和分隔符,所述单词词性包括:名词、助词、动词、数字、量词和字符串中的一种或几种;所述句法分析序列包括:问句中各词语之间的关系和分隔符,所述问句中各词语之间的关系包括:定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。
4.如权利要求1或2所述的方法,其特征在于,所述语料库的重构,包括:
将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
5.如权利要求1所述的方法,其特征在于,所述向量Ve的表达式如下:
Ve=concat(Vpos,Vpar)
其中,Ve为拼接向量,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量;
所述关键实体和关键属性短语起始和终止位置的概率如下式所示:
Figure FDA0003408945210000021
其中,
Figure FDA0003408945210000022
为问句的关键实体和关键属性短语的预测位置,Ve为拼接向量,Wv和be为线性层的参数;
所述交叉熵损失函数如下式所示:
Figure FDA0003408945210000031
其中,Yi是第i个问句中关键实体和关键属性短语的真实位置,
Figure FDA0003408945210000032
是第i个问句的关键实体和关键属性短语的预测位置,n为问句总数量,
Figure FDA0003408945210000033
为Yi
Figure FDA0003408945210000034
的差距值。
6.如权利要求1所述的方法,其特征在于,所述基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到所述问句答案,包括:
基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
7.如权利要求6所述的方法,其特征在于,所述基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合,包括:
使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
8.一种电力领域的知识库问答系统,其特征在于,包括:
问句表示模块,用于对获取电力领域的问句进行词性标注和句法分析,得到所述电力领域问句的问句表示;
关键实体和关键属性识别模块,用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别,得到所述电力领域问句的关键实体和关键属性短语;
知识库检索模块,用于基于所述关键实体和关键属性短语在电力领域知识库进行检索,得到问句答案;
所述关键短语识别模型包括:对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语;
还包括关键短语识别模型构建模块,所述关键短语识别模型构建模块,包括:
开放域问句处理模块,用于基于重构的语料库对多个开放域问句进行词性标注和句法分析,获得开放域问句的问句序列模板,所述问句序列模板包括:词性序列与句法分析序列;
训练数据生成模块,用于基于所述开放域问句和所述问句序列模板,获得每个开放域问句对应的关键实体和关键属性短语训练数据;
模型训练模块一,用于基于所述关键实体和关键属性短语训练数据进行训练,得到关键短语识别模型;
模型训练模块二,基于所述关键短语识别模型得到问句的关键实体和关键属性短语;
所述识别包括:确定关键实体和关键属性短语的起始和终止位置;
所述模型训练模块一,包括:
问句序列模板向量化表示模块,用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示;
特征表示模块,用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码,并输出隐向量Vpos和Vpar,其中,Vpos为词性序列对应的隐向量,Vpar为句法分析序列对应的隐向量,将所述两个隐向量进行拼接,得到向量Ve
计算模块一,用于利用一个线性层对所述向量Ve进行解码,进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率;
计算模块二,用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练,得到关键实体和关键属性短语的起始和终止位置。
9.如权利要求8所述的系统,其特征在于,所述问句表示模块,包括:
电力领域问句处理模块一,用于基于重构的语料库对电力领域的问句进行词性标注和句法分析,获得词性序列与句法分析序列;
电力领域问句处理模块二,用于将所述词性序列与句法分析序列作为问句序列模板,对所述电力领域的问句进行表示。
10.如权利要求8或9所述的系统,其特征在于,还包括语料库的重构模块,所述语料库重构模块,包括:
术语迁移词典构建模块,用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频,得到术语迁移词典;
现有语料库更新模块,用于基于术语迁移词典对自然语言处理的语料库名词进行更新,实现语料库的重构。
11.如权利要求8所述的系统,其特征在于,所述知识库检索模块,包括:
检索模块一,用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索,得到所述关键实体短语对应的候选属性短语集合;
检索模块二,用于基于所述关键属性短语和所述候选属性短语集合,将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算,将得分较高的候选属性短语的属性值作为问句答案。
12.如权利要求11所述的系统,其特征在于,所述检索模块一,包括:
字向量训练模块,用于使用中文维基百科作为训练字向量的数据集,并利用连续词袋模型进行字向量的训练;
短语向量表示模块,用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示;
相似度计算模块,用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示,通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配,将电力领域知识库中得到分数最高的实体短语作为目标实体短语,并查寻所述目标实体短语的所有属性短语,得到候选属性短语集合。
CN202010332207.4A 2020-04-24 2020-04-24 一种电力领域的知识库问答方法及系统 Active CN111651569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332207.4A CN111651569B (zh) 2020-04-24 2020-04-24 一种电力领域的知识库问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332207.4A CN111651569B (zh) 2020-04-24 2020-04-24 一种电力领域的知识库问答方法及系统

Publications (2)

Publication Number Publication Date
CN111651569A CN111651569A (zh) 2020-09-11
CN111651569B true CN111651569B (zh) 2022-04-08

Family

ID=72344470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332207.4A Active CN111651569B (zh) 2020-04-24 2020-04-24 一种电力领域的知识库问答方法及系统

Country Status (1)

Country Link
CN (1) CN111651569B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307171B (zh) * 2020-10-30 2022-02-11 中国电力科学研究院有限公司 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN113033209B (zh) * 2021-05-25 2021-09-17 腾讯科技(深圳)有限公司 文本关系抽取方法、装置、存储介质及计算机设备
CN114444488B (zh) * 2022-01-26 2023-03-24 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108345690A (zh) * 2018-03-09 2018-07-31 广州杰赛科技股份有限公司 智能问答方法与系统
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108600B2 (en) * 2016-09-16 2018-10-23 Entigenlogic Llc System and method of attribute, entity, and action organization of a data corpora
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108345690A (zh) * 2018-03-09 2018-07-31 广州杰赛科技股份有限公司 智能问答方法与系统
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进自注意力的机器阅读理解系统设计与实现;姚澜;《中国优秀硕士学位论文全文数据库》;20200315;第26-41页 *

Also Published As

Publication number Publication date
CN111651569A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
Ling et al. Integrating extra knowledge into word embedding models for biomedical NLP tasks
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114357127A (zh) 基于机器阅读理解及常用问题解答模型的智能问答方法
CN113168499A (zh) 检索专利文档的方法
CN113196277A (zh) 用于检索自然语言文档的系统
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN113392182A (zh) 融合上下文语义约束的知识匹配方法、装置、设备及介质
Dong et al. Imposing category trees onto word-embeddings using a geometric construction
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
Guo et al. Deep semantic-based feature envy identification
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
Fuchs Natural language processing for building code interpretation: systematic literature review report
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
US20220207240A1 (en) System and method for analyzing similarity of natural language data
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
Lee Natural Language Processing: A Textbook with Python Implementation
Luo Automatic short answer grading using deep learning
Kainan et al. Extraction method of judicial language entities based on regular expression
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及系统
CN117743315B (zh) 一种为多模态大模型系统提供高质量数据的方法
Li et al. STCP: An Efficient Model Combining Subject Triples and Constituency Parsing for Recognizing Textual Entailment
Hou et al. Intelligent Question Answering System Based on Knowledge Graph of Beijing Opera
Goodluck Constance et al. Resolving ambiguity in hedge detection by automatic generation of linguistic rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant