CN110457442B - 面向智能电网客服问答的知识图谱构建方法 - Google Patents
面向智能电网客服问答的知识图谱构建方法 Download PDFInfo
- Publication number
- CN110457442B CN110457442B CN201910736524.XA CN201910736524A CN110457442B CN 110457442 B CN110457442 B CN 110457442B CN 201910736524 A CN201910736524 A CN 201910736524A CN 110457442 B CN110457442 B CN 110457442B
- Authority
- CN
- China
- Prior art keywords
- answer
- knowledge graph
- question
- answers
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 238000012423 maintenance Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000012086 standard solution Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0281—Customer communication at a business location, e.g. providing product or service information, consulting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S50/00—Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
- Y04S50/14—Marketing, i.e. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Animal Behavior & Ethology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向智能电网客服问答的知识图谱构建方法,包括如下步骤:S1.使用LSTM模型对问题进行实体和断言识别,输出问题的实体和断言;S2.对实体和断言进行语义增强处理,获得匹配的增强文本,并构建本地知识图谱;S3.基于匹配的增强文本,进行答案查询,得到问题的最终答案;S4.根据用户对最终答案的满意度及知识图谱的维护成本,构造整数线性规划模型,对本地知识图谱进行更新。本发明能够达到较高的实体和断言识别准确率,自动将电网领域知识映射为本地知识图谱,快速实现服务知识库的在线更新,以较低的响应延迟实现高准确率的回答。
Description
技术领域
本发明涉及一种知识图谱构建方法,尤其涉及一种面向智能电网客服问答的知识图谱构建方法。
背景技术
伴随云计算基础设施和人工智能技术的不断成熟完善,以知识图谱(KG)为基础的智能问答系统逐渐应用在电力服务等生产环境。问答系统(QA)通过从生产系统各类数据中抽取实体、断言等语义知识,构建领域知识库,将用户提问的自然语言转化为知识库中描述的实体和断言,进而优化头实体的查询算法,提供智能问答服务。智能问答系统面向企业和个人客户,在设备日常运维、电力知识科普、突发事件应急指南等方面挖掘现有知识,为客户提供自助服务。该系统作为人工服务系统的有效补充,可以降低电网客服的人力投入和出错概率,对简单问题和经常性事件提供标准解决方案,保障服务质量,因此一个经过良好设计的智能问答系统能够以较低开销维持客户群体,对实现电网服务的信息化、自动化及智能化具有重要意义。
然而,在智能电网客服应用场景中,由于封闭性强、软硬件及对应业务更新频繁、技术栈差异大等因素导致知识图谱的构建、维护、更新存在较大的局限性。一方面,当前的知识图谱研究针对固定的训练样本,通过词法与语法切分、关联序列挖掘、问题模板分类等技术手段,能够满足有限样本空间下的自动问答需求,但不能应对电力知识图谱不断更新的场景;另一方面,现有问答系统会引入知识图谱之外的网页搜索和文档、问题检索等其他文本信息以形成开放知识库,从而扩大了所属实体和断言集合的检索空间,存在检索错误高、结果不准确等问题。
因此,为解决以上问题,需要一种面向智能电网客服问答的知识图谱构建方法,能够达到较高的实体和断言识别准确率,自动将电网领域知识映射为本地知识图谱,快速实现服务知识库的在线更新,以较低的响应延迟实现高准确率的回答。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供面向智能电网客服问答的知识图谱构建方法,能够达到较高的实体和断言识别准确率,自动将电网领域知识映射为本地知识图谱,快速实现服务知识库的在线更新,以较低的响应延迟实现高准确率的回答。
本发明的面向智能电网客服问答的知识图谱构建方法,其特征在于:包括如下步骤:
S1.获取用户输入问题,采用LSTM模型对输入问题进行实体和断言识别,并输出问题的实体和断言;
S2.对问题的实体和断言进行语义增强处理,获得与问题的实体和断言匹配的增强文本,基于与问题的实体和断言的增强文本构建本地知识图谱;
S3.基于匹配的增强文本,进行答案查询,得到问题的答案候选集,将问题的答案候选集中的答案进行排序处理,对排在首位的答案进行语义处理,得到问题的最终答案;
S4.获取用户对最终答案的评价满意度以及知识图谱的维护成本,构建差值计算模型计算评价满意度与知识图谱维护成本的差值的最大值,根据最大值对问题对应的本地知识图谱进行更新。
进一步,步骤S2中,对问题的实体和断言进行语义增强处理包括:
从问答系统中,获取文本集合;
选择基于PLSA的主题模型,并为PLSA主题模型设置模型参数;
基于文本集合,使用PLSA主题模型对模型参数进行最大似然估计处理,得到与问题的实体和断言匹配的增强文本。
进一步,步骤S3中包括:
S31.对问题的实体和断言进行答案查询,将查询到的答案作为问题的答案候选集;
S32.依据答案被选次数以及答案的余弦相似度,对答案候选集中的答案进行排序,将排在首位的答案作为原始答案;
S33.对原始答案进行语法以及词法处理,形成最终答案并反馈给用户。
进一步,通过如下方法对答案候选集中的答案进行排序:
a.统计答案j被选的次数Sj;
b.计算答案j与问题的余弦相似度Wj;
c.计算答案j与增强文本的余弦相似度Bj;
f.将候选集中的答案按照排序值从大到小的顺序排列,得到一个有序序列;
其中,j为答案候选集中的第j个答案,其中,j=1,2,3,...,N。
进一步,步骤S4中,基于用户评价满意度与知识图谱维护成本的差值的最大值对本地知识图谱进行更新的过程如下:
计算用户评价满意度与知识图谱维护成本的差值的最大值模型如下:
其中,MAX(diff)为用户评价满意度与知识图谱维护成本的差值的最大值;KGL为一段时间内每个问题对应的本地知识图谱的集合;uDi为第i个问题对应的知识图谱的更新标识,其中,i=1,2,3,...,N;uD为问题对应的知识图谱的更新结果集;uSi为用户对第i个问题对应的最终答案的满意度;tlstm为LSTM模型的处理时间;taugment为增强语义的处理时间;tquery为启发查询阶段的处理时间;M为时间缩小系数;N为时间放大系数;
调整知识图谱的更新标识uDi、时间缩小系数M以及时间放大系数N,其中知识图谱的更新标识uDi取值为0或1;
当uDi取值为0时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则本地知识图谱不更新;
当uDi取值为1时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则将当前问题的最终答案更新至本地知识图谱中。
本发明的有益效果是:本发明公开的一种面向智能电网客服问答的知识图谱构建方法,通过多种技术手段的使用,满足知识图谱构建过程中的可行性与扩展性需求,保障问答系统服务的可用性,能够达到较高的实体和断言识别准确率,自动将电网领域知识映射为本地知识图谱,快速实现服务知识库的在线更新,以较低的响应延迟实现高准确率的回答。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的方法流程图;
图2为本发明的整体设计架构图;
图3为本发明的混合领域的知识图谱智能电网问答系统实现架构图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图所示:
本发明的面向智能电网客服问答的知识图谱构建方法,其特征在于:包括如下步骤:
S1.获取用户输入问题,采用LSTM模型对输入问题进行实体和断言识别,并输出问题的实体和断言;
S2.对问题的实体和断言进行语义增强处理,获得与问题的实体和断言匹配的增强文本,基于与问题的实体和断言的增强文本构建本地知识图谱;
S3.基于匹配的增强文本,进行答案查询,得到问题的答案候选集,将问题的答案候选集中的答案进行排序处理,对排在首位的答案进行语义处理,得到问题的最终答案;
S4.获取用户对最终答案的评价满意度以及知识图谱的维护成本,构建差值计算模型计算评价满意度与知识图谱维护成本的差值的最大值,根据最大值对问题对应的本地知识图谱进行更新。
在电网中,知识图谱包括本地知识图谱和全局知识图谱,其中,本地知识图谱指的是基于电网领域内的问题以及答案所形成,全局知识图谱包含本地知识图谱,还包含与电网领域相关的有些问题以及答案;因此,当对本地知识图谱基于上述方法进行了更新后,也就对全局知识谱图进行了相应的更新。
具体地,问题的实体和断言识别如下:
所述LSTM模型主要采用了双向连接的循环网络层(RNN-Layer)和一个注意力层(A-Layer),即是构成了LSTM识别层,识别层中首先进行分词操作,将一个长度为L的问题作为输入,根据预定义好的词典和处理工具,将L个元素映射为输入词向量{xj},j=1,...,L,然后使用双向LSTM学习前向隐状态序列和后向隐状态序列根据如下现有的计算公式得到后向序列
其中,fj,ij,oj分别代表遗忘门、输入门以及输出门激活向量;cj是单元状态向量;σ是sigmoid函数;tanh是双切余弦函数;o代表Hadamard乘积。
在词向量{xj},j=1,...,L中,第jth个词的注意力权重表示为αj,根据现有计算过程,得到如下公式:
qj=tanh(WT[xj;hj]+bq);
其中,αj为注意力权重;xj为特定词;WT为权重矩阵;bq为偏置项;qj为输入的问题;
权重矩阵WT和偏置项bq的设置都是基于电网客服智能问答系统在实施阶段人工标注的训练数据集(包含问题和答案),具有人工标注的分类,通过注意力权重αj、状态序列hj以及特定词xj形成一个隐藏状态sj=[xj;αjhj],权重连接层计算这个隐藏状态sj得到针对第jth个词的输出rj∈Rd×1,对rj进行求和,并计算均值最后输出目标向量,拼装为实体/断言的输出。如公式所示:
通过上述步骤,充分利用简单问题中的语序和关键词汇等文本信息,能够避免传统实体或断言的查找方法(语义分析及手工标注等)在本场景下的低识别率问题,从而达到精确识别的效果。
本实施例中,步骤S2中,在HDKG-QA(混合领域的知识图谱问答系统)中选择两类文本:一类是图数据集V,对应构建知识图谱训练集的问题及答案;另外一类是以LSTM模型处理用户提问得到的实体/断言作为查询条件,使用各系统已有的基础查询接口,进行查询,得到各系统查询的结果集合D,该结果集合是一种无格式文本;通过引入这两类文本,对实体/断言的查询结果进行文本特征刻画;其中,混合领域的知识图谱问答系统是指包括电网领域以及与电网相关联的其他领域在内的多领域知识图谱问答系统。
基于现有的PLSA(概率潜语义分析)主题模型对问题的实体和断言进行处理,从各个电网系统中获取知识图谱外部的文本集合,在N篇文本构成的查询结果集合D中,每一个集合中的文本di∈{d1,...,dN}由多个未被观测到的主题变量zk∈{z1,...,zK}构成,每个主题变量有多个不同的词汇wj∈{w1,...,wM}。
通常来说,知识图谱中的一个实体e∈V,如果属于一个特定问题及对应答案的主题,它所连接的其他尾实体也有很大概率属于同一主题,我们通过如下公式来表达这种关系Rv(Dp):
以上式子实质上定义了知识图谱和查询结果集合D的最小二乘损失。
其中表示结果集中的一部分和知识图谱的匹配程度;P(zk|eh)为实体所对应的主题分布概率,P(zk|di)为文本所对应的主题分布概率,这两个概率计算都可以使用最大期望算法;w(eh|et)代表在知识图谱中一对头尾实体相连的权重,可以通过如下公式来确定权重:其中,为两个实体通过特定语义关系相连的概率,两个实体相连具有不同的路径,例如电表可以通过嗡嗡响的状态判断是否合格,也可以根据质量表现判断是否合格;
基于关系公式Rv(Dp)对PLSA(概率潜语义分析)主题模型的相应模型参数做最大似然估计分析,得到主题偏向性的最大似然估计L'rp:L'rp=-(1-λ)L(Dp)+λRv(Dp),
其中,L(Dp)为对Dp的似然估计;λ为偏向参数,如果λ=0,最小化L'rp就等同于最大可能性主题对应的结果集;反之,如果λ=1,最小化L'rp等于选择和现有知识图谱中实体/断言对应主题分布最相近的结果集;通过设置恰当的λ值(例如:0.5),可以充分利用外部文本和知识图谱的两类语义知识。
从而从结果集中得到与实体/断言匹配的增强文本,根据匹配的增强文本,将对应的领域知识映射为本地知识图谱,支撑服务知识库的线上更新,完成对本地知识图谱的构建,将每次问答中构造的本地知识图谱合与全局知识图谱进行合并,实现语义知识的动态扩充。
本实施例中,步骤S3中包括:
S31.获取每次问答中构造的本地知识图谱和全局知识图谱的合并结果,根据合并结果,对实体和断言的匹配增强文本进行答案搜索查询,得到匹配答案,将所有的匹配答案作为答案候选集;
S32.对答案候选集使用启发式规则进行查询,具体是,根据问题特征和知识图谱状态,将候选集中的答案被用户选中次数和候选集中的答案与问题及增强文本的余弦相似度作为排序条件,依据排序条件,使用快速排序算法,对候选集中的答案进行排序,得到答案的降序序列,将排在首位的答案作为原始答案;其中,排序规则不增加排序算法的时间复杂度,只作为排序的依据。
候选答案被选次数:通过记录每个知识图谱的查询结果被做成最优答案的次数和文本的丰富程度,作为一个重要的候选排序指标。统计历史系统的问题及答案的过程中,电网客服的问题呈现出相对聚集的特征,针对“设备异常”、“紧急服务”以及“简单自查”等常规场景下有较多问题,答案也相近,由此可以归纳为一个最优答案,而被多次引用,为候选答案历史计数提供可能,从而通过统计答案被用户选中次数的多少来排序。
候选答案余弦相似度:问题的提出与回答上下文,涉及到问题本身Qi、增强语义的查询结果Aj以及每个候选答案Ck三个文本,最优答案往往和问题及增强语义具有一定的相似性,通过将三类文本中的每个词汇同样映射为词向量{xj},j=1,...,L,分别计算候选答案Ck和其他两类文本的向量余弦相似度,将与其他两类文本的向量余弦相似度之和也作为一个排序指标。
S33.对原始答案进行语法以及词法的拼装处理,形成问题对应的最终答案并反馈给用户。
本实施例中,通过如下方法对答案候选集中的答案进行排序:
a.统计答案候选集中的答案j被用户选中过的次数,并将次数标记为Sj;
b.使用现有的余弦相似度计算方法,计算答案候选集中的答案j与对应问题的余弦相似度,并将该余弦相似度标记为Wj;
c.同步骤b,计算答案候选集中的答案j与对应增强文本的余弦相似度,并将该余弦相似度标记为Bj;
f.使用快速排序算法对答案候选集中的答案进行排序,得到一个排序值从大到小的降序序列;
其中,j为答案候选集中的第j个答案,其中,j=1,2,3,...,N。
本实施例中,步骤S4中,使用整数线性规划模型(ILP)将用户满意度和相应时间依次进行量化和归一化,判断每一个问题对应的知识图谱是否需要更新,具体地,基于用户评价满意度与知识图谱维护成本的差值的最大值对本地知识图谱进行更新的过程如下:
计算用户评价满意度与知识图谱维护成本的差值的最大值模型如下:
其中,MAX(diff)为用户评价满意度与知识图谱维护成本的差值的最大值;KGL为一段时间内每个问题对应的本地知识图谱的集合;uDi为第i个问题对应的知识图谱的更新标识,是一个简单的符号函数,如果更新对应的KGi就设置为1,否则置为0,其中,i=1,2,3,...,N;uD为问题对应的知识图谱的更新结果集;uSi为用户对第i个问题对应的最终答案的满意度,其中,具体表示用户打分分数,在系统内测阶段鼓励用户实际打分;tlstm,taugment,tquery分别代表在LSTM、增强语义以及启发查询阶段的处理时间,通过时间来衡量存储维护成本;M代表时间缩小系数,N代表时间放大系数,在不同系统配置下进行相应调整。
通过设置整数线性规划模型的时间放大系数M、时间缩小系数N以及定期更新时间间隔,完成对整数线性规划模型自身参数的初始化,并启动定时器,定时器自动检测到当前时间已经到达时间间隔时,启动对本地知识图谱的更新操作。通过遍历间隔内所有问题及对应答案以及各个问题回答过程中每个步骤的运行处理时间,来构造整数线性规划模型的输入数据和相关约束,通过整数线性规划模型,寻找用户评价满意度与知识图谱维护成本的差值的最大值作为最优解,根据最优解中的更新标识,当uDi取值为0时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则本地知识图谱不更新;当uDi取值为1时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则将当前问题的最终答案更新至本地知识图谱中,并将更新结果合并到全局知识图谱中,最优解能够最大化用户满意度和最小化知识图谱的维护成本。通过上述优化策略,达到定期更新本地知识图谱,以较低的响应延迟支持高质量服务的目的。
以下对本发明涉及到的一种混合领域知识的知识图谱智能电网问答系统进行阐述,如下:
此系统的整体架构分为入口层、资源接入层、知识图谱(KG)模型服务层以及遗留资源层等四个核心层次,通过多层次的业务组织实现系统对新技术的接入和旧系统的兼容。
该系统涉及的相关系统和组件采用微服务方式进行组织,能够有效兼容各类现有系统和其他系统,实现不同技术栈的整合,利用相关的功能实施和技术选型如下所示:
(1)入口层:知识问答和其他系统采用同一个流量入口,采用统一的LDAP身份认证进行权限管理,实现多个系统的集成管理,避免资源使用混乱和其他安全性问题。
(2)知识图谱(KG)模型服务层:以微服务架构组织上述的关键技术及对应实现,其中LSTM在线服务组件接入可以独立伸缩的TensorFlow集群;增强语义查询器同样使用遗留系统的抽象接口进行数据交换,避免复杂的交互逻辑和适配代码;本地KG构建器接入中文词法处理中的主流工具Jieba,实现分词等语义操作;定期更新进程与Neo4j图数据库进行交互,自身实现ILP求解器和数据库操作的解耦,本层是关键技术实现的核心。
(3)资源接入层:对应主流的分布式系统解决方案,包括分析计算框架、数据库以及其他资源调度器,且只与KG模型服务层通过标准Restful接口进行交互,同时兼顾业务开发和系统性能,避免与特定平台或技术绑定。
(4)遗留资源层:本层只通过唯一的反射服务适配转发组件实现与遗留系统的交互,所有的适配代码不扩散,避免链接中断以及事件推送机制不一致导致的异常传播,同时也可最大限度地保障遗留系统在业务层面的安全性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种面向智能电网客服问答的知识图谱构建方法,其特征在于:包括如下步骤:
S1.获取用户输入问题,采用LSTM模型对输入问题进行实体和断言识别,并输出问题的实体和断言;
S2.对问题的实体和断言进行语义增强处理,获得与问题的实体和断言匹配的增强文本,基于与问题的实体和断言的增强文本构建本地知识图谱;
S3.基于匹配的增强文本,进行答案查询,得到问题的答案候选集,将问题的答案候选集中的答案进行排序处理,对排在首位的答案进行语义处理,得到问题的最终答案;
S4.获取用户对最终答案的评价满意度以及知识图谱的维护成本,构建差值计算模型计算评价满意度与知识图谱维护成本的差值的最大值,根据最大值对问题对应的本地知识图谱进行更新;
基于用户评价满意度与知识图谱维护成本的差值的最大值对本地知识图谱进行更新的过程如下:
计算用户评价满意度与知识图谱维护成本的差值的最大值模型如下:
其中,MAX(diff)为用户评价满意度与知识图谱维护成本的差值的最大值;KGL为一段时间内每个问题对应的本地知识图谱的集合;uDi为第i个问题对应的知识图谱的更新标识,其中,i=1,2,3,...,N;uD为问题对应的知识图谱的更新结果集;uSi为用户对第i个问题对应的最终答案的满意度;tlstm为LSTM模型的处理时间;taugment为增强语义的处理时间;tquery为启发查询阶段的处理时间;M为时间缩小系数;N为时间放大系数;
调整知识图谱的更新标识uDi、时间缩小系数M以及时间放大系数N,其中知识图谱的更新标识uDi取值为0或1;
当uDi取值为0时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则本地知识图谱不更新;
当uDi取值为1时得到用户评价满意度与知识图谱维护成本的差值的最大值时,则将当前问题的最终答案更新至本地知识图谱中。
2.根据权利要求1所述的面向智能电网客服问答的知识图谱构建方法,其特征在于,步骤S2中,对问题的实体和断言进行语义增强处理包括:
从问答系统中,获取文本集合;
选择基于PLSA的主题模型,并为PLSA主题模型设置模型参数;
基于文本集合,使用PLSA主题模型对模型参数进行最大似然估计处理,得到与问题的实体和断言匹配的增强文本。
3.根据权利要求1所述的面向智能电网客服问答的知识图谱构建方法,其特征在于,步骤S3中包括:
S31.对问题的实体和断言进行答案查询,将查询到的答案作为问题的答案候选集;
S32.依据答案被选次数以及答案的余弦相似度,对答案候选集中的答案进行排序,将排在首位的答案作为原始答案;
S33.对原始答案进行语法以及词法处理,形成最终答案并反馈给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910736524.XA CN110457442B (zh) | 2019-08-09 | 2019-08-09 | 面向智能电网客服问答的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910736524.XA CN110457442B (zh) | 2019-08-09 | 2019-08-09 | 面向智能电网客服问答的知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457442A CN110457442A (zh) | 2019-11-15 |
CN110457442B true CN110457442B (zh) | 2022-04-26 |
Family
ID=68485756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910736524.XA Active CN110457442B (zh) | 2019-08-09 | 2019-08-09 | 面向智能电网客服问答的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457442B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090735B (zh) * | 2019-12-25 | 2023-03-10 | 成都航天科工大数据研究院有限公司 | 一种基于知识图谱的智能问答方法的性能评价方法 |
CN111143539B (zh) * | 2019-12-31 | 2023-06-23 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111159356B (zh) * | 2019-12-31 | 2023-06-09 | 重庆和贯科技有限公司 | 基于教学内容的知识图谱构建方法 |
CN111680163A (zh) * | 2020-04-21 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种面向电力科技成果的知识图谱可视化方法 |
CN111950840A (zh) * | 2020-06-19 | 2020-11-17 | 国网山东省电力公司 | 一种计量检定装置智能运维知识检索方法及系统 |
CN111737491B (zh) * | 2020-06-19 | 2023-07-21 | 中国建设银行股份有限公司 | 一种交互过程的控制方法、装置、存储介质及设备 |
CN112749262B (zh) * | 2020-07-24 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、电子设备及存储介质 |
CN112115234A (zh) * | 2020-09-28 | 2020-12-22 | 中国银行股份有限公司 | 一种问题库分析方法和装置 |
CN112883151A (zh) * | 2021-01-25 | 2021-06-01 | 济南浪潮高新科技投资发展有限公司 | 一种智能问答实现方法及一种智能问答系统 |
CN112836123B (zh) * | 2021-02-03 | 2021-11-16 | 电子科技大学 | 一种基于知识图谱的可解释推荐系统 |
CN113486161A (zh) * | 2021-05-27 | 2021-10-08 | 中国电子科技集团公司电子科学研究院 | 基于特殊领域知识图谱的智能语义检索系统 |
CN113254624B (zh) * | 2021-07-07 | 2021-09-28 | 中国平安人寿保险股份有限公司 | 基于人工智能的智能问答处理方法、装置、设备及介质 |
CN113821607A (zh) * | 2021-11-25 | 2021-12-21 | 佛山众陶联供应链服务有限公司 | 一种建筑陶瓷知识库管理方法及系统 |
CN114996419A (zh) * | 2022-05-09 | 2022-09-02 | 成都数之联科技股份有限公司 | 武器装备的智能问答方法、装置、电子设备及存储介质 |
CN115168603B (zh) * | 2022-06-27 | 2023-04-07 | 天翼爱音乐文化科技有限公司 | 一种彩铃业务流程自动反馈应答方法、装置及存储介质 |
CN115599899B (zh) * | 2022-11-08 | 2023-04-07 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 |
CN116341990B (zh) * | 2023-05-29 | 2023-08-04 | 中交第四航务工程勘察设计院有限公司 | 一种基础设施工程的知识管理评价方法及系统 |
CN117151122B (zh) * | 2023-10-30 | 2024-03-22 | 湖南三湘银行股份有限公司 | 基于自然语言处理的银行客服会话问答处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649550A (zh) * | 2016-10-28 | 2017-05-10 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
CN107908738A (zh) * | 2017-11-15 | 2018-04-13 | 昆明能讯科技有限责任公司 | 基于电力专业词库的企业级知识图谱搜索引擎的实现方法 |
CN109543043A (zh) * | 2018-05-10 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
CN109766478A (zh) * | 2019-01-08 | 2019-05-17 | 浙江财经大学 | 语义增强的大规模多元图简化可视化方法 |
-
2019
- 2019-08-09 CN CN201910736524.XA patent/CN110457442B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649550A (zh) * | 2016-10-28 | 2017-05-10 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
CN107908738A (zh) * | 2017-11-15 | 2018-04-13 | 昆明能讯科技有限责任公司 | 基于电力专业词库的企业级知识图谱搜索引擎的实现方法 |
CN109543043A (zh) * | 2018-05-10 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
CN109766478A (zh) * | 2019-01-08 | 2019-05-17 | 浙江财经大学 | 语义增强的大规模多元图简化可视化方法 |
Non-Patent Citations (2)
Title |
---|
Open domain question answering via semantic enrichment;Sun H等;《Proceedings of the 24th international conference on world wide web》;20151231;正文第1045-1055页 * |
基于知识图谱技术的电力设备缺陷记录;刘梓权等;《电力系统自动化》;20180612;正文第158-163页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110457442A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457442B (zh) | 面向智能电网客服问答的知识图谱构建方法 | |
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN110807091B (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
US10817782B1 (en) | Methods and systems for textual analysis of task performances | |
CN109447266B (zh) | 一种基于大数据的农业科技服务智能分拣方法 | |
CN109635083B (zh) | 一种用于搜索ted演讲中话题式查询的文档检索方法 | |
JP7111154B2 (ja) | 回答選択装置、回答選択方法、回答選択プログラム | |
CN102298576A (zh) | 文档关键词生成方法和装置 | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
CN108874783A (zh) | 电力信息运维知识模型构建方法 | |
CN110659357B (zh) | 一种基于本体语义相似度的地理知识问答系统 | |
Schapire et al. | Boosting with prior knowledge for call classification | |
CN109614473A (zh) | 应用于智能交互的知识推理方法及装置 | |
CN109359302A (zh) | 一种领域化词向量的优化方法及基于其的融合排序方法 | |
CN112115242A (zh) | 一种基于朴素贝叶斯分类算法的智能客服问答系统 | |
CN117390497B (zh) | 基于大语言模型的类目预测方法、装置和设备 | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Kolenikov | Updates to the ipfraking ecosystem | |
Tian et al. | User intention recognition and requirement elicitation method for conversational ai services | |
CN107589936A (zh) | 基于需求文本与可变性模型追踪关系的产品线可变性配置优化方法 | |
Karpagam et al. | A mobile based intelligent question answering system for education domain | |
CN110929528B (zh) | 对语句情感分析的方法、装置、服务器及存储介质 | |
Liu et al. | Dialogue-based continuous update of user portraits | |
CN114662488A (zh) | 词向量生成方法和设备、计算设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |