CN112765314B - 一种基于电力本体知识库的电力信息检索方法 - Google Patents

一种基于电力本体知识库的电力信息检索方法 Download PDF

Info

Publication number
CN112765314B
CN112765314B CN202011637617.6A CN202011637617A CN112765314B CN 112765314 B CN112765314 B CN 112765314B CN 202011637617 A CN202011637617 A CN 202011637617A CN 112765314 B CN112765314 B CN 112765314B
Authority
CN
China
Prior art keywords
ontology
knowledge base
text
power
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011637617.6A
Other languages
English (en)
Other versions
CN112765314A (zh
Inventor
彭泽武
万婵
杨秋勇
梁盈威
吴金铭
王海明
王柳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202011637617.6A priority Critical patent/CN112765314B/zh
Publication of CN112765314A publication Critical patent/CN112765314A/zh
Application granted granted Critical
Publication of CN112765314B publication Critical patent/CN112765314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于电力本体知识库的电力信息检索方法。将电力文本信息按照预设比例分为训练样本、验证样本和测试样本,电力本体知识库采用特定的关联匹配度算法实现电力文本的电力信息检索。本发明针对性的给出不同实体之间的联系与知识库检索结果,对于实体识别任务,具有较强的鲁棒性和较高的准确率;对于关系抽取任务,其抽取过程具有很强的适普性;对于知识库的检索任务,具有较高的准确率。

Description

一种基于电力本体知识库的电力信息检索方法
技术领域
本发明涉及,具体涉及一种基于电力本体知识库的电力信息检索方法。
背景技术
大数据时代带来的科技创新对于电力公司这种产生数据量大,数据内涵丰富的企业带来了很大的发展机遇。电力系统领域的非结构数据占比高,这类数据的价值常常不能被显式地表达出来,但是却具有巨大的潜在价值。此外,传统固化的业务查询方式难以响应灵活的数据查询需求。常出现一个急需的业务数据查询,因为系统有的查询不能支持,所以必须等待应用升级或功能完善的情况,影响了决策的及时性,也严重束缚了业务人员对信息的主动查询的需求,影响了业务人员主动灵活分析数据获取价值信息的工作。因此,科学合理地抽取电力非结构化的文本数据信息和挖掘其中深层次的抽象内涵,构建电力本体知识库,对于辅助电力科学研究和指导生产实践具有巨大的实际意义。
针对电力领域的文本挖掘与信息抽取,准确识别电力文本中的电力实体,对完成进一步的电力文本任务,比如构建电力专业领域字典、建设电力知识库、挖掘文本信息等,具有基础性的作用。在早期的实体识别研究中,其主要任务是旨在从文本中识别命名实体如人名、地名和组织机构名等。但对于不同专业领域,实体识别技术可以应用于识别文本中具有特定意义的领域实体。早期的命名实体识别任务主要是基于规则和基于统计的识别方法。得益于近些年计算机算力的发展,深度学习在命名实体识别领域效果远优于上述两种方法,所以成为了实体识别的主流研究方法。研究者们常常把命名实体识别任务规约为一种序列标注任务,对于每一个输入的字,判断其标签类别,根据类别标签判定命名实体的边界和类型。在传统机器学习方法中,条件随机场模型在序列标注上效果更好,常常与深度学习方法相结合来解决命名实体识别任务,比如Bi-LSTM-CRF、CNN-Bi-LSTM-CRF等。
在人工智能领域,本体知识库既要描述知识的特点、位置、说明等信息,最重要的是要记录本体间的关系。在电力知识领域归纳分析知识本体,需要对电网数据进行抽象分析,这部分数据除了包括传统意义上的电网调度运行、管理等结构化数据外,也包括各类非结构化数据。电网数据存在结构复杂、存储分散、多类型异构的特点,传统的关键词搜索、模糊匹配的方法已经很难满足现在电网对数据深层次分析的需求通过人工智能技术,将电网专业知识、设备信息、运行数据、管理信息进行本体建模,基于电网本体知识库运用解析结构化与非结构化数据,实现智能化的信息快速检索,是目前信息搜索领域的发展方向。
发明内容
为解决现有技术存在的问题,本发明提供了一种基于电力本体知识库的电力信息检索方法。为实现本发明的目的,本发明的技术方案如下。
一种基于电力本体知识库的电力信息检索方法,包括:
获取电力文本信息,建立电力实体的分类类别,所述分类类别用于描述电力作业的目标;
将电力文本信息按照预设比例分为训练样本、验证样本和测试样本;
将训练样本输入Bi-LSTM-CRF模型,对Bi-LSTM-CRF模型进行训练;所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF);其中,嵌入层对中文字符进行编码,将文本向量化表示;向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象特征;条件随机场层(CRF)对双向长短时记忆网络层层的输出进行处理;
采用训练后的Bi-LSTM-CRF模型对验证样本进行测试,识别电力文本的电力实体;
将电力文本的电力实体识别结果送入电力本体知识库;所述电力本体知识库包括原始语料、本体、本体关联向量;其中,原始语料表示输入的文本,原始语料经过电力文本实体识别模型之后形成本体,本体关联向量表示原始语料与本体之间的关联关系;
输入检索语句,利用本体最大关联匹配度算法,计算检索语句与本体知识库中知识的相似度;
返回根据检索语句所检索到的实体,以及检索到的原始语料。
优选的,若原始语料中存在实体时,则本体关联向量的值为1,否则为0。
优选的,双向长短时记忆网络层(Bi-LSTM)包括前向长短时记忆网络层和后向长短时记忆网络层,前向长短时记忆网络层用于融合顺序的上下文信息,后向长短时记忆网络层用于融合逆序的上下文信息,最后综合前向长短时记忆网络层和后向长短时记忆网络层的输出;前向长短时记忆网络层和后向长短时记忆网络层均包括:输入门、遗忘门、记忆门和输出门。
优选的,所述最大关联匹配度算法包括:
输入的检索语句作为问询语料输入至电力实体识别模型中去,得到本体及本体关联向量/>
计算本体关联向量与本体知识库中的每一个本体关联向量/>的Jaccard系数,所述Jaccard系数用于计算符号度量或布尔值度量的个体间的相似度;
采用如下公式计算原始语料本体关联向量的Jaccard系数:
式中表示问询语料的本体关联向量,/>表示知识库中第i条知识语料对应的本体关联向量,∩表示取交集运算,∪表示取并集运算。
依照系数从大到小对本体知识库进行排序。
优选的,当Jaccard系数大于预设阈值时,返回相对应的本体和原始语料;动态调整返回阈值,对排序好的原始语料进行抽取。
相对于现有技术,本发明的有益技术效果在于:本发明所提出的模型在训练完后,能够在极短的时间能完成实体识别的任务,因此本发明具有很高的时效性。对于电力文本数据中的电力实体特征更灵敏,能够针对性的给出不同实体之间的联系与知识库检索结果。对于实体识别任务,具有较强的鲁棒性和较高的准确率;对于关系抽取任务,其抽取过程具有很强的适普性;对于知识库的检索任务,具有较高的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为Bi-LSTM-CRF模型原理图;
图2为Bi-LSTM原理图及其细胞元结构原理图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例的基于电力本体知识库的电力信息检索方法,包括:
获取电力文本信息,建立电力实体的分类类别,所述分类类别用于描述电力作业的目标;
将电力文本信息按照预设比例分为训练样本、验证样本和测试样本;
将训练样本输入Bi-LSTM-CRF模型,对Bi-LSTM-CRF模型进行训练;所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF);其中,嵌入层对中文字符进行编码,将文本向量化表示;向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象特征;条件随机场层(CRF)对双向长短时记忆网络层层的输出进行处理;
采用训练后的Bi-LSTM-CRF模型对验证样本进行测试,识别电力文本的电力实体;
将电力文本的电力实体识别结果送入电力本体知识库;所述电力本体知识库包括原始语料、本体、本体关联向量;其中,原始语料表示输入的文本,原始语料经过电力文本实体识别模型之后形成本体,本体关联向量表示原始语料与本体之间的关联关系;
输入检索语句,利用本体最大关联匹配度算法,计算检索语句与本体知识库中知识的相似度;
返回根据检索语句所检索到的实体,以及检索到的原始语料。
示例性的,本实施例的电力信息检索方法如下:
收集专业文本数据:在电力领域内,可收集有关变电站的文本,包括变电站基础知识、技术规范和标准、运维方案等三类的文本信息。
建立电力实体的基础分类类别:根据先验专业知识,对电力领域可能出现的实体进行基础分类。电力实体的基础分类类别用于描述电力相关词汇的分类类别,该分类类别用于描述电力作业的目标。本专利中对电力实体进行了分类,具体如表1所示。
表1
类别 实体类型 实体词汇举例
1 元件 线圈
2 设备 变压器、断路器
3 设施 变电站
4 系统 配电系统
5 协议 IEC 61850
6 软件 SCADA
7 物理量 电压、电流、功率
8 定理/定律 基尔霍夫电压定律
9 现象 雷击、覆冰
10 状态/故障 短路、断线
11 操作 合闸、投切
12 角色 局长、科长、专责
13 组织 XX电网、XX供电局
14 人名 法拉第
15 时间 X年/X月/X日
16 地点 广州、深圳
针对收集来的电力文本信息进行前期的数据清洗,包括利用分词工具将常见的停用词去除,删去非必要符号等:对于步骤(1)中收集的各式各样的文本信息。首先剔除文本中包含的功能词、语气词,例如“是”、“在”、“之上”、“啊”等;之后剔除停用词词汇,例如“需要”、“可能”等;最后剔除符号,形成可供分析的原始语料库。
将电力专业文本数据进行分类,按照8:1:1分为训练样本和验证样本和测试样本,并对训练样本进行人工实体标注:本文将对电力文本进行字符级编码,对每个字符进行标注,每个字符的编号将作为训练标签。电力实体人工标注方式采用的是BIEO法,假设实体类别为A,即BA表示实体首字,IA表示中间字,EA表示尾字,如果实体长度为一个字用BB表示,如果实体长度为两个字则分别用BB,EB表示,其他实体类别依次类推,非实体用OO表示。
将训练样本输入本发明所提出的Bi-LSTM-CRF模型,通过不断调整结构参数来训练模型;本文为了提取电力文本的实体,采用的是可提取文本高度抽象特性的Bi-LSTM-CRF模型,如图1所示。
Bi-LSTM-CRF模型结构图由3部分组成:嵌入层、双向长短时记忆网络(Bi-LSTM)层和条件随机场(CRF)层。嵌入层的作用是对中文字符或词语进行编码,将文本向量化表示。Bi-LSTM层的作用是提取文本序列的抽象特征,尤其是字符或词语的上下文联系。
如图2所示,双向LSTM是常规LSTM的变体,它包括前向LSTM和后向LSTM,前向LSTM可以融合顺序的上下文信息,后向LSTM可以融合逆序的上下文信息,最后综合前向和后向LSTM的输出,可以比单LSTM更加全面的挖掘文本序列的整体隐含特征。Bi-LSTM由前向LSTM和后向LSTM组成,每个LSTM由结构一样的LSTM的细胞单元组成,它包括四个门,分别是:输入门、遗忘门、记忆门和输出门。表2总结了每个门结构的作用和数据表达及其内涵。
表2
表2中的符号含义如下:隐层状态ht-1、当前输入词Xt、遗忘门的值ft、神经元权重Wf、偏差bf、记忆门的值it、临时单元状态 输出门的值ot、隐层状态ht
Bi-LSTM的输出也可以作为预测的标签作为输出,但是仍可能会存在标签不合理的情况,比如说本不应该相邻出现的标签,却预测成相邻存在的情况。为了缓解此类情况,一般会添加一个CRF层。CRF层的作用是处理Bi-LSTM层的输出,进一步综合上下文向量的特征,使得Bi-LSTM的输出更加准确和合理化,最终输出识别结果。
把Bi-LSTM输出的上下文向量作为CRF的输入,把一个句子定义为如下序列:
X=[x1,x2,x3,...,xn]
对于一个形如以下的预测标签序列:
y=[y1,y2,y3,...,yn]
那么对于句子X预测标签y的分值可以如下计算:
其中A是分值转移矩阵,表示从字符i到字符j的转移的分值。P是Bi-LSTM的输出矩阵,Pi,j是假设从第i个字符到第j个字符作为一个命名实体的得分。对于生成的所有包含y所有可能的标签序列集合YX,可以计算得到最大分数的输出序列:
其中,最终的预测标签序列为y*
使用训练好的模型对验证样本进行测试,得出电力文本实体识别的结果。
将电力文本实体识别的结果送入电力本体知识库:该知识库由“原始语料”、“本体”、“本体关联向量”三种元素组成。
表3
原始语料 本体 本体关联向量
τ1 A/B/C/E [1 1 1 0 1]
τ2 C/D/E [0 0 1 1 1]
τ3 A/C/D [1 0 1 1 0]
表3举例了在只有5个实体的情况下,当输入3条原始语料时本体知识库的情况。其中,原始语料τ表示的是输入的文本,可以是句子,段落等。语料τ经过电力文本实体识别模型之后形成本体。因不同的语料有不同的表达方式,所以其中蕴含的本体也不同,为了表达语料中本体之间的关联关系,为接下来的匹配算法做准备,故有本体关联向量产生:
每个语料对应的本体关联向量表示的是语料中蕴含的实体之间的关系。当语料中存在某个实体时,在本体关联向量中该实体的值为1,否则为0。
(2)业务人员输入检索语句,利用本体最大关联匹配度算法,计算检索语句与本体知识库中知识的相似度。本体最大关联匹配度算法的具体流程如下:
首先将业务人员输入的检索语句作为问询语料输入至电力实体识别模型中去,得到本体及本体关联向量/>
计算与本体知识库中的每一个本体关联向量/>的Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
对于上面两个对象和/>本发明利用Jaccard系数计算它的相似性,公式如下:
式中表示问询语料的本体关联向量,/>表示知识库中第i条知识语料对应的本体关联向量,∩表示取交集运算,∪表示取并集运算。
在计算完对所有原始语料本体关联向量的Jaccard系数后,依照系数从大到小对本体知识库进行排序。
在排序完后,本发明将定义一个阈值用于返回符合条件的语料。当Jaccard系数大于该阈值时,返回相对应的本体和原始语料。通过动态调整返回阈值,对排序好的原始语料进行抽取,得出最终检索结果。根据知识库的大小,动态调整返回阈值,来达到使输出结果更合理的目的。返回阈值的初始值设定为0.5,当本体知识库中的数据量较少时,只返回Jaccard系数大于0.5的本体和原始语料,以尽可能多的返回结果,达到检索目的;当本体知识库中的数据量在逐渐增加时,将提高返回阈值,较高的返回阈值将提升检索的效率及精度,使整个检索应用更高效智能。
最终的返回结果由两个部分构成:1)根据检索语句所检索到的实体;2)根据检索语句通过最大关联匹配算法及动态抽取算法输出所检索到的原始语料。
本实施例根据实体识别的结果建立本体关联矩阵,根据矩阵中的最优匹配度检索结果,构建电力本体知识库。利用Bi-LSTM的回溯特性与时序记忆特性,挖掘文本序列的整体隐含特征,利用传统机器学习方法CRF对紧密排序问题进行“疏通”,使原有Bi-LSTM的输出结果更加准确和合理化,利用本体之间关联匹配度的本体知识库,将用户的检索问询和与知识库中的本体和原始语料相关联,快速且准确地完成用户侧的信息检索需求。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (4)

1.一种基于电力本体知识库的电力信息检索方法,其特征在于,包括:
获取电力文本信息,建立电力实体的分类类别,所述分类类别用于描述电力作业的目标;
所述电力文本信息包括变电站基础知识、技术规范和标准、运维方案三类的文本信息;
将电力文本信息按照预设比例分为训练样本、验证样本和测试样本;
将训练样本输入Bi-LSTM-CRF模型,对Bi-LSTM-CRF模型进行训练;所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF);其中,嵌入层对中文字符进行编码,将文本向量化表示;双向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象语言特征,包括文本的顺序时序特征、逆序时序特征;条件随机场层(CRF)对双向长短时记忆网络层的输出进行处理;
采用训练后的Bi-LSTM-CRF模型对验证样本进行测试,识别电力文本的电力实体;
将电力文本的电力实体识别结果送入电力本体知识库;所述电力本体知识库包括原始语料、本体、本体关联向量;其中,原始语料表示输入的文本,原始语料经过基于Bi-LSTM-CRF模型识别形成本体,本体关联向量表示原始语料与本体之间的关联关系;
输入检索语句,利用本体最大关联匹配度算法,计算检索语句与本体知识库中知识的相似度;
返回根据检索语句所检索到的实体,以及检索到的原始语料;
所述最大关联匹配度算法包括:
输入的检索语句作为问询语料输入至电力实体识别模型中去,得到本体及本体关联向量/>
计算本体关联向量与本体知识库中的每一个本体关联向量/>的Jaccard系数,所述Jaccard系数用于计算符号度量或布尔值度量的个体间的相似度;
采用如下公式计算原始语料本体关联向量的Jaccard系数:
式中,表示问询语料的本体关联向量,/>表示知识库中第/>条知识语料对应的本体关联向量,/>表示取交集运算,/>表示取并集运算;
依照系数从大到小对本体知识库进行排序。
2.根据权利要求1所述的基于电力本体知识库的电力信息检索方法,其特征在于,若原始语料中存在实体时,则本体关联向量的值为1,否则为0。
3.根据权利要求2所述的基于电力本体知识库的电力信息检索方法,其特征在于,双向长短时记忆网络层(Bi-LSTM)包括前向长短时记忆网络层和后向长短时记忆网络层,前向长短时记忆网络层用于融合顺序的上下文信息,后向长短时记忆网络层用于融合逆序的上下文信息,最后综合前向长短时记忆网络层和后向长短时记忆网络层的输出;前向长短时记忆网络层和后向长短时记忆网络层均包括:输入门、遗忘门、记忆门和输出门。
4.根据权利要求1所述的基于电力本体知识库的电力信息检索方法,其特征在于,当Jaccard系数大于预设阈值时,返回相对应的本体和原始语料;动态调整返回阈值,对排序好的原始语料进行抽取。
CN202011637617.6A 2020-12-31 2020-12-31 一种基于电力本体知识库的电力信息检索方法 Active CN112765314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011637617.6A CN112765314B (zh) 2020-12-31 2020-12-31 一种基于电力本体知识库的电力信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011637617.6A CN112765314B (zh) 2020-12-31 2020-12-31 一种基于电力本体知识库的电力信息检索方法

Publications (2)

Publication Number Publication Date
CN112765314A CN112765314A (zh) 2021-05-07
CN112765314B true CN112765314B (zh) 2023-08-18

Family

ID=75698155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011637617.6A Active CN112765314B (zh) 2020-12-31 2020-12-31 一种基于电力本体知识库的电力信息检索方法

Country Status (1)

Country Link
CN (1) CN112765314B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657103B (zh) * 2021-08-18 2023-05-12 哈尔滨工业大学 一种基于ner的非标准中文快递寄件信息识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015136B1 (en) * 2008-04-03 2011-09-06 Dynamic Healthcare Systems, Inc. Algorithmic method for generating a medical utilization profile for a patient and to be used for medical risk analysis decisioning
CN102708104A (zh) * 2011-03-28 2012-10-03 日电(中国)有限公司 对文档排序的方法和设备
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110457490A (zh) * 2019-08-15 2019-11-15 桂林电子科技大学 一种基于领域本体的语义工作流索引构造及检索方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN111651447A (zh) * 2020-06-03 2020-09-11 南京维斯德软件有限公司 一种智能建造全寿期数据处理分析管控系统
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140535B2 (en) * 2007-10-23 2012-03-20 International Business Machines Corporation Ontology-based network search engine
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015136B1 (en) * 2008-04-03 2011-09-06 Dynamic Healthcare Systems, Inc. Algorithmic method for generating a medical utilization profile for a patient and to be used for medical risk analysis decisioning
CN102708104A (zh) * 2011-03-28 2012-10-03 日电(中国)有限公司 对文档排序的方法和设备
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110457490A (zh) * 2019-08-15 2019-11-15 桂林电子科技大学 一种基于领域本体的语义工作流索引构造及检索方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN111651447A (zh) * 2020-06-03 2020-09-11 南京维斯德软件有限公司 一种智能建造全寿期数据处理分析管控系统
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Web的本体检索系统的设计与研究;孔德香等;《计算机工程》;第第34卷卷(第第14期期);第38-40页 *

Also Published As

Publication number Publication date
CN112765314A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
Chang et al. Chinese named entity recognition method based on BERT
Chen et al. Research on text sentiment analysis based on CNNs and SVM
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
She et al. Joint learning with BERT-GCN and multi-attention for event text classification and event assignment
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN112765314B (zh) 一种基于电力本体知识库的电力信息检索方法
Zheng et al. Named entity recognition in electric power metering domain based on attention mechanism
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
Yang et al. Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN113487194B (zh) 一种基于文本分类的电力系统调度员等级评估系统
CN115936001A (zh) 基于BERT-BiLSTM-CRF模型和注意力的电网IT运维实体识别方法及系统
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
CN113961708A (zh) 一种基于多层次图卷积网络的电力设备故障溯源方法
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法
Huang et al. Grid text classification method based on DNN neural network
CN112270185A (zh) 一种基于主题模型的文本表示方法
Jiang et al. Bidirectional LSTM-CRF models for keyword extraction in Chinese sport news
Sun et al. Ensemble Machine Learning Identification of Power Fault Countermeasure Text Considering Word String TF-IDF Feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant