CN117390139A - 基于知识图谱的变电工作票工作内容准确性评估的方法 - Google Patents
基于知识图谱的变电工作票工作内容准确性评估的方法 Download PDFInfo
- Publication number
- CN117390139A CN117390139A CN202311588712.5A CN202311588712A CN117390139A CN 117390139 A CN117390139 A CN 117390139A CN 202311588712 A CN202311588712 A CN 202311588712A CN 117390139 A CN117390139 A CN 117390139A
- Authority
- CN
- China
- Prior art keywords
- map
- work
- working
- text
- evaluating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000011156 evaluation Methods 0.000 claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract 13
- 239000013598 vector Substances 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000013499 data model Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 6
- 238000013178 mathematical model Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 3
- 238000001035 drying Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于知识图谱的变电工作票工作内容准确性评估的方法,具体基于知识图谱的方法能够自动化地分析和评估变电工作票的工作内容准确性,通过自然语言处理和机器学习技术,将工作票中的设备信息、操作步骤和工作要求等转化为可计算和可推理的形式,实现对工作内容的准确性评估,利用知识图谱的图数据库支持高效的查询和推理,快速地检索和分析与工作内容相关的知识和信息,基于知识图谱的方法实现对变电工作票的标准化和一致性评估,通过建立统一的知识模型和规则,对工作内容进行一致性检查,确保工作票中的设备信息、操作步骤和工作要求符合统一的标准和规范,根据新的数据和知识进行扩展和更新,知识图谱持续演化和完善。
Description
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于知识图谱的变电工作票工作内容准确性评估的方法。
背景技术
变电工作票是电力系统运维中的一项重要工作,用于规范和记录变电站设备的操作和维护过程。目前变电工作票的工作内容准确性评估主要依赖于人工审核和验证,耗费大量的时间和精力,人工审核容易出现疏漏和误判,导致工作内容的不准确,人工审核受到人员经验和主观因素的影响,难以实现标准化和一致性。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种基于知识图谱的变电工作票工作内容准确性评估的方法,通过变电工作票文本提供内容构建多种相关内容图谱,构建知识图谱数据模型和OWL语言模型表示变电工作票工作内容知识,建立不同层次,利用命名实体识别模型和卷积神经网络判断文本内容领域和类别,利用无线通信连接云数据库结构对建构不同知识图谱进行评估,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:包括以下步骤:
101、对变电工作票进行文本清洗,利用词频-逆文档频率算法计算关键词权重,构建工作任务的描述图谱,收集文档操作步骤描述用于构建操作步骤图谱,根据变电工作票文本提供的安全措施描述用于构建安全措施图谱,根据变电工作票文本提供的质量要求和验收标准描述,构建质量要求和验收标准的图谱,利用词嵌入模型以及余弦相似度方法审核所有构建图谱;
102、基于图谱结构建立数学模型表示变电工作票工作内容知识,将多个三元组组合在一起,构建知识图谱数据模型,基于描述概念、实体和两者关系建立用于定义本体的形式化OWL语言模型;
103、根据每个实体的多个属性,按照不同层次进行分类和组织,建立图谱实体属性层次,将相关的实体归纳相应的概念,建立图谱概念层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,建立图谱关联关系层次;
104、调用步骤101中的分词操作,利用命名实体识别模型对文本进行标注,提取输入变电工作票工作内容知识相关特征,利用卷积神经网络模型判断变电工作票工作内容知识所属领域和类别;
105、对建构不同知识图谱进行评估,包括工作任务描述图谱、操作步骤图谱、安全措施图谱和质量要求及验收标准图谱的评估,根据图谱评估模块需求利用无线通信连接云数据库结构,存储知识图谱的数据。
在一个优选地实施方式中,步骤101中,对变电工作票进行文本清洗,所述文本清洗包括去除文本中的非文本字符和停用词,统一文本中的大小写,利用HTML标签去除文本中的噪声数据,进行词干化和词形还原,构建变电工作票工作内容知识图谱,具体包括以下步骤:
步骤1:工作任务描述图谱:解析工作任务文本,利用自然语言处理技术分割语义单元,所述自然语言处理技术包括分词工具、语法语义分析和文本分类,利用词频-逆文档频率算法计算关键词权重,提取工作任务文本关键词、短语和句子作为任务节点,所述词频-逆文档频率算法具体公式为:
其中TF-IDF(t)表示关键期权重,Tt表示词t在文档中出现的次数,C表示文档中总词数,S表示文档总数,St表示包含词t的文档数,分析文本中的句子和上下文信息,识别任务之间的依赖关系,连接任务节点和任务关系边,构建工作任务的描述图谱,利用图表形式表示,其中任务节点作为图的节点,任务关系边作为图的边。
步骤2:操作步骤图谱:收集文档操作步骤描述,根据操作步骤描述,顺序排列表示步骤的每一个节点,利用图形标注节点编号,根据描述中的先后顺序和关联关系,步骤描述中存在条件分支和循环的特殊情况时,标注关系类型,利用不同线表示方法连接步骤节点,所述不同线表示方法包括直线、虚线和折线,构建操作步骤图谱。
步骤3:安全措施图谱:根据变电工作票文本提供的安全措施描述,确定主要的安全措施并列为图谱的节点,根据不同措施之间的关系和依赖关系,建立图谱相应的关系连接,包括某个措施是另一个措施的前置条件及依赖项,利用箭头表示相应关系,利用不同标签标记不同类型安全措施,包括物理安全措施、技术安全措施和操作规程,添加适当的标签,解释该措施的具体内容和实施方法,利用不同颜色区分安全措施不同优先级。
步骤4:质量要求及验收标准图谱:根据变电工作票文本提供的质量要求和验收标准描述,确定图谱节点,构建质量要求和验收标准的图谱,标记不同类型的质量要求和验收标准,添加标准节点要求标签,解释标签具体内容和评估方法,包括标签内容的描述和相关指标,通过度量指标定量测量评估。
步骤5:审核所有构建图谱,检查图谱节点和步骤的完整性,根据变电工作票文本相关关系验证线表示的顺序关系和表述清晰,判断图谱布局清晰程度和遗漏点,利用词嵌入模型转换图谱和原始变电工作票文本为向量表示,所述词嵌入模型为Word2Vec方法,将图谱和原始变电工作票文本中所有词语的向量进行加权平均值计算,得到整体的向量表示,所述加权平均值具体计算公式为
其中M表示整体向量,wi表示词语向量对应权重,vi表示词语向量,n表示词语向量个数,Tt表示词t在文档中出现的次数,C表示文档中总词数,利用余弦相似度方法,比较图谱中的解释标签内容向量和原始变电工作票文本向量之间的相似度,所述余弦相似度方法具体计算公式为:
其中CS表示余弦相似度,ui表示第i个向量分量,vi表示第i个向量分量,根据相似度计算结果,分级不一致程度,包括完全一致、高度一致、部分一致、完全不一致。
在一个优选地实施方式中,步骤102中,基于图谱结构建立数学模型表示变电工作票工作内容知识,通过将多个三元组组合在一起,构建具有丰富语义关联的知识图谱数据模型,所述三元组包括实体概念标识符作为主体表示节点、属性和关系作为谓词表示边、与主体相关联的实体、概念、属性值作为宾语表示另外节点,所述知识图谱数据模型具体公式为:
RFD=f(S,P,R)
其中RFD表示三元组数据,S表示主体,P表示谓词,R表示宾语,f(x)表示主语与宾语之间通过谓语建立的函数关系,基于描述概念、实体和两者关系建立用于定义本体的形式化OWL语言模型,提供丰富的语义表达能力,利用OWL通过子类和超类的关系描述概念之间的层次关系,通过定义属性的特性,包括属性的域和范围,支持推理规则和语义约束,进行逻辑推理和验证知识图谱的一致性,通过应用推理规则,推断隐藏的关联关系,通过语义约束,检测逻辑错误和不一致性;
优选地,所述建立OWL语言模型为:
步骤1:确定建立的OWL语言模型的领域和目标,有助于更好地定义概念、属性和关系;
步骤2:根据确定的领域和目标,使用OWL的类、属性和关系定义本体的结构,包括定义概念的层次结构、属性的特性以及实体之间的关系;
步骤3:使用OWL的实例化机制创建本体实例,包括具体的实体、属性和关系的集合;
步骤4:通过添加语义约束增强模型的语义明确性和推理能力,使用OWL的推理规则推断隐藏的关联关系。
在一个优选地实施方式中,步骤103中,根据每个实体的多个属性,按照不同层次进行分类和组织,建立图谱实体属性层次,将相关的实体归纳相应的概念,形成树形的图谱结构,建立图谱概念层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,建立图谱关联关系层次,具体包括以下步骤:
步骤1:建立图谱实体属性层次,根据每个实体的多个属性,按照不同层次进行分类和组织,包括工作内容基本属性、任务描述属性、安全注意事项属性和执行时间属性,工作内容基本属性包括工作票编号、工作票类型、所属变电站的基本信息描述,任务描述属性包括工作票的具体任务和操作步骤,安全注意事项属性包括记录执行工作内容的安全事项和预防措施,执行时间属性包括描述工作内容的开始时间、结束时间,以及工作持续的时间长度。
步骤2:建立图谱概念层次,将相关的实体归纳相应的概念,形成树形的图谱结构,通过父子关系描述实体之间的分类关系,根据概念的层次结构扩展查询范围,提供推理和知识推断基础,通过分析和比较概念层次,发现实体之间的关联和相似性。
步骤3:建立图谱关联关系层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,包括同义词关系、反义词关系、近义词关系,提供全面的语义信息,描述实体之间的上下位关系,进行分类和层次化的组织,利用关联关系网络,描述实体之间的复杂语义关系,帮助进行推理和知识挖掘。
在一个优选地实施方式中,步骤104中,调用步骤101中的分词操作,利用命名实体识别模型对文本进行标注,提取输入变电工作票工作内容知识相关特征,包括词性、上下文信息、词频,利用条件随机场作为框架,使用标注数据集对模型进行训练,所述命名实体识别模型具体公式为:
其中,P(Y|X)表示输入变电工作票工作内容知识相关特征的条件概率,f(yi-1,yi,X)表示输出序列中的第(i-1)个元素和第(i)个元素的特征函数,Z(X)表示规范化因子,n表示标注数据集的个数,用于使条件概率满足概率分布的性质,通过优化模型参数准确标记和提取命名实体,计算模型的准确率评估模型性能,利用卷积神经网络模型判断变电工作票工作内容知识所属领域和类别,所述卷积神经网络模型中卷积运算公式为:
其中ηk表示卷积层,k表示卷积核的个数,表示卷积核参数,θ表示偏置参数,x表示卷积,λ表示激活函数。
在一个优选地实施方式中,步骤105中,对建构不同知识图谱进行评估,包括工作任务描述图谱、操作步骤图谱、安全措施图谱和质量要求及验收标准图谱的评估,根据图谱评估模块需求利用无线通信连接云数据库结构,存储知识图谱的数据,具体包括以下步骤:
步骤1:对工作任务描述图谱检查图谱中是否包含了所有必要的工作任务描述,确认每个任务相应的描述,针对每个任务描述,检查是否涵盖关键细节,比较图谱中的任务描述与实际工作任务的要求,检查任务描述之间的一致性,比较不同任务描述之间的文本格式、词汇选择和语法结构。
步骤2:根据实际需求,验证每个步骤的准确性和正确性,评估云数据库中操作步骤图谱,比较操作步骤图谱中的步骤与实际操作步骤的一致性,检查流程中是否包含必要的先决条件和后续步骤,确保整个流程的完整性和连贯性。
步骤3:检查图谱中是否包含了所有必要的安全措施,包括身份认证、访问控制、数据加密、日志监控,检查安全措施图谱中的措施是否完整,是否覆盖了各个方面的安全需求,包括网络安全、数据安全、身份认证和授权管理,评估安全措施的实施难度和可行性。
步骤4:检查图谱中的质量要求和验收标准是否明确具体,验收标准指导项目实施和结果评估,评估质量要求和验收标准的可测量性和可衡量性,评估质量要求和验收标准的可衡量程度。
本发明在工作中,基于知识图谱的方法能够自动化地分析和评估变电工作票的工作内容准确性,通过自然语言处理和机器学习技术,将工作票中的设备信息、操作步骤和工作要求等转化为可计算和可推理的形式,实现对工作内容的准确性评估,利用知识图谱的图数据库支持高效的查询和推理,快速地检索和分析与工作内容相关的知识和信息,基于知识图谱的方法实现对变电工作票的标准化和一致性评估,通过建立统一的知识模型和规则,对工作内容进行一致性检查,确保工作票中的设备信息、操作步骤和工作要求符合统一的标准和规范,根据新的数据和知识进行扩展和更新,知识图谱持续演化和完善。
附图说明
图1为本发明的系统流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明如图1所示,基于知识图谱的变电工作票工作内容准确性评估的方法,具体包括以下步骤:
101、对变电工作票进行文本清洗,利用词频-逆文档频率算法计算关键词权重,分析文本中的句子和上下文信息,识别任务之间的依赖关系,构建工作任务的描述图谱,收集文档操作步骤描述用于构建操作步骤图谱,根据变电工作票文本提供的安全措施描述用于构建安全措施图谱,根据变电工作票文本提供的质量要求和验收标准描述,构建质量要求和验收标准的图谱,利用词嵌入模型以及余弦相似度方法审核所有构建图谱;
进一步的,构建知识图谱模块对变电工作票进行文本清洗,所述文本清洗包括去除文本中的非文本字符和停用词,统一文本中的大小写,利用HTML标签去除文本中的噪声数据,进行词干化和词形还原,构建变电工作票工作内容知识图谱,具体包括以下步骤:
步骤1:工作任务描述图谱:解析工作任务文本,利用自然语言处理技术分割语义单元,所述自然语言处理技术包括分词工具、语法语义分析和文本分类,利用词频-逆文档频率算法计算关键词权重,提取工作任务文本关键词、短语和句子作为任务节点,所述词频-逆文档频率算法具体公式为:
其中TF-IDF(t)表示关键期权重,Tt表示词t在文档中出现的次数,C表示文档中总词数,S表示文档总数,St表示包含词t的文档数,分析文本中的句子和上下文信息,识别任务之间的依赖关系,连接任务节点和任务关系边,构建工作任务的描述图谱,利用图表形式表示,其中任务节点作为图的节点,任务关系边作为图的边。
步骤2:操作步骤图谱:收集文档操作步骤描述,根据操作步骤描述,顺序排列表示步骤的每一个节点,利用图形标注节点编号,根据描述中的先后顺序和关联关系,步骤描述中存在条件分支和循环的特殊情况时,标注关系类型,利用不同线表示方法连接步骤节点,所述不同线表示方法包括直线、虚线和折线,构建操作步骤图谱。
步骤3:安全措施图谱:根据变电工作票文本提供的安全措施描述,确定主要的安全措施并列为图谱的节点,根据不同措施之间的关系和依赖关系,建立图谱相应的关系连接,包括某个措施是另一个措施的前置条件及依赖项,利用箭头表示相应关系,利用不同标签标记不同类型安全措施,包括物理安全措施、技术安全措施和操作规程,添加适当的标签,解释该措施的具体内容和实施方法,利用不同颜色区分安全措施不同优先级。
步骤4:质量要求及验收标准图谱:根据变电工作票文本提供的质量要求和验收标准描述,确定图谱节点,构建质量要求和验收标准的图谱,标记不同类型的质量要求和验收标准,添加标准节点要求标签,解释标签具体内容和评估方法,包括标签内容的描述和相关指标,通过度量指标定量测量评估。
步骤5:审核所有构建图谱,检查图谱节点和步骤的完整性,根据变电工作票文本相关关系验证线表示的顺序关系和表述清晰,判断图谱布局清晰程度和遗漏点,利用词嵌入模型转换图谱和原始变电工作票文本为向量表示,所述词嵌入模型为Word2Vec方法,将图谱和原始变电工作票文本中所有词语的向量进行加权平均值计算,得到整体的向量表示,其加权平均值具体计算公式为
其中M表示整体向量,wi表示词语向量对应权重,vi表示词语向量,n表示词语向量个数,Tt表示词t在文档中出现的次数,C表示文档中总词数,利用余弦相似度方法,比较图谱中的解释标签内容向量和原始变电工作票文本向量之间的相似度,所述余弦相似度方法具体计算公式为:
其中CS表示余弦相似度,ui表示第i个向量分量,vi表示第i个向量分量,根据相似度计算结果,分级不一致程度,包括完全一致、高度一致、部分一致、完全不一致。
102、基于图谱结构建立数学模型表示变电工作票工作内容知识,将多个三元组组合在一起,构建知识图谱数据模型,基于描述概念、实体和两者关系建立用于定义本体的形式化OWL语言模型;
进一步的,基于图谱结构建立数学模型表示变电工作票工作内容知识,通过将多个三元组组合在一起,构建具有丰富语义关联的知识图谱数据模型,所述三元组包括实体概念标识符作为主体表示节点、属性和关系作为谓词表示边、与主体相关联的实体、概念、属性值作为宾语表示另外节点,所述知识图谱数据模型具体公式为:
RFD=f(S,P,R)
其中RFD表示三元组数据,S表示主体,P表示谓词,R表示宾语,f(x)表示主语与宾语之间通过谓语建立的函数关系,基于描述概念、实体和两者关系建立用于定义本体的形式化OWL语言模型,提供丰富的语义表达能力,利用OWL通过子类和超类的关系描述概念之间的层次关系,通过定义属性的特性,包括属性的域和范围,支持推理规则和语义约束,进行逻辑推理和验证知识图谱的一致性,通过应用推理规则,推断隐藏的关联关系,通过语义约束,检测逻辑错误和不一致性;
优选地,所述建立OWL语言模型为:
步骤1:确定建立的OWL语言模型的领域和目标,有助于更好地定义概念、属性和关系;
步骤2:根据确定的领域和目标,使用OWL的类、属性和关系定义本体的结构,包括定义概念的层次结构、属性的特性以及实体之间的关系;
步骤3:使用OWL的实例化机制创建本体实例,包括具体的实体、属性和关系的集合;
步骤4:通过添加语义约束增强模型的语义明确性和推理能力,使用OWL的推理规则推断隐藏的关联关系。
103、根据每个实体的多个属性,按照不同层次进行分类和组织,建立图谱实体属性层次,将相关的实体归纳相应的概念,建立图谱概念层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,建立图谱关联关系层次;
进一步的,具体包括以下步骤:
步骤1:建立图谱实体属性层次,根据每个实体的多个属性,按照不同层次进行分类和组织,包括工作内容基本属性、任务描述属性、安全注意事项属性和执行时间属性,工作内容基本属性包括工作票编号、工作票类型、所属变电站的基本信息描述,任务描述属性包括工作票的具体任务和操作步骤,安全注意事项属性包括记录执行工作内容的安全事项和预防措施,执行时间属性包括描述工作内容的开始时间、结束时间,以及工作持续的时间长度。
步骤2:建立图谱概念层次,将相关的实体归纳相应的概念,形成树形的图谱结构,通过父子关系描述实体之间的分类关系,根据概念的层次结构扩展查询范围,提供推理和知识推断基础,通过分析和比较概念层次,发现实体之间的关联和相似性。
步骤3:建立图谱关联关系层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,包括同义词关系、反义词关系、近义词关系,提供全面的语义信息,描述实体之间的上下位关系,进行分类和层次化的组织,利用关联关系网络,描述实体之间的复杂语义关系,帮助进行推理和知识挖掘。
104、调用步骤101中的分词操作,利用命名实体识别模型对文本进行标注,提取输入变电工作票工作内容知识相关特征,利用卷积神经网络模型判断变电工作票工作内容知识所属领域和类别;
进一步的,调用步骤101中的分词操作,利用命名实体识别模型对文本进行标注,提取输入变电工作票工作内容知识相关特征,包括词性、上下文信息、词频,利用条件随机场作为框架,使用标注数据集对模型进行训练,所述命名实体识别模型具体公式为:
其中,P(Y|X)表示输入变电工作票工作内容知识相关特征的条件概率,f(yi-1,yi,X)表示输出序列中的第(i-1)个元素和第(i)个元素的特征函数,Z(X)表示规范化因子,n表示标注数据集的个数,用于使条件概率满足概率分布的性质,通过优化模型参数准确标记和提取命名实体,计算模型的准确率评估模型性能,利用卷积神经网络模型判断变电工作票工作内容知识所属领域和类别,所述卷积神经网络模型中卷积运算公式为:
其中ηk表示卷积层,k表示卷积核的个数,表示卷积核参数,θ表示偏置参数,x表示卷积,λ表示激活函数。
105、对建构不同知识图谱进行评估,包括工作任务描述图谱、操作步骤图谱、安全措施图谱和质量要求及验收标准图谱的评估,根据图谱评估模块需求利用无线通信连接云数据库结构,存储知识图谱的数据。
进一步的,对建构不同知识图谱进行评估,包括工作任务描述图谱、操作步骤图谱、安全措施图谱和质量要求及验收标准图谱的评估,根据图谱评估模块需求利用无线通信连接云数据库结构,存储知识图谱的数据;图谱评估模块即用于对建构不同知识图谱进行评估。
评估具体包括以下步骤:
步骤1:对工作任务描述图谱检查图谱中是否包含了所有必要的工作任务描述,确认每个任务相应的描述,针对每个任务描述,检查是否涵盖关键细节,比较图谱中的任务描述与实际工作任务的要求,检查任务描述之间的一致性,比较不同任务描述之间的文本格式、词汇选择和语法结构。
步骤2:根据实际需求,验证每个步骤的准确性和正确性,评估云数据库中操作步骤图谱,比较操作步骤图谱中的步骤与实际操作步骤的一致性,检查流程中是否包含必要的先决条件和后续步骤,确保整个流程的完整性和连贯性。
步骤3:检查图谱中是否包含了所有必要的安全措施,包括身份认证、访问控制、数据加密、日志监控,检查安全措施图谱中的措施是否完整,是否覆盖了各个方面的安全需求,包括网络安全、数据安全、身份认证和授权管理,评估安全措施的实施难度和可行性。
步骤4:检查图谱中的质量要求和验收标准是否明确具体,验收标准指导项目实施和结果评估,评估质量要求和验收标准的可测量性和可衡量性,评估质量要求和验收标准的可衡量程度。
本发明引入基于知识图谱的方法,利用图数据库进行高效的查询和推理,通过自然语言处理和机器学习技术,自动化地分析和评估工作内容的准确性。
本发明中的公式是去除量纲取其数值计算,通过采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设比例系数由本领域的技术人员根据实际情况设定或者通过大量数据模拟获取。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:包括以下步骤;
101、对变电工作票进行文本清洗,利用词频-逆文档频率算法计算关键词权重,构建工作任务的描述图谱,收集文档操作步骤描述用于构建操作步骤图谱,根据变电工作票文本提供的安全措施描述用于构建安全措施图谱,根据变电工作票文本提供的质量要求和验收标准描述,构建质量要求和验收标准的图谱,利用词嵌入模型以及余弦相似度方法审核所有构建图谱;
102、基于图谱结构建立数学模型表示变电工作票工作内容知识,将多个三元组组合在一起,构建知识图谱数据模型,基于描述概念、实体和两者关系建立用于定义本体的形式化OWL语言模型;
103、根据每个实体的多个属性,按照不同层次进行分类和组织,建立图谱实体属性层次,将相关的实体归纳相应的概念,建立图谱概念层次,利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,建立图谱关联关系层次;
104、调用步骤101中的分词操作,利用命名实体识别模型对文本进行标注,提取输入变电工作票工作内容知识相关特征,利用卷积神经网络模型判断变电工作票工作内容知识所属领域和类别;
105、对建构不同知识图谱进行评估,包括工作任务描述图谱、操作步骤图谱、安全措施图谱和质量要求及验收标准图谱的评估,根据图谱评估模块需求利用无线通信连接云数据库结构,存储知识图谱的数据。
2.根据权利要求1所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
对变电工作票进行文本清洗,包括去除文本中的非文本字符和停用词,统一文本中的大小写,利用HTML标签去除文本中的噪声数据,进行词干化和词形还原。
3.根据权利要求2所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
构建工作任务描述图谱,包括:解析工作任务文本,利用自然语言处理技术分割语义单元,所述自然语言处理技术包括分词工具、语法语义分析和文本分类,利用词频-逆文档频率算法计算关键词权重,提取工作任务文本关键词、短语和句子作为任务节点,分析文本中的句子和上下文信息,识别任务之间的依赖关系,连接任务节点和任务关系边,构建工作任务的描述图谱,利用图表形式表示,其中任务节点作为图的节点,任务关系边作为图的边;
所述词频-逆文档频率算法具体公式为:
其中TF-IDF(t)表示关键期权重,Tt表示词t在文档中出现的次数,C表示文档中总词数,S表示文档总数,St表示包含词t的文档数。
4.根据权利要求3所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
构建操作步骤图谱,包括:收集文档操作步骤描述,根据操作步骤描述,顺序排列表示步骤的每一个节点,利用图形标注节点编号,根据描述中的先后顺序和关联关系,步骤描述中存在条件分支和循环的特殊情况时,标注关系类型,利用不同线表示方法连接步骤节点,所述不同线表示方法包括直线、虚线和折线。
5.根据权利要求4所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
构建安全措施图谱,包括:根据变电工作票文本提供的安全措施描述,确定主要的安全措施并列为图谱的节点,根据不同措施之间的关系和依赖关系,建立图谱相应的关系连接,包括某个措施是另一个措施的前置条件及依赖项,利用箭头表示相应关系,利用不同标签标记不同类型安全措施,包括物理安全措施、技术安全措施和操作规程,添加适当的标签,解释该措施的具体内容和实施方法,利用不同颜色区分安全措施不同优先级。
6.根据权利要求5所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
构建质量要求及验收标准图谱,包括:根据变电工作票文本提供的质量要求和验收标准描述,确定图谱节点,构建质量要求和验收标准的图谱,标记不同类型的质量要求和验收标准,添加标准节点要求标签,解释标签具体内容和评估方法,包括标签内容的描述和相关指标,通过度量指标定量测量评估。
7.根据权利要求6所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤101中,
审核所有构建图谱,检查图谱节点和步骤的完整性,根据变电工作票文本相关关系验证线表示的顺序关系和表述清晰,判断图谱布局清晰程度和遗漏点,利用词嵌入模型转换图谱和原始变电工作票文本为向量表示,所述词嵌入模型为Word2Vec方法,将图谱和原始变电工作票文本中所有词语的向量进行加权平均值计算,得到整体的向量表示;
所述加权平均值具体计算公式为
其中,M表示整体向量,wi表示词语向量对应权重,vi表示词语向量,n表示词语向量个数,Tt表示词t在文档中出现的次数,C表示文档中总词数,
利用余弦相似度方法,比较图谱中的解释标签内容向量和原始变电工作票文本向量之间的相似度,所述余弦相似度方法具体计算公式为:
其中CS表示余弦相似度,ui表示第i个向量分量,vi表示第i个向量分量。
8.根据权利要求1所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤102中,
所述知识图谱数据模型具体公式为:
RFD=f(S,P,R)
其中,RFD表示三元组数据,S表示主体,P表示谓词,R表示宾语,f(x)表示主语与宾语之间通过谓语建立的函数关系。
9.根据权利要求1所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤103中,
建立图谱实体属性层次,包括:根据每个实体的多个属性,按照不同层次进行分类和组织,包括工作内容基本属性、任务描述属性、安全注意事项属性和执行时间属性,工作内容基本属性包括工作票编号、工作票类型、所属变电站的基本信息描述,任务描述属性包括工作票的具体任务和操作步骤,安全注意事项属性包括记录执行工作内容的安全事项和预防措施,执行时间属性包括描述工作内容的开始时间、结束时间,以及工作持续的时间长度。
10.根据权利要求9所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤103中,
建立图谱概念层次,包括:将相关的实体归纳相应的概念,形成树形的图谱结构,通过父子关系描述实体之间的分类关系,根据概念的层次结构扩展查询范围,提供推理和知识推断基础,通过分析和比较概念层次,发现实体之间的关联和相似性。
11.根据权利要求10所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤103中,
建立图谱关联关系层次,包括:利用属性关系描述实体的基本属性,通过词汇关系描述实体之间的词汇关联,包括同义词关系、反义词关系、近义词关系,提供全面的语义信息,描述实体之间的上下位关系,进行分类和层次化的组织,利用关联关系网络,描述实体之间的复杂语义关系。
12.根据权利要求1所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤104中,
所述命名实体识别模型具体公式为:
其中,P(Y|X)表示输入变电工作票工作内容知识相关特征的条件概率,f(yi-1,yi,X)表示输出序列中的第(i-1)个元素和第(i)个元素的特征函数,Z(X)表示规范化因子,n表示标注数据集的个数;
所述卷积神经网络模型中卷积运算公式为:
其中,ηk表示卷积层,k表示卷积核的个数,表示卷积核参数,θ表示偏置参数,x表示卷积,λ表示激活函数。
13.根据权利要求1所述的基于知识图谱的变电工作票工作内容准确性评估的方法,其特征在于:步骤105中,
工作任务描述图谱评估,包括:检查图谱中是否包含了所有必要的工作任务描述,确认每个任务相应的描述,针对每个任务描述,检查是否涵盖关键细节,比较图谱中的任务描述与实际工作任务的要求,检查任务描述之间的一致性,比较不同任务描述之间的文本格式、词汇选择和语法结构;
操作步骤图谱评估,包括:根据实际需求,验证每个步骤的准确性和正确性,评估云数据库中操作步骤图谱,比较操作步骤图谱中的步骤与实际操作步骤的一致性,检查流程中是否包含必要的先决条件和后续步骤,确保整个流程的完整性和连贯性;
安全措施图谱评估,包括:检查图谱中是否包含了所有必要的安全措施,包括身份认证、访问控制、数据加密、日志监控,检查安全措施图谱中的措施是否完整,是否覆盖了各个方面的安全需求,包括网络安全、数据安全、身份认证和授权管理,评估安全措施的实施难度和可行性;
质量要求及验收标准图谱评估,包括:检查图谱中的质量要求和验收标准是否明确具体,验收标准指导项目实施和结果评估,评估质量要求和验收标准的可测量性和可衡量性,评估质量要求和验收标准的可衡量程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588712.5A CN117390139B (zh) | 2023-11-27 | 2023-11-27 | 基于知识图谱的变电工作票工作内容准确性评估的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311588712.5A CN117390139B (zh) | 2023-11-27 | 2023-11-27 | 基于知识图谱的变电工作票工作内容准确性评估的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117390139A true CN117390139A (zh) | 2024-01-12 |
CN117390139B CN117390139B (zh) | 2024-05-24 |
Family
ID=89437498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311588712.5A Active CN117390139B (zh) | 2023-11-27 | 2023-11-27 | 基于知识图谱的变电工作票工作内容准确性评估的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390139B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN114265944A (zh) * | 2021-12-27 | 2022-04-01 | 广东电网有限责任公司 | 一种基于知识图谱的电力工作票智能校验审核方法和系统 |
CN114462478A (zh) * | 2021-12-23 | 2022-05-10 | 国网江苏省电力有限公司电力科学研究院 | 一种基于特征匹配网络的小样本仪表盘图像识别方法 |
CN116737967A (zh) * | 2023-08-15 | 2023-09-12 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善系统及方法 |
CN116822625A (zh) * | 2023-05-17 | 2023-09-29 | 广西卓洁电力工程检修有限公司 | 一种发散式关联的风机设备运检知识图谱构建及检索方法 |
-
2023
- 2023-11-27 CN CN202311588712.5A patent/CN117390139B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN114462478A (zh) * | 2021-12-23 | 2022-05-10 | 国网江苏省电力有限公司电力科学研究院 | 一种基于特征匹配网络的小样本仪表盘图像识别方法 |
CN114265944A (zh) * | 2021-12-27 | 2022-04-01 | 广东电网有限责任公司 | 一种基于知识图谱的电力工作票智能校验审核方法和系统 |
CN116822625A (zh) * | 2023-05-17 | 2023-09-29 | 广西卓洁电力工程检修有限公司 | 一种发散式关联的风机设备运检知识图谱构建及检索方法 |
CN116737967A (zh) * | 2023-08-15 | 2023-09-12 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117390139B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
US7606784B2 (en) | Uncertainty management in a decision-making system | |
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
Gong et al. | A survey on dataset quality in machine learning | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN117236647B (zh) | 一种基于人工智能的岗位招聘分析方法及系统 | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
CN113761444A (zh) | 基于代码评分的教程推荐方法、教程推荐装置及终端设备 | |
CN114036531A (zh) | 一种基于多尺度代码度量的软件安全漏洞检测方法 | |
CN117271767A (zh) | 基于多智能体的运维知识库的建立方法 | |
Pence et al. | Data-theoretic approach for socio-technical risk analysis: Text mining licensee event reports of US nuclear power plants | |
Ramos-Gutiérrez et al. | A NLP-oriented methodology to enhance event log quality | |
Dave et al. | Management of implicit requirements data in large srs documents: taxonomy and techniques | |
Hosseini et al. | Ambiguity and generality in natural language privacy policies | |
CN116610592B (zh) | 基于自然语言处理技术的可定制软件测试评价方法及系统 | |
Matthews et al. | The introduction of a design heuristics extraction method | |
CN117390139B (zh) | 基于知识图谱的变电工作票工作内容准确性评估的方法 | |
Wang et al. | Knowledge management of web financial reporting in human-computer interactive perspective | |
Fumagalli et al. | Mind the gap!: Learning missing constraints from annotated conceptual model simulations | |
Lapeña et al. | Leveraging BPMN particularities to improve traceability links recovery among requirements and BPMN models | |
Tufek et al. | On the provenance extraction techniques from large scale log files | |
Restat et al. | Towards a Holistic Data Preparation Tool. | |
Airlangga et al. | Investigating Software Domain Impact in Requirements Quality Attributes Prediction. | |
CN117151117B (zh) | 电网轻量级非结构化文档内容自动识别方法、装置及介质 | |
CN114943229B (zh) | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |