CN116975313B - 一种基于电力物资语料的语义标签生成方法和装置 - Google Patents

一种基于电力物资语料的语义标签生成方法和装置 Download PDF

Info

Publication number
CN116975313B
CN116975313B CN202311236935.5A CN202311236935A CN116975313B CN 116975313 B CN116975313 B CN 116975313B CN 202311236935 A CN202311236935 A CN 202311236935A CN 116975313 B CN116975313 B CN 116975313B
Authority
CN
China
Prior art keywords
electric power
power material
corpus
initial
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311236935.5A
Other languages
English (en)
Other versions
CN116975313A (zh
Inventor
赵恒�
陶加贵
刘建军
韩飞
丁一
尤伟
汪伦
戴建卓
宋思齐
张思聪
陈昱彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202311236935.5A priority Critical patent/CN116975313B/zh
Publication of CN116975313A publication Critical patent/CN116975313A/zh
Application granted granted Critical
Publication of CN116975313B publication Critical patent/CN116975313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于电力物资语料的语义标签生成方法和装置,方法具体包括:获取并分析电力物资语料的内容,确定电力物资语料的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资知识图谱的组织结构层;基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层;建立组织结构层与语料数据层之间的映射关系,形成电力物资的知识图谱;结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。基于信息提取、词嵌入、知识映射等构建高质量、可靠、领域知识丰富的基础语料,结合建库规则,构建电力物资语料语义标签,为精准质量检测评价奠定了数据基础。

Description

一种基于电力物资语料的语义标签生成方法和装置
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于电力物资语料的语义标签生成方法和装置。
背景技术
目前,在电力物资检储配管控过程中,出现设备家族缺陷难以发现和供应商评价不准确等问题。在物资质量管理数据分析层面,现有的供应商评价技术多依靠人工干预和基于统计的方法,存在效率低、数据价值挖掘不充分等特征。
当前,已开展有语义库和知识图谱的物资相似性的相关研究。例如,专利CN116304726A一种基于语义库和知识图谱的物资相似性分析方法,包括以下步骤:S1:判断两个物资的决定性属性是否相似,若其中任一个决定性属性不相似,则两个物资为非重码物资,否则进入S2;S2:根据非决定性属性权重及每个字段的距离计算字段部分的相似度;S3:结合所有知识图谱路径和权重值计算图谱部分的相似度;S4:将字段部分的相似度和图谱部分的相似度相加获得最终物资相似度,通过最终物资相似度判断两个物资是否为高相似度。该方案提供的物资相似性分析方法优化相似度算法的准确性。
然而,针对电力物资语料仍缺乏多特征量多维度物资数据的有效分析模型。
因此,如何基于现场质量检测与设备生产运维数据开展相应的智能化技术研究,以获得适应电力物资的语料语义标签是本领域技术人员亟待解决的问题。
发明内容
针对上述现有技术中存在的缺陷,本发明提供了一种基于电力物资语料的语义标签生成方法和装置,基于信息提取、词嵌入、知识映射、融合更新、知识推理等技术构建成高质量、可靠、领域知识丰富的基础语料,基于标准化处理所得的质量检测数据,结合电力物资领域专家经验与自动化建库规则,融合电力物资语料标注数据集,构建电力物资语料语义标签。为开展知识引导的电力物资质量检测评价技术研究,实现电力物资数据高效多元融合、精准质量检测评价奠定了数据基础。
第一方面,本发明提供一种基于电力物资语料的语义标签生成方法,具体包括如下步骤:
获取并分析电力物资语料的内容,确定电力物资语料的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资知识图谱的组织结构层;
基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层;
建立组织结构层与语料数据层之间的映射关系,形成电力物资的知识图谱;
结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。
进一步的,基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层,具体包括如下步骤:
基于组织结构层,对电力物资语料进行要素实体分类、要素实体识别及要素实体间关系抽取,生成要素实体抽取的事实表达;
根据要素实体的事实表达,通过实体消歧及共指消解处理,进行要素实体融合消解;
对融合消解后的要素实体进行质量及时效评估,更新、修正要素实体,生成电力物资知识图谱的语料数据层。
进一步的,对电力物资语料进行要素实体分类,具体包括:
采用标记语言对电力物资语料进行结构化标注及初步语义标注;
基于电力物资的分词规则,进行电力物资语料的文本分词;
其中,电力物资的分词规则,具体包括:
以具有真实物理含义的词为语义单元,结合电力物资领域词典,细分成最小可识别的语义单元。
进一步的,对电力物资语料进行要素实体识别,具体包括:
采用融合反馈机制的卷积神经网络,对电力物资语料中要素实体进行边界划定和类别区分;
其中,融合反馈机制的卷积神经网络设置反馈层,反馈层将卷积神经网络高层的字词信息实时反馈至低层,动态调整低层中注意力机制模块的权重;卷积神经网络提取电力物资语料中的字符及候选词特征,使用注意力机制模块对提取的字符和候选词进行合并,对合并后的字符和候选词进行数字化处理,生成电力物资文本词向量;根据电力物资文本词向量,对电力物资语料中要素实体进行边界划定和类别区分。
进一步的,对电力物资语料进行要素实体间关系抽取,具体包括:
结合对电力物资语料的要素实体分类和要素实体识别,基于动态语义标签抽取模型,判断要素实体之间的关联关系,进行语义标签抽取,得到包含电网实体、属性名和属性值的三元组。
进一步的,建立组织结构层与语料数据层之间的映射关系,具体包括:建立组织结构层中电力物资语料的类别定义、实体类型定义及实体间关系类型定义与语料数据层中包含电网实体、属性名和属性值的三元组之间的映射关系。
进一步的,结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系,具体包括如下步骤:
对候选电力物资语料通过要素频率匹配,提取标签关键词,计算标签关键词权重值;
以权重值超过预设阈值的标签关键词为初始标签,形成初始标签列表;
将初始标签列表中的各个初始标签与电力物资语料要素的知识图谱进行初始标签映射,扩展初始标签,生成候选标签;
组合不同的候选标签,并计算余弦相似度之和最小的组合,生成电力物资的语义标签,构建电力物资的语义标签体系。
进一步的,计算标签关键词权重值,具体表示为:
其中,为标签关键词a的权重值,/>为标签关键词a的要素频率,/>为在候选电力物资语料中的出现频率,N为电力物资语料的文本总数,/>为出现标签关键词a的文本总数。
进一步的,将初始标签列表中的各个初始标签与电力物资语料的知识图谱进行初始标签映射,扩展初始标签,生成候选标签,具体表示为:
采用平替方式及包容方式,对初始标签与知识图谱进行映射,其中,平替方式通过计算初始标签的相似度进行融合映射,具体表示为:
为初始标签a的向量矩阵,/>为a的第i个字符串向量,n为a的字符串总数,/>为初始标签b的向量矩阵,/>为b的第j个字符串向量,m为b的字符串总数,L为候选电力物资语料的向量,/>为初始标签a与初始标签b的相似度;
包容方式通过比较不同初始标签之间的相似度,确定初始标签的包容度,进行融合映射;
获取初始标签的上位概念词及上位概念词向量,通过分别比较上位概念词与初始标签及初始标签所在连通图的余弦相似度,确定扩展初始标签,其中,上位概念词与初始标签的余弦相似度及上位概念词与初始标签所在连通图的余弦相似度,分别表示为;
为上位概念词k与初始标签a的余弦相似度,/>为上位概念词k的向量矩阵,/>为上位概念词k与初始标签a所在连通图I的余弦相似度,/>为连通图I中的某个初始标签,/>为连通图I中初始标签的总数;
对扩展初始标签进行评估筛选,生成候选标签,具体表示为:
其中,为初始标签l的评估分,/>为初始标签l与初始标签l所在连通图I的余弦相似度,/>为初始标签l在初始标签l所在连通图I中的关注度系数,/>为评估筛选权重,/>为初始标签l的关注度,/>为连通图I中初始标签的关注度最小值,/>为通图I中初始标签的关注度最大值。
第二方面,本发明还提供一种基于电力物资语料的语义标签生成装置,采用如上述基于电力物资语料的语义标签生成方法,具体包括:
采集分析模块,用于获取并分析电力物资语料要素的内容,确定电力物资语料要素的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资语料知识图谱的组织结构层;基于组织结构层,对电力物资语料要素进行处理,生成电力物资语料知识图谱的语料数据层;
构建模块,用于建立组织结构层与语料数据层之间的映射关系,形成电力物资语料的知识图谱;结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。
本发明提供的一种基于电力物资语料的语义标签生成方法和装置,至少包括如下有益效果:
(1)本发明融入多模型输出语义标签,针对电力领域图像识别、语义分析、深度识别等多类模型的检测识别结果,如语义标签等数据,将其融入知识图谱,为电力领域实体间隐形关系、隐性知识挖掘提供丰富的数据基础。
(2)本发明嵌入电力领域专家经验知识,促使领域知识图谱与现有专家数据库有机融合,从主客观两方面提升知识图谱的精准度。
附图说明
图1为本发明提供的一种基于电力物资语料的语义标签生成方法的流程示意图;
图2为本发明提供的动态语义标签抽取模型的结构示意图;
图3为本发明提供的构建电力物资的语义标签体系的流程示意图;
图4为本发明提供的一种基于电力物资语料的语义标签生成装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
由于电力物资语料要素广泛来源于传统的电力知识工程系统、专家经验知识库等结构化数据与电力标准、制度、法律、法规以及专家、技术人员的经验等结构化数据,涉及的业务领域较为广泛。
按照复用程度的差异可以将其划分为电力物资通用语料,例如电力设备的常规参数包括名称、电压等级、容量等等,和电力物资专用语料,例如电费、电价等相对专用的信息,两个部分。然而,通常情况下,电力物资通用语料与电力物资专用语料之间的界限往往是模糊的,实际操作时需要根据实际业务进行统计分析以判定通用、专用知识之间的边界,以上情况增大了多特征量多维度物资数据的有效分析,不利于开展知识引导的电力物资质量检测评价。
因而,如图1所示,本发明给出一种基于电力物资语料的语义标签生成方法,具体包括如下步骤:
获取并分析电力物资语料的内容,确定电力物资语料的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资知识图谱的组织结构层;
基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层;
建立组织结构层与语料数据层之间的映射关系,形成电力物资的知识图谱;
结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。
考虑到电力物资语料的核心内容相对固定,并且通过进一步细分可以形成类型多样的非结构化信息。因此,在本发明的电力物资语料的知识图谱构建时采用从上到下与从下到上相结合的方式。
电力物资知识图谱的组织结构层用于对电力物资语料中各个要素、要素之间的关系以及要素的属性进行描述。在构建过程中,通过对构成复杂、类型多样的各类电力物资语料的内容进行详细分析,挑选出电力物资语料要素中具备典型意义的物资语料要素概念类型与相关的属性,以及根据物资语料要素概念之间关系,形成电力物资语料数据库。
基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层,具体包括如下步骤:
基于组织结构层,对电力物资语料进行要素实体分类、要素实体识别及要素实体间关系抽取,生成要素实体抽取的事实表达;
根据要素实体的事实表达,通过实体消歧及共指消解处理,进行要素实体融合消解;
对融合消解后的要素实体进行质量及时效评估,更新、修正要素实体,生成电力物资知识图谱的语料数据层。
电力物资知识图谱的语料数据层的构建大致可以分为要素实体抽取、要素实体融合消解、以及要素实体更新补充3个步骤。其中,要素实体抽取是在电力物资语料知识图谱的组织结构层的基础上,从结构化(非/半)数据中获取要素实体、要素实体间关系以及要素实体属性等结构化内容;融合消解是对抽取所得到的要素实体进行实体消歧和共指消解处理;要素实体更新则是在知识图谱的应用过程中,不断对其中要素实体的质量与时效性进行评估,并进行更新和修正,以确保构建出的知识图谱能够满足电力物资领域实际需求。
对电力物资语料进行要素实体分类,具体包括:
根据所使用电力物资语料要素的特点,采用标记语言对电力物资语料进行结构化标注及初步语义标注;
在对电力物资语料要素文本进行结构化标注时,纯文本数据本身不包含明确的结构信息,例如章节分割、内容的分割等,或者该信息难以通过匹配的方式进行准确获取,同时文本中不同的段落所描述的内容在项目中具有不同的作用,需要予以区别。基于上述考虑以及所使用电力物资语料要素的特点,在文本预处理的基础上,使用标记语言对纯文本数据进行结构化标注及初步语义标注,以支持后续工作对语料库的不同需求。
基于电力物资的分词规则,进行电力物资语料的文本分词;
其中,电力物资的分词规则,具体包括:
以具有真实物理含义的词为语义单元,结合电力物资领域词典,细分成最小可识别的语义单元。
电力物资领域的中文文本形式多样、表意丰富,使用时许多词在不同语境中有不同的划分标准,对于词组在不同语境中又会有不同的组合。此外,某些含义丰富的词组可能包含多个具有独立含义的词,对于这些词如何划分才能既满足业务需求又减少分词时的冲突歧义,这就需要在进行中文分词前制定统一的分词标准。
对于电力物资领域的文本,目前并没有相关的分词标准,但分词是后续语义解析的基础,如若没有统一的分词标准,在处理大量文本时往往会出现歧义和矛盾。
本发明通过结合电力物资文本自身特点及其应用时所依赖的物理环境设计了一套切实可用的电力物资领域的分词规则,即通过尽量细分成最小的可识别的语义单元以减少分词的不确定性及由于歧义需要重新拆分词的现象,例如,像“接消弧线圈母线接地变开关”这种含义丰富的词语,可以细分成“接消弧线圈”、“母线”、“接地”、“变开关”,在分词后依据组合词词典结合业务需求重新组合。
对电力物资语料进行要素实体识别,是对电力物资语料中具有特定含义的要素实体进行边界划定和类别区分,例如,设备(比如变电站、输电线)、指标(比如电压、电流、额定功率等电力指标)、动作(比如升压、指标状态变化等处理方式)、数量(比如电力物资设备的数值、规模等)、权值(比如电力物资设备的重要程度)、属性(比如电压/电流等级、电力设备容量等)等等。电力物资语料属于特定领域的内容,因而在进行要素实体识别时应充分考虑电力物资语料要素的特点。具体包括:
采用融合反馈机制的卷积神经网络,对电力物资语料中要素实体进行边界划定和类别区分;
其中,融合反馈机制的卷积神经网络设置反馈层,反馈层将卷积神经网络高层的字词信息实时反馈至低层,动态调整低层中注意力机制模块的权重;卷积神经网络提取电力物资语料中的字符及候选词特征,使用注意力机制模块对提取的字符和候选词进行合并,对合并后的字符和候选词进行数字化处理,生成电力物资文本词向量;根据电力物资文本词向量,对电力物资语料中要素实体进行边界划定和类别区分。
电力物资语料中的字符、候选词特征提取,可以选用的堆叠窗口大小为2。
由于卷积神经网络CNN的层次结构,低层的CNN无法引用高层CNN中的信息对错误的候选词的权重进行调整,不能很好地处理候选词冲突,因此通过引入反馈机制,向每个CNN层增设反馈层,通过削减错误候选词的权重以达到解决候选词冲突的目的。
在卷积神经网络进行要素实体边界划定和类别区分时,采用词嵌入技术(WordEmbedding)来生成词向量。该技术用于将语言中的词进行数字化,即把词转化为向量,通过降低词向量的维度避免维度灾难,解决向量稀疏的问题以及降低计算复杂度和训练过程中的难度。词嵌入技术是将切分好的单词转化为计算机能够理解的词向量,即将词表示成向量,目前,常用的词向量表示方法主要有Onehot Representation、N-gram、分布式表示(Distributed Representation)、共现矩阵等。作为最简单的词向量表示方法One-hotRepresentation的缺点主要表现在任意两个单词的词向量都是正交的,无法反映单词之间的语义相似度以及词库太大,导致维度过高,这样会严重妨碍神经网络学习稀疏特征。Distributed Representation相较于One-hot Representation 前者可以考虑当前语境下的上下文信息,可以更好的表述词与词之间的相似度,可以提供更加丰富且有语义信息的词向量。
对电力物资语料进行要素实体间关系抽取,具体包括:
结合对电力物资语料的要素实体分类和要素实体识别,基于动态语义标签抽取模型,判断要素实体之间的关联关系,进行语义标签抽取,得到包含电网实体、属性名和属性值的三元组。
建立组织结构层与语料数据层之间的映射关系,具体包括:
建立组织结构层中电力物资语料的类别定义、实体类型定义及实体间关系类型定义与语料数据层中包含电网实体、属性名和属性值的三元组之间的映射关系。
如图2所示,本发明使用双向门控循环结构并引入注意力机制以提高动态语义标签抽取模型训练速度的同时,将参数数量控制在了相对较小的范围。通过引入注意力机制,找到对关系分类起决定作用的字符,学习得到相关权重,通过赋予这些字符更高的权重以提高要素实体间关系抽取的准确率。静态语义标签抽取采取实体-关系抽取框架,即先利用实体识别技术识别出属性值描述,再利用关系分类技术得到包含“电网实体”、“属性名”和“属性值”的三元组。动态语义标签识别采用文本多标签分类技术,具体实现为BiLSTM+Attention的模型结构。模型中间层与关系抽取采用的网络相同,包括了模型的输入、输出以及多标签分类器。
通过以上要素实体分类、要素实体识别及要素实体间关系抽取后,得到要是实体的事实表达,之后需要进行实体消歧及共指消解处理。其中,实体消歧指的是对可能存在多种含义的实体(例如,“电网”可能指输电、配电的各种装臵和设备、变电所、电力线路或电缆的组合,也可能带电的防护设施)进行区分。通过实体消歧将具有相同含义和指代的名词和代词在知识图谱中进行合并。此外,在电力物资语料中存在较多的共指问题,对于这种情况,需要对这些存在共指问题的要素进行缺省名词补全:首先,编写正则表达式找出存在名词缺省的句子与实体的结尾,根据要素实体识别的结果确定缺省要素实体的边界后再编写规则自动补全实体。
对要素实体进行更新和修正指的是在知识图谱构建过程中和构建完成之后均需要持续地更新,以保证其中图谱中各个知识点的时效性。所述更新和修正包括电力物资语料知识图谱的组织结构层和语料数据层两种不同的方式:
(1)组织结构层的更新是指新增的电力物资语料要素中出现了当前组织结构层中没有的概念时,则根据新增的电力物资语料要素对组织结构层中的文本类型、实体类型、关系类型进行更新;
(2)语料数据层的更新是指新增的电力物资语料要素中没有增加新的概念时,对新增的电力物资语料要素进行要素实体分类、要素实体识别、要素实体间关系抽取后更新到原有的知识图谱中。
除此之外,语料数据层的更新还包括在专业人员的协助下,对知识图谱中各知识点的时效性以及质量进行测评,删除其中失效的知识点。
在具体应用中,例如,在输电架空线路工程物料中,使用输电架空线路工程台账、物料清单等业务数据以及相关标准文档,根据专业人员的经验以及规则,人工构建了覆盖设备、部件、部位、描述、等信息在内的输电架空线路工程物料的基础组织架构,然后进行知识提取,专家对提取结果进行审核抽象后,自底向上形成一套知识数据架构。该知识数据架构与基础组织架构融合形成输电架空线路工程物料知识架构。基于该知识架构,采用Bi-LSTM-CRF、Bi-GRU-CRF等算法,实现自底而上式的图谱构建。
通过上述方法即完成了电力物资知识图谱的构建,其中,电力物资语料要素是构建知识图谱的基石,基于信息提取、词嵌入、知识映射、融合更新、知识推理技术构建电力物资语料要素的知识图谱,为语义标签体系的建立提供依据。
在完成了电力物资语料的知识图谱构建之后,如图3所示,结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系,具体包括如下步骤:
对候选电力物资语料通过要素频率匹配,提取标签关键词,计算标签关键词权重值;
以权重值超过预设阈值的标签关键词为初始标签,形成初始标签列表;
将初始标签列表中的各个初始标签与电力物资语料要素的知识图谱进行初始标签映射,扩展初始标签,生成候选标签;
组合不同的候选标签,并计算余弦相似度之和最小的组合,生成电力物资的语义标签,构建电力物资的语义标签体系。
计算标签关键词权重值,具体表示为:
其中,为标签关键词a的权重值,/>为标签关键词a的要素频率,/>为在候选电力物资语料中的出现频率,N为电力物资语料的文本总数,/>为出现标签关键词a的文本总数。
将初始标签列表中的各个初始标签与电力物资语料的知识图谱进行初始标签映射,扩展初始标签,生成候选标签,具体表示为:
采用平替方式及包容方式,对初始标签与知识图谱进行映射,其中,平替方式通过计算初始标签的相似度进行融合映射,具体表示为:
为初始标签a的向量矩阵,/>为a的第i个字符串向量,n为a的字符串总数,/>为初始标签b的向量矩阵,/>为b的第j个字符串向量,m为b的字符串总数,L为候选电力物资语料的向量,/>为初始标签a与初始标签b的相似度;
包容方式通过比较不同初始标签之间的相似度,确定初始标签的包容度,进行融合映射;
包容关系标签映射是使用语义识别来判断各个初始标签之间的相互包容性的内在联系。当计算的相互包容性满足预设阈值时,可以得出两个初始标签之间存在包容关系。
获取初始标签的上位概念词及上位概念词向量,通过分别比较上位概念词与初始标签及初始标签所在连通图的余弦相似度,确定扩展初始标签,余弦相似度的数值越大表明初始标签列表中标签与上位概念词的语义越接近。
其中,上位概念词与初始标签的余弦相似度及上位概念词与初始标签所在连通图的余弦相似度,分别表示为;
为上位概念词k与初始标签a的余弦相似度,/>为上位概念词k的向量矩阵,/>为上位概念词k与初始标签a所在连通图I的余弦相似度,/>为连通图I中的某个初始标签,/>为连通图I中初始标签的总数;
当判断以及/>均满足预设条件,则确认上位概念词符合扩展要求,即为扩展初始标签,否则,放弃该上位概念词,重新确定新的上位概念词,进行扩展。
预设条件,可以表示为:
其中,Grade为上位层级的跳数。
利用连通图本身的结构,根据扩展初始标签的平均相似度和受关注度来进行排序筛选,平均相似度越大表示该扩展初始标签与连通图的语义相似度越高;受关注度越大表示概括性越强,以使得筛选出来的候选标签最能代表该连通图中的各个扩展初始标签的语义。
对扩展初始标签进行评估筛选,生成候选标签,具体表示为:
其中,为初始标签l的评估分,/>为初始标签l与初始标签l所在连通图I的余弦相似度,/>为初始标签l在初始标签l所在连通图I中的关注度系数,/>为评估筛选权重,/>为初始标签l的关注度,/>为连通图I中初始标签的关注度最小值,/>为通图I中初始标签的关注度最大值。
如图4所示,本发明还提供一种基于电力物资语料的语义标签生成装置,采用如上述基于电力物资语料的语义标签生成方法,具体包括:
采集分析模块,用于获取并分析电力物资语料要素的内容,确定电力物资语料要素的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资语料知识图谱的组织结构层;基于组织结构层,对电力物资语料要素进行处理,生成电力物资语料知识图谱的语料数据层;
构建模块,用于建立组织结构层与语料数据层之间的映射关系,形成电力物资语料的知识图谱;结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。
综上所述,本发明通过构建电力物资知识图谱与电力物资质量检测评价体系,开展基于质量检测数据的缺陷语义标签体系研究,构建基于多种类物资多缺陷的电力物资知识图谱,实现缺陷语义标签的智能生成,进而构建电力物资缺陷语义标签体系。
本发明通过开展基于语义标签的电力物资数据融合技术研究,实现电力物资台账、时序和图像数据语义标签的智能生成,通过语义标签的匹配和消歧以及基于语义标签的电力物资数据融合和快速检索等技术,开展基于语义标签的电力物资质量检测评价技术研究,基于电力物资台账数据、时序数据、图像数据语义标签体系,实现基于语义标签融合的电力物资质量智能检测评价。
本发明通过形成电力物资知识图谱与电力物资质量检测评价算法模型,为电力物资检储配管控提供模型支撑。
以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (9)

1.一种基于电力物资语料的语义标签生成方法,其特征在于,具体包括如下步骤:
获取并分析电力物资语料的内容,确定电力物资语料的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资知识图谱的组织结构层;
基于组织结构层,对电力物资语料进行处理,生成电力物资知识图谱的语料数据层,具体包括:基于组织结构层,对电力物资语料进行要素实体分类、要素实体识别及要素实体间关系抽取,生成要素实体抽取的事实表达;根据要素实体的事实表达,通过实体消歧及共指消解处理,进行要素实体融合消解;对融合消解后的要素实体进行质量及时效评估,更新、修正要素实体,生成电力物资知识图谱的语料数据层;
建立组织结构层与语料数据层之间的映射关系,形成电力物资的知识图谱,建立组织结构层与语料数据层之间的映射关系,具体包括:建立组织结构层中电力物资语料的类别定义、实体类型定义及实体间关系类型定义与语料数据层中包含电网实体、属性名和属性值的三元组之间的映射关系;
结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系;具体包括:对候选电力物资语料通过要素频率匹配,提取标签关键词,计算标签关键词权重值;以权重值超过预设阈值的标签关键词为初始标签,形成初始标签列表;将初始标签列表中的各个初始标签与电力物资语料要素的知识图谱进行初始标签映射,扩展初始标签,生成候选标签;组合不同的候选标签,并计算余弦相似度之和最小的组合,生成电力物资的语义标签,构建电力物资的语义标签体系。
2.如权利要求1所述基于电力物资语料的语义标签生成方法,其特征在于,对电力物资语料进行要素实体分类,具体包括:
采用标记语言对电力物资语料进行结构化标注及初步语义标注;
基于电力物资的分词规则,进行电力物资语料的文本分词;
其中,电力物资的分词规则,具体包括:
以具有真实物理含义的词为语义单元,结合电力物资领域词典,细分成最小可识别的语义单元。
3.如权利要求1所述基于电力物资语料的语义标签生成方法,其特征在于,对电力物资语料进行要素实体识别,具体包括:
采用融合反馈机制的卷积神经网络,对电力物资语料中要素实体进行边界划定和类别区分;
其中,融合反馈机制的卷积神经网络设置反馈层,反馈层将卷积神经网络高层的字词信息实时反馈至低层,动态调整低层中注意力机制模块的权重;卷积神经网络提取电力物资语料中的字符及候选词特征,使用注意力机制模块对提取的字符和候选词进行合并,对合并后的字符和候选词进行数字化处理,生成电力物资文本词向量;根据电力物资文本词向量,对电力物资语料中要素实体进行边界划定和类别区分。
4.如权利要求1所述基于电力物资语料的语义标签生成方法,其特征在于,对电力物资语料进行要素实体间关系抽取,具体包括:
结合对电力物资语料的要素实体分类和要素实体识别,基于动态语义标签抽取模型,判断要素实体之间的关联关系,进行语义标签抽取,得到包含电网实体、属性名和属性值的三元组。
5.如权利要求1所述基于电力物资语料的语义标签生成方法,其特征在于,计算标签关键词权重值,具体表示为:
其中,为标签关键词a的权重值,/>为标签关键词a的要素频率,/>为在候选电力物资语料中的出现频率,N为电力物资语料的文本总数,/>为出现标签关键词a的文本总数。
6.如权利要求5所述基于电力物资语料的语义标签生成方法,其特征在于,将初始标签列表中的各个初始标签与电力物资语料的知识图谱进行初始标签映射,扩展初始标签,生成候选标签,具体表示为:
采用平替方式及包容方式,对初始标签与知识图谱进行映射,其中,平替方式通过计算初始标签的相似度进行融合映射,包容方式通过比较不同初始标签之间的相似度,确定初始标签的包容度,进行融合映射;
获取初始标签的上位概念词及上位概念词向量,通过分别比较上位概念词与初始标签及初始标签所在连通图的余弦相似度,确定扩展初始标签;
对扩展初始标签进行评估筛选,生成候选标签,具体表示为:
其中,为初始标签l的评估分,/>为初始标签l与初始标签l所在连通图I的余弦相似度,/>为初始标签l在初始标签l所在连通图I中的关注度系数,为评估筛选权重,/>为初始标签l的关注度,/>为连通图I中初始标签的关注度最小值,/>为通图I中初始标签的关注度最大值。
7.如权利要求6所述基于电力物资语料的语义标签生成方法,其特征在于,平替方式通过计算初始标签的相似度进行融合映射,具体表示为:
为初始标签a的向量矩阵,/>为a的第i个字符串向量,n为a的字符串总数,为初始标签b的向量矩阵,/>为b的第j个字符串向量,m为b的字符串总数,L为候选电力物资语料的向量,/>为初始标签a与初始标签b的相似度。
8.如权利要求7所述基于电力物资语料的语义标签生成方法,其特征在于,上位概念词与初始标签的余弦相似度及上位概念词与初始标签所在连通图的余弦相似度,分别表示为;
为上位概念词k与初始标签a的余弦相似度,/>为上位概念词k的向量矩阵,/>为上位概念词k与初始标签a所在连通图I的余弦相似度,/>连通图I中的某个初始标签,/>为连通图I中初始标签的总数。
9.一种基于电力物资语料的语义标签生成装置,其特征在于,采用如权利要求1-8任一所述基于电力物资语料的语义标签生成方法,具体包括:
采集分析模块,用于获取并分析电力物资语料要素的内容,确定电力物资语料要素的类别定义、实体类型定义以及实体间关系类型定义,生成电力物资语料知识图谱的组织结构层;基于组织结构层,对电力物资语料要素进行处理,生成电力物资语料知识图谱的语料数据层;
构建模块,用于建立组织结构层与语料数据层之间的映射关系,形成电力物资语料的知识图谱;结合知识图谱,提取电力物资关键词,生成电力物资的语义标签,构建电力物资的语义标签体系。
CN202311236935.5A 2023-09-25 2023-09-25 一种基于电力物资语料的语义标签生成方法和装置 Active CN116975313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311236935.5A CN116975313B (zh) 2023-09-25 2023-09-25 一种基于电力物资语料的语义标签生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311236935.5A CN116975313B (zh) 2023-09-25 2023-09-25 一种基于电力物资语料的语义标签生成方法和装置

Publications (2)

Publication Number Publication Date
CN116975313A CN116975313A (zh) 2023-10-31
CN116975313B true CN116975313B (zh) 2023-12-05

Family

ID=88479994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311236935.5A Active CN116975313B (zh) 2023-09-25 2023-09-25 一种基于电力物资语料的语义标签生成方法和装置

Country Status (1)

Country Link
CN (1) CN116975313B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786103B (zh) * 2023-11-07 2024-10-18 任拓数据科技(上海)有限公司 一种基于电商数据和社交媒体营销内容数据建立内容标签的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN112182235A (zh) * 2020-08-29 2021-01-05 深圳呗佬智能有限公司 一种构建知识图谱的方法、装置、计算机设备及存储介质
CN112687267A (zh) * 2020-12-22 2021-04-20 同济大学 一种物联网数据语义处理系统
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法
CN116166827A (zh) * 2023-04-24 2023-05-26 北京百度网讯科技有限公司 语义标签抽取模型的训练和语义标签的抽取方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183288B2 (en) * 2010-01-27 2015-11-10 Kinetx, Inc. System and method of structuring data for search using latent semantic analysis techniques

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN112182235A (zh) * 2020-08-29 2021-01-05 深圳呗佬智能有限公司 一种构建知识图谱的方法、装置、计算机设备及存储介质
CN112687267A (zh) * 2020-12-22 2021-04-20 同济大学 一种物联网数据语义处理系统
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法
CN116166827A (zh) * 2023-04-24 2023-05-26 北京百度网讯科技有限公司 语义标签抽取模型的训练和语义标签的抽取方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Extracting triples from vietnamese text to create knowledge graph;Huong Duong To 等;《2020 12th international conference on knowledge and systems engineering》;第1-2页 *
微波知识图谱构建方法研究;杜亚军 等;《西华大学学报》;第34卷(第1期);第27-35页 *

Also Published As

Publication number Publication date
CN116975313A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN110298033B (zh) 关键词语料标注训练提取系统
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN112199511A (zh) 跨语言多来源垂直领域知识图谱构建方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN116975313B (zh) 一种基于电力物资语料的语义标签生成方法和装置
CN112035652A (zh) 一种基于机器阅读理解的智能问答交互方法及系统
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN115965020A (zh) 一种面向广域地理信息知识图谱构建的知识抽取方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114781381A (zh) 基于规则和神经网络模型融合的标准指标抽取方法
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN112270189B (zh) 一种提问式的分析节点生成方法、系统及存储介质
KR20230163983A (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
Senthil Kumar et al. A survey on recent text summarization techniques
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN115964486A (zh) 一种基于数据增强的小样本意图识别方法
CN112765314B (zh) 一种基于电力本体知识库的电力信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant