CN117609519A - 一种电力碳排放计算公式中的实体关系抽取方法 - Google Patents

一种电力碳排放计算公式中的实体关系抽取方法 Download PDF

Info

Publication number
CN117609519A
CN117609519A CN202410086361.6A CN202410086361A CN117609519A CN 117609519 A CN117609519 A CN 117609519A CN 202410086361 A CN202410086361 A CN 202410086361A CN 117609519 A CN117609519 A CN 117609519A
Authority
CN
China
Prior art keywords
electric carbon
formula
carbon
electric
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410086361.6A
Other languages
English (en)
Other versions
CN117609519B (zh
Inventor
李世垚
王笳辉
岳昆
兰韵诗
李申章
赵志宇
段亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202410086361.6A priority Critical patent/CN117609519B/zh
Publication of CN117609519A publication Critical patent/CN117609519A/zh
Application granted granted Critical
Publication of CN117609519B publication Critical patent/CN117609519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及信息抽取技术领域,提供了一种电力碳排放计算公式中的实体关系抽取方法,包括以下操作方法:S1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的LaTeX序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林。针对电力碳排放计算公式的特点,本发明提出了一种电碳公式树的构建方法,针对不同的公式类型而设计的无虚拟根节点和有虚拟根节点的两类电碳公式树,增加了对电碳领域中公式型实体关系抽取的精度和效果。

Description

一种电力碳排放计算公式中的实体关系抽取方法
技术领域
本发明涉及信息抽取技术领域,具体为一种电力碳排放计算公式中的实体关系抽取方法。
背景技术
与燃煤、燃油、燃气不同,用电数据的获取更便捷、覆盖范围更广、计量精度更高,通过对用电量的分析计算得到对应的碳排放量、实现“以电看碳”,是目前备受关注的方法。
在文本实体关系抽取方面,熊盛武等(融合外部知识的生成式实体关系联合抽取方法 [J],计算机技术与发展,2023)提出了融合外部知识的生成式实体关系联合抽取方法,采用多编码器和知识注意力机制,将结构化信息和句法结构等外部知识融入模型,提升实体关系三元组的准确率。在公式抽取方面,李东方等(<一种基于神经语义解析的金融文本公式抽取方法及装置,专利CN202110571085.9>,2021)针对蕴含金融公式的自然语言描述文本,首先基于融合类别向量的编码器进行特征提取,并利用基于语法树的解码器进行解码,获取各个时间步解码器输出的构造动作。最后基于构造动作列表构造上述金融公式对应的抽象语法树,并对上述抽象语法树进行深度优先搜索,获得形式化金融公式。由于电碳文档的文本和公式中的实体关系包含大量领域知识,表现为文字或符号等不同类型,其中涉及存在关联关系的标注样本较少,进而导致三元组抽取时无法直接识别实体和关系,因此,公知的针对文本和公式的抽取方法并不能有效抽取电碳文档中公式型的实体和关系。
在与电要素相关的实体关系抽取方面,束嘉伟等(面向电力知识图谱构建的重叠实体关系联合抽取方法 [J],高电压技术,2023)通过改进的序列标注方案进行联合抽取,构建电力领域专属预训练模型PowerRoberta,并增加对抗训练,提高模型抽取电力知识的准确度和对陌生信息的预测能力。在与碳要素相关的实体关系抽取方面,王良萸(面向碳交易领域的知识图谱构建方法 [J],计算机与现代化,2018)针对碳交易领域的半结构化和非结构化数据,分别采用自定义的Web数据包装器和结合BiLSTM-CRF模型与依存句法分析的方法进行三元组抽取。电要素和碳要素之间的内在关联关系,往往包含于电力相关部门的统计数据及其说明文件、企业年报或政府及官方组织发布的相关指导性文件中。上述技术针对从电数据或碳数据中抽取实体关系,但在电要素和碳要素共存的电碳领域中,数据分布和特征可能存在较大差异,所以上述技术在同时包含电碳要素的电碳数据中难以识别与电力碳排放相关的关键要素,不能有效描述电和碳两类要素之间的内在关系,对于存在于电碳文档公式中、但缺少对应文字描述的实体关系,上述问题尤其突出,因此,公知的与电要素相关或与碳要素相关的实体关系抽取方法并不能直接用于电碳实体与电碳关系的有效抽取。
为了从包含电碳计算公式的文档中有效抽取实体和关系,克服上述公知方法的不足,本发明提出一种电力碳排放计算公式中的实体关系抽取方法。
将电力碳排放计算公式中的变量统称为电碳变量,针对不同结构类型的电力碳排放计算公式中的“计算”“正相关”、“负相关”和“约束”这4类关系的不同发现方式,设计无虚拟根节点和有虚拟根节点两种不同结构的电碳公式树,增加电碳文档中公式型实体关系抽取的精度和效果。从包含电碳变量的句子内部分词的依存关系出发,基于远程监督的思想,根据少量种子句子的句法结构抽取多数新句子中的变量解释,提高电碳变量解释抽取的效率。对于无虚拟根节点的电碳公式树,结合根节点到叶子节点的路径来抽取电碳变量之间的关系;对于有虚拟根节点的电碳公式树,按照其第三层子树来抽取电碳变量之间的关系。上述针对电力碳排放计算公式的实体关系抽取方法,可有效抽取电碳文档中的公式型实体关系。
发明内容
针对存在于电碳文档公式中、但缺少对应文字描述的实体关系,本发明提出一种电力碳排放计算公式中的实体关系抽取方法,将句法树、远程监督、逻辑运算等技术结合,实现对电碳文档中电力碳排放计算公式的实体关系抽取,为电力碳排放量核算提供技术支撑。
为实现以上目的,本发明通过以下技术方案予以实现:一种电力碳排放计算公式中的实体关系抽取方法,包括以下操作方法:
S1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的LaTeX序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林;
S2、电碳变量解释的抽取:对得到的电碳公式树进行广度优先遍历,得到电碳公式树中的所有电碳变量,再基于远程监督的思想对包含电碳变量的句子进行依存分析,并抽取电碳变量对应的解释;
S3、电碳变量间关系的抽取:根据电碳公式树中不同的公式类型,通过广度优先遍历和深度优先遍历得到电碳变量和“运算符号”组成的不同路径序列,针对不同类型的计算公式和电碳公式树中的不同路径序列,抽取电碳变量之间的关系。
优选的,所述S1具体包括:电碳文档预处理、电力碳排放计算公式结构类型的划分和不同类型电碳公式树的构建。
优选的,所述不同类型电碳公式树的构建具体包括:特殊符号判断、上下标处理、两种电碳公式树的构建、第5类电力碳排放计算公式的处理和逻辑条件公式的处理。
优选的,所述S2具体包括:电碳变量句子的获取、电碳变量句子的抽取和打分函数中参数的训练。
优选的,所述电碳变量句子的抽取具体包括:种子句子的抽取和新句子的抽取。
优选的,所述S3具体包括:无虚拟根节点的电碳公式树的处理和有虚拟根节点的电碳公式树的处理。
优选的,所述无虚拟根节点的电碳公式树的处理具体包括:电碳公式树的剪枝、获取根变量到叶子变量的路径和抽取电碳变量之间的关系。
优选的,所述有虚拟根节点的电碳公式树的处理具体包括:获取第三层子树中的叶子变量和抽取电碳变量之间的关系。
本发明提供了一种电力碳排放计算公式中的实体关系抽取方法。具备以下有益效果:
1、针对电力碳排放计算公式的特点,本发明提出了一种电碳公式树的构建方法,针对不同的公式类型而设计的无虚拟根节点和有虚拟根节点的两类电碳公式树,增加了对电碳领域中公式型实体关系抽取的精度和效果。
2、针对包含电碳变量句子的特点,本发明提出了一种基于远程监督的电碳变量解释抽取方法,通过从句子内部分词的依存关系出发,根据少量种子句子的句法结构对多数新句子进行变量解释抽取,减少大量针对电碳文档中实体关系的人工标注,有效提高了实体关系抽取的效率。
3、针对设计的电碳公式树特点,本发明提出了一种针对电碳变量的实体关系抽取方法,通过结合根节点到叶子节点的路径来抽取电碳变量之间的关系,或按照公式树的第三层子树来抽取电碳变量之间的关系,使模型可以抽取存在于电碳文档公式中、但缺少对应文字描述的实体关系,从而实现对电碳领域中公式型实体关系的抽取。
附图说明
图1:本发明的流程图;
图2:电碳公式树的节点类型图;
图3:抽取电碳变量间关系的决策树图;
图4:无虚拟根节点的电碳公式树展示图;
图5:有虚拟根节点的电碳公式树展示图;
图6:剪枝后的辅助公式树展示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种电力碳排放计算公式中的实体关系抽取方法,包括以下操作方法:
S1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的LaTeX序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林。
S1具体包括:电碳文档预处理、电力碳排放计算公式结构类型的划分和不同类型电碳公式树的构建;不同类型电碳公式树的构建具体包括:特殊符号判断、上下标处理、两种电碳公式树的构建、第5类电力碳排放计算公式的处理和逻辑条件公式的处理。
具体操作步骤如下:
对于电碳文档的处理:
首先,本发明使用单次检测器模型ScanSSD,检测并定位包含电力碳排放计算公式的电碳文档中的公式区域,得到电碳文档中所有电力碳排放计算公式的图片。
然后,本发明进一步使用开源的公式识别模型LaTeX-OCR,将电碳文档中所有公式 图片识别成对应的LaTeX序列,记为,其中,为第个公式的LaTeX序列。
对于电力碳排放计算公式结构类型的划分:
中“变量符号”“运算符号”“二元关系符号”和“集合符号” 按顺序组成的符号集,为第个公式的第个符号。由于不同电力碳排放计算公式中的 电碳变量关系不同,因此,针对电力碳排放计算公式中符号位置和数量差异显著的结构特 点,本发明将公式分为以下5类:
第1类:从左到右遍历,除“变量符号”外的第一个或最后一个符号为等号,其它都为“运算符号”或“变量符号”。该类公式含义为,除“变量符号”、只存在一个等号且等 号位于第一个符号位或最后一个符号位,其他都为“运算符号”的单行公式,例如“”或“”,位于等号两侧的电碳变量之间一定存在“计算”关系和 “正/负相关”关系,且与某些电碳变量之间可能存在“约束”关系。
第2类:从左到右遍历,除“变量符号”外的第一个或最后一个符号为除等号外的 “二元关系符号”或“集合符号”,其它都为“运算符号”或“变量符号”。该类公式含义为, 除“变量符号”,只存在一个除等号外的“二元关系符号”或“集合符号”,且该符号位于第一 个或最后一个符号位,其他都为“运算符号”的单行公式,例如“”或“”,位于“二元关系符号”或“集合符号”两侧的电碳变量之间一定存在“约束” 关系。
第3类:为“二元关系符号”,且在两侧都存在多个“运算符号”。该类公式含 义为,除“变量符号”,第一个“二元关系符号”两侧都存在多个“运算符号”的单行公式,例如 “”,位于“二元关系符号”两侧的电碳变量之间一定存在“约束”关系。
第4类:中存在多个“二元关系符号”。该类公式含义为,除“变量符号”外,存在多 个“二元关系符号”的单行公式,例如“”,根据“二元关系符号”所划分的多个 不同区域中的电碳变量之间一定存在“约束”关系。
第5类:中存在花括号。该类公式为花括号公式,例如“”,主要表现为 由多个子公式组合而成的线性规划公式,可能包含前述第1类~第4类公式。
若电碳变量中存在“自定义变量符号”或公式中有参与运算的“数字”,则统一将其归类到“变量符号”中。
对于不同类型电碳公式树的构建:
电力碳排放计算公式中存在大量的“”等“运算符号”,“”和“”等“二元关系符 号”,“”和“”等“二元运算符号”,以及存在上下标的“变量符号”,因此将电碳公式树的节 点设计为“左左子节点”“左子节点”“子节点”“右子节点”和“右右子节点”,如附图2所示。 “左左子节点”和“右右子节点”分别对应电碳变量的下标和上标,“左子节点”和“右子节点” 分别对应“”和“”等“二元运算符号”的两个作用对象,“子节点”对应“”等“运算符号”的 作用对象。根据电力碳排放计算公式的5种类别,构建两种结构的电碳公式树,第一种无虚 拟根节点的电碳公式树,可有效描述前述第1类和第2类计算公式的结构特点;第二种有虚 拟根节点的电碳公式树,可有效描述前述第3类和第4类计算公式的结构特点。而前述第5类 电力碳排放计算公式,由多个前4类公式组成,可拆分成子公式,使用两种电碳公式树分别 处理。
其中对特殊乘号判断具体包括:
首先扫描,除去存在“变量符号”和其上下标“变量符号”连续的情况,若存 在两个连续的“变量符号”未被“二元运算符号”作用,则在两 个“变量符号”中间添加乘号表示。
其中对上下标处理具体包括:
扫描,若后存在上/下标标记“^”或“_”,则将对应的上/下标内容分别作 为的“右右子节点”和“左左子节点”,上/下标内容中的多个连续,依次作为上一个 节点的“子节点”插入。若上下标内容中有多个“变量符号”,且这些“变量符号”在中仅通 过“,”连接,则将这些连续的“变量符号”看作一个整体,与单个处理方式相同。若上/下 标内容中也存在上/下标,则分别迭代进行上述操作。
其中对两种电碳公式树的构建具体包括:
对于无虚拟根节点的电碳公式树,当为“二元关系符号”或“集合符号”,且是除 “变量符号”外的最后一个符号时,整体交换前后的所有符号。将更新后的符号作为 根节点,除去上/下标内容后的其它符号依次作为上一个节点的“子节点”。当为“二元运 算符号”或“分数运算符号”时,将其作用的两个对象分别作为的“左子节点”和“右子节 点”,若在这两个作用对象中存在多个连续的符号,则分别迭代构建下一层级“左子节点”和 “右子节点”,最终得到无虚拟根节点的电碳公式树
对于有虚拟根节点的电碳公式树,创建虚拟根节点,将除去上/下标后的其它符号 中的所有“二元关系符号”记为,并将从头到尾依次作为虚拟根节点的“子 节点”,为第个公式的“二元关系符号”数量。根据所有在符号集合的位置将进行切片,得到个切片。将前个切片作为的左子树,将最后一个切片作 为的右子树,子树均按照无虚拟根节点方式构建电碳公式树,最终得到有虚拟根节点 的电碳公式树
其中对第5类电力碳排放计算公式的处理:
花括号公式主要为线性规划公式,对于线性规划公式中的花括号公式组,将花括 号公式按照对应中的“换行符号”划分为集合,其中,为第个 公式的第行子公式的第个符号。对于,按照两种电碳公式树的构建中不同电碳公式 树的类型构建电碳公式树,得到电力碳排放计算公式森林
其中对逻辑条件公式的处理具体包括:
若在中存在“”和“”等“逻辑符号”,则按照“逻辑符号”的位置,对进行切分, 得到该逻辑条件公式的“变量符号”、“运算符号”和“二元关系符号”组成的符号切片集表示第个公式的第个切片。第5类公式的切片表示为。对于,按两种电碳公式树的构建步骤中不同电碳公式树的 类型构建电碳公式树
最终得到所有电碳公式树集合中的 电碳公式树表示为
最后,本发明使用开源的光学字符识别(Optical Character Recognition,OCR) 工具Tesseract和不完整话语重写(Incomplete Utterance Rewriting, IUR)模型RUN,识 别电碳文档文字区域中的文字和符号,并补全句子,得到电碳文档句子集,其 中,为第个句子,为句子中的字符。
S2、电碳变量解释的抽取:对得到的电碳公式树进行广度优先遍历,得到电碳公式树中的所有电碳变量,再基于远程监督的思想对包含电碳变量的句子进行依存分析,并抽取电碳变量对应的解释。
S2具体包括:电碳变量句子的获取、电碳变量句子的抽取和打分函数中参数的训练;电碳变量句子的抽取具体包括:种子句子的抽取和新句子的抽取。
具体操作步骤如下:
对于电碳变量句子的获取:
基于生成的,根据电碳公式树节点的类型、结合广度优先遍历,还原公式中电碳 变量的上下标,得到电碳公式树中的所有电碳变量,再从中筛选出包含电碳变 量的句子。
首先,对进行广度优先遍历,得到节点集,其中,为第个电碳 公式树的第个节点。当为其父节点的“左左子节点”或“右右子节点”,且和其父节点 都为“变量符号”时,将根据“左左子节点”或“右右子节点”的类型还原为其父节点的下标 或上标,最终得到的电碳变量集
然后,顺序扫描,通过判断是否成立,进而筛选出包含电碳变 量的句子集,其中,为第个包含电碳变量的句子。
对于电碳变量句子的抽取:
由于电碳文档中的部分句子包含多个电碳变量,且部分电碳变量带有上下标,因此,根据修饰关系来组合句子中的分词,作为对应电碳变量的解释。考虑到变量解释句子句法格式的统一性、及远程监督方法在少样本场景中的高效性,选择电碳文档中具有鲜明格式特点、且包含电碳变量的句子构成种子句子集,扩展远程监督框架,抽取电碳变量的解释。
其中种子句子的抽取具体包括:
结合用于依存分析的中文处理工具fastHan,针对包含电碳变量句子的句法格式特点,设计种子句子抽取方法。
首先,在中人工选择个句法格式不同的包含电碳变量 的句子,记为种子句子集,其中,为第个种子句子。种子句子参照中CTB9 数据集的格式和标签集,格式为:“序号,分词,_,词性,词性,_,依存序号,依存关系,_,_”。 由于不同种子句子代表不同句法格式,因此本发明针对每个种子句子的结构特点,对句中 所有解释分词设计修饰标注,判断词的依赖标注为:“root”,“变量符号”与判断词之间的依 赖标注为:“nsubj”,根解释与判断词之间的依赖标注为:“dobj”,根解释的补充解释与根解 释之间的依赖标注为:“attr”。最终得到人工标注的种子句子集
然后,针对依存分析任务,使用调整fastHan模型的参数,从而有效地对种子 句子进行依存分析。fastHan模型在句子开头添加语料库标签,并输入到基于BERT的编码 器,再利用不同解码器实现不同任务。在词性标注任务中使用多层感知机(Multilayer Perceptron, MLP)和条件随机场(Conditional Random Field, CRF)进行解码,依存句法 分析任务则利用词性标注任务的输出,结合biaffine解码器进行解码。最终得到种子句子 集的依存分析结果,其中,为第个句子的结果,格式为:[[[分词, 依存序号,依存关系,词性],[],,[]]],为第个句子中第个分词的结果,格式为: “[分词,依存序号,依存关系,词性]”。
进一步,本发明根据上述设计的修饰标注,结合抽取电碳变量的解释。将依赖关 系为“nsubj”的“变量符号”作为头实体,将“是”设置成依赖关系为“root”的判断词所对应 的关系,而依赖关系为“dobj”的变量解释词根和依赖关系为“attr”的补充解释词则共同构 成尾实体,尾实体构建模板为“attr的分词+的+dobj的分词”或“attr的分词+attr的分词+ 的+dobj的分词”。若句中存在多个头实体,则按照头实体顺序由“attr”的分词和“dobj”的 分词共同构建对应的尾实体。最终得到种子句子的抽取结果,其中,为第个句子抽取结果,为从第个句子中抽取的三元组。
其中新句子的抽取具体包括:
结合代表不同句法格式的种子句子,基于远程监督的思想,设计新句子抽取方法。
首先,计算新句子和种子句子结构相似度得分。对于种子句子集和去 除的新句子集,将输入fastHan的编码器得到句子中分词的编码 向量,并拼接作为该句子的特征向量表示,得到种子句子集和新句子集的特征向量矩阵,其中,个种子句子的特征向量,为第个新句 子的特征向量。然后,设计式(2-1)所示打分函数度量句子对的结构相似度:
(2-1)
其中,为Sigmoid函数,为模型参数,为编码操作,代表句子特征 向量长度相同的种子句子和新句子,平方符号是向量的每个维度的平方。
再将长度不同的句子对的结构相似度得分设定为“0”分,可得到与所有 种子实例句子的结构相似度得分数据集的最终得分如下:
(2-2)
其中,为最大值函数。
新句子集的得分表示为集合,其中,为第个新句子的 最终得分。
进一步,结合最终得分,通过给定阈值判断是否为新句法类型。 当大于阈值时,使用fastHan对进行依存分析,抽取电碳变量解释并将加入中,使,同时,更新种子句子集特征向量矩阵为; 当小于阈值时,将作为需要人工标注的句子另外存储,得到需要人工标 注的句子集,其中,为第个句子。
最后,从中随机选择个句子,记为样本句子集,其中,为第个句子。按照种子句子抽取中的方法对进行人工标注和 fastHan模型参数更新,再对进行依存分析和电碳变量解释抽取,并将加入种子句子集中。将去掉的剩余加入目前为空集的新句子集中,实 现种子句子句法类型的扩充。
重复新句子的抽取步骤,直到,最终得到包含电碳变量的句子集的抽取结果,其中,为第个句子抽取结果,为从 第个句子中抽取的三元组。
其中对打分函数中参数的训练:
为保证打分函数(2-1)的正确性,针对新句子的抽取,本发明将开始的种子句子集作为正样本,人工加入具有新句法结构的句子集作为负样本,损失 函数如下:
(2-3)
其中,为负样本系数(),为正样本得分,为负样本得分()。
S3、电碳变量间关系的抽取:根据电碳公式树中不同的公式类型,通过广度优先遍历和深度优先遍历得到电碳变量和“运算符号”组成的不同路径序列,针对不同类型的计算公式和电碳公式树中的不同路径序列,抽取电碳变量之间的关系。
S3具体包括:无虚拟根节点的电碳公式树的处理和有虚拟根节点的电碳公式树的处理;无虚拟根节点的电碳公式树的处理具体包括:电碳公式树的剪枝、获取根变量到叶子变量的路径和抽取电碳变量之间的关系;有虚拟根节点的电碳公式树的处理具体包括:获取第三层子树中的叶子变量和抽取电碳变量之间的关系。
对于无虚拟根节点的电碳公式树的处理:
的根节点非虚拟根节点时,是描述前述第1类和第2类电力碳排放计算公式 结构特点的电碳公式树,对进行以下操作:
其中对无虚拟根节点的电碳公式树的处理中电碳公式树的剪枝:
进行广度优先遍历。对于的节点集,若不是“变量符号”且存在“左左子节点”或“右右子节点”,则删除的“左左子树”或“右右子树”,得到从中 删除的子树森林,其中,为第个被删除的子树,剪枝后的辅助工具树记为
其中获取根变量到叶子变量的路径具体包括:
进行深度优先遍历,针对的节点集,其中,为第个节点,若为其“父节点”的“左左子节点”或“右右子节点”,则将根据“左左子节点”或“右右子节 点”的类型还原为其“父节点”的下标或上标。最终得到根节点变量到叶子节点变量的路径 集,其中,为第条路径中的第个符号表示。若为其父节点的 “左子节点”,且其“父节点”为“二元运算除号”或“分数运算符号”,则记录需要修改布尔值 的符号位置
其中抽取电碳变量之间的关系具体包括:
对所有“运算符号”赋予一个“正\负”布尔值,得到“运算符号”和其对应的“正\负” 布尔值集合,其中,为“运算符号”,为“运算符号”所对应“正\负”布 尔值。
本发明根据的不同情况,分别设计得到不同节点变量的“计算”、“正\负相关”和 “约束”关系。对于,若为“等号”,且之后的其它都为 “运算符号”,则先参照找到对应的进行替换,然后查看是否需要修改布尔值,最 后将进行“逻辑运算”,包含:“正正得正、负负得正、正负得负和负正得负”。再将得 到的布尔值覆盖,循环直到只剩1个“正\负”布尔值。由可得到根变量 与叶子变量之间的“正相关”或“负相关”关系,再根据来查找 的变量解释,以此来得到“正相关”或“负相关”关系三元组,以及根变量与叶子变量之间的“计算”关系三元组
对于,若为除“等号”外的“二元关系符号”或“集合符号”,且之 后的其它符号都为“运算符号”,则根据查找的 变量解释,得到根变量与叶子变量之间的“约束”关系三元组
对于“运算符号”中的变量,针对,对进行广度优先遍历,得到的节 点集,其中,为第个被删除子树的第个节点;若为其父节点的“左左子 节点”或“右右子节点”,且和其父节点都为“变量符号”,则将根据“左左子节点”或“右 右子节点”的类型来还原为其父节点的下标或上标,其中,“变量符号”中的“数字”只在作为 上下标时考虑。最终得到中的变量集,其中,为第个电碳变量,然后根据查找的变量解释,从而可得到根变量和中间节点变量之间的“约束” 关系三元组
对于有虚拟根节点的电碳公式树的处理:
的根节点为虚拟根节点时,是描述前述第3类和第4类电力碳排放计算公式 结构特点的电碳公式树,对进行以下操作:
其中获取第三层子树中的叶子变量具体包括:
进行广度优先遍历得到第三层所有子树为第个子树,为第个子树的节点集,为第个节点。当为“变量符号”时,若为其父节 点的“左左子节点”或“右右子节点”,且其父节点也为“变量符号”,则将根据“左左子节 点”或“右右子节点”的类型还原为其父节点的下标或上标,得到所有子树的电碳变量集,其中,为第个子树的电碳变量集,为第个电碳变量。
其中抽取电碳变量之间的关系具体包括:
根据获取的电碳变量解释,对于,可直接得到之间互相为“约束”关系,得到“约束”关系三元组集合, 其中,为三元组个数。
实施例:
某企业计及碳排放成本的输电网与风电分布鲁棒性协同拓展规划文档集。
在本实施例中,考虑到不同电碳文档中可能存在相同“变量符号”表示不同含义的情况,因此,接下来展示对一篇电碳文档的处理。
1、电碳公式树的构建
按照电碳文档预处理步骤,经过预处理得到这篇文档中所有公式LaTeX序列,以及所有文字区域的句子
按照电力碳排放计算公式结构类型的划分步骤,将中的划分为5种类型的电力碳排放计算公式。
按照不同类型电碳公式树的构建步骤,根据不同类型的电力碳排放计算公式构建 不同类型的电碳公式树,最终可得到电碳公式树。分别展示其中一个无虚 拟根节点和有虚拟根节点的电碳公式树如附图4和附图5所示。
2、电碳变量解释的抽取
按照电碳变量句子的获取步骤,基于,先利用广度优先遍历得到电碳公式树中 的所有电碳变量,再在中找出包含电碳变量的句子集
按照电碳变量句子的抽取步骤,设置为10,得到种子句子集,其 中,为“为第年的投资、运行、碳排放成本”,为“式中时刻上级 电网二氧化碳的单位排放成本”,为“分别为上级电网接入节点、总的输 电网节点以及储能候选节点集合。”等。再对参照CTB9数据集的格式和标签 集进行标注得到人工标注的种子句子集,其中,的标注如表1所示。
使用调整fastHan模型的参数,再对进行依存分析,其中,对进行依存分析,部分结果如表2所示。
结合依存分析的结果,抽取句子中的三元组。可得到种子句子的抽取结果,其中,为第个句子抽取结果,为从第个句子中抽取的三元 组,的抽取结果如表3所示。
按照新句子抽取步骤,对新句子进行抽取,根据公式(2-1)来计算新句子和种子句 子的结构相似度得分,并利用公式(2-2)来得到新句子的最终得分,并根据阈值来判断下 一步是否抽取并加入种子还是重新人工标注并微调中文处理工具fastHan,阈值设置为 0.8。
按照打分函数中参数的训练步骤,为保证得分函数公式(2-1)的正确性,对于打分函数公式(2-1)中参数的训练,根据公式(2-3)作为损失函数进行训练,根据经验,μ设置为0.5。
3、电碳变量间关系的抽取
基于得到,若的根节点不是虚拟根节点,则按照电碳公式树的剪枝步骤,对 剪枝得到辅助工具树,展示图4电碳公式树的剪枝结果如附图6所示。按照获取根变量到叶 子变量的路径步骤,得到根变量到叶子变量之间的路径集。最后再按照抽取电 碳变量之间的关系步骤,来抽取变量之间的关系,得到“正相关”、“负相关”、“计算”或“约 束”关系三元组。图4展示的电碳公式树的抽取结果如表4所示。
的根节点是虚拟根节点,先对按照获取第三层子树中的叶子变量步骤,获 取第三层子树的变量集,其中,为第个子树的电碳变量集,为第个电碳变量。再按照抽取电碳变量之间的关系,得到“约束”关系三元组。图5展示 的电碳公式树的抽取结果如表5所示。
/>

Claims (8)

1.一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:包括以下操作方法:
S1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的LaTeX序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林;
S2、电碳变量解释的抽取:对得到的电碳公式树进行广度优先遍历,得到电碳公式树中的所有电碳变量,再基于远程监督的思想对包含电碳变量的句子进行依存分析,并抽取电碳变量对应的解释;
S3、电碳变量间关系的抽取:根据电碳公式树中不同的公式类型,通过广度优先遍历和深度优先遍历得到电碳变量和“运算符号”组成的不同路径序列,针对不同类型的计算公式和电碳公式树中的不同路径序列,抽取电碳变量之间的关系。
2.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述S1具体包括:电碳文档预处理、电力碳排放计算公式结构类型的划分和不同类型电碳公式树的构建。
3. 根据权利要求2所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于: 所述不同类型电碳公式树的构建具体包括:特殊符号判断、上下标处理、两种电碳公式树的构建、第5类电力碳排放计算公式的处理和逻辑条件公式的处理。
4.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述S2具体包括:电碳变量句子的获取、电碳变量句子的抽取和打分函数中参数的训练。
5.根据权利要求4所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述电碳变量句子的抽取具体包括:种子句子的抽取和新句子的抽取。
6.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述S3具体包括:无虚拟根节点的电碳公式树的处理和有虚拟根节点的电碳公式树的处理。
7.根据权利要求6所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述无虚拟根节点的电碳公式树的处理具体包括:电碳公式树的剪枝、获取根变量到叶子变量的路径和抽取电碳变量之间的关系。
8.根据权利要求6所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述有虚拟根节点的电碳公式树的处理具体包括:获取第三层子树中的叶子变量和抽取电碳变量之间的关系。
CN202410086361.6A 2024-01-22 2024-01-22 一种电力碳排放计算公式中的实体关系抽取方法 Active CN117609519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410086361.6A CN117609519B (zh) 2024-01-22 2024-01-22 一种电力碳排放计算公式中的实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410086361.6A CN117609519B (zh) 2024-01-22 2024-01-22 一种电力碳排放计算公式中的实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN117609519A true CN117609519A (zh) 2024-02-27
CN117609519B CN117609519B (zh) 2024-04-19

Family

ID=89954812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410086361.6A Active CN117609519B (zh) 2024-01-22 2024-01-22 一种电力碳排放计算公式中的实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN117609519B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
CN113254581A (zh) * 2021-05-25 2021-08-13 深圳市图灵机器人有限公司 一种基于神经语义解析的金融文本公式抽取方法及装置
WO2021164226A1 (zh) * 2020-02-20 2021-08-26 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN114091450A (zh) * 2021-11-19 2022-02-25 南京通达海科技股份有限公司 一种基于图卷积网络的司法领域关系抽取方法和系统
CN114266228A (zh) * 2021-12-24 2022-04-01 浙江工业大学 一种面向工程领域设计计算公式的检索方法与装置
CN114372138A (zh) * 2022-01-11 2022-04-19 国网江苏省电力有限公司信息通信分公司 一种基于最短依存路径和bert的电力领域关系抽取的方法
CN114757181A (zh) * 2022-03-25 2022-07-15 中科世通亨奇(北京)科技有限公司 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
CN115391785A (zh) * 2022-08-17 2022-11-25 支付宝(杭州)信息技术有限公司 一种软件漏洞的风险检测方法、装置以及设备
CN115688776A (zh) * 2022-09-27 2023-02-03 北京邮电大学 面向中文金融文本的关系抽取方法
CN116992824A (zh) * 2022-04-25 2023-11-03 西安导学科技有限公司 一种将LaTex公式转为自然语言的方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414319A (zh) * 2019-06-13 2019-11-05 中国软件与技术服务股份有限公司 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置
WO2021164226A1 (zh) * 2020-02-20 2021-08-26 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN113254581A (zh) * 2021-05-25 2021-08-13 深圳市图灵机器人有限公司 一种基于神经语义解析的金融文本公式抽取方法及装置
CN114091450A (zh) * 2021-11-19 2022-02-25 南京通达海科技股份有限公司 一种基于图卷积网络的司法领域关系抽取方法和系统
CN114266228A (zh) * 2021-12-24 2022-04-01 浙江工业大学 一种面向工程领域设计计算公式的检索方法与装置
CN114372138A (zh) * 2022-01-11 2022-04-19 国网江苏省电力有限公司信息通信分公司 一种基于最短依存路径和bert的电力领域关系抽取的方法
CN114757181A (zh) * 2022-03-25 2022-07-15 中科世通亨奇(北京)科技有限公司 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
CN116992824A (zh) * 2022-04-25 2023-11-03 西安导学科技有限公司 一种将LaTex公式转为自然语言的方法及系统
CN115391785A (zh) * 2022-08-17 2022-11-25 支付宝(杭州)信息技术有限公司 一种软件漏洞的风险检测方法、装置以及设备
CN115688776A (zh) * 2022-09-27 2023-02-03 北京邮电大学 面向中文金融文本的关系抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GUNATHILAKA L F D Z 等: "Carbon footprint calculation from cradle to grave: A case study of rubber manufacturing process in Sri Lanka", 《INTERNATIONAL JOURNAL OF BUSINESS AND SOCIAL SCIENCE》, 31 October 2015 (2015-10-31), pages 82 - 94 *
LIU, Y 等: "A novel approach to investigate effects of front-end structures on injury response of e-bike riders: Combining Monte Carlo sampling, automatic operation, and data mining", 《ACCIDENT ANALYSIS AND PREVENTION》, 10 May 2022 (2022-05-10), pages 6599 - 6599 *
Z LI 等: "Integrating shortest dependency path and sentence sequence into a deep learning framework for relation extraction in clinical text", 《BMC MEDICAL INFORMATICS AND DECISION MAKING》, 31 January 2019 (2019-01-31), pages 1 - 8 *
ZY LIU 等: "A quasi three-dimensional ray tracing method based on the virtual source tree in urban microcellular environments", 《PROGRESS IN ELECTROMAGNETICS RESEARCH》, 7 July 2011 (2011-07-07), pages 397 - 414 *
赵奇猛 等: "面向中文专利的开放式实体关系抽取研究", 《计算机工程与应用》, 12 September 2013 (2013-09-12), pages 125 - 129 *
魏静 等: "基于指代消解的民间文学文本实体关系抽取", 《河南师范大学学报(自然科学版)》, 11 December 2023 (2023-12-11), pages 84 - 92 *

Also Published As

Publication number Publication date
CN117609519B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
Hofmann et al. Text mining and visualization: Case studies using open-source tools
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Ruiz-Casado et al. Automatic extraction of semantic relationships for wordnet by means of pattern learning from wikipedia
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
Varini et al. ClimaText: A dataset for climate change topic detection
CN110609983B (zh) 一种政策文件结构化分解方法
CN116187163B (zh) 一种用于专利文件处理的预训练模型的构建方法及系统
US20220004545A1 (en) Method of searching patent documents
CN102253930A (zh) 一种文本翻译的方法及装置
US20210350125A1 (en) System for searching natural language documents
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
Bondielli et al. On the use of summarization and transformer architectures for profiling résumés
Zhou et al. Learning transferable node representations for attribute extraction from web documents
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN117609519B (zh) 一种电力碳排放计算公式中的实体关系抽取方法
Narayanan et al. Character level neural architectures for boosting named entity recognition in code mixed tweets
CN116049437A (zh) 基于自标签与prompt的文档级低资源场景的要素抽取方法
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Kumar et al. Multimodal sentiment prediction based on the integration of text and emojis
CN114238617A (zh) 一种行业热点推荐方法及系统
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
CN112488593A (zh) 一种用于招标的辅助评标系统及方法
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法
CN117332180B (zh) 基于大语言模型的研报智能写作方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant