CN116383414A - 一种基于碳核查知识图谱的智能文件评审系统及方法 - Google Patents
一种基于碳核查知识图谱的智能文件评审系统及方法 Download PDFInfo
- Publication number
- CN116383414A CN116383414A CN202310036553.1A CN202310036553A CN116383414A CN 116383414 A CN116383414 A CN 116383414A CN 202310036553 A CN202310036553 A CN 202310036553A CN 116383414 A CN116383414 A CN 116383414A
- Authority
- CN
- China
- Prior art keywords
- carbon
- knowledge graph
- check
- text data
- checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 192
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 152
- 238000012552 review Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010276 construction Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 11
- 239000003607 modifier Substances 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 235000018185 Betula X alpestris Nutrition 0.000 claims description 6
- 235000018212 Betula X uliginosa Nutrition 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012553 document review Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 7
- 238000012795 verification Methods 0.000 description 18
- 239000005431 greenhouse gas Substances 0.000 description 14
- 230000008520 organization Effects 0.000 description 9
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000009919 sequestration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
- Y02P90/84—Greenhouse gas [GHG] management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于碳核查知识图谱的智能文件评审系统及方法,系统包括:文本数据获取模块,获取碳核查阶段的双碳文本数据;知识图谱构建模块,基于双碳文本数据建立碳核查知识图谱;评审模块,获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。与现有技术相比,本发明通过收集碳核查工作流程中相关的法规、政策、标准以及企业的碳盘查报告等文本数据,提取碳核查过程中相关的实体、关系,并通过知识推理的方式构建面向碳核查的双碳知识图谱;基于知识图谱提取依次提取各类文本中的相关实体及其数据,根据碳排放范围的界定、排放源类型、排放因子的选择以及碳排放计算公式核查企业碳排放报告中数据的完整性、一致性和准确性。
Description
技术领域
本发明涉及碳核查技术领域,尤其是涉及一种基于碳核查知识图谱的智能文件评审系统及方法。
背景技术
目前,由于各企业数据基础以及业务类型的不同,导致碳核查范围、数据格式和依据标准都存在差异,给以纸本作业为主的碳核查工作带来巨大挑战。基于人工智能技术的碳排放监测平台可以辅助从原料端到成品的能源消耗监测,明确碳盘查工作的数据范围,实时动态获取碳排放浓度,统一碳排放数据格式,实现碳排放气体的精准计算和核查。
中国专利申请CN109670785A公开了一种碳盘查/碳核查管理系统及方法,通过在线检测模块对对碳排放量进行采集,通过数据处理模块对采集的碳排放量进行存储、计算和分析,通过报告生成模块将分析后的数据导出并生成碳排放信息报告,通过验证模块对生成的报告进行核证和改善,实现了企业碳盘查的数字化管理和智能化分析和报告。
但是,在碳核查阶段,一般由第三方机构参考、依据国际、国内的相关法规、政策和标准,从中查阅与企业业务类型一致的核查范围及标准,对参与碳排放权交易的企业提交的碳盘查报告文件进行评审。在此过程中以文本理解、检索和生成为主,以数据管理和计算模块为主的碳排放监测平台无法建立核查范围内各类对象之间的关系,难以实现对核查政策和标准等文本的参考和查阅。而以人工纸本作业为主的碳核查过程繁琐耗时,且查证困难。
因此,为了全面落实碳核查管理体系,实现数字化和智能化的碳核查,亟需建立碳核查工作中相关主体以及对象之间的知识图谱,并基于知识图谱完成碳核查阶段的文本智能评审。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于碳核查知识图谱的智能文件评审系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种基于碳核查知识图谱的智能文件评审系统,包括:
文本数据获取模块,用于获取碳核查阶段的双碳文本数据;
知识图谱构建模块,用于基于所述双碳文本数据建立碳核查知识图谱;
评审模块,用于获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。
进一步地,所述双碳文本数据包括国内外碳减排法规,国内外碳税、碳补贴政策,国内外碳排放标准,企业碳盘查报告。
进一步地,所述建立碳核查知识图谱包括以下步骤:
S01、双碳文本数据的预处理;
S02、识别并标注双碳文本数据中的实体;
S03、确定实体之间的关系;
S04、补齐实体修饰词;
S05、设定双碳文本三元组,进行三元组表示和归并;
S06、进行知识推理,丰富实体之间的关系。
进一步地,步骤S01具体为:
去除双碳文本数据的噪声信息,通过文本解析,从文本全文数据中提取出文件信息。
进一步地,步骤S02具体为:
构建BiLSTM网络作为实体识别模型,使用CRF对实体识别模型输出的标签加入约束和限制,构建训练集,使用训练集训练所述实体识别模型,得到训练好的实体识别模型;将双碳文本数据转化为句向量,使用所述实体识别模型识别并标注双碳文本数据中的实体。
进一步地,步骤S04中,对实体识别模型得到的实体的定语进行补充。
进一步地,步骤S05具体为:从语义层面为实体和关系设定模板,模板以外的三元组不加入到碳核查知识图谱中,使用Trans P为原始三元组嵌入向量,基于所得嵌入向量,使用平衡迭代削减层次聚类模型BIRCH进行三元组归并。
进一步地,步骤S06中,使用图结构构建路径,将路径进行向量化表示,将知识推理任务转换为决策问题,把实体和关系分别构建为状态空间和行动空间,通过实体游走进行状态的转换,补充实体之间的关系。
进一步地,基于所述碳核查知识图谱进行文件评审包括以下步骤:
T01、设定边界;
T02、从碳盘查报告中的排放设施和排放源清单文本中识别排放源;
T03、选择量化方法;
T04、从碳盘查报告中收集并核查活动数据;
T05、确定并核查活动数据;
T06、计算、汇总、核查排放量。
一种基于碳核查知识图谱的智能文件评审方法,包括:
获取碳核查阶段的双碳文本数据;
基于所述双碳文本数据建立碳核查知识图谱;
获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。
与现有技术相比,本发明具有以下有益效果:
(1)本发明通过收集碳核查工作流程中相关的法规、政策、标准以及企业的碳盘查报告等文本数据,提取碳核查过程中相关的实体、关系,并通过知识推理的方式构建面向碳核查的双碳知识图谱;依据碳核查的文件评审工作流程,基于知识图谱提取依次提取各类文本中的相关实体及其数据,根据碳排放范围的界定、排放源类型、排放因子的选择以及碳排放计算公式核查企业碳排放报告中数据的完整性、一致性和准确性。
(2)本发明实现了碳核查工作中文件评审步骤的智能化操作,提高人工评审、计算和核对的效率,通过数字化的方式提升碳核查质量。
附图说明
图1示出了基于碳核查知识图谱的智能文本评审系统的执行流程;
图2示出了碳核查知识图谱构建流程;
图3示出了碳排放标准知识图谱示例;
图4示出了基于ISO14064-1的碳核查智能文件评审流程。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本申请从碳核查相关的国际、国内的相关法规、政策、标准和参与碳排放权交易企业提交的碳盘查报告等文本文件进行实体和关系提取,构建面向碳核查的双碳领域知识图谱;基于该知识图谱,对碳核查相关文本文件进行智能化分析,支撑碳核查工作中对法规和政策依据的查询、碳排放标准的检索、碳盘查报告的审核、碳核查报告的生成。
一种基于碳核查知识图谱的智能文件评审系统,包括文本数据获取模块、知识图谱构建模块和评审模块,其执行流程如图1所示,具体的,各个模块如下:
(A)文本数据获取模块,用于获取碳核查阶段的双碳文本数据;双碳文本数据包括国内外碳减排法规,国内外碳税、碳补贴政策,国内外碳排放标准,企业碳盘查报告。
本实施例中,双碳文本数据的收集步骤具体为:
a01)国际温室气体排放相关法规;包括:《联合国气候变化框架公约》、《京都议定书》、《欧盟排放交易令》;
a02)国内温室气体排放相关法规;
a03)国际碳税政策措施;包括:以芬兰、挪威为代表的北欧国家碳税体系、以英国、德国等为代表的经济发达国家的碳税体系、以日本和其他国家为代表的碳税体系;
a04)国内碳税政策措施;
a05)国际温室气体排放标准:ISO14064系列标准、ISO14065、ISO14066、ISO14067、、ISO/TR 14069:2013、ISO 14080:2018、ISO 14090:2019、ISO 14091:2021、ISO/TS 14092:2020、ISO/TR 27912-21922等关于二氧化碳捕集、运输和封存等相关标准;
a06)中国政府相继发布的24个行业温室气体排放核算方法与报告指南;
a07)参与碳排放权交易企业提交的碳盘查报告;
当然,可以理解的是,收集上述双碳文本数据时,还应该对法规、政策、标准的时效性进行判别,选择当前适用的版本。
(B)知识图谱构建模块,用于基于双碳文本数据建立碳核查知识图谱;如图2所示,建立碳核查知识图谱包括以下步骤:
S01、双碳文本数据的预处理;
首先通过文本预处理去除一些特殊符号等噪声信息。通过文本解析,使用TextRank(文本排序算法)、LDA(主题模型算法)等从文本全文数据中提取出摘要、主题、关键词、类型(政策、法规、标准、报告)、时间等文件信息。以标准ISO/TR 27921:为例,该文本类型为标准,主题为“碳捕集与碳封存”,关键词包含“碳捕集”、“碳运输与地质封存”、“共性问题”、“二氧化碳碳流成分”,时间为“2020年”。
S02、识别并标注双碳文本数据中的实体;
构建基于句法分析的实体抽取模型;抽取模板可视作词语、词性标签、依存路径的组合,且可大致被分为三类:修饰、动词以及并列关系模板。修饰类模板主要关注语境中对实体对的修饰元素,并将句法依存关系中的支配词(head word)作为实体,从修饰词(attributive word)中抽取关系。动词类模板重点关注实体对之间的谓词短语,并从中抽取关系。并列类模板的目的是找到在句法树中地位平等的实体活动词短语,称之为并列关系,而其中一个所拥有的关系三元组,理应同样适用于另一个,即二者可互换。
本实施例中,构建BiLSTM网络作为实体识别模型,使用CRF(Conditional RandomFields)对实体识别模型输出的标签加入约束和限制,构建训练集,使用训练集训练实体识别模型,得到训练好的实体识别模型;将双碳文本数据转化为句向量,使用实体识别模型识别并标注双碳文本数据中的实体。
BiLSTM的细胞单元中引入了“门”机制,通过“门”可以使神经网络记忆主要信息,忘记次要信息,以此提升神经网络对较长文本的整体语义把握。CRF则对模型输出的标签加入约束和限制,避免出现不合理的实体标签。
针对基于深度学习的实体识别模型需要大量人工标注的问题,本申请提出自监督的深度学习模型训练方法。首先将少量的人工标注数据构建训练集,将训练集通过Bert输出包含语义的句向量表示,使用句向量训练Bi LSTM+CRF实体识别模型。具体为:
将少量的人工标注数据构建训练集,将训练集通过Bert输出包含语义的句向量表示,使用句向量训练Bi LSTM+CRF实体识别模型,实体识别模型拟合后,将未标注的全文数据使用Bert转化为句向量后使用已有模型预测其标签。将预测数据进行置信度判断,并设置置信度阈值。将置信度高于阈值的样本添加到已有训练集,得到新的训练集,使用新的训练集继续训练实体识别模型。如此循环迭代,直至模型性能不再提升,完成实体识别模型训练,再将全文数据输入到训练完成的实体识别模型中输出实体标记。
S03、确定实体之间的关系;
关系抽取模型。根据已经识别出的实体和全文数据提取实体之间的关系。将全部实体加入Pkuseg(北大分词工具)的用户字典以保证实体分词的准确性。将全文数据使用Pkuseg分词后输入COBW(连续词袋模型)中转化为词向量。之后使用BiLSTM获得整个全文数据的语义编码。由于在全文数据中包含着除实体和实体之间关系的大量噪声信息,在关系抽取模型中引入注意力机制,注意力机制可以根据样本数据自动调整权重大小,使模型更加关注实体和实体之间的关系,更少关注噪声信息。
其中,权重调整如下:BiLSTM层时刻的状态对后面连接的输出层时刻的影响程度由和输出层时刻的状态计算得出。通过softmax归一化获得注意力权重。代表在时刻输出层的语义向量由多个时刻的隐藏状态与其对应的注意力权重相乘求和获得。使用注意力机制不仅能提升关系抽取的准确性,还能降低模型的计算复杂度,提高模型的运行效率。最后,使用实体识别的结果对实体关系抽取的预测结果进行校正。
S04、补齐实体修饰词;
补齐实体修饰词;在实际应用中,基于句法分析的抽取模型能够较为准确地抽取到文本中的关系三元组。然而,国际、国内法规、政策和标准的语料中通常包含大量专有名词,包括机构名称、政策标题等。此类专有名词一般由多个修饰词和一个支配词组成,因此很难在预处理中的分词过程中完整保留下来。加之,专有名词的种类繁多且不确定,因而无法通过给分词模型添加用户词典的方式避免其被分割。这就会导致抽取到的政策实体丢失重要的定语,即实体的修饰词,从而造成理解上的偏差和歧义。本申请基于句法分析的结果对句法分析抽取模型抽取到的实体的定语进行补充,同时返回句子中所有以ATT标签依赖于实体的词语,词语的顺序与原文中保持一致。
碳核查实体对齐。将数据预处理层产生的全文数据、摘要以及主题、关键字、时间、来源、类型等属性数据进行充分利用。将全文数据整体和摘要数据整体分别使用Bert转化为向量表示。在样本数据之间分别计算实体全文余弦相似度和实体摘要余弦相似度,两种相似度结合用以判断档案样本数据之间的语义相似度。属性数据包含了多种数据,因此相似度的计算也不相同。主题、关键字属于文本信息,使用CBOW生成对应的向量表示。来源、类型转化为One-Hot编码(独热编码)。时间则使用时间戳转为数值型数据。将各属性数据转化为的向量进行拼接,计算属性数据的余弦相似度。
S05、设定双碳文本三元组,进行三元组表示和归并;
1)双碳文本三元组的模式化设定;在对原始文本三元组进行表示和归并前,本申请针对碳核查文本的特点,为碳核查实体和关系从语义层面设定模板。对于模板以外的三元组,认为其与碳核查的联系不紧,不予加入到产业政策知识图谱中。
2)基于Trans P的三元组表示;考虑到从碳核查文本中抽取到的实体和关系通常包含丰富的实际语义,且需要根据语义对三元组进行归并,本申请使用能够编码语义信息的表示模型Trans P为原始三元组生成嵌入向量。
3)基于BIRCH的三元组归并;由于句法分析的抽取模型为开放域三元组抽取模型,抽取到的碳核查实体、关系所属类别数量较多,且难以事先确定,本申请基于所得嵌入向量v,利用层次聚类模型对原始三元组进行归并分组。在层次聚类模型中,平衡迭代削减层次聚类模型(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)有着较优的时间复杂度,O(N),其中N为样本数量。考虑到从碳核查文本中抽取到的原始三元组数量庞大,选择BIRCH作为层次聚类模型。
具体的,本申请使用预训练的中文词向量作为实体和关系的初始向量。为了降低定语和副词对表示向量的影响,对于实体,本申请仅选择其中的名词性成分的词向量作为其初始向量;对于关系,本申请仅选择其中的动词性成分的词向量。BIRCH通过构建聚类特征树(Clustering Feature Tree,CF Tree)实现只需要单次扫描数据集即可完成聚类,每棵CF Tree则由若干聚类特征(Clustering Feature,CF)组成。
S06、进行知识推理,丰富实体之间的关系。
经过以上几步的处理已经构建出了知识图谱的雏形,生成了“头实体—关系—尾实体”三元组。但此时存在实体之间关系稀疏的问题,进行知识推理,可以丰富实体之间的关系,达到补足知识图谱的目的。
首先,使用图结构构建路径;其次,使用嵌入表示将路径进行向量化的表示;再次,将知识推理任务转换为决策问题,把实体和关系分别构建为状态空间与行动空间,通过实体游走进行状态的转换,发现正确的实体与关系即给予模型奖励,以此进行模型的训练与优化。将向量输入到训练完成的深度强化学习模型中进行知识推理,补全知识图谱中的关系。最终,输出构建完成的知识图谱。以碳排放标准为例的知识图谱示意如图3所示。
本申请将图结构、嵌入表示、深度强化学习结合,提出一种混合知识推理的方法。一方面,使用图结构方法使模型具有较强的可解释性,另一方面,使用嵌入表示和深度强化学习使模型具有较高的计算效率和推理性能。
(C)评审模块,用于获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。
根据2021年3月环境部《企业温室气体排放报告核查指南(试行)》,核查程序包括:核查安排、建立核查技术工作组、文件评审、建立现场核查组、实施现场核查、出具《核查结论》、告知核查结果、保存核查记录等八个步骤,其中文件评审对应如图4所示的量化温室气体排放,包括:识别排放源、选择量化方法、提取活动数据、确定排放因子、计算并汇总排放量,然后输出量化方法、排放因子以及排放量的核查结果。具体的,本实施例中,基于碳核查知识图谱进行文件评审包括以下步骤:
T01、碳核查边界及基准年的设定;
在采用股权比例法确定组织边界时,组织应根据其在具体业务中所占的股权比例确定其在业务中所占的排放量。在使用控制权法确定组织边界时,组织只核算其拥有控制权业务所产生的温室气体排放,对于那些拥有所有权但不控制的业务,不应出现在组织确定的组织边界中。将不同的排放源分为直接温室气体排放、能源间接温室气体排放和其他间接温室气体排放。
T02、从碳盘查报告中的排放设施和排放源清单文本中识别排放源;
从碳盘查报告中的排放设施和排放源清单文本中提取排放源,并标注排放源类别:固定燃烧排放、移动燃烧排放、制程排放、逸散排放;
T03、选择量化方法;
T04、从碳盘查报告中收集并核查活动数据;
从碳盘查报告中提取活动数据:直接温室气体排放、间接温室气体排放;其中,固定燃烧排放的消耗量=购买量+(期初存储量-期末存储量)-其他用量;移动燃烧排放通过燃料消耗和车辆行驶里程数获得;两类逸散量=年初时库存的总质量+本年度购买的总质量-年底库存总质量-其他用途的使用量。
从国内外温室气体排放最新标准中提取排放源的国际、国家、区域、设备制造商提供、相同工艺或设备的经验以及测量或质量平衡等各类排放因子等数据;
T05、确定并核查活动数据;
T06、计算、汇总、核查排放量。
通过活动数据以及排放因子计算排放量并汇总排放数据,温室气体排放量=活动数据×排放因子数据×全球增温潜势;
核查活动数据是否完整、排放因子的单位转换是否正确;核算排放源排放量的计算是否正确;核查温室气体排放量汇总结果是否一致。
本申请还提供一种基于碳核查知识图谱的智能文件评审方法,包括:
获取碳核查阶段的双碳文本数据;
基于双碳文本数据建立碳核查知识图谱;
获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于碳核查知识图谱的智能文件评审系统,其特征在于,包括:
文本数据获取模块,用于获取碳核查阶段的双碳文本数据;
知识图谱构建模块,用于基于所述双碳文本数据建立碳核查知识图谱;
评审模块,用于获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。
2.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,所述双碳文本数据包括国内外碳减排法规,国内外碳税、碳补贴政策,国内外碳排放标准,企业碳盘查报告。
3.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,所述建立碳核查知识图谱包括以下步骤:
S01、双碳文本数据的预处理;
S02、识别并标注双碳文本数据中的实体;
S03、确定实体之间的关系;
S04、补齐实体修饰词;
S05、设定双碳文本三元组,进行三元组表示和归并;
S06、进行知识推理,丰富实体之间的关系。
4.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,步骤S01具体为:
去除双碳文本数据的噪声信息,通过文本解析,从文本全文数据中提取出文件信息。
5.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,步骤S02具体为:
构建BiLSTM网络作为实体识别模型,使用CRF对实体识别模型输出的标签加入约束和限制,构建训练集,使用训练集训练所述实体识别模型,得到训练好的实体识别模型;将双碳文本数据转化为句向量,使用所述实体识别模型识别并标注双碳文本数据中的实体。
6.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,步骤S04中,对实体识别模型得到的实体的定语进行补充。
7.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,步骤S05具体为:从语义层面为实体和关系设定模板,模板以外的三元组不加入到碳核查知识图谱中,使用Trans P为原始三元组嵌入向量,基于所得嵌入向量,使用平衡迭代削减层次聚类模型BIRCH进行三元组归并。
8.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,步骤S06中,使用图结构构建路径,将路径进行向量化表示,将知识推理任务转换为决策问题,把实体和关系分别构建为状态空间和行动空间,通过实体游走进行状态的转换,补充实体之间的关系。
9.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统,其特征在于,基于所述碳核查知识图谱进行文件评审包括以下步骤:
T01、设定边界;
T02、从碳盘查报告中的排放设施和排放源清单文本中识别排放源;
T03、选择量化方法;
T04、从碳盘查报告中收集并核查活动数据;
T05、确定并核查活动数据;
T06、计算、汇总、核查排放量。
10.一种基于碳核查知识图谱的智能文件评审方法,其特征在于,基于如权利要求1-9中任一所述的智能文件评审系统,包括:
获取碳核查阶段的双碳文本数据;
基于所述双碳文本数据建立碳核查知识图谱;
获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036553.1A CN116383414A (zh) | 2023-01-10 | 2023-01-10 | 一种基于碳核查知识图谱的智能文件评审系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036553.1A CN116383414A (zh) | 2023-01-10 | 2023-01-10 | 一种基于碳核查知识图谱的智能文件评审系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116383414A true CN116383414A (zh) | 2023-07-04 |
Family
ID=86975723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310036553.1A Pending CN116383414A (zh) | 2023-01-10 | 2023-01-10 | 一种基于碳核查知识图谱的智能文件评审系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383414A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236521A (zh) * | 2023-11-10 | 2023-12-15 | 中国联合网络通信集团有限公司 | 产业风险等级预测方法、装置、设备及存储介质 |
-
2023
- 2023-01-10 CN CN202310036553.1A patent/CN116383414A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236521A (zh) * | 2023-11-10 | 2023-12-15 | 中国联合网络通信集团有限公司 | 产业风险等级预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Learning to spot and refactor inconsistent method names | |
CN111145052A (zh) | 司法文书的结构化分析方法及系统 | |
CN112183059B (zh) | 一种中文结构化事件抽取方法 | |
CN111597356B (zh) | 智能化教育知识图谱构建系统与方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
Curtotti et al. | Corpus based classification of text in Australian contracts | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN113609838B (zh) | 文档信息抽取及图谱化方法和系统 | |
CN117252255B (zh) | 一种面向辅助决策的灾害应急知识图谱构建方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114997288B (zh) | 一种设计资源关联方法 | |
CN114217766A (zh) | 基于预训练语言微调与依存特征的半自动需求抽取方法 | |
CN109766416A (zh) | 一种新能源政策信息抽取方法及系统 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN116028608A (zh) | 问答交互方法、装置、计算机设备及可读存储介质 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN116383414A (zh) | 一种基于碳核查知识图谱的智能文件评审系统及方法 | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN117573797A (zh) | 一种基于大语言模型的试题检索方法 | |
Bloodgood et al. | Data cleaning for xml electronic dictionaries via statistical anomaly detection | |
CN110807096A (zh) | 一种小样本集上的信息对匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |