CN112883197B - 一种用于封闭开关设备的知识图谱构建方法与系统 - Google Patents
一种用于封闭开关设备的知识图谱构建方法与系统 Download PDFInfo
- Publication number
- CN112883197B CN112883197B CN202110188162.2A CN202110188162A CN112883197B CN 112883197 B CN112883197 B CN 112883197B CN 202110188162 A CN202110188162 A CN 202110188162A CN 112883197 B CN112883197 B CN 112883197B
- Authority
- CN
- China
- Prior art keywords
- relation
- entity
- equipment
- layer
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于计算机及信息服务技术领域,涉及一种用于封闭开关设备的知识图谱构建方法与系统。本发明包括从封闭开关设备质量检验报告的扫描图像中识别文本数据;对识别出的设备描述的文字信息进行文本标注,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);构建基于BERT的关系三元组抽取模型;基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。
Description
技术领域
本发明属于计算机及信息服务技术领域,特别涉及对特定扫描图像的语义解析与知识图谱构建的方法和系统。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,已经成为结构化知识集成的重要任务。
封闭开关设备质量检验报告是对特定设备的检验报告,包括封闭开关设备的整体性能、零部件性能、运行性能等方面测试结果的综合报告。现阶段,封闭开关设备的质量检验报告的验收需要通过人工完成,耗费人力,而通过构造封闭开关设备质量的标准知识图谱,则可以自动化的方式完成设备检验报告的智能理解与自动验收。而该项技术的难点在于检验报告以非结构化的形式呈现,需要首先对其进行文字识别,再在语义层面上对其中的命名实体和关系进行抽取,进而构建知识图谱。
目前,构建知识图谱的关键性技术在于实体关系抽取,按照机器学习的方法对于语料库的不同需求大致可以分为三类:无监督关系抽取、有监督关系抽取和弱监督关系抽取。无监督关系抽取希望把相同关系的模版聚合起来,不需要人工标注的数据,自动地提取出来实体关系。有监督关系抽取是使用人工标注的语料进行训练,这种方法是目前取得效果最好的,但是需要大量的人力标注,费时费力。还有学者提出利用知识库回标文本自动获取大量的弱监督数据,但是准确率不高。
发明内容
本发明针对现有封闭开关设备质量检验的不足之处,提出了一种用于封闭开关设备的知识图谱构建方法与系统。
本发明对标准质量检验报告的扫描图像进行基于BERT(Bidirectional EncoderRepresentation from Transformers)的命名实体与实体关系抽取,从而构建标准封闭开关设备信息的知识图谱,再对测试样本进行关系抽取进行比对,从而实现设备合格性的检验。
本发明的技术方案为一种用于封闭开关设备的知识图谱构建方法,包括如下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
步骤3,构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
步骤4,对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
进一步的,三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
进一步的,所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
本发明还提供一种用于封闭开关设备的知识图谱构建系统,包括如下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
样本测试模块,用于对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,文字识别模块的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
进一步的,三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
进一步的,所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
本发明具有以下优点和有益效果:
1)模型可自动提取质检报告中的实体及属性;
2)模型的训练和使用分离:一个模型可用于多份质检报告;
3)模型可以用于封闭开关设备的自动验收;
本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。
附图说明
图1为本发明流程示意图;
图2为实例中封闭开关设备检验报告扫描图像;
图3为实例中抽取出的封闭开关设备的三元组关系;
图4为实例中获得的封闭开关设备知识图谱。
具体实施方式
本发明主要基于知识图谱构造方法,提出了一种用于封闭开关设备的知识图谱构建方法。通过本方法,可以实现质量检验报告扫描图像的知识抽取,完成封闭开关设备的自动验收。
本发明提供的方法能够使用计算机软件技术实现流程,参见图1。实施例以从一份封闭开关设备质量检验报告扫描图像知识抽取为例对本发明的流程进行一个具体的阐述,如下:
一种用于封闭开关设备的知识图谱构建方法,包括以下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
进一步的,步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过512个字,超过的部分作为第二个句子,以句子为单位,标注出每个句子中描述设备属性的(实体,关系,实体属性)三元组关系,例如(设备,高度,3米);
进一步的,步骤2中对文字信息的标注关系应涵盖所有质量验收时需要检验的关系,并以json文件格式存储。
步骤3,构建基于BERT的关系三元组抽取模型,包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
进一步的,步骤3的具体实现方式如下,
将关系三元组抽取框架分为两个过程,第一个过程为关系抽取过程,识别出每个句子中含有的所有关系;第二个过程为实体识别过程,对每个句子与对应关系识别出三元组剩下的实体和实体属性。
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和编码层。
其中,BERT的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层。其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数。
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
BERT中文预训练模型由一层输入层和12层编码层构成,在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体、实体属性或非实体的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词,如“设备”两个字为“实体”的概率最大、“3米”两个字为“实体属性”的概率最大;
训练过程采用分布训练的方式,首先训练关系抽取模型,然后训练实体识别模型,完成针对封闭开关设备的三元组关系抽取模型训练。
步骤4,基于训练好的三元组抽取模型,对测试样本(如图2所示,为需要进行验证的开关柜设备质量检验报告,这里的测试样本即为需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后的样本)进行关系抽取,获取描述设备属性的三元组关系(如图3所示),然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱(如图4所示),并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,步骤4的具体实现方式如下,
首先取标准封闭开关设备的质量检验报告,利用训练好的三元组抽取模型对光学文字识别的结果进行三元组关系抽取,然后构建标准设备的关系知识图谱数据;取需要进行验证的开关柜设备质量检验报告进行三元组关系抽取,并构建测试样本的关系知识图谱,将两者进行比对,检验测试样本三元组的合格性,实现设备合格性的检验。
此外,本发明还提供一种用于封闭开关设备的知识图谱构建系统,包括以下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
样本测试模块,用于基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
各模块的具体实现和各步骤相对应,本实施例中不予撰述。
本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
1.一种用于封闭开关设备的知识图谱构建方法,其特征在于,包括如下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
步骤3,构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词;
所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multihead self attention 和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,d k 为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果;
步骤4,对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
2.如权利要求1所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract 对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
3.一种用于封闭开关设备的知识图谱构建系统,其特征在于,包括如下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词;
所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multihead self attention 和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,d k 为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果;
样本测试模块,用于对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
4.如权利要求3所述的一种用于封闭开关设备的知识图谱构建系统,其特征在于:文字识别模块的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract 对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188162.2A CN112883197B (zh) | 2021-02-08 | 2021-02-08 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188162.2A CN112883197B (zh) | 2021-02-08 | 2021-02-08 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883197A CN112883197A (zh) | 2021-06-01 |
CN112883197B true CN112883197B (zh) | 2023-02-07 |
Family
ID=76056505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110188162.2A Active CN112883197B (zh) | 2021-02-08 | 2021-02-08 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883197B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792155B (zh) * | 2021-08-30 | 2022-12-09 | 北京百度网讯科技有限公司 | 基于知识图谱的文本校验方法、装置、电子设备和介质 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
CN115358239B (zh) * | 2022-08-17 | 2023-08-22 | 北京中科智加科技有限公司 | 一种命名实体和关系识别方法及存储介质 |
CN115391569B (zh) * | 2022-10-27 | 2023-03-24 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种从研报自动构建产业链图谱的方法及相关设备 |
CN117473102B (zh) * | 2023-11-17 | 2024-07-05 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN110334130A (zh) * | 2019-07-09 | 2019-10-15 | 北京万维星辰科技有限公司 | 一种交易数据的异常检测方法、介质、装置和计算设备 |
CN110362660A (zh) * | 2019-07-23 | 2019-10-22 | 重庆邮电大学 | 一种基于知识图谱的电子产品质量自动检测方法 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423726B2 (en) * | 2018-01-10 | 2019-09-24 | International Business Machines Corporation | Machine learning to integrate knowledge and natural language processing |
CN111860882B (zh) * | 2020-06-17 | 2022-09-30 | 国网江苏省电力有限公司 | 一种电网调度故障处理知识图谱的构建方法及装置 |
-
2021
- 2021-02-08 CN CN202110188162.2A patent/CN112883197B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN110334130A (zh) * | 2019-07-09 | 2019-10-15 | 北京万维星辰科技有限公司 | 一种交易数据的异常检测方法、介质、装置和计算设备 |
CN110362660A (zh) * | 2019-07-23 | 2019-10-22 | 重庆邮电大学 | 一种基于知识图谱的电子产品质量自动检测方法 |
CN111143536A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息抽取方法及存储介质和相关装置 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112883197A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883197B (zh) | 一种用于封闭开关设备的知识图谱构建方法与系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN114926150B (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN115617990B (zh) | 基于深度学习算法的电力设备缺陷短文本分类方法和系统 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN114860934A (zh) | 一种基于nlp技术的智慧问答方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN116089610A (zh) | 一种基于行业知识的标签识别方法及装置 | |
CN117763107A (zh) | 一种基于图文问答多模态模型的电力缺陷图像检测方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN112651241A (zh) | 一种基于半监督学习的汉语并列结构自动识别方法 | |
CN115186683B (zh) | 一种基于跨模态翻译的属性级多模态情感分类方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |