CN116450834A - 一种基于多模态语义特征的档案知识图谱构建方法 - Google Patents
一种基于多模态语义特征的档案知识图谱构建方法 Download PDFInfo
- Publication number
- CN116450834A CN116450834A CN202211738811.2A CN202211738811A CN116450834A CN 116450834 A CN116450834 A CN 116450834A CN 202211738811 A CN202211738811 A CN 202211738811A CN 116450834 A CN116450834 A CN 116450834A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge graph
- archive
- text
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000013461 design Methods 0.000 claims abstract description 6
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 102100032202 Cornulin Human genes 0.000 claims description 8
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多模态语义特征的档案知识图谱构建方法包括:导入档案领域知识图谱构建框架设计所包含的档案信息;根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;对档案信息进行数据预处理与数据标注,并将数据进行分类;将档案信息进行多模态信息抽取;通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。本发明确保知识图谱本体的完备性和可靠性;有效解决单实体重叠存在的问题,同时为文本类档案管理与利用提供了技术支撑;通过OCR技术挖掘出图像中蕴含的有价值的信息,构建可视化的档案知识图谱。
Description
技术领域
本发明涉及档案知识图谱构建技术领域,具体为一种基于多模态语义特征的档案知识图谱构建方法。
背景技术
目前在知识图谱构建过程中,只考虑了文本单模态数据特征,对于同一语义特征的数据表征能力有限,挖掘出的关键特征不够丰富;其次在进行知识挖掘时,一般采用word2vec、CNN、RNN来获取词特征,获取的特征不全面且存在很多冗余特征;同时在实体关系联合抽取阶段,实体太多难以构建,缺乏模型来进行自动实体属性关联,对于实体属性较多的领域难以实现,同时会存在实体三元组重叠的问题。传统的知识图谱构建方法对于数据的利用不够充分,缺乏对知识体系的整体把控,只是难以贯通应用,缺乏对相关业务的认知推理,难以适应领域业务的实际发展。
为了丰富知识图谱的语义信息,本发明在海量语料库的基础上融合了海量档案数据,并在文本语义特征的基础上创新性地融合了视觉特征,数据间跨模态学习语义特征,提升了知识图谱的语义表征性能,能够获取更高层的抽象语义特征,知识图谱的推理和可解释性更强,构建的知识图谱更为完备、丰富和准确。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有的档案知识图谱构建方法存在对于实体属性较多的领域难以实现,同时会存在实体三元组重叠的问题,以及如何构建更为完备、丰富和准确的知识图谱问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于多模态语义特征的档案知识图谱构建方法,包括:
导入档案领域知识图谱构建框架设计所包含的档案信息;
根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;
对档案信息进行数据预处理与数据标注,并将数据进行分类;
将档案信息进行多模态信息抽取;
最后通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:档案领域知识图谱构建框架设计,包括:同时结合了自顶向下和自底向上两种知识构建方法。既结合了档案领域的专家相关经验知识,又能够发现新知识。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述知识图谱模式层构建包括:定义档案数据类及其类的层次结构;定义档案实体类;定义档案实体间关系及其属性;数据维度划分。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述数据预处理与数据标注为:判断文本数据、图像数据是否出现无关、冗余信息;
若出现这类信息则判断是否需要清除,并在清除后保证信息的完整性;
若判断为不需要清除或不存在此类信息,则保留原有数据;
并根据实体关系联合抽取模型的需要进行标注。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取包括:
文本模态信息抽取阶段主要采用基于改进GCN的实体关系联合抽取方法来抽取档案中的实体关系信息。文本模态信息抽取主要包括:多粒度特征提取层、BiGCN区域特征提取层、节点关系注意力机制、BiGCN交互特征提取和实体和关系预测。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述文本模态信息抽取阶段还包括:
两个阶段GCN编码器产生的节点输出进行实体和关系的预测后,需要将GCN两阶段的损失进行计算;
其中,Le和Lrel分别是实体和关系的损失,a是第一阶段和第二阶段的loss权重比例,实体和关系的损失值均使用交叉熵损失函数进行计算,训练过程中通过端到端的方式将损失值降到最低。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取还包括:
在图像识别阶段,需要对人脸数据进行预处理,预处理主要包括:人脸检测、人脸特征归一化;人脸检测中采用MTCNN来进行人脸检测,得到人脸特征进行归一化处理;然后采用基于LResnet的人脸识别方法来获取企业中重要人物。
作为本发明所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:结合OCR识别出图像中的包含的文字:
使用DBNet文本检测模型,检测出档案图像数据中存在的文本位置。DBnet文本检测计算公式如下所示:
使用CRNN文本内容识别模型,识别上一步检测到的文本图像对应的文本内容,最终得到图片中的文本位置及对应的文本内容;CRNN计算公式如下所示:
其中,其中k是放大因子,Pi,j是概率,Ti,j代表从网络中学习得到的自适应阈值;B-1(l)表示从序列到序列的映射函数B变换后是文本l的所有路径集合,而π则是其中的一条路径,x是模型输入,l是模型输出的文本,p(l|x)是输入x,输出l的概率,o是CTC的损失函数,s是这一个batch的输入p(l|x)。
一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。
本发明的有益效果:本发明提供的基于多模态语义特征的档案知识图谱构建方法;确保知识图谱本体的完备性和可靠性;有效解决单实体重叠存在的问题,同时为文本类档案管理与利用提供了技术支撑;通过OCR技术挖掘出图像中蕴含的有价值的信息,构建可视化的档案知识图谱。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法的整体流程图;
图2为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中文本模态信息抽取流程图;
图3为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中基于改进GCN的实体关系联合抽取模型结构图;
图4为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中基于LResnet人脸识别网络架构图;
图5为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中DBNet网络结构图;
图6为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中CRNN模型结构图;
图7为本发明第二个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法中关系标注的矩阵关联图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种基于多模态语义特征的档案知识图谱构建方法,包括:
S1:档案领域知识图谱构建框架设计;
通过设计档案领域知识图谱构建框架,明确整体知识图谱构建方法。首先需要明确档案数据知识本体所包含的内容,然后设计并明确本体构建的方法。
根据档案业务数据明确知识本体,需要构建的知识本体主要包括实体、概念、关系、属性、属性值等方面内容。
在本方案本体构建中,同时结合了自顶向下和自底向上两种知识构建方法。既结合了档案领域的专家相关经验知识,又能够发现新知识。
S2:知识图谱模式层构建;
模式层是知识图谱的知识组织架构,是对领域内实体、实体间关系以及属性进行描述的数据模型。在档案领域专家的帮助下对档案数据内容进行详细分析,提炼出档案领域里有意义的概念类型与相关的属性,以及概念之间关系,从而形成领域知识体系。
知识图谱模式层构建具体实现流程如下所示:
定义档案数据类及其类的层次结构;
定义档案实体类;
定义档案实体间关系及其属性;
数据维度划分;
进一步的,根据档案数据的来源及其数据类型,将数据进行维度划分,分为:数据类型、主题内容特征、等维度。
应该说明的还有,根据档案数据的来源,数据类型主要分为:文本、语音、视频、图像四种类型的数据。由于档案数据类型多样,为了便于业务的实际应用,将档案数据根据档案业务主题进行划分,包括:基于企业历史进程、基于人物志、基于重大事件/重大活动等主题。
S3:进行数据的获取;
在模式层设计好后,需要结合模式层来进行知识图谱数据层构建。数据层构建阶段主要涉及到数据获取、数据预处理与数据标注、数据分类、多模态信息抽取、实体关联与对齐、知识融合、知识加工和知识图谱可视化。
数据获取层负责对结构化数据解析、半/非结构化数据以及第三方合作数据解析。数据解析包括对excel、doc、docx、csv、json、xml、PDF、png、mp4等图像、文本、视频文件进行导入、读取以及结构化存储。
S4:对数据预处理与数据标注;
文本数据处理:
针对文本数据中存在的一些无关停用词、标点符号、特殊符号、错别字等都需要通过一些工具和算法来进行数据预处理操作,包括停用词过滤、正则匹配及其中文分词技术等,从多层面来实现数据质量的提高。
图像数据处理:
图像数据:图像数据中会存在一些冗余数据,及其噪音数据,针对一些无关的图像数据可以选择过滤保存或者删除,对于一些比较关键的数据需要进行数据增强或者其他图像预处理操作。在进行图像预处理过程中,需要结合图像领域的一些方法,包括灰度化、几何变换及其图像增强方法,避免进行人为批量数据处理。
视频数据:在视觉领域,图像数据与视频数据处理方法中很多相似之处,但是视频数据的关键之处在于,视频数据中需要重点考虑连续的图片之间的关系及其全局特征,图像数据主要考虑局部特征,视频数据在局部特征的基础上综合考虑全局语义特征。而在一整个视频中,并不是所有的图像数据所表达的特征都是关键的,需要抽取出一些关键帧来进行特征表达,来避免冗余特征的干扰。基于此,在视频数据中的冗余特征的剔除和关键帧的获取就显得极为重要。在进行视频特征清洗时,可以结合机器学习或者深度学习方法来提高视频质量。
数据标注并分类:
文本数据标注,根据实体关系联合抽取模型的需要,数据标注格式为BIO。图像数据根据目标检测需要识别的实体类别来进行标注。
标注的前期主要都是通过人工来进行标注,在人工标注的基础上使用预训练模型来进行训练后,可以进行批量预标注。然后在与标注的基础上结合人力来进行质量检查作为模型的训练数据。
为了便于后期的新数据处理及其关键信息抽取,考虑到档案数据数据量大、形式多样,前期需要人工对文本、图像、视频数据进行主题分类。便于后续直接进行关键信息抽取。根据现有的档案数据情况,将档案数据主题主要划分为:企业史志、人物传记、重大事件/活动和退休欢送会五大主题。
S5:进行多模态信息抽取,包括对文本和图像的抽取,更进一步的:
文本模态信息抽取:
文本模态信息抽取阶段主要采用基于改进GCN的实体关系联合抽取方法来抽取档案中的实体关系信息。文本模态信息抽取主要包括:多粒度特征提取层、BiGCN区域特征提取层、节点关系注意力机制、BiGCN交互特征提取和实体和关系预测。
多粒度特征抽取:
在词特征嵌入阶段,使用Bert来动态获取每个词语的上下文语义特征。该模型的输入为文本序列{x1,x2,x3...xn},通过Bert获取的语义特征中包含了句子中词语间的语义关系。Bert的计算如下式所示:
h0=HWs+Wp (1)
hl=Trans(hl-1),l∈[1,N] (2)
其中H为输入句子中每个子词的索引值,通过公式(1)计算得到初始输入值,W为初始化矩阵参数值,Ws为初始化词嵌入参数,Wp为位置嵌入参数。其中Trans为transformer编码层计算,N为编码层的层数,本方案中的模型层数为12。
字符特征嵌入:
在文本特征中,字符特征中蕴含着丰富的语义特征,通过加入字符特征可以大幅度丰富文本的语义特征,加深模型对于文本语义特征的理解。采用CNN来获取文本中的词特征嵌入,通过CNN提取到字符特征Xc。
Xc=FCL(Maxpooling(Conv(c1,c2,c3,...,cm))) (3)
词性特征嵌入:
考虑到词性中蕴藏着一些额外的语义特征,基于此通过添加词性特征来进行文本语义特征丰富。将全部文本数据进行处理构建词性表,随机初始化词性特征嵌入P={p1,p2,p3...pn},然后使用BILSTM来获取词性特征。
特征拼接:
将词级别语义特征、字符特征嵌入和词性特征嵌入进行拼接得,然后使用BILSTM来进行特征融合,得到多粒度文本特征H。
BiGCN区域特征提取:
为了增强句子特征表示,使用BiGCN来捕获语义特征表示。由于句子间存在句法依赖关系,首先通过句法依存工具创建单词依赖树,然后遍历所有的数据得到依赖词集合,并根据对应的索引值生成依赖矩阵。将单词依赖矩阵作为GCN的初始邻接矩阵输入以提取句子的区域依赖信息。
其中,是单词i在第l层的隐藏特征,/>和/>是当前单词传入和传出的所有连接。/>是可训练的卷积权重参数。将上下文特征提取层的输出H作为BIGCN的初始输入,最后将两个方向的节点表示进行拼接得到第一阶段的GCN的特征输出。
节点关系注意力机制:
为了捕获句子中的每个词在不同关系空间下的动态依赖交互信息,通过使用节点关系注意力机制来进行单词间依赖关系特征获取。将上一阶段的特征输出进行线性变换之后得到作为初始化注意力机制的隐藏层特征输入。计算如下所示:
S=UWa+ba (8)
其中,Wa和ba为权重参数。通过共享句子的特征表示信息,节点注意机制可以捕获不同关系类型中单词之间的交互信息。
由于每个词在不同关系下的交互关系不同,为了有效区分开同一个词在不同关系下的特征表示,可以将同一个词的不同关系映射到不同的关系向量空间。
其中,m代表不同的关系空间,Qm是m关系下的查询向量矩阵,Km是m关系下的键值向量矩阵。和/>是可训练的模型参数。根据键值对向量计算m关系下的自适应依赖邻接矩阵Am,具体方式如下所示:
其中,Am是m关系下的节点关联矩阵,代表节点i和j在第m关系下的关联度,dr代表关系维度。Relu作为激活函数控制节点的断点与连接。
BiGCN交互特征提取:
BiGCN区域特征提取阶段,计算出的节点之间的依赖关系为1和0,节点间的依赖关系表达不够准确。基于此,该阶段在第一阶段的基础上,通过BiGCN进一步来表示节点间的依赖强度。通过自适应关系感知矩阵建立实体和关系之间的交互,从而尽可能的捕捉关系三元组的交互信息。
其中,是节点i在m关系下的隐藏特征表示,/>和/>分别代表由节点i所产生的前向传播和反向汇聚的特征信息。/>和/>是图卷积过程中的权重参数。最后,将所有关系下的节点表示叠加并与第一阶段节点输出拼接在一起作为最终的单词特征。
对实体和关系预测:
输入序列经过上下文特征提取层以及两个阶段GCN编码器得到每个单词的隐藏特征表示Qi,通过Qi可以同时预测文本中出现的实体和关系。对于实体识别,将单词隐藏特征Qi进行全连接线性变换,并使用激活函数Relu进行关系标签归一化操作,得到序列中每个单词对应的实体标签。
对于关系抽取,通过预测所有的单词对得到对应的关系标签。将两个单词节点的特征输出Qi和Qj进行线性变换,然后使用激活函数Relu得到关系概率值Prel。
Prel(r|ei,ej,s)=Relu(S(ei,r,ej)) (18)
其中,Wr1、Wr2和Wr3是可训练的模型参数,S(ei,r,ej)是单词对(ei,ej)在关系r下的倾向得分。通过枚举全部的单词对来尽可能的预测输入序列的三元组。需要注意的是,得到的二维关系矩阵代表着输入语句中所有单词对的关系标签。但是,该矩阵通过激活函数后只能得到一个数值。而重叠关系需要多个数值才能进行表示,因此,Joint-GNAA无法预测双实体重叠类型的三元组。
应该知道的是,两个阶段GCN编码器产生的节点输出进行实体和关系的预测后,需要将GCN两阶段的损失进行计算,即损失函数:
其中,Le和Lrel分别是实体和关系的损失,a是第一阶段和第二阶段的loss权重比例,实体和关系的损失值均使用交叉熵损失函数进行计算,训练过程中通过端到端的方式将损失值降到最低。
图像模态知识抽取:
图像模态信息主要是在文本模态的基础上进行实体信息补充,为知识图谱提供更为充分的视觉信息。主要是基于文本模态信息,利用关键词,通过搜索引擎从视觉数据库中检索出与文本实体相关的图像模态信息。其中,图像模态信息主要是通过目标检测、人脸识别、OCR技术来进行获取得到。
图像识别:
在图像识别阶段,需要对人脸数据进行预处理,预处理主要包括:人脸检测、人脸特征归一化;人脸检测中采用MTCNN来进行人脸检测,得到人脸特征进行归一化处理;然后采用基于LResnet的人脸识别方法来获取企业中重要人物,包括:年度先进人物等。
其中MTCNN模型计算主要包括:人脸分类、边界框回归、人脸关键点坐标预测。人脸分类的计算公式如公式(22)所示:
其中表示样本的真实标签,pi表示网络输出为人脸的概率。
人脸边界框预测计算公式如(23)所示:
其中表示网络输出之后校正得到的边界框的坐标,/>是目标的真实边界框。
人脸关键点坐标预测计算公式如(24)所示:
其中表示网络输出之后得到的关键点的坐标,/>是关键点的真实坐标。
结合OCR识别出图像中的包含的文字,包括:重要活动名称、会议名称、竞赛名称、活动时间等信息。通过结合图像相关技术挖掘出图像中蕴含的有价值的信息。
OCR识别主要包括文本检测与文本识别两个阶段,分别DBNet和CRNN来进行实现。档案图像数据OCR识别实现步骤为:
使用DBNet文本检测模型,检测出档案图像数据中存在的文本位置。DBnet文本检测计算公式如下所示:
其中k是放大因子,Pi,j是概率,Ti,j代表从网络中学习得到的自适应阈值。
使用CRNN文本内容识别模型,识别上一步检测到的文本图像对应的文本内容,最终得到图片中的文本位置及对应的文本内容。CRNN计算公式如下所示:
其中B-1(l)表示从序列到序列的映射函数B变换后是文本l的所有路径集合,而π则是其中的一条路径。
S6:进行知识融合、知识加工以及质量评估:
在知识融合阶段:知识融合是面向知识服务和决策的问题,以多源异构数据为基础,在本体库和规则库的支持下,通过知识抽取和转换获得隐藏在数据资源中的知识因子及其关联关系,进而在语义层次上组合、推理、创造出新知识的过程。知识融合是对知识抽取所得到的实体进行实体消歧、共指消解。
实体消歧指的是对可能存在多种含义的实体进行区分,是知识融合一个重要的研究方向。
由于预案文本属于电力领域文本,实体词义仅限于电力领域,并且电力行业有明确的术语规范,实体歧义的问题基本不存在。
共指消解是指将具有相同含义和指代的名词和代词在知识图谱中进行合并。
然而,在预案文本存在较多的共指问题,这主要是由名词缺省所造成的,需要对这些缺省名词进行补全。
知识加工是指按照某种策略,根据已有知识的推出新知识的过程,主要用来对知识图谱进行补全、质量检测并结合知识的发展进行更新和修正,一个具备知识推理能力的知识图谱,能够将数据深层的内在价值挖掘出来,更好的支撑后续应用。
然后进行知识校验、知识存储和知识更新;
应该知道的是,档案管理正处于快速发展阶段,档案数据结构和形式复杂多样,而档案数据需要不断适应业务的发展需要。基于此,知识图谱需要随着业务的发展需求进行持续化的更新,来不断保证知识图谱的时效性、可用性和高效性。档案知识图谱的更新主要分为模式层和数据层两方面:模式层的更新是指新增的预案中出现当前模式层中不存在的概念时,则根据新的概念对模式层中的文本类型、实体类型、关系类型进行更新;数据层的更新则是当新产生的预案没有产生新的概念时,采用增量更新的方式,对新增的知识进行知识抽取和知识融合后加入到原本的知识库中。
最后对质量进行评估。
S7:图谱可视化:
经过知识抽取之后,共形成125686个节点与56392个实体间关系,将这些三元组数据导入Neo4j图数据库中进行存储与表示,构建可视化的档案知识图谱。
实施例2
参照图2-7,为本发明的一个实施例,提供了一种基于多模态语义特征的档案知识图谱构建方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
评价指标
文本关键信息模型抽取阶段采用基于改进GCN的模型,抽取实体三元组,抽取三元组的评价指标为准确率、召回率和F1值:
/>
其中TP表示正类被判断为正类的数量,FP表示负类被判断为正类的数量,FN表示正类被判断为负类的数量,TN表示负类被判断为负类的数量。
实验数据:
本方案中,文本档案数据总共3000条非结构化关系抽取数据,该数据集中的关系主要包括:担任职务、所属公司、所属部门、发生时间等关系。此外,句子中包含的实体类型包括:机构、地点、时间、人物、职位等。3000条文本句子档案数据根据模型训练,划分训练集、验证集、测试集为8:1:1,即:2400条、300、300条句子。
实体标注策略使用BIEOS对每个句子的每个词进行标注,其B表示当前位置为实体的起始位置,I表示当前位置为尸体的内部位置,E表示当前位置为实体的结束位置,S表示当个字符为实体,O表示当前位置是其他非实体位置。
关系标注,使用矩阵关系将有关系的两个实体进行关联:如图7所示。
实验结果:
使用改进的GCN文本关键信息抽取模型在文本档案数据下的效果如表1所示:
表1
抽取的三元组效果准确率相较于传统的实体三元组抽取效果明显,准确率达到了85.5%。目前在实体关系联合抽取阶段中,抽取的效果都不是很理想,难以满足需求。在实体关系联合抽取中,三元组的抽取效果同时受限于实体抽取和关系抽取,两者中有一种效果不理想就会很大程度上影响模型的整体效果。
图像关键信息抽取-人脸识别模型:
档案人脸图像数据8000张,视频数据40小时。模型采用十折交叉验证来计算准确率,作为评估模型优劣的指标之一,并结合模型的数据加载时间、模型的提取时间来作为模型的另外评价标准。人脸识别模型在档案人脸数据中的效果如表所示。本方案中为了处于业务的考虑设计了MTCNN_LResnet模型,模型的数据加载时间为2.23秒,模型的提取时间为2.27秒,模型的准确率为0.94,模型主要以准确率为主要目标。
表2
图像关键信息抽取-OCR文字识别模型
OCR文字识别模型采用DBNet与RCNN实现文本检测与文本识别。OCR中文本检测模型的评价指标见公式(28)-(30),同时需要结合文本检测框DT与实际文本框GT之间的交并比IOU来作为另外的评价指标。其中,IOU计算公式如(31)所示。文本识别评价指标为也为精确率、召回率以及F1值,计算公式如(28)-(30)所示。
在图像OCR识别中的档案图像数据为10000张,图像数据主要为档案活动照片及其奖状数据。数据的训练集、验证集和测试集的划分标准为8:1:1。文本检测中,DBNet的实验结果如下表所示,准确率达到了0.958,召回率达到了0.946,F1值为0.942,文本检测模型的准确率效果比较好,且在召回率也存在一定的优势。
表3
文本识别模型的效果如表4所示,模型的准确率为0.917,召回率达到了0.920,F1值达到了0.912。从模型的效果可以看出,模型在图像文本识别上效果不错,能够满足企业现有的业务需求,在文本识别任务上有较大的优势。
表4
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于多模态语义特征的档案知识图谱构建方法,其特征在于,包括:
导入档案领域知识图谱构建框架设计所包含的档案信息;
根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;
对档案信息进行数据预处理与数据标注,并将数据进行分类;
将档案信息进行多模态信息抽取;
最后通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。
2.如权利要求1所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:档案领域知识图谱构建框架设计,包括:同时结合了自顶向下和自底向上两种知识构建方法。既结合了档案领域的专家相关经验知识,又能够发现新知识。
3.如权利要求1或2所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述知识图谱模式层构建包括:定义档案数据类及其类的层次结构;定义档案实体类;定义档案实体间关系及其属性;数据维度划分。
4.如权利要求3所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述数据预处理与数据标注为:判断文本数据、图像数据是否出现无关、冗余信息;
若出现这类信息则判断是否需要清除,并在清除后保证信息的完整性;
若判断为不需要清除或不存在此类信息,则保留原有数据;
并根据实体关系联合抽取模型的需要进行标注。
5.如权利要求1或4任一所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取包括:
文本模态信息抽取阶段主要采用基于改进GCN的实体关系联合抽取方法来抽取档案中的实体关系信息。文本模态信息抽取主要包括:多粒度特征提取层、BiGCN区域特征提取层、节点关系注意力机制、BiGCN交互特征提取和实体和关系预测。
6.如权利要求5所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述文本模态信息抽取阶段还包括:
两个阶段GCN编码器产生的节点输出进行实体和关系的预测后,需要将GCN两阶段的损失进行计算;
其中,Le和Lrel分别是实体和关系的损失,a是第一阶段和第二阶段的loss权重比例,实体和关系的损失值均使用交叉熵损失函数进行计算,训练过程中通过端到端的方式将损失值降到最低。
7.如权利要求6所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取还包括:
在图像识别阶段,需要对人脸数据进行预处理,预处理主要包括:人脸检测、人脸特征归一化;人脸检测中采用MTCNN来进行人脸检测,得到人脸特征进行归一化处理;然后采用基于LResnet的人脸识别方法来获取企业中重要人物。
8.如权利要求7所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:结合OCR识别出图像中的包含的文字:
使用DBNet文本检测模型,检测出档案图像数据中存在的文本位置。DBnet文本检测计算公式如下所示:
使用CRNN文本内容识别模型,识别上一步检测到的文本图像对应的文本内容,最终得到图片中的文本位置及对应的文本内容;CRNN计算公式如下所示:
其中,其中k是放大因子,Pi,j是概率,Ti,j代表从网络中学习得到的自适应阈值;B-1(l)表示从序列到序列的映射函数B变换后是文本l的所有路径集合,而π则是其中的一条路径,x是模型输入,l是模型输出的文本,p(l|x)是输入x,输出l的概率,o是CTC的损失函数,s是这一个batch的输入p(l|x)。
9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211738811.2A CN116450834A (zh) | 2022-12-31 | 2022-12-31 | 一种基于多模态语义特征的档案知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211738811.2A CN116450834A (zh) | 2022-12-31 | 2022-12-31 | 一种基于多模态语义特征的档案知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450834A true CN116450834A (zh) | 2023-07-18 |
Family
ID=87127860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211738811.2A Pending CN116450834A (zh) | 2022-12-31 | 2022-12-31 | 一种基于多模态语义特征的档案知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450834A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116975256A (zh) * | 2023-07-28 | 2023-10-31 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN117059261A (zh) * | 2023-08-21 | 2023-11-14 | 安徽农业大学 | 一种基于多模态知识图谱的畜禽疾病诊断方法及系统 |
CN117608545A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 一种基于知识图谱的标准作业程序生成方法 |
-
2022
- 2022-12-31 CN CN202211738811.2A patent/CN116450834A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116628172B (zh) * | 2023-07-24 | 2023-09-19 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116975256A (zh) * | 2023-07-28 | 2023-10-31 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN116975256B (zh) * | 2023-07-28 | 2024-01-16 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN117059261A (zh) * | 2023-08-21 | 2023-11-14 | 安徽农业大学 | 一种基于多模态知识图谱的畜禽疾病诊断方法及系统 |
CN117608545A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 一种基于知识图谱的标准作业程序生成方法 |
CN117608545B (zh) * | 2024-01-17 | 2024-05-10 | 之江实验室 | 一种基于知识图谱的标准作业程序生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230153526A1 (en) | Method and apparatus for information extraction, electronic device, and storage medium | |
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
EP3851975A1 (en) | Method and apparatus for generating text topics, and electronic device | |
CN110301117B (zh) | 用于在会话中提供响应的方法和装置 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN110928961B (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
JP2022172381A (ja) | テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 | |
CN114064918A (zh) | 一种多模态事件知识图谱构建方法 | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
US11562593B2 (en) | Constructing a computer-implemented semantic document | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN116244448A (zh) | 基于多源数据信息的知识图谱构建方法、设备及系统 | |
EP4248301A1 (en) | Automatic document sketching | |
CN112883199A (zh) | 一种基于深度语义邻居和多元实体关联的协同消歧方法 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
CN116468009A (zh) | 文章生成方法、装置、电子设备和存储介质 | |
CN114117000A (zh) | 应答方法、装置、设备及存储介质 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |