CN117216008A

CN117216008A - 一种基于知识图谱的档案多模态智能编纂方法及系统

Info

Publication number: CN117216008A
Application number: CN202311011837.1A
Authority: CN
Inventors: 刘伊玲; 沈汝冰; 杨本富; 王胡燕; 王聪杰; 白扬
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-12-12

Abstract

本发明涉及人工智能技术领域，公开了一种基于知识图谱的档案多模态智能编纂方法包括，档案数据预处理、分类、标注后进行档案的电子文本、图像、音频、视频数据结构化；通过ner相关技术构建知识图谱生成三元组的数据形式，创建主题模板；实现语音生成、翻译、文本摘要、视频、图像生成，继续对稿件进行审核并输出。本发明提高了档案知识抽取的准确性和抽取效率，提高了档案知识的利用率，还有效提高了档案编研工作的效率。

Description

一种基于知识图谱的档案多模态智能编纂方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及自然语言处理、计算机视觉、机器学习等相关技术，与信息科学、图像处理、文本挖掘、数据挖掘、大数据分析等领域密切相关，尤其涉及一种基于知识图谱的档案多模态智能编纂方法。

背景技术

随着技术的不断发展，业务的类型及其数量的不断增加，档案的来源、类型及其数量也不断增加。目前企业档案数据的多样化、海量化，造成了档案数据的难以利用：档案数据利用成本高，需要付出大量的人力成本，耗时耗力，成本难以支撑；档案数据结构复杂、类型多样、来源广泛，通过文本、图像、视频、语音等多种不同类型的形式来进行存储和展示，难以从海量的档案数据中得到关键的档案知识，知识获取难且不全。同时，现存的档案数据中档案大部分为孤本，在开展利用服务时，容易丢失、失控、影响档案的寿命。档案编研工作海量档案数据关键信息人工提取方式落后，且效率低下，档案各主题编纂缺乏数字化、智能化手段支撑，档案作为企业的有价资料，无法得到更好的开发利用，且人工编纂素材收集整理难，过程中存在档案信息缺失、泄露等风险。

为了有效解决以上的这些问题，本研究提出了一种基于知识图谱的档案多模态智能编纂方法。通过结合人脸识别、OCR及其语音识别、视频关键帧抽取等相关技术来进行档案多模态关键信息抽取并对知识进行结构化，在此基础上实现档案智能编纂。档案智能编纂根据实际的档案业务主要划分为：关键信息抽取及其智能编纂两大阶段。在关键信息抽取阶段中，考虑到档案数据中数据类型多样，基于预先定义好的关键信息分别针对不同的数据类型采用了不同的关键信息抽取技术。在编纂阶段，基于档案业务需求，设计了多种档案主题模板及其档案抽取规则，并结合生成式模型，实现了档案多模态内容编纂。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，提供一种基于知识图谱的档案多模态智能编纂方法，旨在借助信息化技术，推动数智赋能档案事业转型升级，加强人工智能技术、大数据技术等新一代信息技术在档案智能化信息建设中的应用，注重档案非结构化资源的整合、数据挖掘、知识关联和知识服务，深化理论实践研究。

为解决上述技术问题，本发明提供如下技术方案，一种基于知识图谱的档案多模态智能编纂方法，包括：

档案数据预处理、分类、标注后进行档案的电子文本、图像、音频、视频数据结构化；通过ner相关技术构建知识图谱生成三元组的数据形式，创建主题模板；实现语音生成、翻译、文本摘要、视频、图像的档案多模态内容生成，继续对稿件进行审核并输出。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述档案结构化包括档案电子文本数据结构化、档案图像数据结构化、档案音频数据结构化以及档案视频数据结构化；

所述档案电子文本数据结构化包括文本关键信息模型抽取阶段和实体关系联合抽取阶段；

所述文本关键信息模型抽取阶段表示为：

其中，Precision为准确率、Recall为召回率，F1为评价指标，TP表示正类被判断为正类的数量，FP表示负类被判断为正类的数量，FN表示正类被判断为负类的数量，TN表示负类被判断为负类的数量；

所述实体关系联合抽取阶段具体步骤如下：进行文本多特征获取，使用Bert动态获取每个词语的上下文语义特征，采用CNN来获取文本中的词特征嵌入并提取到字符特征、POS进行词性标记，使用word2vec实现向量化得到文本词性特征拼接得到多粒度文本特征，使用BIGCN获取区域特征表示，上一阶段的语义特征需要输入到注意力机制层，学习句子间的语义关系得到每个词语在某种特定关系下的权重值，并重新计算新的句子表示，通过LSTM机制来实现冗余特征过滤，只保留下关键的特征，最后进行实体关系特征分类，多头注意力机制、BIGCN特征获取和CRF实体关系预测三个部分，将多头注意力机制获得的语义特征输入到BIGCN中进行句间深层语义特征学习，在利用CRF实现在某个关系下的头尾实体预测。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述档案图像数据结构化包括利用OCR模型进行文本检测和文本识别；

所述文本检测为DBnet文本检测表示为：将图像输入带有特征金字塔的ResNet主干网络，通过自上而下地进行上采样，将采样的特征与具有相同尺寸的特征进行级联得到特征图F，特征图F用于预测概率图P和阈值图T，通过P和F计算出近似二值图，概率图P表示像素点为文本的概率，阈值图T表示每个像素点是否为文本，对每一个像素点进行自适应二值化由网络学习得到的，将二值化这一步骤加入网络一起进行训练；

所述文本识别为CRNN文本识别表示为：输入图片经过卷积层提取得到一个特征序列，利用RNN对特征序列的每一帧进行预测，最后在输出层对RNN的每帧预测结果进行转录，得到最终的一个标签的序列，将RNN预测的每个字符组合得到一个完整的单词。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述档案音频数据结构化包括进行语音识别，在语音识别的基础上对语音识别的结果进一步进行语音数据结构化处理，对内容进行概括，抽取出摘要式的一段文本作为音频数据的关键信息，其中，语音识别采用WER来作为评价指标表示为：

其中，Word Error Rate为WER词错误率，Num ofword为标准的词序列中词的总个数的百分比，Substitution、Deletion、Insertion为插入、替换或删除的词的总个数。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述档案视频数据结构化包括采用自编码模型进行视频数据特征降维，对降维后的数据采用动态规划和聚类方法来进行关键帧抽取；

所述关键帧抽取包括包含人物数据的关键帧和包含文字的关键帧：对于所述包含人物数据的关键帧进行重要人物人脸识别，将数据与人物信息相结合，对于所述包含文字的数据进行所述的OCR识别，将图像OCR结果与视频关键帧相结合，采用的OCR方法同图像OCR方法，对于既包含人物又包含文字的关键帧进行人物信息抽取和OCR处理。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述知识图谱包括通过ner技术抽取出实体三元组，图像数据需要结构化后得到文本三元组，再与原始图像数据相关联，结合NLP相关技术将多来源、多模态档案知识进行知识抽取，并结合知识关联及知识聚类方法实现档案多模态语义知识关联，进行档案知识图谱可视化构建。

作为本发明所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案，其中：所述多模态内容生成包括采用自然语言处理法进行语音生成、翻译、文本摘要、视频和图像生成进行深度语义理解与分析；

所述语音生成采用Fastspeech2实现文本直接生成语音，模型结构为非回归形式的编码器和解码器，在编码层与解码层之间引入Variance Adaptor来进行音素之间的停顿预测、音调和音量的预测，更好地把握音频特征；

所述文本摘要包括模型预训练及其特征获取和句子内容生成两阶段，利用预训练语言模型BERT获取新闻文章的词向量，同时利用多维语义特征对新闻中的句子进行打分简单拼接生成输入序列，第二阶段将得到的输入序列输入到指针生成网络模型中，使用coverage机制减少生成重复文字，同时保留生成新文字的能力得到档案文本摘要。

本发明的另外一个目的是提供一种基于知识图谱的档案多模态智能编纂方法的系统，结合了ner、语音识别、视频抽帧、OCR、人脸识别等多种深度学习方法对档案多模态非结构化数据进行知识抽取，构建多模态档案聚类库，基于档案知识图谱，结合档案生成规则和档案生成方法，实现了档案多模态关键信息抽取，有效提高了档案编研工作的效率。

一种基于知识图谱的档案多模态智能编纂系统，其特征在于，包括人脸识别模块，OCR模块，语音识别模块，摘要抽取模块，语音合成模块，视频关键帧抽取模块。

所述人脸识别模块，构建人脸数据库后进行人脸对齐预处理，再利用人脸识别算法提取样本的人脸特征向量并输出与其相似度最高的人脸身份。

所述OCR模块，图像文本位置检测阶段使用DBNet模型来进行特征提取，档案文本内容识别阶段使用CRNN神经网络模型实现最终的一个标签的序列。

所述语音识别模块，采用基于transformer的语言模型实现文本表示结果。

所述摘要抽取模块，结合了BERT得到档案文本摘要。

所述语音合成模块，采用Fastspeech2实现文本直接生成语音，在编码层与解码层之间引入Variance Adaptor音素之间的停顿预测、音调和音量的预测，更好地把握音频特征。

所述视频关键帧抽取模块，基于深度学习的方法采用自编码模型进行视频数据降维，对降维后的数据采用动态规划和聚类的方法进行关键帧抽取。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现一种基于知识图谱的档案多模态智能编纂方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现一种基于知识图谱的档案多模态智能编纂方法的步骤。

本发明的有益效果：本发明结合了ner、语音识别、视频抽帧、OCR、人脸识别等多种深度学习方法对档案多模态非结构化数据进行知识抽取，实现了档案多模态关键信息抽取，摒弃了传统的人工知识梳理，提高了档案知识抽取的准确性和抽取效率；构建多模态档案聚类库，以知识图谱的形式将结构化档案多模态知识进行主题聚类后将知识进行关联，将孤立的知识进行关联起来，避免了信息孤岛，提高了档案知识的利用率；基于档案知识图谱，结合档案生成规则和档案生成方法，实现了档案主题多模态内容编研，实现了档案文本、语音、图片及其视频多模态相关内容生成，有效提高了档案编研工作的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的工作方法流程示意图。

图2为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的人脸识别流程。

图3为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的Tansformer语音识别模型结构。

图4为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的文本摘要生成模型结构图。

图5为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的语音合成模型图。

图6为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的自编码模型结构图。

图7为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的关键帧抽取流程图。

图8为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的聚类库构建。

图9为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的档案智能编纂方法。

图10本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂方法的整体思路图。

图11为本发明一个实施例提供的一种基于知识图谱的档案多模态智能编纂系统的工作流程图示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性地与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了一种基于知识图谱的档案多模态智能编纂方法，包括：

S1：档案数据预处理、分类、标注后进行档案的电子文本、图像、音频、视频数据结构化。

更进一步的，首先，将获取的档案数据进行数据清洗，实现档案数据的第一阶段筛选过滤，筛选出内容较为丰富的档案数据；其次，根据档案主题类别，采用python相关数据处理技术及其RCNN分类模型实现档案数据主题分类；根据档案数据的主题类型，将所属同一主题的数据归为同一类，同一主题下的数据包括档案文本、视频及其图像数据，实现数据的自动化分类管理，大幅度节约了数据处理的成本；最后，根据档案数据模型各自的需要，对文本档案数据、图像档案数据和视频档案数据进行标注，文本档案数据需要进行分类和实体关系联合抽取，需要根据模型分别进行档案文本数据标注；图像档案数据和视频档案数据后期需要进行人脸识别和OCR文字识别，需要对档案图像数据和视频数据进行人脸识别标注和OCR标注；视频档案数据中的音频数据后期需要进行语音识别，同样需要对语音数据进行语音标注。

应说明的是，档案电子文本数据结构化包括文本关键信息模型抽取阶段和实体关系联合抽取阶段；

所述文本关键信息模型抽取阶段表示为：

其中，Precision为准确率、Recall为召回率，F1为评价指标，TP表示正类被判断为正类的数量，FP表示负类被判断为正类的数量，FN表示正类被判断为负类的数量，TN表示负类被判断为负类的数量。

所述实体关系联合抽取阶段具体步骤如下：首先，进行文本多特征获取，使用Bert动态获取每个词语的上下文语义特征，采用CNN来获取文本中的词特征嵌入并提取到字符特征、POS进行词性标记，使用word2vec实现向量化得到文本词性特征拼接得到多粒度文本特征，使用BIGCN获取区域特征表示，其次，上一阶段的语义特征需要输入到注意力机制层，学习句子间的语义关系得到每个词语在某种特定关系下的权重值，并重新计算新的句子表示，通过LSTM机制来实现冗余特征过滤，只保留下关键的特征，最后，进行实体关系特征分类，多头注意力机制、BIGCN特征获取和CRF实体关系预测三个部分，将多头注意力机制获得的语义特征输入到BIGCN中进行句间深层语义特征学习，在利用CRF实现在某个关系下的头尾实体预测。

还应说明的是，档案图像数据结构化包括档案重要人物数据抽取和利用OCR模型进行文本检测和文本识别：

档案重要人物数据抽取采用的人脸识别方法为基于MTCNN-facenet的人脸识别方法，通过将数据输入到MTCNN中进行人脸区域及其人脸关键点检测，通过结合三个网络层准确找到人脸关键点及其人脸区域所在的位置，最终得到合适的人脸检测框和人脸关键点，将得到的特征输入到Facenet模型中进行人脸特征提取，该方法需要将采集到的人脸数据进行分类存储到人脸特征库，并将输入图像与特征库中的数据进行比对，通过计算两种图片之间的相似度来最终得到图像的识别结果。该方法可以实现实时人脸识别，在速度上和性能上都得到了大幅度的提升。

OCR模型文本检测为DBnet文本检测表示为：首先将图像输入带有特征金字塔的ResNet主干网络，通过自上而下地进行上采样，将采样的特征与具有相同尺寸的特征进行级联得到特征图F，特征图F用于预测概率图P和阈值图T，通过P和F计算出近似二值图，概率图P表示像素点为文本的概率，阈值图T表示每个像素点是否为文本，对每一个像素点进行自适应二值化由网络学习得到的，将二值化这一步骤加入网络一起进行训练；文本识别为CRNN文本识别表示为：输入图片经过卷积层提取得到一个特征序列，利用RNN对特征序列的每一帧进行预测，最后在输出层对RNN的每帧预测结果进行转录，得到最终的一个标签的序列，将RNN预测的每个字符组合得到一个完整的单词。

还应说明的是，档案音频数据结构化采用基于transformer的深度学习方法进行语音识别，直接语音识别的数据会存在一些冗余信息，同时语音识别的结果数据有时候太长难以进行概括，基于此，在语音识别的基础上对语音识别的结果进一步进行语音数据结构化处理，由于采集到的音频数据中，存在规模较大的音频数据，直接语音识别的结果难以直接利用，需要进行结构化处理后，对内容进行概括，抽取出摘要式的一段文本作为音频数据的关键信息，其中，语音识别采用WER来作为评价指标表示为：

还应说明的是，档案视频数据结构化采用自编码模型进行视频数据特征降维，对降维后的数据采用动态规划和聚类方法来进行关键帧抽取；所述关键帧抽取包括包含人物数据的关键帧和包含文字的关键帧：对于所述包含人物数据的关键帧进行重要人物人脸识别，将数据与人物信息相结合，对于所述包含文字的数据进行所述的OCR识别，将图像OCR结果与视频关键帧相结合，采用的OCR方法同图像OCR方法，对于既包含人物又包含文字的关键帧进行人物信息抽取和OCR处理。

S2：通过ner相关技术构建知识图谱生成三元组的数据形式，创建主题模板。

更进一步的，通过ner技术抽取出实体三元组，图像数据需要结构化后得到文本三元组，再与原始图像数据相关联，结合NLP相关技术将多来源、多模态档案知识进行知识抽取，并结合知识关联及知识聚类方法实现档案多模态语义知识关联，进行档案知识图谱可视化构建。

应说明的是，对档案信息进行综合整理，形成专题材料，如大事记、企业年鉴、组织沿革、科技成果简介、工程项目简介等；档案主题主要考虑两方面的因素：一是要考虑利用档案的需求，即选题的典型性、现实性、战略性、新颖性和预见性，二是考虑档案材料的基础和价值；基于此，档案主题主要划分为：公司大事记、公司科技成果简介、公司人物专栏、公司制度大全。

S3：实现语音生成、翻译、文本摘要、视频、图像的档案多模态内容生成，继续对稿件进行审核并输出。

更进一步的，根据主题模板中的设计需求，实现多样式的内容生成以满足用户的需求；该阶段主要包括：语音生成、翻译、文本摘要、视频、图像生成五大功能模块。

应说明的是，语音合成：文本前端使用傅里叶变换来实现文本与音素的转换；然后结合声学模型将字符/音素转换为声学特征，如线性频谱图、mel频谱图、LPC特征等；声码器通过声码器将声学特征转换为波形。

主题摘要生成阶段结合了BERT来进行实现分为模型预训练及其特征获取和句子内容生成两阶段；利用预训练语言模型BERT获取新闻文章的词向量，同时利用多维语义特征对新闻中的句子进行打分：档案词频特征结合TFIIDF来获得词频得分计算公式表示为：

其中，word_j代表文章中第j个词出现的次数，TF_i表示第i个句子中包含的词频之和，sen_i代表第i个句子中包含的所有词；文章中第i个句子的位置特征打分公式表示为：

其中，Pos_i代表第i个句子的位置得分，p_i代表第i个句子在新闻文章中的位置，n代表文章中的句子总个数；将二者进行简单拼接生成输入序列，第二阶段将得到的输入序列输入到指针生成网络模型中：解码状态进行注意力分布计算，得到ait值，计算公式如下所示：

其中，v、W_h、W_s、b_attn是通过训练得到的参数。利用注意力分布对编码器隐层状态加权平均，生成上下文向量

将上下文向量与解码状态序列st串联，通过两个线性映射，生成当前预测在词典上的分布P_vocat，计算公式如下：

其中，V'、V、b、b'是通过训练得到的参数；模型利用生成概率P_gen来确定复制单词还是生成单词，计算公式如下：

其中，b_ptr是通过训练得到的参数，σ是sigmoid函数，x_t是解码输入序列；将/>作为模型输出，得到生成单词w的概率分布：

引入coverage向量c^t跟踪已经生成的单词，并对已经生成的单词施加一定的惩罚，尽量减少生成重复；coverage向量ct计算方式如下：

其中，c^t表示目前为止单词从注意力机制中获得的覆盖程度；使用coverage向量ct影响注意力分布，重新得到注意力分布at，计算公式如下：

使用coverage机制减少生成重复文字，同时保留生成新文字的能力，得到档案文本摘要。

图像生成：找出原始档案中存在的相关的图像数据，将关键信息抽取阶段抽出的图像知识进行展示，该阶段不使用图像生成技术来进行实现。

视频内容生成：需要结合抽取出的图像数据，并结合文本信息将信息按照模板进行多样式组合，实现视频内容生成，该模块会将给人物相关的文本及其图像数据进行关联，从构建好的知识图谱中直接获取有用信息，并对内容进行组合后生成多样式的视频信息。

还应说明的是，档案模板设计灵活，得到档案的相应内容后，用户可以根据个人需要对档案的结构及其排版进行调整，并且每种内容的生成会存在多种样式，用户可以挑选出满意的样式及其内容输出后进行个性化内容及其样式布局；组稿后的文件，用户根据个人需求，可以自定义内容及其样式，或者对已有的内容及其样式进行编辑；稿件纠错模块实现了两种纠错能力，形错文字纠错和拼音纠错，结合NLP中的多种深度学习模型来进行纠错优化实现；用户根据个人需求进行稿件的输出类型选择，输出类型包括：文档(doc\docx)、ppt及其视频输出，用户选择相应的输出类型后进行稿件预览及其稿件输出。

实施例2

参照图2-图10，为本发明的一个实施例，提供了一种基于知识图谱的档案多模态智能编纂方法，为了验证本发明的有益效果，通过实验进行科学论证。

本方法进行如下实验：

1、使档案电子文本结构化，评价指标为：文本关键信息模型抽取阶段采用基于改进GCN的模型，抽取实体三元组，抽取三元组的评价指标为准确率、召回率和F1值.

(1)实验数据为：

本方案中，文本档案数据总共33w条非结构化关系抽取数据，该数据集中的关系主要包括：担任职务、所属公司、所属部门、发生时间等关系；此外，句子中包含的实体类型包括：机构、地点、时间、人物、职位等；33w条文本句子档案数据根据模型训练，划分训练集、验证集、测试集为8：1：1。

实体标注策略使用BIEOS对每个句子的每个词进行标注，其B表示当前位置为实体的起始位置，I表示当前位置为实体的内部位置，E表示当前位置为实体的结束位置，S表示当个字符为实体，O表示当前位置是其他非实体位置。关系标注，使用矩阵关系将有关系的两个实体进行关联。

(2)实验结果使用改进的GCN文本关键信息抽取模型在文本档案数据下的效果如表1所示：

表1文本关键信息数据效果表

模型	准确率	召回率	F1值
				改进的GCN模型	0.855	0.843	0.850

抽取的三元组效果准确率相较于传统的实体三元组抽取效果明显，准确率达到了85.5％；目前在实体关系联合抽取阶段中，抽取的效果都不是很理想，难以满足需求；在实体关系联合抽取中，三元组的抽取效果同时受限于实体抽取和关系抽取，两者中有一种效果不理想就会很大程度上影响模型的整体效果。

2、使档案图像数据结构化：

(1)重要人物信息提取

档案人脸图像数据50w张，视频数据40小时；模型采用十折交叉验证来计算准确率，作为评估模型优劣的指标之一，并结合模型的数据加载时间、模型的提取时间来作为模型的另外评价标准；人脸识别模型在档案人脸数据中的效果如表2所示；本方案中为了出于业务的考虑设计了MTCNN_LResnet模型，模型的数据加载时间为2.23秒，模型的提取时间为2.27秒，模型的准确率为0.94，模型主要以准确率为主要目标。

表2人脸数据效果表

(2)档案数据OCR文字识别

OCR文字识别模型采用DBNet与RCNN实现文本检测与文本识别；同时需要结合文本检测框DT与实际文本框GT之间的交并比IOU来作为另外的评价指标；在图像OCR识别中的档案图像数据为10000张，图像数据主要为档案活动照片及其奖状数据；数据的训练集、验证集和测试集的划分标准为8：1：1。

文本检测中，DBNet的实验结果如下表3所示，准确率达到了0.958，召回率达到了0.946，F1值为0.942，文本检测模型的准确率效果比较好，且在召回率也存在一定的优势。

表3DBNet的实验结果

文本检测模型	Precision	Recall	F1
				DBnet	0.958	0.946	0.942

文本识别模型的效果如下表4所示，模型的准确率为0.917，召回率达到了0.920，F1值达到了0.912；从模型的效果可以看出，模型在图像文本识别上效果不错，能够满足企业现有的业务需求，在文本识别任务上有较大的优势。

表4DBNet的实验结果

文本识别模型	Precision	Recall	F1
				CRNN	0.917	0.920	0.912

3、使档案音频数据结构化

(1)语音识别

一部分语音数据来源于档案原始语音数据，另一部分语音数据需要从档案视频数据中分离出来，语音数据总计400h，该阶段采用WER(词错误率，Word Error Rate)来作为评价指标。

为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER；通过计算每个音频文件的识别WER，然后计算全部结果的平均WER；AverageWER的实验结果如表5所下表所示：

表5Average WER的实验结果

(2)语音结果矫正

语音识别出的结果中，会存在部分识别结果为拼写错误的情况，基于这部分数据需要结合文本纠错来进行矫正；采用ERNIE-CSC来进行文本矫正，可以有效降低语音识别的错误率，整体可以纠正2％的语音识别错误结果。

4、进行语音合成，语音合成采用主观评价，通过人类对语音进行打分，使用平均意见得分(Mean Opinion Score，MOS)来作为评价标准；通过计算评分的均值来作为语音识别的最终结果，语音识别的平均值为4.8。

表6语音识别的最终结果

音频级别	平均意见得分	评价标准
			优	5.0	很好，听得清楚；延迟小，交流流畅
良	4.0	稍差，听得清楚；延迟小，交流欠流畅，有点杂音
			中	3.0	还可以，听不太清；有一定延迟，可以交流
差	2.0	勉强，听不太清；延退较大，交流需要重复多遍
			劣	1.0	极差，听不懂；延迟大，交流不通畅

应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

实施例3

本发明第三个实施例，其不同于前两个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例4

参照图11，为本发明的第四个实施例，该实施例提供了一种基于知识图谱的档案多模态智能编纂系统，包括人脸识别模块，OCR模块，语音识别模块，摘要抽取模块，语音合成模块，视频关键帧抽取模块。

人脸识别模块构建人脸数据库后进行人脸对齐预处理，再利用人脸识别算法提取样本的人脸特征向量并输出与其相似度最高的人脸身份。

OCR模块图像文本位置检测阶段使用DBNet模型来进行特征提取，档案文本内容识别阶段使用CRNN神经网络模型实现最终的一个标签的序列。

语音识别模块采用基于transformer的语言模型实现文本表示结果。

摘要抽取模块结合了BERT得到档案文本摘要。

语音合成模块采用Fastspeech2实现文本直接生成语音，在编码层与解码层之间引入Variance Adaptor音素之间的停顿预测、音调和音量的预测，更好地把握音频特征。

视频关键帧抽取模块基于深度学习的方法采用自编码模型进行视频数据降维，对降维后的数据采用动态规划和聚类的方法进行关键帧抽取。

Claims

1.一种基于知识图谱的档案多模态智能编纂方法，其特征在于：包括，

档案数据预处理、分类、标注后进行电子文本、图像、音频、视频数据的档案结构化；

通过ner相关技术构建知识图谱生成三元组的数据形式，创建主题模板；

实现语音生成、翻译、文本摘要、视频、图像的档案多模态内容生成，继续对稿件进行审核并输出。

2.如权利要求1所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案结构化包括档案电子文本数据结构化、档案图像数据结构化、档案音频数据结构化以及档案视频数据结构化；

所述文本关键信息模型抽取阶段表示为：

3.如权利要求2所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案图像数据结构化包括利用OCR模型进行文本检测和文本识别；

4.如权利要求3所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案音频数据结构化包括进行语音识别，在语音识别的基础上对语音识别的结果进一步进行语音数据结构化处理，对内容进行概括，抽取出摘要式的一段文本作为音频数据的关键信息，其中，语音识别采用WER来作为评价指标表示为：

5.如权利要求4所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案视频数据结构化包括采用自编码模型进行视频数据特征降维，对降维后的数据采用动态规划和聚类方法来进行关键帧抽取；

6.如权利要求5所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述知识图谱包括通过ner技术抽取出实体三元组，图像数据需要结构化后得到文本三元组，再与原始图像数据相关联，结合NLP相关技术将多来源、多模态档案知识进行知识抽取，并结合知识关联及知识聚类方法实现档案多模态语义知识关联，进行档案知识图谱可视化构建。

7.如权利要求6所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述多模态内容生成包括采用自然语言处理法进行语音生成、翻译、文本摘要、视频和图像生成进行深度语义理解与分析；

8.一种采用如权利要求1～7任一所述的基于知识图谱的档案多模态智能编纂方法的系统，其特征在于：包括人脸识别模块，OCR模块，语音识别模块，摘要抽取模块，语音合成模块，视频关键帧抽取模块；

所述人脸识别模块，构建人脸数据库后进行人脸对齐预处理，再利用人脸识别算法提取样本的人脸特征向量并输出与其相似度最高的人脸身份；

所述OCR模块，图像文本位置检测阶段使用DBNet模型来进行特征提取，档案文本内容识别阶段使用CRNN神经网络模型实现最终的一个标签的序列；

所述语音识别模块，采用基于transformer的语言模型实现文本表示结果；

所述摘要抽取模块，结合了BERT得到档案文本摘要；

所述语音合成模块，采用Fastspeech2实现文本直接生成语音，在编码层与解码层之间引入Variance Adaptor音素之间的停顿预测、音调和音量的预测，更好地把握音频特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。