CN117150436B

CN117150436B - 多模态自适应融合的主题识别方法及系统

Info

Publication number: CN117150436B
Application number: CN202311422605.5A
Authority: CN
Inventors: 冯卫强; 张友豪; 闫文杰
Original assignee: Shanghai Financial China Information & Technology Co ltd
Current assignee: Shanghai Financial China Information & Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-30
Anticipated expiration: 2043-10-31
Also published as: CN117150436A

Abstract

本发明提供一种多模态自适应融合的主题识别方法及系统，涉及自然语言处理技术领域，包括：步骤S1：针对主题识别任务构建主题识别数据集；步骤S2：利用不同的预训练模型分别提取文本信息的语义特征和视觉特征向量；步骤S3：获取规则信息的规则特征向量；步骤S4：自适应融合所述语义特征、视觉特征与规则特征，得到全局特征；步骤S5：利用融合后的全局特征进行主题识别。本发明能够增强识别准确度和鲁棒性，同时提供了输出结果的可信度区间范围，使得模型的输出结果更加可靠和可解释，既可广泛应用于文本分类、信息检索等诸多领域，还可为自然语言理解和自然语言处理等基础研究提供有益启示。

Description

多模态自适应融合的主题识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及一种多模态自适应融合的主题识别方法及系统。

背景技术

上市公司年报、公告、新闻稿等文本数据具有重要的商业价值和社会意义，是媒体、投资者、监管机构进行信息分析和决策的主要依据。然而，这些文本数据常常以PDF等格式存在，难以有效地进行文本分析和数据挖掘。

传统的方法主要依靠规则信息或者语义信息，然后利用LSTM等序列模型进行句子级别的序列标注。但是，首先这类方法的局限性在于没有有效地综合利用PDF的视觉特征，往往同一个主题的事件分布在同一个位置。其次，传统算法仅靠精度指标往往无法充分评估模型的好坏，导致模型的输出结果可能会被过度解读或误导。具体地说，如果模型没有置信度概念，当用户得到模型的结果时，无法判断这个结果是否可信，是否与数据完全匹配。因此，用户可能会盲目信任模型，即使模型的预测结果是错误的，也可能会采取相应的行动。同时在实际应用中，模型无法自适应预测结果，并无法识别问题所在。这可能会导致预测错误、不正确的决策，也会降低模型的鲁棒性和应用价值。

发明内容

针对现有技术中的缺陷，本发明提供一种多模态自适应融合的主题识别方法及系统。

根据本发明提供的一种多模态自适应融合的主题识别方法及系统，所述方案如下：

第一方面，提供了一种多模态自适应融合的主题识别方法，所述方法包括：

步骤S1：针对主题识别任务构建主题识别数据集；

步骤S2：利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量；

步骤S3：获取规则信息的规则特征向量；

步骤S4：自适应融合所述语义特征向量、视觉特征向量与规则特征向量，得到全局特征向量；

步骤S5：利用融合后的全局特征向量进行主题识别。

优选地，所述步骤S1包括：

随机提取、构建主题识别样本集，其中/>为第篇PDF文件，共/>个；

步骤S1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，下文简记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片；

步骤S1.2：构建主题识别数据的规则信息集合，共计有/>个，记为，其中，/>表示第/>个规则；

步骤S1.3：构建段落识别数据的标签信息集合，记为，假设一共有/>个主题，其中，/>，表示对每一个字/>的标签，/>；

步骤S1.4：由所述文本和图像信息集合、规则信息集合/>以及标签信息集合组成完整的主题识别数据集/>。

优选地，所述步骤S2包括：

步骤S2.1：把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话，得到文本序列/>，然后用预训练语言模型提取/>的文本信息，得到语义特征向量；

步骤S2.2：采用视觉预训练模型提取每一个图片/>的视觉特征，得到视觉特征表示/>，然后把同一个PDF的向量，利用类似于步骤S2.1的滑窗机制，按照特征维度拼接起来，得到每一个PDF对应的视觉特征向量/>。

优选地，所述步骤S3包括：

步骤S3.1：获取初级规则特征向量：构建规则信息集合，然后构建函数/>把PDF中的每个字都映射到Q维的向量空间，得到规则特征表示，其中，/>表示第/>个PDF样本的第/>页的第/>个字，是否满足第/>个规则，其值为0或1，0表示不满足，1表示满足；每个字之间不是相互独立的，函数/>的输入参数中包含/>和/>；

步骤S3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，使用步骤S2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量；

1)

2)

本步骤下，式1)中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式2)为归一化指数函数，/>是调节因子，使得矩阵的内积不至于太大，一般和向量/>的最后一个维度一致。

优选地，所述步骤S4包括：

3)

4)

利用式1)-4)所示的多头注意力模型，取为三者公用的滑窗长度，，/>函数拼接时，取/>，从而得到自适应融合的全局特征向量/>。

优选地，所述步骤S5包括：

步骤S5.1：将全局特征向量输入如式5)和式6)所示的分类器，从而得到每一个字对应的主题的概率分布/>；

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

步骤S5.2：采用式7)所示的多分类交叉熵损失函数作为目标函数：

7)

式7)中，表示所述样本集/>中作为训练集的数据条数，/>表示给定的主题一共有/>个，/>表示样本/>的真实类别是否等于预测的类别，是的话取1，否则取0，/>表示样本/>中，每一个字属于主题/>的概率；

步骤S5.3：采用算法，每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>，取扰动参数/>如式8)、式9)所示，其中/>取高斯分布下的随机初始化结果，/>指常规定义下的/>范数，/>指常规定义下矩阵的2范数；

8)

9)

步骤S5.4：训练过程中，设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数/>进行训练；

步骤S5.5：基于每一个字的主题类别，提取出PDF文本中完整的主题片段并及时其置信区间；

在进行主题识别时，将所有文本和图片按照顺序输入已训练好的模型，对所有内容进行主题判断，在得到完整的主题内容之后，从步骤S4中得到的全局特征向量截取主题对应的特征向量；若第/>个样本的完整主题内容有/>个，记全部主题内容为/>，对其中的每一个主题/>，截取其对应的全局特征，通过式10)计算每个字的置信度/>：

10)

然后利用标准化算法，计算整个主题置信度的平均值和标准偏差，得到最终的主题的置信区间。

第二方面，提供了一种多模态自适应融合的主题识别系统，所述系统包括：

模块M1：针对主题识别任务构建主题识别数据集；

模块M2：利用不同的预训练模型分别提取语义特征向量和视觉特征向量；

模块M3：获取规则信息的规则特征向量；

模块M4：自适应融合所述语义特征向量、视觉特征向量与规则特征向量，得到全局特征向量；

模块M5：利用融合后的全局特征向量进行主题识别。

优选地，所述模块M1包括：

随机提取、构建样本集，其中/>为第/>篇PDF文件，共/>个；

模块M1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，下文简记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片；

模块M1.2：构建主题识别数据的规则信息集合，共计有/>个，记为，其中，/>表示第/>个规则；

模块M1.3：构建段落识别数据的标签信息集合，记为，假设一共有/>个主题，其中，/>，表示对每一个字/>的标签，/>；

模块M1.4：由所述文本和图像信息集合、规则信息集合/>以及标签信息集合组成完整的主题识别数据集/>；

所述模块M2包括：

模块M2.1：把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话，得到文本序列/>，然后用预训练语言模型提取/>的文本信息，得到语义特征向量；

模块M2.2：采用视觉预训练模型提取每一个图片/>的视觉特征，得到视觉特征表示/>，然后把同一个PDF的向量，利用类似于模块M2.1的滑窗机制，按照特征维度拼接起来，得到每一个PDF对应的视觉特征向量/>；

所述模块M3包括：

模块M3.1：获取初级规则特征向量：构建规则信息集合，然后构建函数/>把PDF中的每个字都映射到Q维的向量空间，得到规则特征表示，其中，/>表示第/>个PDF样本的第/>页的第/>个字，是否满足第/>个规则，其值为0或1，0表示不满足，1表示满足；每个字之间不是相互独立的，函数/>的输入参数中包含/>和/>；

模块M3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，使用模块M2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量；

1)

2)

本步骤下，式1)中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式2)为归一化指数函数，/>是调节因子，使得矩阵的内积不至于太大，一般和向量/>的最后一个维度一致；

所述模块M4包括：

3)

4)

利用式1)-4)所示的多头注意力模型，取为三者公用的滑窗长度，，/>函数拼接时，取/>，从而得到自适应融合的全局特征向量/>；

所述模块M5包括：

模块M5.1：将全局特征向量输入如式5)和式6)所示的分类器，从而得到每一个字对应的主题的概率分布/>；

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

模块M5.2：采用式7)所示的多分类交叉熵损失函数作为目标函数：

7)

模块M5.3：采用算法，每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>，取扰动参数/>如式8)、式9)所示，其中/>取高斯分布下的随机初始化结果，/>指常规定义下的/>范数，/>指常规定义下矩阵的2范数；

8)

9)

模块M5.4：训练过程中，设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数/>进行训练；

模块M5.5：基于每一个字的主题类别，提取出PDF文本中完整的主题片段并及时其置信区间；

在进行主题识别时，将所有文本和图片按照顺序输入已训练好的模型，对所有内容进行主题判断，在得到完整的主题内容之后，从模块M4中得到的全局特征向量截取主题对应的特征向量；若第/>个样本的完整主题内容有/>个，记全部主题内容为/>，对其中的每一个主题/>，截取其对应的全局特征，通过式10)计算每个字的置信度/>：

10)

第三方面，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述的多模态自适应融合的主题识别方法中的步骤。

第四方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现所述的多模态自适应融合的主题识别方法中的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出了一个基于语义、视觉和规则特征的端到端主题识别框架。该框架将主题识别问题转化为连续段落片段的实体识别问题，通过综合语义连贯性、主题一致性和视觉一致性等特征来提高算法的精度和鲁棒性。具体来说，本发明采用预训练语言模型和预训练视觉模型分别提取语义特征和图像特征，并利用先验知识对数据进行准确的向量表征。综合这些特征，通过注意力机制和深度神经网络的联合使用，将多种特征信息融合到同一特征空间中，以提高算法的表达能力和鲁棒性。通过将主题识别问题转化为实体识别问题，该框架能够简化任务的复杂度并充分利用数据的多元信息；

2、针对语义和视觉特征表征的问题，本发明采用预训练模型来提取先验的语义和视觉特征。这些预训练模型已经在大规模数据集上进行了训练，可以提供更具代表性和通用性的特征描述。同时，通过使用预训练模型，本发明也可以减少数据的需求量，并强化了建模的泛化能力，对文本和图像进行L 更加准确的向量表征；

3、本发明通过深度神经网络对多种规则特征进行交互融合，进一步提高了特征的鉴别性和表达能力。在具体实现中，本发明使用多个深度神经网络对不同的规则特征进行建模，并使用注意力机制来动态学习特征和优化模型的性能。相比于传统的线性映射或内积的融合方式，本发明的方法更加灵活和深层次，能够更好地反映规则特征对主题识别的复杂影响；

4、为解决规则特征不可靠的问题，本发明提出了一种置信区间评估算法。该算法利用自注意力机制在获取分类结果的同时获取置信度，并结合主成分分析和多元回归分析等方法度量置信区间。通过该算法，可以自动剔除不可靠的规则特征，提高算法的准确性和可靠性。

本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明整体框架示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种多模态自适应融合的主题识别方法，引入视觉信息，并结合字形、结构和内容等特征，获取了文本和图像的混合特征表示，以期在处理PDF等无结构文件时，能够综合利用语义与视觉信息，以快速且准确地学习出数据特征表示，从而提高主题识别的准确性和精度。同时还综合考虑了样本偏差、模型可解释性等问题，引入了置信区间评估算法，通过对模型的精度、鲁棒性和可行性进行量化分析，提供了输出结果的可信度区间范围，提高了模型的泛化能力和可解释性，能够有效地避免算法的黑盒现象和错误决策，保证了算法应用的可行性和有效性。为解决实际问题提供了有益的探索。该方法主要包括：1、针对主题识别任务构建语义和视觉混合特征数据集；2、利用不同的预训练模型分别提取句子的语义和图像混合特征；3、引入深度学习网络，获取文本和图像特征交替自适应融合特征；4、利用对抗学习的技术，基于全局混合特征对句子进行主题分类；5、基于深度学习网络获取主题分类的置信区间。

本发明是将主题识别问题转化为连续段落片段的实体识别问题，利用深度学习方法，综合考虑语义与视觉特征，在采用预训练模型提取先验特征的同时，引入多种规则信息，构建向量表征，最后通过多头自注意力机制有效融合特征，学习得到精确的数据特征表示，从而提供更加精确的主题识别结果。具体的说，如图1所示，模型的输入包括文本信息和图像信息；将PDF传输到预训练语言模型模块，利用预训练模型丰富的先验知识，得到先验特征表示；对规则信息进行向量化表征，进而通过深度神经网络进行交互融合，得到统一的特征表示；然后，将先验特征与规则特征输入自适应融合模块，得到全局特征；最后，通过推理层来计算并基础获取主题识别结果，具体按如下步骤进行：

步骤S1：针对主题识别任务构建主题识别数据集，主题识别数据集中包括【文本和图像信息集合】、【规则信息集合】以及【标签信息集合】。

其中，步骤S1包括：从五年内的上市公司公告中随机提取、构建主题识别数据集合，其中/>为第/>篇PDF文件，共/>个。在本实施例中，取。

步骤S1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，下文简记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片。在本实施例中，采用PDF文档作为数据来源，通过PDFbox等开源PDF文件解析框架，获取PDF文件中的文字及位置，并把具体位置转换为在全文中的相对位置，通过pymupdf等开源的python项目把PDF的每一页渲染为图片，并以每一篇PDF的完整数据作为一个样本，将相邻的主题内容组成文本块。

步骤S1.2：构建主题识别数据的规则信息集合，共计有/>个，记为，其中，/>表示第/>个规则。在本实施例中，规则包含了字号信息、相对位置坐标、前后文信息、字符信息等各种不同维度的评价标准，这些评价标准可以综合考虑事件所在的上下文环境和具体的字符特征，为事件的提取和分析提供了更全面、更深入的依据。

步骤S1.3：构建段落识别数据的标签信息集合，记为，假设一共有/>个主题，其中，/>，表示对每一个字/>的标签，/>；本项目中暂不考虑同一个字对应多个主题的情形，即每一个字只会有一个标签。在本实施例中，标签信息通过人工标注获得，取常见主题一共20个，即。

步骤S1.4：由文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的段落识别数据集合/>。

步骤S2：利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量。

其中，步骤S2包括：

步骤S2.1：把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话，得到文本序列/>，然后用预训练语言模型提取/>的文本信息，得到语义特征向量。在本实施例中，经过交叉验证，预训练模型使用常规的自编码类模型，比如Bert类自编码语言模型即可，在最后的精度上不会有太大的差异。因为其有最大长度的限制，所以这里使用滑窗的办法解决，即取固定的窗口长度，然后平移窗口实现对全文的向量化，本方案中取窗口长度为512。

步骤S3：获取规则信息的规则特征向量。

其中，步骤S3包括：

步骤S3.1：获取初级规则特征向量：在步骤S1.2中，构建了规则信息集合，然后构建函数/>把PDF中的每个字都映射到Q维的向量空间，得到规则特征表示，其中，/>表示第/>个PDF样本的第/>页的第/>个字，是否满足第/>个规则，其值为0或1，0表示不满足，1表示满足；因为部分规则中含有前后文等信息，所以每个字之间不是相互独立的，因而函数/>的输入参数中包含/>和/>。在本实施例中，字与字之间的相关关系，截止到滑窗位置为止，所以不会有太高的复杂度。

步骤S3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，其中因为每一页的字数上限是基本恒定的，故可以使用步骤S2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量/>；

1)

2)

本步骤下，式1)中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式2)为归一化指数函数，/>是调节因子，使得矩阵的内积不至于太大，一般和向量/>的最后一个维度一致。在本实施例中，/>取为滑窗长度。

步骤S4：自适应融合所述语义特征向量、视觉特征向量与规则特征向量，得到全局特征向量。

为了克服不同样本中语义、视觉和规则特征在主题提取过程中的差异性、不确定性和稳定性问题，本发明提出了一种基于注意力机制的自适应融合方法，以实现对多维度特征信息的有效融合和利用。通过分离式的学习策略，在对语义、视觉、规则特征进行单独处理后，对每个特征在不同样本中的重要性进行动态学习和自适应分配。该机制不仅有效提升了模型的表达能力和鲁棒性，而且对于复杂和多变的文本场景具有很好的适应性和泛化性。

其中，步骤S4包括：

3)

4)

利用式1)-4)所示的多头注意力模型，取为三者公用的滑窗长度，，/>函数拼接时，取/>，从而得到自适应融合的全局特征表示/>。在本实施例中，不同的/>计算时采用相互独立的多元高斯分布。

步骤S5：利用融合后的全局特征向量进行主题识别。

其中，步骤S5包括：

步骤S5.1：将全局特征输入如式5)和式6)所示的分类器，从而得到每一个字对应的主题的概率分布/>。

在本实施例中，分类器由一个非线性全连接层以及一个激活函数构成，激活函数如式5)所示（简称为LSE），选择LSE函数的原因是它是/>函数的光滑近似，在后续把任务拓展到多主题识别时，也更加方便。本分类器最终输出维度为U，分别对应了U个主题。

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

7)

式7)中，表示所述主题识别样本集合/>中作为训练集的数据条数，/>表示给定的主题一共有/>个，/>表示样本/>的真实类别是否等于预测的类别，是的话取1，否则取0，表示样本/>中，每一个字属于主题/>的概率；在本实施例中，将主题识别数据集合按照7:2:1随机划分为训练集、验证集、测试集。为保证稳定性，分别取随机种子为0，1，42，43，1024，3588，10000，20000，及两个int类的随机数，在数据集划分上共计做了十折验证。

步骤S5.3：采用算法，每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>，取扰动参数/>如式8)、式9)所示，其中/>取高斯分布下的随机初始化结果，/>指常规定义下的/>范数，/>指常规定义下矩阵的2范数。

本实施例中，超参数选择为：，对每一步扰动都单独计算一次目标函数/>，这样可以用利用对抗学习增强模型的泛化能力。

8)

9)

步骤S5.4：训练过程中，设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数/>进行训练；本实施例中，/>结构的学习率/>，预训练模型学习率/>，/>优化算法的指数衰减率/>，当迭代次数达到/>时，停止训练，使得目标函数/>达到最小，从而得到主题识别模型用于对所输入的文本信息集合中，每一个字的主题类别判定输出。

步骤S5.5：基于每一个字的主题类别，提取出PDF文本中完整的主题片段并及时其置信区间。

在进行主题识别时，将所有文本和图片按照顺序输入已训练好的模型，对所有内容进行主题判断，在得到完整的主题内容之后，从步骤S4中得到的全局特征截取主题对应的特征向量；若第/>个样本的完整主题内容有/>个，记全部主题内容为/>，对其中的每一个主题/>，截取其对应的全局特征，通过式10)计算每个字的置信度/>：

10)

然后利用标准化算法，计算整个主题置信度的平均值和标准偏差，得到最终的主题的置信区间。本实施例中，取与文章长度正相关。标准化算法采用利用主成分分析和多元回归分析，具体先对主题的置信度矩阵做主成分分析，剔除掉不可靠的规则特征，然后用多元回归分析的办法，计算其平均值和置信区间。

本发明还提供一种多模态自适应融合的主题识别系统，所述多模态自适应融合的主题识别系统可以通过执行所述多模态自适应融合的主题识别方法的流程步骤予以实现，即本领域技术人员可以将所述多模态自适应融合的主题识别方法理解为所述多模态自适应融合的主题识别系统的优选实施方式。该系统具体包括：

模块M1：针对主题识别任务构建主题识别数据集。

其中，模块M1包括：从五年内的上市公司公告中随机提取、构建主题识别样本集合，其中/>为第/>篇PDF文件，共/>个。在本实施例中，取/>。

模块M1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，下文简记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片。在本实施例中，采用PDF文档作为数据来源，通过PDFbox等开源PDF文件解析框架，获取PDF文件中的文字及位置，并把具体位置转换为在全文中的相对位置，通过pymupdf等开源的python项目把PDF的每一页渲染为图片，并以每一篇PDF的完整数据作为一个样本，将相邻的主题内容组成文本块。

模块M1.2：构建主题识别数据的规则信息集合，共计有/>个，记为，其中，/>表示第/>个规则。在本实施例中，规则包含了字号信息、相对位置坐标、前后文信息、字符信息等各种不同维度的评价标准，这些评价标准可以综合考虑事件所在的上下文环境和具体的字符特征，为事件的提取和分析提供了更全面、更深入的依据。

模块M1.3：构建段落识别数据的标签信息集合，记为，假设一共有/>个主题，其中，/>，表示对每一个字/>的标签，/>；本项目中暂不考虑同一个字对应多个主题的情形，即每一个字只会有一个标签。在本实施例中，标签信息通过人工标注获得，取常见主题一共20个，即。

模块M1.4：由文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的段落识别数据集合/>。

模块M2：利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量。

其中，模块M2包括：

模块M2.1：把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话，得到文本序列/>，然后用预训练语言模型提取/>的文本信息，得到语义特征向量。在本实施例中，经过交叉验证，预训练模型使用常规的自编码类模型，比如Bert类自编码语言模型即可，在最后的精度上不会有太大的差异。因为其有最大长度的限制，所以这里使用滑窗的办法解决，即取固定的窗口长度，然后平移窗口实现对全文的向量化，本方案中取窗口长度为512。/>

模块M2.2：采用视觉预训练模型提取每一个图片/>的视觉特征，得到视觉特征表示/>，然后把同一个PDF的向量，利用类似于模块M2.1的滑窗机制，按照特征维度拼接起来，得到每一个PDF对应的视觉特征向量/>。

模块M3：获取规则信息的规则特征向量。

其中，模块M3包括：

模块M3.1：获取初级规则特征向量：在模块M1.2中，构建了规则信息集合，然后构建函数/>把PDF中的每个字都映射到Q维的向量空间，得到规则特征表示，其中，/>表示第/>个PDF样本的第/>页的第/>个字，是否满足第/>个规则，其值为0或1，0表示不满足，1表示满足；因为部分规则中含有前后文等信息，所以每个字之间不是相互独立的，因而函数/>的输入参数中包含/>和/>。在本实施例中，字与字之间的相关关系，截止到滑窗位置为止，所以不会有太高的复杂度。

模块M3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，其中因为每一页的字数上限是基本恒定的，故可以使用模块M2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量/>；

1)

2)

模块M4：自适应融合所述语义特征向量、视觉特征向量与规则特征向量，得到全局特征向量。

其中，模块M4包括：

3)

4)

模块M5：利用融合后的全局特征向量进行主题识别。

其中，模块M5包括：

模块M5.1：将全局特征输入如式5)和式6)所示的分类器，从而得到每一个字对应的主题的概率分布/>。

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

7)

模块M5.3：采用算法，每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>，取扰动参数/>如式8)、式9)所示，其中/>取高斯分布下的随机初始化结果，/>指常规定义下的/>范数，/>指常规定义下矩阵的2范数。

8)

9)

模块M5.4：训练过程中，设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数/>进行训练；本实施例中，/>结构的学习率/>，预训练模型学习率/>，/>优化算法的指数衰减率/>，当迭代次数达到/>时，停止训练，使得目标函数/>达到最小，从而得到主题识别模型用于对所输入的文本信息集合中，每一个字的主题类别判定输出。

模块M5.5：基于每一个字的主题类别，提取出PDF文本中完整的主题片段并及时其置信区间。

在进行主题识别时，将所有文本和图片按照顺序输入已训练好的模型，对所有内容进行主题判断，在得到完整的主题内容之后，从模块M4中得到的全局特征截取主题对应的特征向量；若第/>个样本的完整主题内容有/>个，记全部主题内容为/>，对其中的每一个主题/>，截取其对应的全局特征，通过式10)计算每个字的置信度/>：

10)

本发明实施例提供了一种多模态自适应融合的主题识别方法及系统，在句子主题识别中充分考虑局部语义连贯性、主题一致性、视觉一致性、排版风格等特征，在特征提取和融合上实现了混合方式的优化，进而增强了识别准确度和鲁棒性。此外，本发明还引入了一种置信区间评估机制，提供了输出结果的可信度区间范围，使得模型的输出结果更加可靠和可解释。本发明既可广泛应用于文本分类、信息检索等诸多领域，还可为自然语言理解和自然语言处理等基础研究提供有益启示。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种多模态自适应融合的主题识别方法，其特征在于，包括：

步骤S1：针对主题识别任务构建主题识别数据集；

步骤S3：获取规则信息的规则特征向量；

步骤S5：利用融合后的全局特征向量进行主题识别；

其中，所述步骤S3包括：

步骤S3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，使用步骤S2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量/>；

1)

2)

本步骤下，式1)中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式2)为归一化指数函数，/>是调节因子，使得矩阵的内积不至于太大，和向量/>的最后一个维度一致。

2.根据权利要求1所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤S1包括：

随机提取、构建主题识别样本集，其中/>为第/>篇PDF文件，共/>个；

步骤S1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片；

步骤S1.3：构建段落识别数据的标签信息集合，记为，设置/>个主题，其中，，表示对每一个字/>的标签，/>；

步骤S1.4：由所述文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的主题识别数据集/>。

3.根据权利要求2所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤S2包括：

步骤S2.2：采用视觉预训练模型提取每一个图片/>的视觉特征，得到视觉特征表示/>，然后把同一个PDF的向量，利用类似于步骤S2.1的滑窗机制，按照特征维度拼接起来，得到每一个PDF对应的视觉特征向量。

4.根据权利要求1所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤S4包括：

3)

4)

5.根据权利要求4所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤S5包括：

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

7)

式7)中，表示样本集/>中作为训练集的数据条数，/>表示给定的主题一共有/>个，表示样本/>的真实类别是否等于预测的类别，是的话取1，否则取0，/>表示样本/>中，每一个字属于主题/>的概率；

8)

9)

10)

6.一种多模态自适应融合的主题识别系统，其特征在于，包括：

模块M1：针对主题识别任务构建主题识别数据集；

模块M3：获取规则信息的规则特征向量；

模块M5：利用融合后的全局特征向量进行主题识别；

所述模块M3包括：

模块M3.2：深度融合规则特征，获取高级规则特征向量：

将同一个PDF内的所有规则特征向量按照第0位拼接，使用模块M2.1的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式1)和式2)，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个PDF对应的规则特征向量/>；

1)

2)

本模块下，式1)中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式2)为归一化指数函数，/>是调节因子，使得矩阵的内积不至于太大，和向量/>的最后一个维度一致；

所述模块M4包括：

3)

4)

7.根据权利要求6所述的多模态自适应融合的主题识别系统，其特征在于，所述模块M1包括：

随机提取、构建样本集，其中/>为第/>篇PDF文件，共/>个；

模块M1.1：构建主题识别数据的文本和图像信息集合，记为，/>表示第i个PDF样本的详细信息，共/>个；其中，，/>表示第/>个样本的第页，记为/>，/>表示第/>个PDF样本的第/>页的总字数；/>表示所述第/>个样本的第/>页的第/>个字及其位置信息，记为，/>，/>表示第/>个PDF样本的第/>页渲染为的图片；

模块M1.3：构建段落识别数据的标签信息集合，记为，设置/>个主题，其中，，表示对每一个字/>的标签，/>；

模块M1.4：由所述文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的主题识别数据集/>；

所述模块M2包括：

模块M2.2：采用视觉预训练模型提取每一个图片/>的视觉特征，得到视觉特征表示/>，然后把同一个PDF的向量，利用类似于模块M2.1的滑窗机制，按照特征维度拼接起来，得到每一个PDF对应的视觉特征向量。

8.根据权利要求6所述的多模态自适应融合的主题识别系统，其特征在于，所述模块M5包括：

5)

6)

式6)中，为分类器的权重矩阵，/>表示偏差；

7)

8)

9)

10)