CN117150436B - 多模态自适应融合的主题识别方法及系统 - Google Patents
多模态自适应融合的主题识别方法及系统 Download PDFInfo
- Publication number
- CN117150436B CN117150436B CN202311422605.5A CN202311422605A CN117150436B CN 117150436 B CN117150436 B CN 117150436B CN 202311422605 A CN202311422605 A CN 202311422605A CN 117150436 B CN117150436 B CN 117150436B
- Authority
- CN
- China
- Prior art keywords
- module
- topic
- rule
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 55
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000000611 regression analysis Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种多模态自适应融合的主题识别方法及系统,涉及自然语言处理技术领域,包括:步骤S1:针对主题识别任务构建主题识别数据集;步骤S2:利用不同的预训练模型分别提取文本信息的语义特征和视觉特征向量;步骤S3:获取规则信息的规则特征向量;步骤S4:自适应融合所述语义特征、视觉特征与规则特征,得到全局特征;步骤S5:利用融合后的全局特征进行主题识别。本发明能够增强识别准确度和鲁棒性,同时提供了输出结果的可信度区间范围,使得模型的输出结果更加可靠和可解释,既可广泛应用于文本分类、信息检索等诸多领域,还可为自然语言理解和自然语言处理等基础研究提供有益启示。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种多模态自适应融合的主题识别方法及系统。
背景技术
上市公司年报、公告、新闻稿等文本数据具有重要的商业价值和社会意义,是媒体、投资者、监管机构进行信息分析和决策的主要依据。然而,这些文本数据常常以PDF等格式存在,难以有效地进行文本分析和数据挖掘。
传统的方法主要依靠规则信息或者语义信息,然后利用LSTM等序列模型进行句子级别的序列标注。但是,首先这类方法的局限性在于没有有效地综合利用PDF的视觉特征,往往同一个主题的事件分布在同一个位置。其次,传统算法仅靠精度指标往往无法充分评估模型的好坏,导致模型的输出结果可能会被过度解读或误导。具体地说,如果模型没有置信度概念,当用户得到模型的结果时,无法判断这个结果是否可信,是否与数据完全匹配。因此,用户可能会盲目信任模型,即使模型的预测结果是错误的,也可能会采取相应的行动。同时在实际应用中,模型无法自适应预测结果,并无法识别问题所在。这可能会导致预测错误、不正确的决策,也会降低模型的鲁棒性和应用价值。
发明内容
针对现有技术中的缺陷,本发明提供一种多模态自适应融合的主题识别方法及系统。
根据本发明提供的一种多模态自适应融合的主题识别方法及系统,所述方案如下:
第一方面,提供了一种多模态自适应融合的主题识别方法,所述方法包括:
步骤S1:针对主题识别任务构建主题识别数据集;
步骤S2:利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量;
步骤S3:获取规则信息的规则特征向量;
步骤S4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量;
步骤S5:利用融合后的全局特征向量进行主题识别。
优选地,所述步骤S1包括:
随机提取、构建主题识别样本集,其中/>为第篇PDF文件,共/>个;
步骤S1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,下文简记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片;
步骤S1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则;
步骤S1.3:构建段落识别数据的标签信息集合,记为,假设一共有/>个主题,其中,/>,表示对每一个字/>的标签,/>;
步骤S1.4:由所述文本和图像信息集合、规则信息集合/>以及标签信息集合组成完整的主题识别数据集/>。
优选地,所述步骤S2包括:
步骤S2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量;
步骤S2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于步骤S2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量/>。
优选地,所述步骤S3包括:
步骤S3.1:获取初级规则特征向量:构建规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;每个字之间不是相互独立的,函数/>的输入参数中包含/>和/>;
步骤S3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,使用步骤S2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量;
1)
2)
本步骤下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,一般和向量/>的最后一个维度一致。
优选地,所述步骤S4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征向量/>。
优选地,所述步骤S5包括:
步骤S5.1:将全局特征向量输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>;
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
步骤S5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示所述样本集/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,/>表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,/>表示样本/>中,每一个字属于主题/>的概率;
步骤S5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数;
8)
9)
步骤S5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;
步骤S5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间;
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从步骤S4中得到的全局特征向量截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。
第二方面,提供了一种多模态自适应融合的主题识别系统,所述系统包括:
模块M1:针对主题识别任务构建主题识别数据集;
模块M2:利用不同的预训练模型分别提取语义特征向量和视觉特征向量;
模块M3:获取规则信息的规则特征向量;
模块M4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量;
模块M5:利用融合后的全局特征向量进行主题识别。
优选地,所述模块M1包括:
随机提取、构建样本集,其中/>为第/>篇PDF文件,共/>个;
模块M1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,下文简记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片;
模块M1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则;
模块M1.3:构建段落识别数据的标签信息集合,记为,假设一共有/>个主题,其中,/>,表示对每一个字/>的标签,/>;
模块M1.4:由所述文本和图像信息集合、规则信息集合/>以及标签信息集合组成完整的主题识别数据集/>;
所述模块M2包括:
模块M2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量;
模块M2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于模块M2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量/>;
所述模块M3包括:
模块M3.1:获取初级规则特征向量:构建规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;每个字之间不是相互独立的,函数/>的输入参数中包含/>和/>;
模块M3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,使用模块M2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量;
1)
2)
本步骤下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,一般和向量/>的最后一个维度一致;
所述模块M4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征向量/>;
所述模块M5包括:
模块M5.1:将全局特征向量输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>;
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
模块M5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示所述样本集/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,/>表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,/>表示样本/>中,每一个字属于主题/>的概率;
模块M5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数;
8)
9)
模块M5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;
模块M5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间;
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从模块M4中得到的全局特征向量截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。
第三方面,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的多模态自适应融合的主题识别方法中的步骤。
第四方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述的多模态自适应融合的主题识别方法中的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一个基于语义、视觉和规则特征的端到端主题识别框架。该框架将主题识别问题转化为连续段落片段的实体识别问题,通过综合语义连贯性、主题一致性和视觉一致性等特征来提高算法的精度和鲁棒性。具体来说,本发明采用预训练语言模型和预训练视觉模型分别提取语义特征和图像特征,并利用先验知识对数据进行准确的向量表征。综合这些特征,通过注意力机制和深度神经网络的联合使用,将多种特征信息融合到同一特征空间中,以提高算法的表达能力和鲁棒性。通过将主题识别问题转化为实体识别问题,该框架能够简化任务的复杂度并充分利用数据的多元信息;
2、针对语义和视觉特征表征的问题,本发明采用预训练模型来提取先验的语义和视觉特征。这些预训练模型已经在大规模数据集上进行了训练,可以提供更具代表性和通用性的特征描述。同时,通过使用预训练模型,本发明也可以减少数据的需求量,并强化了建模的泛化能力,对文本和图像进行L 更加准确的向量表征;
3、本发明通过深度神经网络对多种规则特征进行交互融合,进一步提高了特征的鉴别性和表达能力。在具体实现中,本发明使用多个深度神经网络对不同的规则特征进行建模,并使用注意力机制来动态学习特征和优化模型的性能。相比于传统的线性映射或内积的融合方式,本发明的方法更加灵活和深层次,能够更好地反映规则特征对主题识别的复杂影响;
4、为解决规则特征不可靠的问题,本发明提出了一种置信区间评估算法。该算法利用自注意力机制在获取分类结果的同时获取置信度,并结合主成分分析和多元回归分析等方法度量置信区间。通过该算法,可以自动剔除不可靠的规则特征,提高算法的准确性和可靠性。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明整体框架示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种多模态自适应融合的主题识别方法,引入视觉信息,并结合字形、结构和内容等特征,获取了文本和图像的混合特征表示,以期在处理PDF等无结构文件时,能够综合利用语义与视觉信息,以快速且准确地学习出数据特征表示,从而提高主题识别的准确性和精度。同时还综合考虑了样本偏差、模型可解释性等问题,引入了置信区间评估算法,通过对模型的精度、鲁棒性和可行性进行量化分析,提供了输出结果的可信度区间范围,提高了模型的泛化能力和可解释性,能够有效地避免算法的黑盒现象和错误决策,保证了算法应用的可行性和有效性。为解决实际问题提供了有益的探索。该方法主要包括:1、针对主题识别任务构建语义和视觉混合特征数据集;2、利用不同的预训练模型分别提取句子的语义和图像混合特征;3、引入深度学习网络,获取文本和图像特征交替自适应融合特征;4、利用对抗学习的技术,基于全局混合特征对句子进行主题分类;5、基于深度学习网络获取主题分类的置信区间。
本发明是将主题识别问题转化为连续段落片段的实体识别问题,利用深度学习方法,综合考虑语义与视觉特征,在采用预训练模型提取先验特征的同时,引入多种规则信息,构建向量表征,最后通过多头自注意力机制有效融合特征,学习得到精确的数据特征表示,从而提供更加精确的主题识别结果。具体的说,如图1所示,模型的输入包括文本信息和图像信息;将PDF传输到预训练语言模型模块,利用预训练模型丰富的先验知识,得到先验特征表示;对规则信息进行向量化表征,进而通过深度神经网络进行交互融合,得到统一的特征表示;然后,将先验特征与规则特征输入自适应融合模块,得到全局特征;最后,通过推理层来计算并基础获取主题识别结果,具体按如下步骤进行:
步骤S1:针对主题识别任务构建主题识别数据集,主题识别数据集中包括【文本和图像信息集合】、【规则信息集合】以及【标签信息集合】。
其中,步骤S1包括:从五年内的上市公司公告中随机提取、构建主题识别数据集合,其中/>为第/>篇PDF文件,共/>个。在本实施例中,取。
步骤S1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,下文简记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片。在本实施例中,采用PDF文档作为数据来源,通过PDFbox等开源PDF文件解析框架,获取PDF文件中的文字及位置,并把具体位置转换为在全文中的相对位置,通过pymupdf等开源的python项目把PDF的每一页渲染为图片,并以每一篇PDF的完整数据作为一个样本,将相邻的主题内容组成文本块。
步骤S1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则。在本实施例中,规则包含了字号信息、相对位置坐标、前后文信息、字符信息等各种不同维度的评价标准,这些评价标准可以综合考虑事件所在的上下文环境和具体的字符特征,为事件的提取和分析提供了更全面、更深入的依据。
步骤S1.3:构建段落识别数据的标签信息集合,记为,假设一共有/>个主题,其中,/>,表示对每一个字/>的标签,/>;本项目中暂不考虑同一个字对应多个主题的情形,即每一个字只会有一个标签。在本实施例中,标签信息通过人工标注获得,取常见主题一共20个,即。
步骤S1.4:由文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的段落识别数据集合/>。
步骤S2:利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量。
其中,步骤S2包括:
步骤S2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量。在本实施例中,经过交叉验证,预训练模型使用常规的自编码类模型,比如Bert类自编码语言模型即可,在最后的精度上不会有太大的差异。因为其有最大长度的限制,所以这里使用滑窗的办法解决,即取固定的窗口长度,然后平移窗口实现对全文的向量化,本方案中取窗口长度为512。
步骤S2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于步骤S2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量/>。
步骤S3:获取规则信息的规则特征向量。
其中,步骤S3包括:
步骤S3.1:获取初级规则特征向量:在步骤S1.2中,构建了规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;因为部分规则中含有前后文等信息,所以每个字之间不是相互独立的,因而函数/>的输入参数中包含/>和/>。在本实施例中,字与字之间的相关关系,截止到滑窗位置为止,所以不会有太高的复杂度。
步骤S3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,其中因为每一页的字数上限是基本恒定的,故可以使用步骤S2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量/>;
1)
2)
本步骤下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,一般和向量/>的最后一个维度一致。在本实施例中,/>取为滑窗长度。
步骤S4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量。
为了克服不同样本中语义、视觉和规则特征在主题提取过程中的差异性、不确定性和稳定性问题,本发明提出了一种基于注意力机制的自适应融合方法,以实现对多维度特征信息的有效融合和利用。通过分离式的学习策略,在对语义、视觉、规则特征进行单独处理后,对每个特征在不同样本中的重要性进行动态学习和自适应分配。该机制不仅有效提升了模型的表达能力和鲁棒性,而且对于复杂和多变的文本场景具有很好的适应性和泛化性。
其中,步骤S4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征表示/>。在本实施例中,不同的/>计算时采用相互独立的多元高斯分布。
步骤S5:利用融合后的全局特征向量进行主题识别。
其中,步骤S5包括:
步骤S5.1:将全局特征输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>。
在本实施例中,分类器由一个非线性全连接层以及一个激活函数构成,激活函数如式5)所示(简称为LSE),选择LSE函数的原因是它是/>函数的光滑近似,在后续把任务拓展到多主题识别时,也更加方便。本分类器最终输出维度为U,分别对应了U个主题。
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
步骤S5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示所述主题识别样本集合/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,/>表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,表示样本/>中,每一个字属于主题/>的概率;在本实施例中,将主题识别数据集合按照7:2:1随机划分为训练集、验证集、测试集。为保证稳定性,分别取随机种子为0,1,42,43,1024,3588,10000,20000,及两个int类的随机数,在数据集划分上共计做了十折验证。
步骤S5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数。
本实施例中,超参数选择为:,对每一步扰动都单独计算一次目标函数/>,这样可以用利用对抗学习增强模型的泛化能力。
8)
9)
步骤S5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;本实施例中,/>结构的学习率/>,预训练模型学习率/>,/>优化算法的指数衰减率/>,当迭代次数达到/>时,停止训练,使得目标函数/>达到最小,从而得到主题识别模型用于对所输入的文本信息集合中,每一个字的主题类别判定输出。
步骤S5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间。
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从步骤S4中得到的全局特征截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。本实施例中,取与文章长度正相关。标准化算法采用利用主成分分析和多元回归分析,具体先对主题的置信度矩阵做主成分分析,剔除掉不可靠的规则特征,然后用多元回归分析的办法,计算其平均值和置信区间。
本发明还提供一种多模态自适应融合的主题识别系统,所述多模态自适应融合的主题识别系统可以通过执行所述多模态自适应融合的主题识别方法的流程步骤予以实现,即本领域技术人员可以将所述多模态自适应融合的主题识别方法理解为所述多模态自适应融合的主题识别系统的优选实施方式。该系统具体包括:
模块M1:针对主题识别任务构建主题识别数据集。
其中,模块M1包括:从五年内的上市公司公告中随机提取、构建主题识别样本集合,其中/>为第/>篇PDF文件,共/>个。在本实施例中,取/>。
模块M1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,下文简记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片。在本实施例中,采用PDF文档作为数据来源,通过PDFbox等开源PDF文件解析框架,获取PDF文件中的文字及位置,并把具体位置转换为在全文中的相对位置,通过pymupdf等开源的python项目把PDF的每一页渲染为图片,并以每一篇PDF的完整数据作为一个样本,将相邻的主题内容组成文本块。
模块M1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则。在本实施例中,规则包含了字号信息、相对位置坐标、前后文信息、字符信息等各种不同维度的评价标准,这些评价标准可以综合考虑事件所在的上下文环境和具体的字符特征,为事件的提取和分析提供了更全面、更深入的依据。
模块M1.3:构建段落识别数据的标签信息集合,记为,假设一共有/>个主题,其中,/>,表示对每一个字/>的标签,/>;本项目中暂不考虑同一个字对应多个主题的情形,即每一个字只会有一个标签。在本实施例中,标签信息通过人工标注获得,取常见主题一共20个,即。
模块M1.4:由文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的段落识别数据集合/>。
模块M2:利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量。
其中,模块M2包括:
模块M2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量。在本实施例中,经过交叉验证,预训练模型使用常规的自编码类模型,比如Bert类自编码语言模型即可,在最后的精度上不会有太大的差异。因为其有最大长度的限制,所以这里使用滑窗的办法解决,即取固定的窗口长度,然后平移窗口实现对全文的向量化,本方案中取窗口长度为512。/>
模块M2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于模块M2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量/>。
模块M3:获取规则信息的规则特征向量。
其中,模块M3包括:
模块M3.1:获取初级规则特征向量:在模块M1.2中,构建了规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;因为部分规则中含有前后文等信息,所以每个字之间不是相互独立的,因而函数/>的输入参数中包含/>和/>。在本实施例中,字与字之间的相关关系,截止到滑窗位置为止,所以不会有太高的复杂度。
模块M3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,其中因为每一页的字数上限是基本恒定的,故可以使用模块M2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量/>;
1)
2)
本步骤下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,一般和向量/>的最后一个维度一致。在本实施例中,/>取为滑窗长度。
模块M4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量。
为了克服不同样本中语义、视觉和规则特征在主题提取过程中的差异性、不确定性和稳定性问题,本发明提出了一种基于注意力机制的自适应融合方法,以实现对多维度特征信息的有效融合和利用。通过分离式的学习策略,在对语义、视觉、规则特征进行单独处理后,对每个特征在不同样本中的重要性进行动态学习和自适应分配。该机制不仅有效提升了模型的表达能力和鲁棒性,而且对于复杂和多变的文本场景具有很好的适应性和泛化性。
其中,模块M4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征表示/>。在本实施例中,不同的/>计算时采用相互独立的多元高斯分布。
模块M5:利用融合后的全局特征向量进行主题识别。
其中,模块M5包括:
模块M5.1:将全局特征输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>。
在本实施例中,分类器由一个非线性全连接层以及一个激活函数构成,激活函数如式5)所示(简称为LSE),选择LSE函数的原因是它是/>函数的光滑近似,在后续把任务拓展到多主题识别时,也更加方便。本分类器最终输出维度为U,分别对应了U个主题。
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
模块M5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示所述主题识别样本集合/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,/>表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,表示样本/>中,每一个字属于主题/>的概率;在本实施例中,将主题识别数据集合按照7:2:1随机划分为训练集、验证集、测试集。为保证稳定性,分别取随机种子为0,1,42,43,1024,3588,10000,20000,及两个int类的随机数,在数据集划分上共计做了十折验证。
模块M5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数。
本实施例中,超参数选择为:,对每一步扰动都单独计算一次目标函数/>,这样可以用利用对抗学习增强模型的泛化能力。
8)
9)
模块M5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;本实施例中,/>结构的学习率/>,预训练模型学习率/>,/>优化算法的指数衰减率/>,当迭代次数达到/>时,停止训练,使得目标函数/>达到最小,从而得到主题识别模型用于对所输入的文本信息集合中,每一个字的主题类别判定输出。
模块M5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间。
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从模块M4中得到的全局特征截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。本实施例中,取与文章长度正相关。标准化算法采用利用主成分分析和多元回归分析,具体先对主题的置信度矩阵做主成分分析,剔除掉不可靠的规则特征,然后用多元回归分析的办法,计算其平均值和置信区间。
本发明实施例提供了一种多模态自适应融合的主题识别方法及系统,在句子主题识别中充分考虑局部语义连贯性、主题一致性、视觉一致性、排版风格等特征,在特征提取和融合上实现了混合方式的优化,进而增强了识别准确度和鲁棒性。此外,本发明还引入了一种置信区间评估机制,提供了输出结果的可信度区间范围,使得模型的输出结果更加可靠和可解释。本发明既可广泛应用于文本分类、信息检索等诸多领域,还可为自然语言理解和自然语言处理等基础研究提供有益启示。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (8)
1.一种多模态自适应融合的主题识别方法,其特征在于,包括:
步骤S1:针对主题识别任务构建主题识别数据集;
步骤S2:利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量;
步骤S3:获取规则信息的规则特征向量;
步骤S4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量;
步骤S5:利用融合后的全局特征向量进行主题识别;
其中,所述步骤S3包括:
步骤S3.1:获取初级规则特征向量:构建规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;每个字之间不是相互独立的,函数/>的输入参数中包含/>和/>;
步骤S3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,使用步骤S2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量/>;
1)
2)
本步骤下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,和向量/>的最后一个维度一致。
2.根据权利要求1所述的多模态自适应融合的主题识别方法,其特征在于,所述步骤S1包括:
随机提取、构建主题识别样本集,其中/>为第/>篇PDF文件,共/>个;
步骤S1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片;
步骤S1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则;
步骤S1.3:构建段落识别数据的标签信息集合,记为,设置/>个主题,其中,,表示对每一个字/>的标签,/>;
步骤S1.4:由所述文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的主题识别数据集/>。
3.根据权利要求2所述的多模态自适应融合的主题识别方法,其特征在于,所述步骤S2包括:
步骤S2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量;
步骤S2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于步骤S2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量。
4.根据权利要求1所述的多模态自适应融合的主题识别方法,其特征在于,所述步骤S4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征向量/>。
5.根据权利要求4所述的多模态自适应融合的主题识别方法,其特征在于,所述步骤S5包括:
步骤S5.1:将全局特征向量输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>;
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
步骤S5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示样本集/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,/>表示样本/>中,每一个字属于主题/>的概率;
步骤S5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数;
8)
9)
步骤S5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;
步骤S5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间;
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从步骤S4中得到的全局特征向量截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。
6.一种多模态自适应融合的主题识别系统,其特征在于,包括:
模块M1:针对主题识别任务构建主题识别数据集;
模块M2:利用不同的预训练模型分别提取语义特征向量和视觉特征向量;
模块M3:获取规则信息的规则特征向量;
模块M4:自适应融合所述语义特征向量、视觉特征向量与规则特征向量,得到全局特征向量;
模块M5:利用融合后的全局特征向量进行主题识别;
所述模块M3包括:
模块M3.1:获取初级规则特征向量:构建规则信息集合,然后构建函数/>把PDF中的每个字都映射到Q维的向量空间,得到规则特征表示,其中,/>表示第/>个PDF样本的第/>页的第/>个字,是否满足第/>个规则,其值为0或1,0表示不满足,1表示满足;每个字之间不是相互独立的,函数/>的输入参数中包含/>和/>;
模块M3.2:深度融合规则特征,获取高级规则特征向量:
将同一个PDF内的所有规则特征向量按照第0位拼接,使用模块M2.1的滑窗机制,每一个滑窗内的规则特征向量拼接后,采用下式1)和式2),即模型,使不同的特征之间,进行深度的特征融合,并由此获取每一个PDF对应的规则特征向量/>;
1)
2)
本模块下,式1)中,均为每一个滑窗内,拼接后的规则特征向量矩阵,式2)为归一化指数函数,/>是调节因子,使得矩阵的内积不至于太大,和向量/>的最后一个维度一致;
所述模块M4包括:
3)
4)
利用式1)-4)所示的多头注意力模型,取为三者公用的滑窗长度,,/>函数拼接时,取/>,从而得到自适应融合的全局特征向量/>。
7.根据权利要求6所述的多模态自适应融合的主题识别系统,其特征在于,所述模块M1包括:
随机提取、构建样本集,其中/>为第/>篇PDF文件,共/>个;
模块M1.1:构建主题识别数据的文本和图像信息集合,记为,/>表示第i个PDF样本的详细信息,共/>个;其中,,/>表示第/>个样本的第页,记为/>,/>表示第/>个PDF样本的第/>页的总字数;/>表示所述第/>个样本的第/>页的第/>个字及其位置信息,记为,/>,/>表示第/>个PDF样本的第/>页渲染为的图片;
模块M1.2:构建主题识别数据的规则信息集合,共计有/>个,记为,其中,/>表示第/>个规则;
模块M1.3:构建段落识别数据的标签信息集合,记为,设置/>个主题,其中,,表示对每一个字/>的标签,/>;
模块M1.4:由所述文本和图像信息集合、规则信息集合/>以及标签信息集合/>组成完整的主题识别数据集/>;
所述模块M2包括:
模块M2.1:把第个PDF样本中的文本信息/>所包含的文本全部进行拼接为一句话,得到文本序列/>,然后用预训练语言模型提取/>的文本信息,得到语义特征向量;
模块M2.2:采用视觉预训练模型提取每一个图片/>的视觉特征,得到视觉特征表示/>,然后把同一个PDF的向量,利用类似于模块M2.1的滑窗机制,按照特征维度拼接起来,得到每一个PDF对应的视觉特征向量。
8.根据权利要求6所述的多模态自适应融合的主题识别系统,其特征在于,所述模块M5包括:
模块M5.1:将全局特征向量输入如式5)和式6)所示的分类器,从而得到每一个字对应的主题的概率分布/>;
5)
6)
式6)中,为分类器的权重矩阵,/>表示偏差;
模块M5.2:采用式7)所示的多分类交叉熵损失函数作为目标函数:
7)
式7)中,表示样本集/>中作为训练集的数据条数,/>表示给定的主题一共有/>个,表示样本/>的真实类别是否等于预测的类别,是的话取1,否则取0,/>表示样本/>中,每一个字属于主题/>的概率;
模块M5.3:采用算法,每一步迭代都在原始输入样本/>上加一个扰动/>得到对抗样本/>,取扰动参数/>如式8)、式9)所示,其中/>取高斯分布下的随机初始化结果,/>指常规定义下的/>范数,/>指常规定义下矩阵的2范数;
8)
9)
模块M5.4:训练过程中,设置最大迭代次数,利用反向传播和梯度下降法对所述目标函数/>进行训练;
模块M5.5:基于每一个字的主题类别,提取出PDF文本中完整的主题片段并及时其置信区间;
在进行主题识别时,将所有文本和图片按照顺序输入已训练好的模型,对所有内容进行主题判断,在得到完整的主题内容之后,从模块M4中得到的全局特征向量截取主题对应的特征向量;若第/>个样本的完整主题内容有/>个,记全部主题内容为/>,对其中的每一个主题/>,截取其对应的全局特征,通过式10)计算每个字的置信度/>:
10)
然后利用标准化算法,计算整个主题置信度的平均值和标准偏差,得到最终的主题的置信区间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422605.5A CN117150436B (zh) | 2023-10-31 | 2023-10-31 | 多模态自适应融合的主题识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422605.5A CN117150436B (zh) | 2023-10-31 | 2023-10-31 | 多模态自适应融合的主题识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150436A CN117150436A (zh) | 2023-12-01 |
CN117150436B true CN117150436B (zh) | 2024-01-30 |
Family
ID=88906563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311422605.5A Active CN117150436B (zh) | 2023-10-31 | 2023-10-31 | 多模态自适应融合的主题识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150436B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909531A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 信息安全的甄别方法、装置、设备及存储介质 |
CN111259215A (zh) * | 2020-02-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN115116066A (zh) * | 2022-06-17 | 2022-09-27 | 复旦大学 | 一种基于字符距离感知的场景文本识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818906B (zh) * | 2021-02-22 | 2023-07-11 | 浙江传媒学院 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
-
2023
- 2023-10-31 CN CN202311422605.5A patent/CN117150436B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909531A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 信息安全的甄别方法、装置、设备及存储介质 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN111259215A (zh) * | 2020-02-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN115116066A (zh) * | 2022-06-17 | 2022-09-27 | 复旦大学 | 一种基于字符距离感知的场景文本识别方法 |
Non-Patent Citations (2)
Title |
---|
多模态公文的结构知识抽取与组织研究;徐瑞麟等;《系统工程与电子技术》;第4节 * |
融合语义主题的图像自动标注;李志欣;施智平;李志清;史忠植;;软件学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150436A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190287142A1 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
WO2021088935A1 (zh) | 对抗网络架构的优化方法、图像描述生成方法和系统 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
Dobson | Interpretable outputs: criteria for machine learning in the humanities | |
Wagle et al. | Explainable ai for multimodal credibility analysis: Case study of online beauty health (mis)-information | |
CN114357167A (zh) | 基于Bi-LSTM-GCN的多标签文本分类方法和系统 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
CN114281953A (zh) | 一种信息抽取方法、装置、设备及计算机可读存储介质 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN117150436B (zh) | 多模态自适应融合的主题识别方法及系统 | |
CN115659989A (zh) | 基于文本语义映射关系的Web表格异常数据发现方法 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |