CN117151223A - 一种基于可学习提示的多模态实体识别和关系抽取方法 - Google Patents

一种基于可学习提示的多模态实体识别和关系抽取方法 Download PDF

Info

Publication number
CN117151223A
CN117151223A CN202311423976.5A CN202311423976A CN117151223A CN 117151223 A CN117151223 A CN 117151223A CN 202311423976 A CN202311423976 A CN 202311423976A CN 117151223 A CN117151223 A CN 117151223A
Authority
CN
China
Prior art keywords
text
vector
image
representing
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311423976.5A
Other languages
English (en)
Other versions
CN117151223B (zh
Inventor
吴艳
雷阳
徐雅静
李阳
李志慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinguangshitong Technology Group Co ltd
Original Assignee
Beijing Xinguangshitong Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinguangshitong Technology Group Co ltd filed Critical Beijing Xinguangshitong Technology Group Co ltd
Priority to CN202311423976.5A priority Critical patent/CN117151223B/zh
Publication of CN117151223A publication Critical patent/CN117151223A/zh
Application granted granted Critical
Publication of CN117151223B publication Critical patent/CN117151223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可学习提示的多模态实体识别和关系抽取方法,属于多模态处理技术领域,步骤如下:基于获取的图像和文本,利用CLIP预训练模型,完成特征信息生成;利用Transformer编码器、对比学习辅助网络和Linear层神经网络,进行图文对齐;将获取的文本输入BERT嵌入模块,得到文本全部Token的编码;利用BERT编码器进行编码预测;构建概率预测ER矩阵;计算得到实体及实体间关系抽取损失;采用joint联合方式计算文本实体及实体间关系的概率,完成基于可学习提示的多模态实体识别和关系抽取。本发明解决了难以提取到图文信息弱关联的有用信息以准确预测文本中的实体及实体间关系的问题。

Description

一种基于可学习提示的多模态实体识别和关系抽取方法
技术领域
本发明属于多模态处理技术领域,尤其涉及一种基于可学习提示的多模态实体识别和关系抽取方法。
背景技术
多模态实体识别和关系抽取任务是指给定一段文本和一张与文本相关的图片,识别文本中存在的所有实体以及实体之间的相互关系。文本实体识别和关系抽取有两个主要的应用场景。其一,需要为知识图谱提供必要的信息,知识图谱的搭建往往需要从冗杂的信息中提取到必要的实体,作为知识图谱中的节点,并找到每个节点之间的关系连接,从而达到通过知识图谱总结和检索信息的能力,这需要耗费大量的人力精力,且知识图谱的搭建往往也需要技术人员对相关领域的熟悉,而通过使用模型生成实体和关系,人工只需要稍作修改,整个过程相比人工标注更加高效,也更准确;其二,在信息检索领域中,需要从大量文本中提取关键信息,例如新闻文章中的人名、地点、日期和事件,从而精准更快的检索相似文本,为之后的下游任务如摘要生成等,提供更准确的数据。
但现有的传统方法采用的大部分模型将实体识别和关系抽取作为两个单独的任务来实现,且在多模态领域,数据集多为新闻数据集,图像中的信息和文本信息的匹配度很高,在提取图像信息辅助模型预测时,往往会直接将图像中的实体识别并剪裁出来作为图像信息给予模型。因此,现有方法存在对数据集差异性难以有效拟合、提取图像特征不够全面、数据图文匹配度不高、判别预测不够准确等问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法,通过可学习提示框架提取图像信息作为提示,辅助文本信息,有效帮助了预训练模型预测文本中的所有实体与实体之间关系的方法,解决了难以提取到图文信息弱关联的有用信息以准确预测文本中的实体以及实体间关系的问题。
为了达到上述发明目的,本发明采用的技术方案为:
本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法,包括如下步骤:
S1、基于获取的图像和文本,利用CLIP预训练模型,得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量;
S2、根据图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量,利用Transformer编码器、对比学习辅助网络和Linear层神经网络,得到文本信息特征、第一图像信息特征、第二图像信息特征、可学习提示特征和二分类置信度向量的关联损失;
S3、将获取的文本输入BERT嵌入模块,得到文本全部Token的编码;
S4、基于文本信息特征、第一图像信息特征、可学习提示特征、第二图像信息特征和文本全部Token的编码,利用BERT编码器进行编码预测,得到编码预测结果;
S5、基于编码预测结果,构建概率预测ER矩阵;
S6、基于概率预测ER矩阵和二分类置信度向量的关联损失,计算得到实体及实体间关系抽取损失;
S7、基于实体及实体间关系抽取损失,采用joint联合方式计算文本实体及实体间关系的概率,完成基于可学习提示的多模态实体识别和关系抽取。
本发明的有益效果为:本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法,通过CLIP预训练模型提取图像全部信息和图文关联信息,并利用Transformer编码器使可学习提示特征学习到更好的图文关系线索,既能提取信息特征所包含的图文关系,又能使可学习提示特征之间实现相互映射,保证每个可学习提示特征不会学到重复的信息,能够给予预训练模型更加丰富的提示信息;本发明通过对比学习辅助网络通过更好的提升了可学习提示特征的有效表示,并通过Linear层神经网络将图像全部Token信息向量降噪对齐,实现了图像和文本的语义对齐,提升了BERT预训练模型进行实体及实体间关系预测的准确性;本发明采用joint联合方式计算文本实体及实体间关系的概率,能够在模型学习训练时实现相互辅助,互相提供信息,以提高每个多模态实体识别和关系抽取任务的准确率。
进一步地,所述S1包括如下步骤:
S11、将获取的图像输入CLIP预训练模型,得到图像分类向量和图像全部Token信息向量;
所述图像分类向量和图像全部Token信息向量的计算表达式如下:
其中,v表示图像分类向量,z表示图像全部Token信息向量,表示CLIP预训练模型中的图像编码器,I表示获取的图像,/>表示第m个Token的向量化信息,m表示图像中Token的总数;
S12、将获取的文本输入CLIP预训练模型,得到文本分类向量;
所述文本分类向量的计算表达式如下;
其中,t表示文本分类向量,表示CLIP预训练模型中的文本编码器,表示获取的文本;
S13、随机初始化n个长度与图像分类向量和文本分类向量相同,且能够根据梯度回传的权重参数,并将各权重参数拼接,得到可学习提示向量;
其中,表示可学习提示向量,/>表示第n个权重参数,其中,n为第一超参数。
采用上述进一步方案的有益效果为:本发明通过多模态预训练模型CLIP,直接提取出了全图的图像信息,提供了单一实体部分提取所不能提供的更丰富和更准确的提示信息,并通过随机初始化能够根据梯度回传的权重参数,得到了可学习提示向量,为多模态实体识别和关系抽取的准确实现提供了基础。
进一步地,所述S2包括如下步骤:
S21、拼接图像分类向量、文本分类向量和可学习提示向量,并同时输入到Transformer编码器中,得到待学习向量和二分类置信度向量的关联损失;
所述待学习向量的计算表达式如下:
其中,表示Transformer编码器,/>表示文本信息特征,/>表示第一图像信息特征,/>表示可学习提示特征;
其中,Transformer编码器中的注意力层依次学习文本分类向量、图像分类向量和可学习提示向量中各向量分别与其他向量间的关系;
所述注意力层进行学习的自注意力计算表达式如下:
其中,表示注意力函数,/>分别表示查询矩阵、键矩阵、值矩阵,/>表示转置,/>表示softmax函数,/>表示向量的维度;
S22、基于可学习提示特征,利用对比学习辅助网络通过预测图文关联程度,提升可学习提示特征的有效表示;
S23、利用Linear层神经网络将图像全部Token信息向量降噪对齐,得到第二图像信息特征;
所述第二图像信息特征的计算表达式如下:
其中,表示第二图像信息特征,/>表示Linear层神经网络。
采用上述进一步方案的有益效果为:本发明设计了可学习提示特征,并通过Transformer自注意力机制,计算了可学习提示和图文信息之间的相似度,且通过重新编码的方式,提取了图文关系,帮助图文对齐,缓解了多模态领域图文信息对齐困难的情况,且为解决单一神经网络难以有效将图像信息拟合到文本大模型领域的问题,本发明通过可学习提示的方式,将图像信息和文本预训练模型更高效合理的实现了对接。
进一步地,所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵,并将可学习提示特征作为输入,进行图文关联程度的关联判别,得到二分类置信度向量,其中,当二分类置信度判别结果为0时,则为弱关联,当二分类置信度判别结果为1时,则为强关联;
所述对比学习辅助网络通过对比学习的方式确定图文关联程度;所述图文关联程度的关联判别是将每张图片与同一批处理batch下的所有文本计算余弦相似度,若图片与对应文本的余弦相似度最大,则为强关联,否则为弱关联;
所述二分类置信度向量的关联损失的计算表达式如下:
其中,Lass表示关联损失,b表示二分类置信度,表示文本分类向量和图像分类向量的点积形成的VT关联矩阵生成的标签。。
采用上述进一步方案的有益效果为:本发明提供的对比学习辅助网络将可学习提示特征作为输入,进行图文关联程度的关联判别,并基于二分类置信度向量,确定了文本与图片间的强弱关联程度,使得可学习提示特征能够更精准的学习有效信息,提升模型的训练效率。
进一步地,所述S3中文本全部Token的编码的计算表达式如下:
其中,表示文本全部Token的编码,/>表示BERT嵌入模块,/>表示获取的文本。
采用上述进一步方案的有益效果为:本发明中采用BERT预训练模型进行实体关系预测,BERT预训练模型的编码器与CLIP预训练模型的编码器相似,输入为文本,得到的也为文本分类向量和文本全部Token的编码,本发明通过BERT预训练模型得到文本的全部Token的编码,为进行实体识别及实体间关系抽取提供原获取的文本的待预测信息。
进一步地,所述S4包括如下步骤:
S41、依次将文本信息特征、第一图像信息特征、可学习提示特征和第二图像信息特征拼接在文本全部Token的编码,得到待预测输入编码特征;
所述待预测输入编码特征的计算表达式如下:
其中,input表示待预测输入编码特征,表示待预测文本起始符,/>表示待预测文本分隔终止符;
S42、将待预测输入编码特征输入至BERT编码器中进行编码,得到编码预测结果;
所述编码预测结果的计算表达式如下:
其中,表示编码预测结果,/>表示BERT编码器。
进一步地,所述S5包括如下步骤:
S51、将编码预测结果对应的一维概率矩阵按行复制行,得到长度为(/>,/>)的概率向量,其中,/>为概率向量长度,概率向量长度对应获取的文本中的词的数量;
S52、将概率向量转置后与概率向量本身相加,得到概率预测ER矩阵。
采用上述进一步方案的有益效果为:本发明通过对一维概率矩阵进行二维概率矩阵的拓展,以满足同时计算文本实体和实体间关系的概率。
所述S6包括如下步骤:
S61、获取概率预测ER矩阵生成的概率和标签;
S62、基于概率预测ER矩阵生成的概率和标签,计算得到预测损失;
所述预测损失的计算表达式如下:
其中,表示预测损失,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个概率,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个标签;
S63、将预测损失和二分类置信度向量的关联损失累加,得到实体及实体间关系抽取损失;
所述实体及实体间关系抽取损失的计算表达式如下:
其中,表示实体及实体间关系抽取损失,/>为第三超参数。
采用上述进一步方案的有益效果为:本发明采用了joint联合方式计算文本实体及实体间关系的概率,同时考虑了预测损失和二分类置信度向量的关联损失,相比pipeline管道模式的独立实现,能够在模型学习训练时相互辅助,提供信息,提高每个任务的准确率,从而提升实体识别和关系抽取的性能。
针对于本发明还具有的其他优势将在后续的实施例中进行更细致的分析。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中一种基于可学习提示的多模态实体识别和关系抽取方法的步骤流程图。
图2为本发明实施例中可学习提示的多模态实体识别和关系抽取模型框架流程图。
图3为本发明实施例中对比学习辅助网络的示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的一个实施例中,本发明提供一种基于可学习提示的多模态实体识别和关系抽取方法,所述方法针对图像信息提取和图文信息对齐两个方面做出了优化,对于各类图文信息弱关联的新类型数据集具有很好的效果。
如图1和图2所示,所述基于可学习提示的多模态实体识别和关系抽取方法包括如下步骤:
S1、基于获取的图像和文本,利用CLIP预训练模型,得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量;
CLIP预训练模型作为多模态预训练模型,由两个Transformer编码器组成,分别为文本编码器和图像编码器,其输入分别对应为获取的文本和图像,输出则为编码向量,其输出的编码向量分为两类,一类为图像或文本的分类信息,即长度为768的一维向量,另一类为图像或文本中Token的向量化信息,即由256个长度为1024的一维向量信息构成的二维向量(256,1024),其中,文本的全部信息由上述两类向量信息拼接形成。CLIP预训练模型是通过大量图文本对计算余弦相似度得到的预训练大模型,余弦相似度是一种用于比较两个向量之间相似性的度量方法,经常在信息检索、自然语音处理和推荐系统等领域使用,在图文关系上有着很好的效果。
所述S1包括如下步骤:
S11、将获取的图像输入CLIP预训练模型,得到图像分类向量和图像全部Token信息向量;
所述图像分类向量和图像全部Token信息向量的计算表达式如下:
其中,v表示图像分类向量,z表示图像全部Token信息向量,表示CLIP预训练模型中的图像编码器,I表示获取的图像,/>表示第m个Token的向量化信息,m表示图像中Token的总数;图像全部Token信息为多个向量的组合。
S12、将获取的文本输入CLIP预训练模型,得到文本分类向量;
所述文本分类向量的计算表达式如下;
其中,t表示文本分类向量,表示CLIP预训练模型中的文本编码器,表示获取的文本;本实施例中获取的文本内容为“The latest Arkham Horror LCGdeluxe expansion the Circle Undone has been released :”。
S13、随机初始化n个长度与图像分类向量和文本分类向量相同,且能够根据梯度回传的权重参数,并将各权重参数拼接,得到可学习提示向量;
其中,表示可学习提示向量,/>表示第n个权重参数,其中,n为第一超参数。本实施例中,经多次实验验证,n=20时效果最好。在得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量后,即完成了特征信息生成。
S2、根据图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量,利用Transformer编码器、对比学习辅助网络和Linear层神经网络,得到文本信息特征、第一图像信息特征、第二图像信息特征、可学习提示特征和二分类置信度向量的关联损失;
所述S2包括如下步骤:
S21、拼接图像分类向量、文本分类向量和可学习提示向量,并同时输入到Transformer编码器中,得到待学习向量和二分类置信度向量的关联损失;
所述待学习向量的计算表达式如下:
其中,表示Transformer编码器,/>表示文本信息特征,/>表示第一图像信息特征,/>表示可学习提示特征;
其中,Transformer编码器中的注意力层依次学习文本分类向量、图像分类向量和可学习提示向量中各向量分别与其他向量间的关系,从而保证每个可学习提示向量都会与图文关系特征计算相似度,并与其他可学习提示向量计算相似度;
所述注意力层进行学习的自注意力计算表达式如下:
其中,表示注意力函数,/>分别表示查询矩阵、键矩阵、值矩阵,/>表示转置,/>表示softmax函数,/>表示向量的维度;在每个向量分别与其他向量计算相似度后,既可以使可学习提示特征提取到信息特征所包含的图文关系,又可以使可学习提示特征之间相互映射,保证到每个可学习提示特征不会学到重复的信息,使可学习提示特征可以给予预训练模型更加丰富的提示信息。
S22、基于可学习提示特征,利用对比学习辅助网络通过预测图文关联程度,提升可学习提示特征的有效表示;
如图3所示,为了更好的提升可学习提示特征的有效表示,本发明设计了S22中的对比学习辅助网络,所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵,并将可学习提示特征作为输入,进行图文关联程度的关联判别,得到二分类置信度向量,其中,当二分类置信度判别结果为0时,则为弱关联,当二分类置信度判别结果为1时,则为强关联;
所述对比学习辅助网络通过对比学习的方式确定图文关联程度;所述图文关联程度的关联判别是将每张图片与同一批处理batch下的所有文本计算余弦相似度,若图片与对应文本的余弦相似度最大,则为强关联,否则为弱关联;
所述二分类置信度向量的关联损失的计算表达式如下:
其中,Lass表示关联损失,b表示二分类置信度,表示文本分类向量和图像分类向量的点积形成的VT关联矩阵生成的标签。
S23、利用Linear层神经网络将图像全部Token信息向量降噪对齐,得到第二图像信息特征;
所述第二图像信息特征的计算表达式如下:
其中,表示第二图像信息特征,/>表示Linear层神经网络。本实施例中,图像全部Token信息向量为Linear层神经网络的输入,其信息特征大小为(256,1024),作为Linear层的输出图像信息特征,第二图像信息特征的大小为(R,768),此处的R为第二超参数,经实验验证,R=20时效果最好。由于最终输入到BERT预训练模型中的待预测的文本特征向量的大小为(70,768),二第二图像信息特征的大小远远大于待预测的文本特征向量,且输入向量差异过大会降低模型预测的准确度,因此,本发明中使用Linear层神经网络将图像全部Token信息向量转化为了向量个数更少,长度对齐到768的第二图像信息特征,进一步地将图像与文本的语义进行了对齐。经过Transformer编码器处理、对比学习辅助网络提升和Linear层神经网络对齐,完成了图文对齐。
S3、将获取的文本输入BERT嵌入模块,得到文本全部Token的编码;
所述S3中文本全部Token的编码的计算表达式如下:
其中,表示文本全部Token的编码,/>表示BERT嵌入模块,/>表示获取的文本。本实施例中经文本全部的Token的编码作为待预测的文本特征向量。
S4、基于文本信息特征、第一图像信息特征、可学习提示特征、第二图像信息特征和文本全部Token的编码,利用BERT编码器进行编码预测,得到编码预测结果;BERT编码器会对全部输入的向量进行编码,但本实施例中仅取待预测的文本特征向量的输出作为编码预测结果。
所述S4包括如下步骤:
S41、依次将文本信息特征、第一图像信息特征、可学习提示特征和第二图像信息特征拼接在文本全部Token的编码,得到待预测输入编码特征;
所述待预测输入编码特征的计算表达式如下:
其中,input表示待预测输入编码特征,表示待预测文本起始符,/>表示待预测文本分隔终止符;
S42、将待预测输入编码特征输入至BERT编码器中进行编码,得到编码预测结果;
所述编码预测结果的计算表达式如下:
其中,表示编码预测结果,/>表示BERT编码器。
S5、基于编码预测结果,构建概率预测ER矩阵;
所述S5包括如下步骤:
S51、将编码预测结果对应的一维概率矩阵按行复制行,得到长度为(/>,/>)的概率向量,其中,/>为概率向量长度,概率向量长度对应获取的文本中的词的数量;
S52、将概率向量转置后与概率向量本身相加,得到概率预测ER矩阵。
所述概率预测ER矩阵的计算表达式如下:
其中,表示概率预测ER矩阵,/>表示概率向量的转置,表示概率向量,/>表示复制函数。
本实施例中,BERT预训练模型的输出是关于待预测的文本特征向量生成的一维概率矩阵,由于本方案中需要同时计算文本实体和实体间关系的概率,因此概率预测ER矩阵是二维概率矩阵,其对角线的数值为每一个输入Token是否为实体的概率,非对角线位置则为不同实体之间关系的概率。
S6、基于概率预测ER矩阵和二分类置信度向量的关联损失,计算得到实体及实体间关系抽取损失;
所述S6包括如下步骤:
S61、获取概率预测ER矩阵生成的概率和标签;
S62、基于概率预测ER矩阵生成的概率和标签,计算得到预测损失;
所述预测损失的计算表达式如下:
其中,表示预测损失,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个概率,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个标签;
S63、将预测损失和二分类置信度向量的关联损失累加,得到实体及实体间关系抽取损失;
所述实体及实体间关系抽取损失的计算表达式如下:
其中,表示实体及实体间关系抽取损失,/>为第三超参数。本实施例中,经实验验证,/>时效果最好。
S7、基于实体及实体间关系抽取损失,采用joint联合方式计算文本实体及实体间关系的概率,完成基于可学习提示的多模态实体识别和关系抽取。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,包括如下步骤:
S1、基于获取的图像和文本,利用CLIP预训练模型,得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量;
S2、根据图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量,利用Transformer编码器、对比学习辅助网络和Linear层神经网络,得到文本信息特征、第一图像信息特征、第二图像信息特征、可学习提示特征和二分类置信度向量的关联损失;
S3、将获取的文本输入BERT嵌入模块,得到文本全部Token的编码;
S4、基于文本信息特征、第一图像信息特征、可学习提示特征、第二图像信息特征和文本全部Token的编码,利用BERT编码器进行编码预测,得到编码预测结果;
S5、基于编码预测结果,构建概率预测ER矩阵;
S6、基于概率预测ER矩阵和二分类置信度向量的关联损失,计算得到实体及实体间关系抽取损失;
S7、基于实体及实体间关系抽取损失,采用joint联合方式计算文本实体及实体间关系的概率,完成基于可学习提示的多模态实体识别和关系抽取。
2.根据权利要求1所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S1包括如下步骤:
S11、将获取的图像输入CLIP预训练模型,得到图像分类向量和图像全部Token信息向量;
所述图像分类向量和图像全部Token信息向量的计算表达式如下:
其中,v表示图像分类向量,z表示图像全部Token信息向量,表示CLIP预训练模型中的图像编码器,I表示获取的图像,/>表示第m个Token的向量化信息,m表示图像中Token的总数;
S12、将获取的文本输入CLIP预训练模型,得到文本分类向量;
所述文本分类向量的计算表达式如下;
其中,t表示文本分类向量,表示CLIP预训练模型中的文本编码器,/>表示获取的文本;
S13、随机初始化n个长度与图像分类向量和文本分类向量相同,且能够根据梯度回传的权重参数,并将各权重参数拼接,得到可学习提示向量;
其中,表示可学习提示向量,/>表示第n个权重参数,其中,n为第一超参数。
3.根据权利要求2所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S2包括如下步骤:
S21、拼接图像分类向量、文本分类向量和可学习提示向量,并同时输入到Transformer编码器中,得到待学习向量和二分类置信度向量的关联损失;
所述待学习向量的计算表达式如下:
其中,表示Transformer编码器,/>表示文本信息特征,/>表示第一图像信息特征,/>表示可学习提示特征;
其中,Transformer编码器中的注意力层依次学习文本分类向量、图像分类向量和可学习提示向量中各向量分别与其他向量间的关系;
所述注意力层进行学习的自注意力计算表达式如下:
其中,表示注意力函数,/>分别表示查询矩阵、键矩阵、值矩阵,/>表示转置,/>表示softmax函数,/>表示向量的维度;
S22、基于可学习提示特征,利用对比学习辅助网络通过预测图文关联程度,提升可学习提示特征的有效表示;
S23、利用Linear层神经网络将图像全部Token信息向量降噪对齐,得到第二图像信息特征;
所述第二图像信息特征的计算表达式如下:
其中,表示第二图像信息特征,/>表示Linear层神经网络。
4.根据权利要求3所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵,并将可学习提示特征作为输入,进行图文关联程度的关联判别,得到二分类置信度向量,其中,当二分类置信度判别结果为0时,则为弱关联,当二分类置信度判别结果为1时,则为强关联;
所述对比学习辅助网络通过对比学习的方式确定图文关联程度;所述图文关联程度的关联判别是将每张图片与同一批处理batch下的所有文本计算余弦相似度,若图片与对应文本的余弦相似度最大,则为强关联,否则为弱关联;
所述二分类置信度向量的关联损失的计算表达式如下:
其中,Lass表示关联损失,b表示二分类置信度,表示文本分类向量和图像分类向量的点积形成的VT关联矩阵生成的标签。
5.根据权利要求3所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S3中文本全部Token的编码的计算表达式如下:
其中,表示文本全部Token的编码,/>表示BERT嵌入模块,/>表示获取的文本。
6.根据权利要求5所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S4包括如下步骤:
S41、依次将文本信息特征、第一图像信息特征、可学习提示特征和第二图像信息特征拼接在文本全部Token的编码,得到待预测输入编码特征;
所述待预测输入编码特征的计算表达式如下:
其中,input表示待预测输入编码特征,表示待预测文本起始符,/>表示待预测文本分隔终止符;
S42、将待预测输入编码特征输入至BERT编码器中进行编码,得到编码预测结果;
所述编码预测结果的计算表达式如下:
其中,表示编码预测结果,/>表示BERT编码器。
7.根据权利要求6所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S5包括如下步骤:
S51、将编码预测结果对应的一维概率矩阵按行复制行,得到长度为(/>,/>)的概率向量,其中,/>为概率向量长度,概率向量长度对应获取的文本中的词的数量;
S52、将概率向量转置后与概率向量本身相加,得到概率预测ER矩阵。
8.根据权利要求6所述的基于可学习提示的多模态实体识别和关系抽取方法,其特征在于,所述S6包括如下步骤:
S61、获取概率预测ER矩阵生成的概率和标签;
S62、基于概率预测ER矩阵生成的概率和标签,计算得到预测损失;
所述预测损失的计算表达式如下:
其中,表示预测损失,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个概率,/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个标签;
S63、将预测损失和二分类置信度向量的关联损失累加,得到实体及实体间关系抽取损失;
所述实体及实体间关系抽取损失的计算表达式如下:
其中,表示实体及实体间关系抽取损失,/>为第三超参数。
CN202311423976.5A 2023-10-31 2023-10-31 一种基于可学习提示的多模态实体识别和关系抽取方法 Active CN117151223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311423976.5A CN117151223B (zh) 2023-10-31 2023-10-31 一种基于可学习提示的多模态实体识别和关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311423976.5A CN117151223B (zh) 2023-10-31 2023-10-31 一种基于可学习提示的多模态实体识别和关系抽取方法

Publications (2)

Publication Number Publication Date
CN117151223A true CN117151223A (zh) 2023-12-01
CN117151223B CN117151223B (zh) 2024-01-23

Family

ID=88897182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311423976.5A Active CN117151223B (zh) 2023-10-31 2023-10-31 一种基于可学习提示的多模态实体识别和关系抽取方法

Country Status (1)

Country Link
CN (1) CN117151223B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
US20220391755A1 (en) * 2021-05-26 2022-12-08 Salesforce.Com, Inc. Systems and methods for vision-and-language representation learning
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220391755A1 (en) * 2021-05-26 2022-12-08 Salesforce.Com, Inc. Systems and methods for vision-and-language representation learning
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法

Also Published As

Publication number Publication date
CN117151223B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
WO2023226292A1 (zh) 从文本中进行关系抽取的方法、关系抽取模型及介质
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN115841119A (zh) 一种基于图结构的情绪原因提取方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN117151223B (zh) 一种基于可学习提示的多模态实体识别和关系抽取方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN117744635B (zh) 基于智能ai的英文文本自动校对系统及方法
CN113723058B (zh) 文本摘要与关键词抽取方法、装置、设备及介质
CN114238644B (zh) 一种降低语义识别计算量的方法、系统及存储介质
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant