CN114972884A - 一种基于多模态事件本体的图像事件识别方法 - Google Patents

一种基于多模态事件本体的图像事件识别方法 Download PDF

Info

Publication number
CN114972884A
CN114972884A CN202210690851.8A CN202210690851A CN114972884A CN 114972884 A CN114972884 A CN 114972884A CN 202210690851 A CN202210690851 A CN 202210690851A CN 114972884 A CN114972884 A CN 114972884A
Authority
CN
China
Prior art keywords
image
event
matching
keywords
event class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210690851.8A
Other languages
English (en)
Inventor
刘炜
何晴
彭艳
谢少荣
方世忠
褚晓波
李晶
翟杨
赵荦
杨天源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cultural Relics Protection Research Center
Shanghai Municipal Bureau Of Culture And Tourism Shanghai Radio And Television Bureau Shanghai Municipal Bureau Of Cultural Relics
University of Shanghai for Science and Technology
Original Assignee
Shanghai Cultural Relics Protection Research Center
Shanghai Municipal Bureau Of Culture And Tourism Shanghai Radio And Television Bureau Shanghai Municipal Bureau Of Cultural Relics
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cultural Relics Protection Research Center, Shanghai Municipal Bureau Of Culture And Tourism Shanghai Radio And Television Bureau Shanghai Municipal Bureau Of Cultural Relics, University of Shanghai for Science and Technology filed Critical Shanghai Cultural Relics Protection Research Center
Priority to CN202210690851.8A priority Critical patent/CN114972884A/zh
Publication of CN114972884A publication Critical patent/CN114972884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态事件本体的图像事件识别方法,包含以下步骤:图像关键词获取:使用多标签分类技术,获取输入图像信息中的重要关键词;筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在多模态事件本体模型中寻找匹配度最高的事件类集合;图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行基于特征的匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。本发明可以使图像事件识别过程趋于结构化和标准化,从而提高事件识别的准确度。

Description

一种基于多模态事件本体的图像事件识别方法
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于多模态事件本体的图像事件识别方法。
背景技术
图像是人类理解世界的一个重要辅助工具。随着人工智能技术的快速发展,机器对图像的处理也不再仅局限于简单的分类任务,而是逐步聚焦于对图像信息的深层理解与应用。
事件是指在特定时间和环境下发生的、由若干角色参与的、表现出特定动作或状态变化的过程。将事件以“对象”、“动作”、“时间”、“环境”、“状态”、“语言表现”的六元组形式表示,可以得到事件的规范化描述。
图像事件识别主要是通过图像处理技术识别图像中所发生的事件,其目标是尽可能细致地描述该事件中的参与者(人或物)、环境信息以及事件类别等,这包括基于视觉的直观判断和基于常识的辅助推理过程。因此,在识别过程中,除了聚焦于图像的视觉特征之外,还应注重对其语义信息的理解。可以说,图像的目标分类和识别等技术都为语义理解服务。
事件类指由类型相同或相似的事件所构成的集合,是对多个事件的抽象总结。事件本体是指针对通用或特定领域的应用场景,将多种相关事件类进行筛选组合,并结合事件类关系以及一定的推理规则,所得到的一种可以覆盖所有场景的知识库。事件本体可以将海量的非结构化文本事件整合成一种趋于结构化的形式,使事件的表示形式更加清晰。
目前研究界开始考虑将多模态信息应用于图像的深度理解过程中。多模态技术是将文本、图像和语音等各种类型的信息结合起来的技术,各个模态互为补充,以提高机器的理解能力。
多模态事件本体即是将多模态思想融合到事件本体模型中,具体地,它使用由文本和图像共同构成的“多模态信息”作为事件(类)描述的其中一个要素。因此,在进行图片识别时,它不仅可以增强文本语义信息的补充,还可以使用视觉特征作为事件判断的额外辅助,由此提高事件识别技术的准确度,故需要一种基于多模态事件本体的图像事件识别方法。
发明内容
基于以上问题,本发明提出了一种基于多模态事件本体的图像事件识别方法,用于解决现有技术中识别图像事件时语义信息理解不足的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于多模态事件本体的图像事件识别方法,包含以下步骤:
图像关键词获取:使用多标签分类技术,获取输入图像的重要关键词;
筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在事件本体模型中寻找匹配度最高的事件类集合;
图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。
进一步地,所述的图像关键词获取步骤还包括:
图像区域提取:提取图像的重点区域,获得包含图像重点部分的若干子图,这些子图代表图像的主要信息;
多标签分类器:基于多标签分类技术,将所述区域提取技术中产生的子图分别进行处理,得到各区域子图对应的关键词集合;
关键词标注:对所述区域子图的关键词集合进行词性标注,并根据词性对关键词集合做新的划分。
更进一步地,在所述区域提取部分,采用Selective Search或者RPN(RegionProposal Network)技术获取图像的代表区域,并且使每个代表区域子图尽量只保留一项重点目标。
更进一步地,在多标签分类部分,让所述代表区域子图经过多标签分类CNN模型,得到该子图对应的关键词,每个子图产生的关键词放入不同集合中,生成图像关键词序列;另外需要根据分类汇总结果,产生对象总数等属性。
这里的多标签分类器采用基于假设的HCP(Hypotheses-CNN-Pooling)结构。
进一步地,筛选对应事件类集合步骤还包括:
要素匹配:根据已有的多模态事件本体模型,将获取到的图像关键词与之进行相应的事件要素匹配,筛选所需事件类集合;
外部知识补充:利用外部知识对要素匹配的结果进一步筛选。
更进一步地,在要素匹配部分中,需要借助语义相似度等文本匹配技术完成事件要素的匹配过程,产生匹配程度较高的事件类集合。
更进一步地,在外部知识补充部分中,需要根据语料库、语义词典或网络资源等,计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度,根据结果对事件类集合进行二次筛选。
进一步地,图像匹配步骤还包括:
特征提取:提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征;
基于特征匹配:分别计算输入图像与所有待筛选图像特征间的相似度,将相似度计算作为进行最终选择的得分函数,按照匹配结果进行排序,得分最高者即为该图像所属的事件类。
与现有技术相比,本发明的有益效果是:
使用多模态事件本体模型作为图像事件识别过程的补充信息,其中的结构化信息使信息匹配的过程更趋于标准化与结构化;使用语料库、知识库等作为要素匹配的辅助工具,降低了机器由于缺乏理解能力而匹配错误的概率;引用了多模态技术,充分结合了图像与文本所涵盖的信息,提升了图像识别过程的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本申请一种基于多模态事件本体的图像事件识别方法的步骤流程图;
图2是本申请一种基于多模态事件本体的图像事件识别方法的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1~2,本发明实施例中,一种基于多模态事件本体的图像事件识别方法,图1是根据本发明示出的步骤流程图,包括:步骤101~103,
步骤101为图像关键词获取步骤,即使用多标签分类技术,获取输入图像信息中的重要关键词;
在本申请中,所述步骤101具体可以包括如下子步骤:
子步骤S11为图像区域提取部分,采用Selective Search或者RPN(RegionProposal Network)技术获取图像的代表区域,获得包含图像重点部分的若干子图,这些子图代表图像的主要信息,并且使每个代表区域子图尽量只保留一项重点目标。
其中,Selective Search是对滑动窗口区域提取技术的改进,它先对图像进行分割,然后基于颜色、纹理、尺寸以及形状兼容性等属性的相似度,对分割后的框进行合并,可以得到最具代表性的图像区域子图集合;RPN则是将区域提取功能集成到R-CNN网络框架中,实现R-CNN的整体化。
子步骤S12,基于多标签分类技术,将所述区域提取技术中产生的子图分别经过多标签分类CNN模型,得到各区域子图对应的关键词集合序列。例如区域提取阶段产生了k个子图,生成k个对应集合:A1,A2,…,Ak;另外需要根据分类汇总结果,产生对象总数等属性。
这里的多标签分类器采用基于假设的HCP(Hypotheses-CNN-Pooling)结构,这是一种基于区域提取技术的多标签分类模型,通过提出重点区域假设来获取图片中的关键信息。
区域提取子图,在进行分割时就考虑了该子图中存在的事物或描述的相关度,因此无需做额外的计算,默认同一张子图产生的标签内容相关度最高,所以放在同一个集合中。
子步骤S13,对所述区域子图的关键词集合进行词性标注,并根据词性对关键词集合做新的划分,例如将关键词中最主要的名词、形容词、动词分别划分为:B1,B2,B3
步骤102为筛选事件类集合步骤,利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在事件本体模型中寻找匹配度最高的事件类集合;
在本申请中,所述步骤102具体可以包括如下子步骤:
子步骤S21,要素匹配:根据已有的多模态事件本体模型,借助语义相似度等文本匹配技术将所述图像关键词与相应的“动作”、“对象”和“环境”等主要事件要素完成匹配,筛选所需事件类集合。
我们的目的是将这些词构成一个事件(类)结构,则需要使用“填空”的方式进行搭建:
将名词集合B1中的所有词全部视为对象,填入对象要素部分,并根据Ai(i=1,…,k)集合将形容词集合B2中词作为对象属性填入对象要素;然后将动词集合B3中的动词全部填入多模态信息要素的文本部分;多模态信息要素的图像部分即为输入图像。
此时,我们就根据输入图像的内容搭建了一个事件(类)结构,下一步需要进行要素的匹配过程:
对于刚搭建的事件(类),计算其与多模态事件本体中事件类相应要素的文本的相似度,得到其加和作为第一阶段的得分函数:
Figure BDA0003699641280000061
其中加和表示六个要素的相似值的总值,sim(·)为相似度计算函数,X、Y分别为新建立的事件(类)与已存在的事件类对应要素的文本序列。
子步骤S22,根据语料库、语义词典或网络资源等外部知识,计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度,根据结果对事件类集合进行二次筛选。
通过学习语料库、语义词典或网络资源等外部知识,计算新建立的事件(类)与已存在的事件类中多模态信息要素中文本序列的相关度总和,得到第二阶段的得分函数:
Score2=Score1+rel(M,N),其中M、N分别为新建立的事件(类)与已存在的事件类中语言表现要素的文本序列,rel(·)为相关度计算函数。
步骤103为图像匹配步骤,对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。
在本申请中,所述步骤103具体可以包括如下子步骤:
子步骤S31,提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征;
图像的特征可以是人工获取的特征,也可以是由神经网络获取到的卷积特征,抑或是二者的融合。
其中,卷积特征可以使用VGG分类网络或者Faster R-CNN目标检测网络等预训练模型进行获取,具体模型可以根据特征描述选择的形式进行修改或替换。
子步骤S32,分别计算输入图像与所有待筛选图像特征间的相似度,将相似度计算作为进行最终选择的得分函数,按照匹配结果进行排序,得分最高者即为该图像所属的事件类。
至此,可以得到第三阶段的得分函数:
Score3=Score2+match(P,Q),其中P、Q分别为新建立的事件(类)与已存在的事件类中多模态信息要素中的图像,match(·)为图像匹配函数。
根据三个阶段的得分函数,即可筛选输入图像所对应的事件类。
若多模态事件本体模型中含有事件类的实例集合,可使用本发明所表述的方法做更加细致的计算,得到更为准确的结果。
以上所述,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (8)

1.一种基于多模态事件本体的图像事件识别方法,其特征在于,包含以下步骤:
图像关键词获取:使用多标签分类技术,获取输入图像的重要关键词;
筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在事件本体模型中寻找匹配度最高的事件类集合;
图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行基于特征的匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。
2.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法,其特征在于,图像关键词获取步骤还包括以下部分:
图像区域提取:提取图像的重点区域,获得包含图像重点部分的若干子图,这些子图代表图像的主要信息;
多标签分类器:基于多标签分类技术,将所述区域提取技术中产生的子图分别进行处理,得到各区域子图对应的关键词集合;
关键词标注:对所述区域子图的关键词集合进行词性标注,并根据词性对关键词集合做新的划分。
3.如权利要求2所述的方法,其特征在于,在所述区域提取部分,采用SelectiveSearch或者RPN技术获取图像的代表区域,并且使每个代表区域子图尽量只保留一项重点目标。
4.如权利要求2所述的方法,其特征在于,在多标签分类部分,让所述代表区域子图经过多标签分类CNN模型,得到该子图对应的关键词,每个子图产生的关键词放入不同集合中,生成图像关键词集合序列;另外需要根据分类汇总结果,产生对象总数属性。
5.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法,其特征在于,筛选对应事件类集合步骤进一步包括:
要素匹配:根据已有的多模态事件本体模型,将获取到的图像关键词与之进行相应的事件要素匹配,筛选所需事件类集合;
外部知识补充:利用外部知识对要素匹配的结果进一步筛选。
6.如权利要求5所述的方法,其特征在于,在要素匹配部分中,需要借助语义相似度等文本匹配技术完成事件要素的匹配过程,产生匹配程度较高的事件类集合。
7.如权利要求5所述的方法,其特征在于,在外部知识补充部分中,需要根据语料库、语义词典或网络资源,计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度,根据结果对事件类集合进行二次筛选。
8.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法,其特征在于,图像匹配步骤进一步包括:
特征提取:提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征;
基于特征匹配:分别计算输入图像与所有待筛选图像特征间的相似度,将相似度计算作为进行最终选择的得分函数,按照匹配结果进行排序,得分最高者即为该图像所属的事件类。
CN202210690851.8A 2022-06-17 2022-06-17 一种基于多模态事件本体的图像事件识别方法 Pending CN114972884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210690851.8A CN114972884A (zh) 2022-06-17 2022-06-17 一种基于多模态事件本体的图像事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210690851.8A CN114972884A (zh) 2022-06-17 2022-06-17 一种基于多模态事件本体的图像事件识别方法

Publications (1)

Publication Number Publication Date
CN114972884A true CN114972884A (zh) 2022-08-30

Family

ID=82963025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210690851.8A Pending CN114972884A (zh) 2022-06-17 2022-06-17 一种基于多模态事件本体的图像事件识别方法

Country Status (1)

Country Link
CN (1) CN114972884A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN116204851B (zh) * 2023-03-21 2023-08-22 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统

Similar Documents

Publication Publication Date Title
EP3660733B1 (en) Method and system for information extraction from document images using conversational interface and database querying
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
Sharma et al. Benchmarking deep neural network approaches for Indian Sign Language recognition
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN114064918A (zh) 一种多模态事件知识图谱构建方法
Megala et al. Enriching text summarization using fuzzy logic
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
Armouty et al. Automated keyword extraction using support vector machine from Arabic news documents
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN109983473A (zh) 灵活的集成识别和语义处理
Xu et al. A page object detection method based on mask R-CNN
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN114972884A (zh) 一种基于多模态事件本体的图像事件识别方法
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN108268883B (zh) 基于开放数据的移动端信息模板自构建系统
CN112528653A (zh) 短文本实体识别方法和系统
CN111737507A (zh) 一种单模态图像哈希检索方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Zhao et al. Memory-efficient document layout analysis method using LD-net
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination