CN117056543A - 一种基于图像的多模态专利检索方法 - Google Patents

一种基于图像的多模态专利检索方法 Download PDF

Info

Publication number
CN117056543A
CN117056543A CN202311051950.2A CN202311051950A CN117056543A CN 117056543 A CN117056543 A CN 117056543A CN 202311051950 A CN202311051950 A CN 202311051950A CN 117056543 A CN117056543 A CN 117056543A
Authority
CN
China
Prior art keywords
text
legend
picture
cosine similarity
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311051950.2A
Other languages
English (en)
Inventor
王建
张晞曈
王佐成
吕孝忠
李�浩
孙昕
张文婷
王淑莹
汪鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Space Research Institute
Original Assignee
Data Space Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Space Research Institute filed Critical Data Space Research Institute
Priority to CN202311051950.2A priority Critical patent/CN117056543A/zh
Publication of CN117056543A publication Critical patent/CN117056543A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索技术领域,具体是一种基于图像的多模态专利检索方法,包括以下步骤:将专利库中专利的图片和该图片对应的图例输入到编码器,分别获得图片向量表示和将文本向量表示;计算所有图片向量表示和文本向量表示之间的余弦相似度,并进行正则化处理;采用对比学习,根据相似度构造InfoNCE损失函数,以训练CLIP模型;将待检索图片输入CLIP模型中,然后和专利库中所有图例文本向量计算余弦相似度;最后筛选出与待检索图片具有最大余弦相似度或余弦相似度在预设范围内的图例文本向量,该图例文本向量对应的专利即为所需检索出的专利。本发明拓宽了检索的渠道,降低检索难度,并且能够结合文本检索以提高检索的准确性。

Description

一种基于图像的多模态专利检索方法
技术领域
本发明涉及信息检索技术领域,具体是一种基于图像的多模态专利检索方法。
背景技术
专利检索是专利申请前不可或缺的操作步骤,通过专利申请前的初步检索,可以获得一些相关的对比文件;这些对比文件中很有可能包含着可借鉴之处,有助于申请人完善技术方案,以提出更好布局措施,获得最佳的保护效果。
现有的专利检索技术,通常采用检索关键词、一段文本等文字性的内容,将这些内容输入到自然语言处理模型,并和后台数据库里的专利进行比对,返回和检索条件相关的结果。在专利CN113168499A中公开了一种检索专利文档的方法,包括读取多个专利文档,每个所述专利文档包括全说明书,以及转换为全说明书图形和权利要求图形。所述图形包含:节点,每个所述节点具有从所述全说明书或权利要求提取的第一自然语言单元作为节点值;以及所述节点之间的边缘,所述边缘是基于从所述全说明书或权利要求提取的至少一个第二自然语言单元确定的。该方法能够有效的提高专利检索的准确性。
上述现有技术是基于文本的检索技术,背后使用的自然语言处理模型,该模型在处理数据库中的专利时,会忽略其中的图片,导致在使用上述现有技术时,只能使用自己编辑的文本进行检索,导致检索的方式过于单一。同时,过于单一的检索方式,无法更准确、更有效的检索到需要的对比文件,进而无法对与本申请相关的现有技术进行全面的了解。
发明内容
为了避免和克服现有技术中存在的技术问题,本发明提供了一种基于图像的多模态专利检索方法。本发明通过输入图片的方式进行检索,拓宽了检索的渠道,降低检索难度;并且能够结合文本检索以提高检索的准确性。
为实现上述目的,本发明提供如下技术方案:
一种基于图像的多模态专利检索方法,包括以下步骤:
S1、对专利库中的每篇专利,提取其中的图片和对应的图例文字,将图片输入图像编码器,获得图片向量表示;将对应的图例文字输入文字编码器,获得文本向量表示;
S2、计算所有图片的图片向量表示和图例文本对用的文本向量表示之间的余弦相似度,获得相似度矩阵,对来自同一篇专利的图片和图例文本之间的余弦相似度进行正则化处理;
S3、基于相似度矩阵,采用对比学习损失函数,最大化相似度矩阵对角线的值,对图像编码器和文字编码器进行Fine-tune,得到整个CLIP模型,同时保存所有图例文本的文本向量表示;
S4、将待检索的图片输入训练好的图形编码器中,得到图片向量表示,计算其与所有图例文本的之间的图片向量表示的余弦相似度,取排名靠前的图例文本对应的专利作为检索结果。
作为本发明再进一步的方案:步骤S1的细节如下:
S11、对于专利库中的每篇专利,抽取其中的图片及对应图例文字LEGEND,同时根据专利的名称和摘要,对图例文字LEGEND进行上下文语义的补齐,得到的输入语料为([CLS],TITLE,[SEP],ABSTRACT,[SEP],LEGEND);[CLS]表示标识文本开始的占位符,[SEP]表示段落分割的占位符,TITLE表示专利名称,ABSTRACT表示专利的摘要,LEGEND表示专利的图例说明;
S12、将上述格式的文本语料输入到预训练的文本编码器中,得到对应的文本表示向量T;
S13、将专利中的图片输入预训练的图像编码器中,得到对应的图片向量表示I。
作为本发明再进一步的方案:步骤S2的细节如下:
S21、计算各个文本向量表示T与图片向量表示I之间的余弦相似度,并记为IiTj,IiTj表示第i个图片向量表示和第j个文本向量表示之间的余弦相似度;并获得N×N相似度矩阵如下:
其中,N表示图片的个数,也是图例文字的个数;
S22、相似度矩阵主对角线上是图片和对应图例文字的余弦相似度,被称为正样本,其余位置被称为负样本;
S23、对于来自同一篇专利的样本对(图片,图例文字),它们的正样本的余弦相似度保持不变,负样本的余弦相似度乘以一个较小的系数,进行正则化,得到正则化的相似度矩阵。
作为本发明再进一步的方案:步骤S3的细节如下:基于正则化的相似度矩阵,采用对比学习的InfoNCE损失函数,对文本编辑器和图像编辑器进行Fine-tune,得到训练好的CLIP模型。
作为本发明再进一步的方案:步骤S4的细节如下:
S41、使用训练好的CLIP模型,计算专利库中所有图例文字对应的文本向量表示,并保存下来;
S42、将待检索的图片输入训练好的CLIP模型中的图像编码器,得到对应的图片向量表示,计算该图片向量表示和S41步骤中保存的所有文字向量表示之间的余弦相似度,取余弦相似度最大或者前K的个文本向量表示,这些文本向量表示对应的专利即为检索得到的专利。
作为本发明再进一步的方案:其中的文本编码器可以采用Transformer架构的BERT,图像编码器可以采用ResNet或者Vision Transformer。
与现有技术相比,本发明的有益效果是:
1、本发明扩展了专利检索的输入,对基于文本的专利检索进行了补充,充分利用文本模型所忽略的图片数据,实现了基于图像的专利检索,提供多样化的检索结果。此外,本发明提供的基于图片的专利检索,还可以作为启发式的检索方式,为使用者提供创作灵感,加快创新想法的验证和实现。
2、本发明充分利用了文本检索所忽略的专利中的图像数据,扩展了专利检索的输入。
3、将多模态的CLIP模型引入专利检索领域,构建了专利数据库中“图像-图例文本-专利”的模态转换关系。同时在训练模型多模态CLIP模型时,利用专利文本的结构化对图片描述文本进行了扩充,提供更加充分的上下文语义表示,并针对同一篇专利中的训练数据做了正则化,降低模型的偏差。
附图说明
图1为本发明的结构示意图。
图2为本发明中CLIP模型的结构示意图。
图3为本发明中图片检索过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~3,一种基于图像的多模态专利检索方法。本发明旨在挖掘专利中图像和对应文本之间的关系以及特征表示。这里关系表示涉及到文本和图片两种形式的数据,采用的是基于CLIP的多模态迁移学习模型。
该模型的训练流程如下图2所示,对于文本和图片,分别训练一个Encoder模型提取各自的特征,其中的Text Encoder采用的是流行的Transformer架构,Image Encoder可以采用ResNet或者Vision Transformer(VT)。重点在于,如何利用专利构造有效的训练语料。
专利中的图片通常会有对应的文字,用以说明当前图片的内容,这样一幅图片和对应的图例说明,正好可以组成一对(Image,Text),作为一个训练样本。考虑到图片的图例说明文本通常是简单的一个句子,有时候会出现表意不明的情况,而专利作为结构化的文本语料,有固定的段落格式,比如标题,背景,发明内容等,因此可以利用这些信息作为图例的上下文补充,也就是Text-Encoder的输入语料为([CLS],TITLE,[SEP],ABSTRACT,[SEP],LEGEND)这样包含专利名称、摘要和图例说明拼接起来的长文本,以提供更加准确的上下文语义,其中[CLS]是标识文本开始的占位符,[SEP]是段落分割的占位符。
根据专利库里的专利数据,假设构造了N对这样的训练样本,每一对的图片和文本分别经过Text-Encoder和Image-Encoder之后,得到各自的embedding特征向量Ik和Tk,这些向量维度相同,相互之间可以计算余弦相似度cos(Ii,Tj),简单记作IiTjN对样本,得到一个N×N的相似度矩阵,如图2所示。现在期望达到的效果是,每对原始的图片和对应的图例说明之间的余弦相似度最大,也就是图2中相似度矩阵的对角线上的值IkTk尽可能大,其他位置的余弦相似度尽可能小。为达到这样的效果,CLIP采用的是对照学习InfoNCE损失函数,对角线上的N个样本为正样本,其他位置的N2-N个样本为负样本。
同时需要注意到,一篇专利中会有多张图片,这些归属于同一篇专利的图片,各自的作用并不相同,按照上述方式构建对应图例说明的长文本时,会有一部分文本都是类似的,比如其中的TITLE,ABSTRACT等部分,这样同属于一篇专利的图片在经过Text-Encoder之后,得到的embedding向量很接近,后续计算余弦相似度时,彼此之间没有明显的差异,导致模型误差较大。对此,本发明做了如下改进,对于来自同一篇专利的(Image,Text)样本对,它们组成的正样本的余弦相似度保持不变,负样本的余弦相似度乘以一个小于1的系数进行缩放,减小相互之间的影响,相当于做了正则化。总体来看,相当于图2中的相似度矩阵点乘(对应位置相乘)右边的正则化矩阵,比如图2中相似度矩阵左上角的3×3部分,它对应的(I1,T1),(I2,T2),(I3,T3)是来自于同一篇专利的3对(Image,Text),它们对应于图2右边的正则化矩阵左上角3×3部分,该正则化矩阵中,对角线元素为1,其他位置的元素为0.8,也就是缩小了对应位置的余弦相似度值。正则化矩阵中的缩放系数σ,图2中为0.8,是训练时的超参数。
训练结束之后,除了保存Text Encoder、Image Encoder模型,还需要保存这N对(Image,Text)样本中Text部分对应的特征向量{T1,T2,...,TN}。对于输入的待检索图片,如图3所示,经过训练好的Image-Encoder之后,得到对应embedding向量I,和专利库中所有专利图片对应的Text embedding向量计算余弦相似度,取余弦相似度最大或者靠前的K个Text embedding结果,这样就得到了与待检索图片相似的文本还有对应的专利,实现了基于图像的多模态专利检索。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于图像的多模态专利检索方法,其特征在于,包括以下步骤:
S1、对专利库中的每篇专利,提取其中的图片和对应的图例文字,将图片输入图像编码器,获得图片向量表示;将对应的图例文字输入文字编码器,获得文本向量表示;
S2、计算所有图片的图片向量表示和图例文本对应的文本向量表示之间的余弦相似度,获得相似度矩阵,对来自同一篇专利的图片和图例文本之间的余弦相似度进行正则化处理;
S3、基于相似度矩阵,采用对比学习损失函数,最大化相似度矩阵对角线的值,对图像编码器和文字编码器进行Fine-tune,得到整个CLIP模型,同时保存所有图例文本的文本向量表示;
S4、将待检索的图片输入训练好的图形编码器中,得到图片向量表示,计算其与所有图例文本之间的图片向量表示的余弦相似度,取排名靠前的图例文本对应的专利作为检索结果。
2.根据权利要求1所述的一种基于图像的多模态专利检索方法,其特征在于,步骤S1的细节如下:
S11、对于专利库中的每篇专利,抽取其中的图片及对应图例文字LEGEND,同时根据专利的名称和摘要,对图例文字LEGEND进行上下文语义的补齐,得到的输入语料为([CLS],TITLE,[SEP],ABSTRACT,[SEP],LEGEND);[CLS]表示标识文本开始的占位符,[SEP]表示段落分割的占位符,TITLE表示专利名称,ABSTRACT表示专利的摘要,LEGEND表示专利的图例说明;
S12、将上述格式的文本语料输入到预训练的文本编码器中,得到对应的文本表示向量T;
S13、将专利中的图片输入预训练的图像编码器中,得到对应的图片向量表示I。
3.根据权利要求2所述的一种基于图像的多模态专利检索方法,其特征在于,步骤S2的细节如下:
S21、计算各个文本向量表示T与图片向量表示I之间的余弦相似度,并记为IiTj,IiTj表示第i个图片向量表示和第j个文本向量表示之间的余弦相似度;并获得N×N相似度矩阵如下:
其中,N表示图片的个数,也是图例文字的个数;
S22、相似度矩阵主对角线上是图片和对应图例文字的余弦相似度,被称为正样本,其余位置被称为负样本;
S23、对于来自同一篇专利的样本对(图片,图例文字),它们的正样本的余弦相似度保持不变,负样本的余弦相似度乘以一个较小的系数,进行正则化,得到正则化的相似度矩阵。
4.根据权利要求3所述的一种基于图像的多模态专利检索方法,其特征在于,步骤S3的细节如下:基于正则化的相似度矩阵,采用对比学习的InfoNCE损失函数,对文本编辑器和图像编辑器进行Fine-tune,得到训练好的CLIP模型。
5.根据权利要求4所述的一种基于图像的多模态专利检索方法,其特征在于,步骤S4的细节如下:
S41、使用训练好的CLIP模型,计算专利库中所有图例文字对应的文本向量表示,并保存下来;
S42、将待检索的图片输入训练好的CLIP模型中的图像编码器,得到对应的图片向量表示,计算该图片向量表示和S41步骤中保存的所有文字向量表示之间的余弦相似度,取余弦相似度最大或者前K的个文本向量表示,这些文本向量表示对应的专利即为检索得到的专利。
6.根据权利要求5所述的一种基于图像的多模态专利检索方法,其特征在于,其中的文本编码器可以采用Transformer架构的BERT,图像编码器可以采用ResNet或者VisionTransformer。
CN202311051950.2A 2023-08-21 2023-08-21 一种基于图像的多模态专利检索方法 Pending CN117056543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311051950.2A CN117056543A (zh) 2023-08-21 2023-08-21 一种基于图像的多模态专利检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311051950.2A CN117056543A (zh) 2023-08-21 2023-08-21 一种基于图像的多模态专利检索方法

Publications (1)

Publication Number Publication Date
CN117056543A true CN117056543A (zh) 2023-11-14

Family

ID=88658686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311051950.2A Pending CN117056543A (zh) 2023-08-21 2023-08-21 一种基于图像的多模态专利检索方法

Country Status (1)

Country Link
CN (1) CN117056543A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556079A (zh) * 2024-01-12 2024-02-13 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN114357148A (zh) * 2021-12-27 2022-04-15 之江实验室 一种基于多级别网络的图像文本检索方法
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN116204694A (zh) * 2023-02-15 2023-06-02 北京邮电大学 一种基于深度学习与哈希算法的多模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN114357148A (zh) * 2021-12-27 2022-04-15 之江实验室 一种基于多级别网络的图像文本检索方法
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN116204694A (zh) * 2023-02-15 2023-06-02 北京邮电大学 一种基于深度学习与哈希算法的多模态检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556079A (zh) * 2024-01-12 2024-02-13 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质
CN117556079B (zh) * 2024-01-12 2024-04-16 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
US11158349B2 (en) Methods and systems of automatically generating video content from scripts/text
CN104537028B (zh) 一种网页信息处理方法及装置
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112052906A (zh) 一种基于指针网络的图像描述优化方法
CN106649294B (zh) 一种分类模型的训练及其从句识别方法和装置
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN117056543A (zh) 一种基于图像的多模态专利检索方法
Das et al. Assamese news image caption generation using attention mechanism
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
CN116303929A (zh) 机器阅读理解方法及其装置、电子设备及存储介质
Baek et al. COO: Comic onomatopoeia dataset for recognizing arbitrary or truncated texts
US11494431B2 (en) Generating accurate and natural captions for figures
Das et al. Automatic semantic segmentation and annotation of MOOC lecture videos
CN113836941B (zh) 一种合同导航方法及装置
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Ma et al. Bootstrapping structured page segmentation
WO2021137942A1 (en) Pattern generation
CN113919358A (zh) 一种基于主动学习的命名实体识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination