CN114048282A - 一种基于文本树局部匹配的图文跨模态检索方法及系统 - Google Patents

一种基于文本树局部匹配的图文跨模态检索方法及系统 Download PDF

Info

Publication number
CN114048282A
CN114048282A CN202111355042.3A CN202111355042A CN114048282A CN 114048282 A CN114048282 A CN 114048282A CN 202111355042 A CN202111355042 A CN 202111355042A CN 114048282 A CN114048282 A CN 114048282A
Authority
CN
China
Prior art keywords
text
tree
image
cross
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111355042.3A
Other languages
English (en)
Inventor
纪庆革
刘素
赖韩江
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111355042.3A priority Critical patent/CN114048282A/zh
Publication of CN114048282A publication Critical patent/CN114048282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本树局部匹配的图文跨模态检索方法及系统,该方法包括:获获取数据集并对数据集进行预处理和划分,得到训练集;将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;根据文本特征生成文本树;根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;获取待测数据并输入至跨模态检索模型,得到检索结果。该系统包括:预处理模块、特征提取模块、树生成模块、模型训练模块和检索模块。通过使用本发明,实现跨模态检索,具有高可解释性和高检索精度的优点。本发明可广泛应用于图文匹配领域。

Description

一种基于文本树局部匹配的图文跨模态检索方法及系统
技术领域
本发明涉及图文匹配领域,尤其涉及一种基于文本树局部匹配的图文跨模态检索方法及系统。
背景技术
现有跨模态检索对于数据集分为局部和整体两种研究思路。全局对应关系首先将图像和文本表示为特征向量,然后将它们投影到一个经过排序损失优化的公共空间中;局部对应关系集中在学习显著对象的对应关系上。对于数据集中的图片,特征提取一般直接应用ResNet,fast-RCNN等卷积神经网络,对于对应的文本,应用GRU等卷积神经网络生成嵌入向量,之后两者共同放入Transformer进行相似度的计算,得到训练后的模型。使用时输入要检索的图片或文本,可得到最匹配的文本或图片。在局部对齐方面,现在应用较多的注意力机制,将图片与文本矩阵做加权和,来衡量两着的注意力分数,以此来判定二者是否对齐。
图片和文本在特征提取之后,直接投射到公共空间,由于模态信息的差异,二者的相似度计算效果较差,缺乏对图像和文本之间的细粒度相互作用的理解,局部的匹配没有实现对应,准确性还有待提升。同时注意力机制的使用具有很强的约束性,对于文本和图片,直接计算衡量相似度的效果有限。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于文本树局部匹配的图文跨模态检索方法及系统,实现跨模态检索,可解释性高且检索精度高。
本发明所采用的第一技术方案是:一种基于文本树局部匹配的图文跨模态检索方法,包括以下步骤:
获取数据集并对数据集进行预处理和划分,得到训练集;
将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
根据文本特征生成文本树;
根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
获取待测数据并输入至跨模态检索模型,得到检索结果。
进一步,所述获取数据集并对数据集进行预处理和划分,得到训练集这一步骤,其具体包括:
获取数据集并将数据集中的图片和文本建立对应关系,得到图文对应关系;
根据图文对应关系生成字典数据;
将字典数据按照预设比例划分,得到训练集和测试集。
进一步,所述将训练集中的图片和文本分别输入对应网络进行特征提取,得到文本特征和图片特征这一步骤,其具体包括:
将训练集中的图片切片并输入至线性网络,得到图片特征;
将训练集中的文本进行编码并输入至卷积神经网络生成嵌入向量,得到文本特征。
进一步,所述根据文本特征生成文本树这一步骤,其具体包括:
将文本特征输入至前馈神经网络生成初步输出分数;
将初步输出分数进行归一化采样并计算相邻两个分量的L2范数和;
根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树。
进一步,所述根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树这一步骤,其具体包括:
将L2范数和最高的两项进行合并,得到合并后分数;
将合并后分数和其他分量的分数进行归一化处理;
取相邻两个分量做L2范数和的计算并合并最高的两项,迭代直至没有两项可以合并,生成文本树。
进一步,所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型这一步骤,其具体包括:
将文本树和图片特征输入至预设的图文匹配网络;
将文本树中的节点与图片特征依次进行余弦相似度计算,并根据余弦相似度进行图文匹配;
计算文本树和图片的匹配整体损失并训练图文匹配网络,得到跨模态检索模型。
进一步,所述匹配整体损失的计算公式如下:
Figure BDA0003357250170000021
上式中,m表示图片和文本的距离,T表示文本,V表示图像,V′表示与文本T不匹配的图片,γ表示边际参数,T′表示与图片V不匹配的文本。
本发明所采用的第二技术方案是:一种基于文本树局部匹配的图文跨模态检索系统,包括:
预处理模块,用于获取数据集并对数据集进行预处理和划分,得到训练集;
特征提取模块,用于将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
树生成模块,用于根据文本特征生成文本树;
模型训练模块,用于根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
检索模块,用于获取待测数据并输入至跨模态检索模型,得到检索结果。
本发明方法及系统的有益效果是:本发明通过将目标放到细粒度的图像和文本的对应关系上,利用文本树分析文本结构,和图片的局部内容形成互相对应的关系,转化成图片显著区域的树状形态,从而得到一个更精准的损失,训练的模型能够提升检索的准确度和提高检索效率。
附图说明
图1是本发明一种基于文本树局部匹配的图文跨模态检索方法的步骤流程图;
图2是本发明一种基于文本树局部匹配的图文跨模态检索系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种基于文本树局部匹配的图文跨模态检索方法,该方法包括以下步骤:
S1、获取数据集并对数据集进行预处理和划分,得到训练集;
S2、将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
S3、根据文本特征生成文本树;
S4、根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
S5、获取待测数据并输入至跨模态检索模型,得到检索结果。
具体地,输入待测试的图片或文本,经过网络特征提取后与信息库中跨模态数据匹配,得到最相似的检索结果,利用之前训练好的模型,进行跨模态结果的检索,检索可双向实现,文本检索图片或图片检索文本。
进一步作为本方法的优选实施例,所述获取数据集并对数据集进行预处理和划分,得到训练集这一步骤,其具体包括:
S11、获取数据集并将数据集中的图片和文本建立对应关系,得到图文对应关系;
S12、根据图文对应关系生成字典数据;
S13、将字典数据按照预设比例划分,得到训练集和测试集。
具体地,由于输入网络要求图像大小为244*244*3,要将图片的像素值进行相应的归一化和插值操作,从而得到统一的输入。
进一步作为本方法的优选实施例,所述将训练集中的图片和文本分别输入对应网络进行特征提取,得到文本特征和图片特征这一步骤,其具体包括:
将训练集中的图片切片并输入至线性网络,得到图片特征;
具体地,将统一大小的图片切片成k块,输入一个线性网络生成其特征。V=[v1,v2,…vk]。
将训练集中的文本进行编码并输入至卷积神经网络生成嵌入向量,得到文本特征。
具体地,对每个单词进行one-hot编码后,使用卷积神经网络生成嵌入向量。T=[t1,t2,…tn],n为句子的单词个数。
嵌入向量是文本经过卷积神经网络输出的向量,成为嵌入向量,该网络也为嵌入网络,因为文本不像图片一样自带RGB这样的数值信息,需要将文本编码经过网络产生和图片维度相同的向量,是一种投影到相同维度的方法。
进一步作为本方法的优选实施例,所述根据文本特征生成文本树这一步骤,其具体包括:
将文本特征输入至前馈神经网络生成初步输出分数;
具体地,前馈神经网络的作用是生成初步的单词评分,将嵌入向量作为输入,使用128维的隐藏层和ReLU激活函数,得到初步的输出分数。S=[s1,s2,…sn]。
将初步输出分数进行归一化采样并计算相邻两个分量的L2范数和;
具体地,将输出进行归一化采样,再使用L2范数和去计算出相邻两个分量的对应值。在此过程中,文本的每个单词都被看成一个分量:
Figure BDA0003357250170000041
Figure BDA0003357250170000042
其中,s是分数,p是归一化后的分数,com为两个分量的L2范数和。
根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树。
进一步作为本方法优选实施例,所述根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树这一步骤,其具体包括:
将L2范数和最高的两项进行合并,得到合并后分数;
将合并后分数和其他分量的分数进行归一化处理;
取相邻两个分量做L2范数和的计算并合并最高的两项,迭代直至没有两项可以合并,生成文本树。
具体地,在合并的过程中,需要记录每一步合并的项的内容,最初的每个分量都是生成树的叶子节点,合并后的是中间节点,最后生成一个总的生成树。分量是树的某一层,在进行下一次合并的时候,这一层的每个节点都称为分量。
进一步作为本方法优选实施例,所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型这一步骤,其具体包括:
将文本树和图片特征输入至预设的图文匹配网络;
将文本树中的节点与图片特征依次进行余弦相似度计算,并根据余弦相似度进行图文匹配;
节点的含义:文本生成树中的每个节点,以上面句子为例,叶子节点就是每个单词,中间节点就是词组,比如thecat或者onthechair这样,根节点就是原句。
具体地,余弦相似度计算表示如下:
显著区域进行余弦相似度的计算:
m(x,v=cos(θ,x,v)
其中,x是文本生成树中的节点,v是图像显著区域。
此处的匹配是文本树的节点和图片区域进行余弦相似度计算,是点对点的匹配,原来的公式里是有带英文的上下标,表示需要遍历文本的节点和图片的区域,找到节点和某一区域距离最近的一对;另外一个就是文本和图片整体的距离计算,就是第7点中的公式,它是前者最近距离的集合。整个过程中有两次匹配。
计算文本树和图片的匹配整体损失并训练图文匹配网络,得到跨模态检索模型。
然后进行一个中间步骤的损失计算,这个损失是为了训练之前文本生成树的网络参数,使其分数更加准确,计算公式如下:
Figure BDA0003357250170000051
上式中,t表示除该成分外文本内其他内容,δ是一个恒定的余量。
成分的含义:一个文本中,例如英文句子Thecatisonthechair.中每个单词都是一个成分,这个句子有6个成分。在这里,单词可以等同于成分,对不同语言,不一定有“单词”这一概念,就用成分统一表示。
当分数生成网络趋于稳定,此时可以得到文本生成树成分和图像显著区域的对齐,即每个x都有其对应的显著区域v。
用惯例的三元组损失函数,计算整张图片和文本的交叉熵损失,将文本生成树内的成分x和其对应的显著区域计算损失,以此来调整图文匹配网络。
进一步作为本方法优选实施例,所述匹配整体损失的计算公式如下:
Figure BDA0003357250170000061
上式中,m表示图片和文本的距离,T表示文本,V表示图像,V′表示与文本T不匹配的图片,γ表示边际参数,T′表示与图片V不匹配的文本,[x]+=max(x,0)。没有上标,表示两者是匹配的,有上标,表示两者不匹配,目的要让互为匹配的图文对距离损失比任何不匹配的图文对距离都小。
如图2所示,一种基于文本树局部匹配的图文跨模态检索系统,包括:
预处理模块,用于获取数据集并对数据集进行预处理和划分,得到训练集;
特征提取模块,用于将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
树生成模块,用于根据文本特征生成文本树;
模型训练模块,用于根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
具体地,此处包括两个网络迭代训练,一个网络是生成文本成分分数的网络,一个是计算图文对距离的网络。
检索模块,用于获取待测数据并输入至跨模态检索模型,得到检索结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,包括以下步骤:
获取数据集并对数据集进行预处理和划分,得到训练集;
将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
根据文本特征生成文本树;
根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
获取待测数据并输入至跨模态检索模型,得到检索结果。
2.根据权利要求1所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述获取数据集并对数据集进行预处理和划分,得到训练集这一步骤,其具体包括:
获取数据集并将数据集中的图片和文本建立对应关系,得到图文对应关系;
根据图文对应关系生成字典数据;
将字典数据按照预设比例划分,得到训练集和测试集。
3.根据权利要求2所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征这一步骤,其具体包括:
将训练集中的图片切片并输入至线性网络,得到图片特征;
将训练集中的文本进行编码并输入至卷积神经网络生成嵌入向量,得到文本特征。
4.根据权利要求3所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述根据文本特征生成文本树这一步骤,其具体包括:
将文本特征输入至前馈神经网络生成初步输出分数;
将初步输出分数进行归一化采样并计算相邻两个分量的L2范数和;
根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树。
5.根据权利要求4所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树这一步骤,其具体包括:
将L2范数和最高的两项进行合并,得到合并后分数;
将合并后分数和其他分量的分数进行归一化处理;
取相邻两个分量做L2范数和的计算并合并最高的两项,迭代直至没有两项可以合并,生成文本树。
6.根据权利要求5所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型这一步骤,其具体包括:
将文本树和图片特征输入至预设的图文匹配网络;
将文本树中的节点与图片特征依次进行余弦相似度计算,并根据余弦相似度进行图文匹配;
计算文本树和图片的匹配整体损失并训练图文匹配网络,得到跨模态检索模型。
7.根据权利要求6所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述匹配整体损失的计算公式如下:
Figure FDA0003357250160000021
上式中,m表示图片和文本的距离,T表示文本,V表示图像,V′表示与文本T不匹配的图片,γ表示边际参数,T′表示与图片V不匹配的文本。
8.一种基于文本树局部匹配的图文跨模态检索系统,其特征在于,包括:
预处理模块,用于获取数据集并对数据集进行预处理和划分,得到训练集;
特征提取模块,用于将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;
树生成模块,用于根据文本特征生成文本树;
模型训练模块,用于根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;
检索模块,用于获取待测数据并输入至跨模态检索模型,得到检索结果。
CN202111355042.3A 2021-11-16 2021-11-16 一种基于文本树局部匹配的图文跨模态检索方法及系统 Pending CN114048282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111355042.3A CN114048282A (zh) 2021-11-16 2021-11-16 一种基于文本树局部匹配的图文跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111355042.3A CN114048282A (zh) 2021-11-16 2021-11-16 一种基于文本树局部匹配的图文跨模态检索方法及系统

Publications (1)

Publication Number Publication Date
CN114048282A true CN114048282A (zh) 2022-02-15

Family

ID=80209240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111355042.3A Pending CN114048282A (zh) 2021-11-16 2021-11-16 一种基于文本树局部匹配的图文跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN114048282A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861016A (zh) * 2022-07-05 2022-08-05 人民中科(北京)智能技术有限公司 一种跨模态检索方法、装置以及存储介质
CN116578738A (zh) * 2023-07-14 2023-08-11 深圳须弥云图空间科技有限公司 一种基于图注意力和生成对抗网络的图文检索方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861016A (zh) * 2022-07-05 2022-08-05 人民中科(北京)智能技术有限公司 一种跨模态检索方法、装置以及存储介质
CN116578738A (zh) * 2023-07-14 2023-08-11 深圳须弥云图空间科技有限公司 一种基于图注意力和生成对抗网络的图文检索方法和装置
CN116578738B (zh) * 2023-07-14 2024-02-20 深圳须弥云图空间科技有限公司 一种基于图注意力和生成对抗网络的图文检索方法和装置

Similar Documents

Publication Publication Date Title
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
CN109710923A (zh) 基于跨媒体信息的跨语言实体匹配方法
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN114048282A (zh) 一种基于文本树局部匹配的图文跨模态检索方法及系统
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110781672A (zh) 基于机器智能的题库生产方法及系统
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN115905553A (zh) 面向施工图审查规范知识抽取与知识图谱构建方法及系统
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
US11494431B2 (en) Generating accurate and natural captions for figures
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法
CN113836941B (zh) 一种合同导航方法及装置
CN114820212A (zh) 非连续疾病实体抽取方法、装置及电子设备
CN115147849A (zh) 字符编码模型的训练方法、字符匹配方法和装置
CN116415587A (zh) 信息处理装置和信息处理方法
CN114238595A (zh) 一种基于知识图谱的冶金知识问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination