CN116680420B - 基于知识表示增强的低资源跨语言文本检索方法及装置 - Google Patents
基于知识表示增强的低资源跨语言文本检索方法及装置 Download PDFInfo
- Publication number
- CN116680420B CN116680420B CN202310961196.XA CN202310961196A CN116680420B CN 116680420 B CN116680420 B CN 116680420B CN 202310961196 A CN202310961196 A CN 202310961196A CN 116680420 B CN116680420 B CN 116680420B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- language
- query
- low
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 31
- 230000007246 mechanism Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 9
- 238000002679 ablation Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 235000009499 Vanilla fragrans Nutrition 0.000 description 2
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于知识表示增强的低资源跨语言文本检索方法及装置,属于自然语言处理技术领域。本发明包括:中文查询‑低资源文档及外部知识数据预处理、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建、基于表示对齐增强和外部知识融合的低资源跨语言文本模型训练、对中文‑低资源跨语言文本进行检索四部分构成。根据这四个部分功能模块化制成基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,能够有效地利用外部知识丰富查询文本的知识信息,增强对东南亚低资源跨语言文本的表示对齐能力和知识特征融合能力,从而达到提升低资源跨语言文本检索模型性能目的,具有重要的理论和实际应用价值。
Description
技术领域
本发明涉及基于知识表示增强的低资源跨语言文本检索方法及装置,属于自然语言处理技术领域。
背景技术
跨语言文本检索是使用一种语言进行查询,并从另一种语言文档集中获取相关文档的过程。在低资源跨语言检索任务中,中文与越南语、泰语、缅甸语等低资源跨语言检索的标注数据稀缺,并且存在明显的语言差异,导致查询和文档匹配对齐难度较大。传统的基于机器翻译和预训练语言模型的方法在中-英、中-法等富资源语言上已经取得了不错的效果,但是针对越南语、泰语、缅甸语等低资源语言来说,由于其翻译性能受限,导致基于机器翻译的方法在低资源跨语言检索上效果不佳。此外,由于跨语言预训练语言模型在低资源语言的对齐效果不好,基于预训练语言模型的跨语言检索方法也受到限制,为此,近年来,引入知识图谱来丰富查询语义信息对检索的性能也取得了明显提升,但当前模型对外部知识进行特征提取和融合时不充分,导致其在低资源语言下的检索性能并不理想。为解决此问题,本发明提出了一种基于知识表示增强的低资源跨语言文本检索方法来提高模型对低资源跨语言文本检索的性能。
发明内容
本发明提供了基于知识表示增强的低资源跨语言文本检索方法及装置,以用于解决中文与低资源跨语言文本检索标记数据稀缺、语言差异较大,在小规模训练数据训练无法有效的对低资源跨语言数据进行表示对齐的问题,以及引入外部知识后融合效果差的问题。
本发明的技术方案是:第一方面,本发明提供基于知识表示增强的低资源跨语言文本检索方法,包括:
步骤1、对中文查询-低资源语言候选文档及外部知识数据进行预处理:构建中文查询与越南语、泰语、缅甸语候选文档的跨语言检索数据集并进行预处理,并利用多语言知识图谱对查询中的实体进行外部知识扩展;
步骤2、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建:构建了包含知识互注意力特征融合模块和知识监督对比学习模块的低资源跨语言文本检索模型;
步骤3、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型训练:设置输入的中文查询、低资源语言候选文档和外部知识信息,通过对知识监督对比学习和知识互注意力模块的联合训练,计算深度学习网络的损失值,来优化模型可学习参数和权重;
步骤4、对中文-低资源跨语言文本进行检索:通过训练好的低资源跨语言文本检索模型,输入中文查询-低资源语言候选文档并计算匹配分数,通过匹配分数对候选文档进行排序,从而获得最终的检索结果。
作为本发明的进一步方案,所述步骤1的具体步骤为:
步骤1.1、构建模型训练的数据集,对公开数据集CLTRMatrix进行预处理,筛选字符长度大于200的候选文档,分别得到中文-越南语、中文-泰语、中文-缅甸语的训练集、验证集和测试集;
步骤1.2、构建外部知识库,对标注样本查询扩展外部知识信息,其中包括查询实体的源语言和目标语言的相关实体、别名、实体描述信息;首先通过多语言实体链接模型mGENRE来标注中文查询中相关实体对应的维基百科查询ID,即QID, 然后利用维基百科多语言知识图谱API 通过QID查询该实体源语言和目标语言的别名、相关实体、实体描述信息,最终得到多语言的外部知识库。
作为本发明的进一步方案,所述步骤2的具体步骤为:
步骤2.1、首先需要对模型输入的中文查询、低资源语言候选文档以及外部知识进行特征编码,包含两个编码器:查询文档编码器Encqd和知识编码器Enck;所使用的编码器都是基于预训练语言模型mBERT-base;
步骤2.2、构建知识互注意力特征融合模块,该模块充分挖掘外部知识和低资源语言的特征,并与查询文档特征进行融合;在知识互注意力特征融合模块中包含两个部分:知识互注意力模块和知识聚合器。
步骤2.3、构建知识监督对比学习模块,在跨语言文本检索CLTR任务中使用了监督对比学习;与传统的对比方法不同,针对每个查询设置了多个正例和负例样本,并构建了两种监督对比目标:文档监督对比学习DSCL和知识监督对比学习KSCL。
作为本发明的进一步方案,所述步骤2.1的具体步骤为:
步骤2.1.1、利用特殊标记符[CLS]和[SEP]将查询和文档拼接成一个句子序列,其
中在每个句子序列前加上[CLS]特殊标记符,并使用[SEP]作为查询和文档分隔的特殊标记
符,然后通过查询文档编码器计算得到查询q-文档d的语义特征向量表示:
其中Encqd(·)是查询文档编码器,{·,·}表示将两个输入序列拼接起来;
步骤2.1.2、利用知识编码器是对查询实体的源语言和目标语言相关实体、别名、实体描述信息进行编码,得到知识特征向量;知识编码器编码时也使用了特殊标记符[CLS]和[SEP],将每个实体/别名前加上[CLS]特殊标记符,并使用[SEP]作为实体/别名和对应的实体描述信息分隔的特殊标记符,通过知识编码器获得实体外部知识的特征向量表示:
其中Enck(·)是知识编码器;c∈{s,t},s表示源语言,t表示目标语言;为查询
实体和其别名的信息;为实体描述信息;和分别是查询实体的相关实体和
对应的实体描述信息;和分别是实体及别名和相关实体的知识嵌入信息,他们将
作为知识互注意力特征融合模块的输入;在模型训练前保存了所有实体相关的知识嵌入。
作为本发明的进一步方案,所述步骤2.2的具体步骤为:
步骤2.2.1、知识互注意力模块包含知识互注意力机制和语言融合机制,该模块能
让模型学习源语言和目标语言的混合语言知识信息;在知识互注意力机制中将同种语言的
实体知识信息和相关实体知识信息聚合在一起作为知识互注意力的输入,其中
c∈{s,t},s表示源语言,t表示目标语言;在语言融合机制中计算得到知识互注意力模块的
最终特征表示;
在知识互注意力机制中,采用多头注意力机制以更好地学习潜在的语义信息:为
了使模型学习到混合语言信息,把源语言和目标语言特征向量矩阵、经过线性变换得
到的、分别作为Q或者K、V输入到多头注意力中,将自注意力转换为知识互注意力,其
中Q、K、V为多头注意力输入的特征向量矩阵;
步骤2.2.2、利用知识聚合器是将知识互注意力模块的最终特征表示与查询q
和文档d的特征向量表示融合,知识聚合器是由一个线性变换层组成,其中,使用Tanh作
为激活函数,生成最终的统一表示。
作为本发明的进一步方案,所述步骤2.2.1中包括如下:
步骤2.2.1.1、知识互注意力特征融合模块的训练,首先需要对实体知识信息
和相关实体知识信息聚合在一起作为知识互注意力的输入,其中dim表
示维度的大小,R表示实数域:
其中操作符是将行向量堆叠成一个矩阵的操作;n为实体描述信息的个数;包
含了源语言或者目标语言的所有实体和实体描述信息;
所使用到的注意力表示为:
其中()为一个激活函数,为注意力机制,多头注意力表示为:
其中为线性变换层的参数矩阵;i2表示第i2个头;p为头的数量;表示第i2
个头的注意力矩阵;为第p个头的注意力矩阵;LayerNorm()表示归一化操作;使用[·]
表示向量的拼接操作;
步骤2.2.1.2、将自注意力转换为知识互注意力,具体公式为:
其中和表示源语言和目标语言的知识互注意力,、
分别为源语言和目标语言特征向量矩阵、经过线性变换得到的结果,和分别为源语言和目标语言的外部知识特征表示;然
后,使用一个由线性变换层组成的语言融合器来计算知识互注意力模块的最终特征表示:
其中是一个参数矩阵;是一个dim维向量;Tanh是一个常用
的激活函数。
作为本发明的进一步方案,所述步骤2.2.2的具体步骤包括:
步骤2.2.2.1、通过知识聚合器对外部知识特征和查询-文档特征进行融合,生成的最终统一表示为:
其中和为参数;为最终的外部知识统一特征表示。
作为本发明的进一步方案,所述步骤2.3的具体步骤为:
步骤2.3.1、文档监督对比学习的对比目标是目标语言候选文档,对于每个查询i,将其候选文档按照相似度进行排序,选取前T个最相关的候选文档作为DSCL的正例样本,同时随机选择T个相似度为0的候选文档作为负例样本;当正负例样本数量不足T个时,采取随机复制的方式进行补充,每个查询i的对比样本数量为I ≡ {1...2T};由于GPU硬件的限制,将T设为4,对应的对比标签为{1,1,1,1,0,0,0,0};
步骤2.3.2、知识监督对比学习的对比数据包括源语言查询、目标语言候选文档以及双语外部知识;与文档监督对比学习DSCL类似,知识监督对比学习KSCL中也分别设置了4个正负例样本;具体来说,将查询i的实体和双语别名作为一个正例,相关双语实体作为一个正例,选取查询i最相关的两个候选文档作为两个正例;同时,随机选择一个查询作为负例查询,并使用构建正例样本相同的方式生成4个负例样本;查询i的KSCL对比标签和DSCL一致。
作为本发明的进一步方案,所述步骤3的具体步骤为:
步骤3.1、文档监督对比学习的训练是对低资源语言候选文档进行的监督对比学习,其训练损失如下所示:
其中表示DSCL查询i的正负例样本集合,j表示锚实例,是与查询i
相关度最高的文档;Pd(i)≡{p∈Ad(i)}表示查询i文档对比的正样本集合;|Pd(i)|表示查
询i正例样本的数量;,∈{,,,,},是查询文档编码器;符
号·表示内积,τ∈R+是一个控制样本之间距离的温度系数;
步骤3.2、知识监督对比学习是对查询文档和外部知识进行的监督对比学习,其训练损失如下所示:
其中Ak(i)和Pk(i)分别表示KSCL中查询i的正负例样本集合和正例样本集合;
步骤3.3、得到模型训练的总损失Loss,具体的:将和拼接输入查询-文档
匹配模块中,计算对应查询-文档的相关度分数:
其中表示查询-文档之间的相关度分数,和为参数,
softmax()为一个激活函数;
通过得到的相关度分数,使用了标准成对Hinge损失来对模型进行训练,如下所示:
和是查询q相关文档和不相关文档的集合,max{0,•}表示取最大值,最后将、和相加作为模型最终损失;
。
作为本发明的优选方案,所述步骤4的具体步骤为:
步骤4.1、将训练好的模型保存为“.pth”文件,通过Flask框架将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高检索模型的运行速率;
步骤4.3、利用Flask框架将模型部署为一个API接口,进而实现Web端口多并发请求的功能;
步骤4.4、在Web端调用部署到服务器端的低资源跨语言检索模型,来测试输入中文查询,得到越南语或者泰语和缅甸语的检索排序结果并将其展示到前端界面。
第二方面,本发明还提供基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
1、解决了中文与越南语、泰语、缅甸语等低资源语言对标注数据稀缺、语言差异大、查询和文档匹配对齐难度较大等问题;
2、首先引入多语言知识图谱来丰富查询的知识信息,在此基础上,通过文档-文档和实体文档-外部知识两方面构建了两种监督对比目标,最后提出了一种知识互注意力机制,促进融合不同语言对之间的外部知识特征;
3、本发明所提方法能够有效地利用外部知识丰富查询文本的知识信息,增强对低资源跨语言文本的表示对齐能力和知识特征融合能力,从而达到提升低资源跨语言文本检索模型性能目的,对低资源跨语言文本检索具有重要的理论和实际应用价值。
附图说明
图1为本发明中低资源跨语言文本检索装置模型架构图;
图2为流程框图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理(英文:Personal DigitalAssistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的终端,本发明对此不作任何限制。
如图1-图2所示,为本发明中低资源跨语言文本检索装置模型架构图和流程框图,基于知识表示增强的低资源跨语言文本检索方法,包括:
步骤1、对中文查询-低资源语言候选文档及外部知识数据进行预处理:构建中文查询与越南语、泰语、缅甸语候选文档的跨语言检索数据集并进行预处理,并利用多语言知识图谱对查询中的实体进行外部知识扩展;
在一些可行的实施方式中,所述步骤1的具体步骤为:
步骤1.1、构建模型训练的数据集,对公开数据集CLTRMatrix进行预处理,筛选字符长度大于200的候选文档,分别得到中文-越南语、中文-泰语、中文-缅甸语的训练集、验证集和测试集;其中训练集包含5000、3000和1000个三种不同大小的训练样本,验证集和测试集样本数量均为1000个,所有查询的候选文档数均为100个;
步骤1.2、构建外部知识库,对标注样本查询扩展外部知识信息,其中包括查询实体的源语言和目标语言的相关实体、别名、实体描述信息;首先通过多语言实体链接模型mGENRE来标注中文查询中相关实体对应的维基百科查询ID,即QID, 然后利用维基百科多语言知识图谱API 通过QID查询该实体源语言和目标语言的别名、相关实体、实体描述信息,最终得到多语言的外部知识库。
步骤2、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建:构建了包含知识互注意力特征融合模块和知识监督对比学习模块的低资源跨语言文本检索模型;实现提高中文对低资源跨语言文本检索的准确率;
在一些可行的实施方式中,所述步骤2的具体步骤为:
步骤2.1、首先需要对模型输入的中文查询、低资源语言候选文档以及外部知识进行特征编码,包含两个编码器:查询文档编码器(Encqd)和知识编码器(Enck);所使用的编码器都是基于预训练语言模型mBERT-base;
步骤2.2、构建知识互注意力特征融合模块,该模块充分挖掘外部知识和低资源语言的特征,并与查询文档特征进行融合;在知识互注意力特征融合模块中包含两个部分:知识互注意力模块和知识聚合器。
步骤2.3、构建知识监督对比学习模块,为了增强模型在低资源跨语言的表示对齐能力,学习语言无关特征,在跨语言文本检索CLTR任务中使用了监督对比学习;与传统的对比方法不同,针对每个查询设置了多个正例和负例样本,并构建了两种监督对比目标:文档监督对比学习(DSCL)和知识监督对比学习(KSCL)。
在一些可行的实施方式中,所述步骤2.1的具体步骤为:
所述步骤2.1的具体步骤为:
步骤2.1.1、利用特殊标记符[CLS]和[SEP]将查询和文档拼接成一个句子序列,其
中在每个句子序列前加上[CLS]特殊标记符,并使用[SEP]作为查询和文档分隔的特殊标记
符,然后通过查询文档编码器计算得到查询q-文档d的语义特征向量表示:
其中Encqd(·)是查询文档编码器,{·,·}表示将两个输入序列拼接起来;
步骤2.1.2、利用知识编码器是对查询实体的源语言和目标语言相关实体、别名、实体描述信息进行编码,得到知识特征向量;知识编码器编码时也使用了特殊标记符[CLS]和[SEP],将每个实体/别名前加上[CLS]特殊标记符,并使用[SEP]作为实体/别名和对应的实体描述信息分隔的特殊标记符,通过知识编码器获得实体外部知识的特征向量表示:
其中Enck(·)是知识编码器;c∈{s,t},s表示源语言,t表示目标语言;为查询
实体和其别名的信息;为实体描述信息;和分别是查询实体的相关实体和
对应的实体描述信息;和分别是实体及别名和相关实体的知识嵌入信息,他们将
作为知识互注意力特征融合模块的输入;在模型训练前保存了所有实体相关的知识嵌入。
在一些可行的实施方式中,所述步骤2.2的具体步骤为:
步骤2.2.1、知识互注意力模块包含知识互注意力机制和语言融合机制,该模块能
让模型学习源语言和目标语言的混合语言知识信息;在知识互注意力机制中将同种语言的
实体知识信息和相关实体知识信息聚合在一起作为知识互注意力的输入,其中
c∈{s,t},s表示源语言,t表示目标语言;在语言融合机制中计算得到知识互注意力模块的
最终特征表示;
在知识互注意力机制中,采用多头注意力机制以更好地学习潜在的语义信息:为
了使模型学习到混合语言信息,把源语言和目标语言特征向量矩阵、经过线性变换得
到的、分别作为Q或者K、V输入到多头注意力中,将自注意力转换为知识互注意力,其
中Q、K、V为多头注意力输入的特征向量矩阵;
步骤2.2.2、利用知识聚合器是将知识互注意力模块的最终特征表示与查询q
和文档d的特征向量表示融合,知识聚合器是由一个线性变换层组成,其中,使用Tanh作
为激活函数,生成最终的统一表示。
在一些可行的实施方式中,所述步骤2.2.1的具体步骤为:
步骤2.2.1.1、知识互注意力特征融合模块的训练,首先需要对实体知识信息
和相关实体知识信息聚合在一起作为知识互注意力的输入,其中dim表
示维度的大小,R表示实数域:
其中操作符是将行向量堆叠成一个矩阵的操作;n为实体描述信息的个数;包
含了源语言或者目标语言的所有实体和实体描述信息;
所使用到的注意力表示为:
其中()为一个激活函数,为注意力机制,多头注意力表示为:
其中为线性变换层的参数矩阵;i2表示第i2个头;p为头的数量;表示第i2
个头的注意力矩阵;为第p个头的注意力矩阵;LayerNorm()表示归一化操作;使用[·]
表示向量的拼接操作;
步骤2.2.1.2、将自注意力转换为知识互注意力,具体公式为:
其中和表示源语言和目标语言的知识互注意力,、
分别为源语言和目标语言特征向量矩阵、经过线性变换得到的结果,和分别为源语言和目标语言的外部知识特征表示;然
后,使用一个由线性变换层组成的语言融合器来计算知识互注意力模块的最终特征表示:
其中是一个参数矩阵;是一个dim维向量;Tanh是一个常用
的激活函数。
在一些可行的实施方式中,所述步骤2.2.2的具体步骤为:
步骤2.2.2.1、通过知识聚合器对外部知识特征和查询-文档特征进行融合,生成的最终统一表示为:
其中和为参数;为最终的外部知识统一特征表示;
在一些可行的实施方式中,所述步骤2.3的具体步骤为:
步骤2.3.1、文档监督对比学习的对比目标是目标语言候选文档,对于每个查询i,将其候选文档按照相似度进行排序,选取前T个最相关的候选文档作为DSCL的正例样本,同时随机选择T个相似度为0的候选文档作为负例样本;当正负例样本数量不足T个时,采取随机复制的方式进行补充,每个查询i的对比样本数量为I ≡ {1...2T};由于GPU硬件的限制,将T设为4,对应的对比标签为{1,1,1,1,0,0,0,0};
步骤2.3.2、知识监督对比学习的对比数据包括源语言查询、目标语言候选文档以及双语外部知识;与文档监督对比学习DSCL类似,知识监督对比学习KSCL中也分别设置了4个正负例样本;具体来说,将查询i的实体和双语别名作为一个正例,相关双语实体作为一个正例,选取查询i最相关的两个候选文档作为两个正例;同时,随机选择一个查询作为负例查询,并使用构建正例样本相同的方式生成4个负例样本;查询i的KSCL对比标签和DSCL一致。
步骤3、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型训练:设置输入的中文查询、低资源语言候选文档和外部知识信息,通过对知识监督对比学习和知识互注意力模块的联合训练,计算深度学习网络的损失值,来优化模型可学习参数和权重,进而提升低资源跨语言文本检索的准确性。
在一些可行的实施方式中,所述步骤3的具体步骤为:
步骤3.1、文档监督对比学习的训练是对低资源语言候选文档进行的监督对比学习,其训练损失如下所示:
其中表示DSCL查询i的正负例样本集合,j表示锚实例,是与查询i
相关度最高的文档;Pd(i)≡{p∈Ad(i)}表示查询i文档对比的正样本集合;|Pd(i)|表示查
询i正例样本的数量;,∈{,,,,},是查询文档编码器;符
号·表示内积,τ∈R+是一个控制样本之间距离的温度系数;
步骤3.2、知识监督对比学习是对查询文档和外部知识进行的监督对比学习,其训练损失如下所示:
其中Ak(i)和Pk(i)分别表示KSCL中查询i的正负例样本集合和正例样本集合;
步骤3.3、得到模型训练的总损失Loss,具体的:将和拼接输入查询-文档
匹配模块中,计算对应查询-文档的相关度分数:
其中表示查询-文档之间的相关度分数,和为参数,
softmax()为一个激活函数;
通过得到的相关都度分数,使用了标准成对Hinge损失来对模型进行训练,如下所示:
和是查询q相关文档和不相关文档的集合,max{0,•}表示取最大值,最后将、和相加作为模型最终损失;
。
步骤4、对中文-低资源跨语言文本进行检索:通过训练好的低资源跨语言文本检索模型,输入中文查询-低资源语言候选文档并计算匹配分数,通过匹配分数对候选文档进行排序,从而获得最终的检索结果。
在一些可行的实施方式中,所述步骤4的具体步骤为:
步骤4.1、将训练好的模型保存为“.pth”文件,通过Flask框架将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高检索模型的运行速率;
步骤4.3、利用Flask框架将模型部署为一个API接口,进而实现Web端口多并发请求的功能;
步骤4.4、在Web端调用部署到服务器端的低资源跨语言检索模型,来测试输入中文查询,得到越南语或者泰语和缅甸语的检索排序结果并将其展示到前端界面。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法第一实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例。
本发明实施例还提供基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,该装置包括:
预处理模块:用于对中文查询-低资源语言候选文档及外部知识数据进行预处理,具体包括用于构建中文查询与越南语、泰语、缅甸语候选文档的跨语言检索数据集并进行预处理,并利用多语言知识图谱对查询中的实体进行外部知识扩展;
构建模块:用于构建基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型,具体包括用于构建包含知识互注意力特征融合模块和知识监督对比学习模块的低资源跨语言文本检索模型;
训练模块:用于训练基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型,具体包括用于设置输入的中文查询、低资源语言候选文档和外部知识信息,通过对知识监督对比学习和知识互注意力模块的联合训练,计算深度学习网络的损失值,来优化模型可学习参数和权重;
检索模块:用于对中文-低资源跨语言文本进行检索,具体包括用于通过训练好的低资源跨语言文本检索模型,输入中文查询-低资源语言候选文档并计算匹配分数,通过匹配分数对候选文档进行排序,从而获得最终的检索结果。
在一种可行的实施方式中,所述预处理模块还具体包括用于实现如下功能:
构建模型训练的数据集,对公开数据集CLTRMatrix进行预处理,筛选字符长度大于200的候选文档,分别得到中文-越南语、中文-泰语、中文-缅甸语的训练集、验证集和测试集;
构建外部知识库,对标注样本查询扩展外部知识信息,其中包括查询实体的源语言和目标语言的相关实体、别名、实体描述信息;首先通过多语言实体链接模型mGENRE来标注中文查询中相关实体对应的维基百科查询ID,即QID, 然后利用维基百科多语言知识图谱API 通过QID查询该实体源语言和目标语言的别名、相关实体、实体描述信息,最终得到多语言的外部知识库。
在一种可行的实施方式中,所述构建模块还具体包括用于实现如下功能:
首先需要对模型输入的中文查询、低资源语言候选文档以及外部知识进行特征编码,包含两个编码器:查询文档编码器Encqd和知识编码器Enck;所使用的编码器都是基于预训练语言模型mBERT-base;
构建知识互注意力特征融合模块,该模块充分挖掘外部知识和低资源语言的特征,并与查询文档特征进行融合;在知识互注意力特征融合模块中包含两个部分:知识互注意力模块和知识聚合器。
构建知识监督对比学习模块,在跨语言文本检索CLTR任务中使用了监督对比学习;与传统的对比方法不同,针对每个查询设置了多个正例和负例样本,并构建了两种监督对比目标:文档监督对比学习DSCL和知识监督对比学习KSCL。
为了说明本发明的效果,本发明进行了如下实验:
我们的实验是基于Pytorch框架实现的,使用Adam作为本文模型的优化器,Batch_size设置16,mBERT学习率设为1e-5,Adam的学习率设为1e-3,为了防止过拟合,在部分地方使用Dropout技术。随机抽取1600个查询-文档对作为每个epoch的训练数据。实验的详细参数指标如下表1所示:
表1 实验参数设置
实验中严格按照标准评价指标NDCG (Normalized Discounted CumulativeGain)和MAP (Mean Average Precision)来评估模型的性能。具体公式如下所示:
其中k表示有k个候选文档的集合;ri表示候选文档中第i个文档和查询的相关度。IDCG@k的计算方法与DCG@k类似,它是根据候选文档的相关度从大到小进行排序后计算的理想DCG@k结果;R表示与查询相关的候选文档个数;position(I)表示在检索结果列表中第I个相关文档在列表中的位置;MAP指的是对多个查询的AP求平均值。
为了验证本文提出的方法在低资源语言检索的有效性,本文与现有的跨语言检索方法进行对比实验,并验证了本发明在中文与缅甸语、泰语、越南语三种低资源语言和三种低资源场景(训练集分别为5000、3000、1000)下的性能。另外还设置了消融实验验证了所提出方法中各个模块对模型性能的影响。对比模型包括:Vanilla BERT、CEDR-DRMM、CEDR-PACRR、CEDR-KNRM、HIKE。
实验一:不同模型实验结果对比
本实验的训练集为5000,评价指标设为@1、@5、@10、MAP,其中@K即为NDCG@K,K取1、5、10,对比实验结果如表2所示:
表2 不同模型实验结果对比(单位:%)
从表2的对比实验结果可以看出,本文模型的检索性能在四种评价指标上都显著优于其他对比模型。相比于基线模型HIKE:在中文-越南语上分别提高了3.85%、3.16%、3.2%、3.04%;在中文-泰语上分别提高了3.55%、0.33%、0.9%、0.93%;在中文-缅甸语上分别提高了4.11%、6.03%、4.79%、5.74%。这得益于本文模型通过知识监督对比充分学习了维基百科多语言知识图谱外部知识信息,弥补了中文与低资源语言标注数据稀缺的问题,从而增强模型对低资源跨语言的表示对齐能力;并且提出的知识互注意力机制让模型在语义层面上深度融合不同语言的外部知识特征,而不是仅仅关注单一语种信息,最终提高了低资源跨语言文本检索的性能。
实验二:不同训练集大小的实验结果对比
为了验证本文模型在低资源场景下的性能,我们从训练集中随机抽选3000条和1000条作为低资源场景训练数据集,测试集和验证集保持不变,评价指标为NDCG@10。各模型的实验对比如表3所示:
表3 不同低资源场景下实验结果对比 (单位:%)
从表3可以看出,本文提出的模型在训练数据集为3000、1000的低资源场景下,性能均得到了提升。其中在训练数据为1000条时,中文-越南语的效果最好,相比于基线模型HIKE提升了2.81%;在训练数据为3000条时,中文-缅甸语的效果最好,相比于基线模型HIKE提升了4.68%。该实验结果表明,本文模型在不同低资源场景下也能够保持稳定的性能。此外,还可以发现在低资源场景下,中文-泰语的性能低于中文-越南语和中文-缅甸语的性能,与Vanilla BERT基线模型的结果相近。
实验三:消融实验
为了验证各模块对检索性能的影响,本文在训练集为5000、评价指标为NDCG@10上设计了4种消融实验:1)W/O KSCL:移除知识监督对比模块;2)W/O DSCL:移除文档监督对比模块;3)W/O KCo-Attention:移除知识互注意力模块,使用基线模型方法融合外部知识信息;4)W/O Alias:和基线模型一样,不加入查询别名信息。具体消融实验结果如表4所示:
表4 消融实验(单位:%)
从消融实验可以看出:1)在移除四种模块任何一个后,模型性能都有所下降,这说明了本文提出的各个模块对我们模型在低资源CLTR任务上的性能都有一定程度的贡献;2)移除DSCL模块后模型的性能在中-越、中-泰两种跨语言上表现最差,分别降低了1.52%、0.94%;移除KSCL后模型在中-缅上的性能最差,降低了4.61%。这表明模型跨语言表示对齐能力和提取语言无关特征的能力对检索性能影响很大,更加验证了本文监督对比模型的有效性;3)移除知识互注意模块,使用基线模型融合方法后,中文与三种低资源语言的检索性能平均降低了0.97%,这说明了本文融合外部知识信息的方法优于基线模型,可以更加充分的挖掘不同语言之间的语义信息。4)移除别名信息后检索性能也有所下降,验证了实体别名信息的有效性。但性能下降幅度没有其他模块明显,这是因为在实际情况中,并非每个相关文档都包含查询实体的别名信息。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.基于知识表示增强的低资源跨语言文本检索方法,其特征在于,包括:
步骤1、对中文查询-低资源语言候选文档及外部知识数据进行预处理:构建中文查询与越南语、泰语、缅甸语候选文档的跨语言检索数据集并进行预处理,并利用多语言知识图谱对查询中的实体进行外部知识扩展;
步骤2、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型构建:构建了包含知识互注意力特征融合模块和知识监督对比学习模块的低资源跨语言文本检索模型;
步骤3、基于表示对齐增强和外部知识融合的低资源跨语言文本检索模型训练:设置输入的中文查询、低资源语言候选文档和外部知识信息,通过对知识监督对比学习和知识互注意力模块的联合训练,计算深度学习网络的损失值,来优化模型可学习参数和权重;
步骤4、对中文-低资源跨语言文本进行检索:通过训练好的低资源跨语言文本检索模型,输入中文查询-低资源语言候选文档并计算匹配分数,通过匹配分数对候选文档进行排序,从而获得最终的检索结果;
所述步骤2的具体步骤为:
步骤2.1、首先需要对模型输入的中文查询、低资源语言候选文档以及外部知识进行特征编码,包含两个编码器:查询文档编码器Encqd和知识编码器Enck;所使用的编码器都是基于预训练语言模型mBERT-base;
步骤2.2、构建知识互注意力特征融合模块,该模块充分挖掘外部知识和低资源语言的特征,并与查询文档特征进行融合;在知识互注意力特征融合模块中包含两个部分:知识互注意力模块和知识聚合器;
步骤2.3、构建知识监督对比学习模块,在跨语言文本检索CLTR任务中使用了监督对比学习;与传统的对比方法不同,针对每个查询设置了多个正例和负例样本,并构建了两种监督对比目标:文档监督对比学习DSCL和知识监督对比学习KSCL;
所述步骤2.2的具体步骤为:
步骤2.2.1、知识互注意力模块包含知识互注意力机制和语言融合机制,该模块能让模型学习源语言和目标语言的混合语言知识信息;在知识互注意力机制中将同种语言的实体知识信息和相关实体知识信息/>聚合在一起作为知识互注意力的输入/>,其中c∈{s,t},s表示源语言,t表示目标语言;在语言融合机制中计算得到知识互注意力模块的最终特征表示/>;
在知识互注意力机制中,采用多头注意力机制以更好地学习潜在的语义信息:为了使模型学习到混合语言信息,把源语言和目标语言特征向量矩阵、/>经过线性变换得到的、/>分别作为Q或者K、V输入到多头注意力中,将自注意力转换为知识互注意力,其中Q、K、V为多头注意力输入的特征向量矩阵;
步骤2.2.2、利用知识聚合器是将知识互注意力模块的最终特征表示与查询q和文档d的特征向量表示/>融合,知识聚合器是由一个线性变换层组成,其中,使用Tanh作为激活函数,生成最终的统一表示。
2.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤1的具体步骤为:
步骤1.1、构建模型训练的数据集,对公开数据集CLTRMatrix进行预处理,筛选字符长度大于200的候选文档,分别得到中文-越南语、中文-泰语、中文-缅甸语的训练集、验证集和测试集;
步骤1.2、构建外部知识库,对标注样本查询扩展外部知识信息,其中包括查询实体的源语言和目标语言的相关实体、别名、实体描述信息;首先通过多语言实体链接模型mGENRE来标注中文查询中相关实体对应的维基百科查询ID,即QID, 然后利用维基百科多语言知识图谱API 通过QID查询该实体源语言和目标语言的别名、相关实体、实体描述信息,最终得到多语言的外部知识库。
3.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤2.1的具体步骤为:
步骤2.1.1、利用特殊标记符[CLS]和[SEP]将查询和文档拼接成一个句子序列,其中在每个句子序列前加上[CLS]特殊标记符,并使用[SEP]作为查询和文档分隔的特殊标记符,然后通过查询文档编码器计算得到查询q-文档d的语义特征向量表示:
;
其中Encqd(·)是查询文档编码器,{·,·}表示将两个输入序列拼接起来;
步骤2.1.2、利用知识编码器是对查询实体的源语言和目标语言相关实体、别名、实体描述信息进行编码,得到知识特征向量;知识编码器编码时也使用了特殊标记符[CLS]和[SEP],将每个实体/别名前加上[CLS]特殊标记符,并使用[SEP]作为实体/别名和对应的实体描述信息分隔的特殊标记符,通过知识编码器获得实体外部知识的特征向量表示:
;
其中Enck(·)是知识编码器;c∈{s,t},s表示源语言,t表示目标语言;为查询实体和其别名/>的信息;/>为实体描述信息;/>和/>分别是查询实体的相关实体和对应的实体描述信息;/>和/>分别是实体及别名和相关实体的知识嵌入信息,他们将作为知识互注意力特征融合模块的输入;在模型训练前保存了所有实体相关的知识嵌入。
4.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤2.2.1中包括如下:
步骤2.2.1.1、知识互注意力特征融合模块的训练,首先需要对实体知识信息和相关实体知识信息/>聚合在一起作为知识互注意力的输入/>,其中dim表示维度的大小,R表示实数域:
;
其中操作符是将行向量堆叠成一个矩阵的操作;n为实体描述信息的个数;/>包含了源语言或者目标语言的所有实体和实体描述信息;
所使用到的注意力表示为:;
其中()为一个激活函数,/>为注意力机制,多头注意力/>表示为:
;
其中为线性变换层的参数矩阵;i2表示第i2个头;p为头的数量;/>表示第i2个头的注意力矩阵;/>为第p个头的注意力矩阵;LayerNorm()表示归一化操作;使用[·]表示向量的拼接操作;
步骤2.2.1.2、将自注意力转换为知识互注意力,具体公式为:
;
其中和/>表示源语言和目标语言的知识互注意力,/>、/>分别为源语言和目标语言特征向量矩阵/>、/>经过线性变换得到的结果,/>和分别为源语言和目标语言的外部知识特征表示;然后,使用一个由线性变换层组成的语言融合器来计算知识互注意力模块的最终特征表示/>:
;
其中是一个参数矩阵;/>是一个dim维向量;Tanh是一个常用的激活函数。
5.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤2.2.2的具体步骤包括:
步骤2.2.2.1、通过知识聚合器对外部知识特征和查询-文档特征进行融合,生成的最终统一表示为:
;
其中和/>为参数;/>为最终的外部知识统一特征表示。
6.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤2.3的具体步骤为:
步骤2.3.1、文档监督对比学习的对比目标是目标语言候选文档,对于每个查询i,将其候选文档按照相似度进行排序,选取前T个最相关的候选文档作为DSCL的正例样本,同时随机选择T个相似度为0的候选文档作为负例样本;当正负例样本数量不足T个时,采取随机复制的方式进行补充,每个查询i的对比样本数量为I ≡ {1...2T};由于GPU硬件的限制,将T设为4,对应的对比标签为{1,1,1,1,0,0,0,0};
步骤2.3.2、知识监督对比学习的对比数据包括源语言查询、目标语言候选文档以及双语外部知识;与文档监督对比学习DSCL类似,知识监督对比学习KSCL中也分别设置了4个正负例样本;具体来说,将查询i的实体和双语别名作为一个正例,相关双语实体作为一个正例,选取查询i最相关的两个候选文档作为两个正例;同时,随机选择一个查询作为负例查询,并使用构建正例样本相同的方式生成4个负例样本;查询i的KSCL对比标签和DSCL一致。
7.根据权利要求1所述的基于知识表示增强的低资源跨语言文本检索方法,其特征在于:所述步骤3的具体步骤为:
步骤3.1、文档监督对比学习的训练是对低资源语言候选文档进行的监督对比学习,其训练损失如下所示:
;
其中表示DSCL查询i的正负例样本集合,j表示锚实例,是与查询i相关度最高的文档;Pd(i)≡{p∈Ad(i)}表示查询i文档对比的正样本集合;|Pd(i)|表示查询i正例样本的数量;/>,/>∈{/>,/>,/>,/>,/>},/>是查询文档编码器;符号·表示内积,τ∈R+是一个控制样本之间距离的温度系数;
步骤3.2、知识监督对比学习是对查询文档和外部知识进行的监督对比学习,其训练损失如下所示:
;
其中Ak(i)和Pk(i)分别表示KSCL中查询i的正负例样本集合和正例样本集合;
步骤3.3、得到模型训练的总损失Loss,具体的:将和/>拼接输入查询-文档匹配模块中,计算对应查询-文档的相关度分数:
;
其中表示查询-文档之间的相关度分数,/>和/>为参数,softmax()为一个激活函数;/>为查询q-文档d的语义特征向量表示,/>为最终的外部知识统一特征表示;
通过得到的相关度分数,使用了标准成对Hinge损失来对模型进行训练,如下所示:
;
和/>是查询q相关文档和不相关文档的集合,max{0,•}表示取最大值,最后将/>、和/>相加作为模型最终损失;
。
8.基于表示对齐增强和外部知识融合的低资源跨语言文本检索装置,其特征在于,包括用于执行如权利要求1-7任一权利要求所述的方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961196.XA CN116680420B (zh) | 2023-08-02 | 2023-08-02 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961196.XA CN116680420B (zh) | 2023-08-02 | 2023-08-02 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116680420A CN116680420A (zh) | 2023-09-01 |
CN116680420B true CN116680420B (zh) | 2023-10-13 |
Family
ID=87787661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310961196.XA Active CN116680420B (zh) | 2023-08-02 | 2023-08-02 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680420B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
CN114004236A (zh) * | 2021-09-18 | 2022-02-01 | 昆明理工大学 | 融入事件实体知识的汉越跨语言新闻事件检索方法 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN114330334A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 |
CN114417879A (zh) * | 2021-12-29 | 2022-04-29 | 北京百度网讯科技有限公司 | 跨语言文本语义模型的生成方法、装置及电子设备 |
CN114595306A (zh) * | 2022-01-26 | 2022-06-07 | 西北大学 | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 |
CN115098620A (zh) * | 2022-07-26 | 2022-09-23 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115470358A (zh) * | 2022-08-04 | 2022-12-13 | 中译语通科技股份有限公司 | 一种跨语言实体链接方法、系统、设备及终端 |
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
CN115495555A (zh) * | 2022-09-26 | 2022-12-20 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的文献检索方法和系统 |
CN115599888A (zh) * | 2022-10-31 | 2023-01-13 | 昆明理工大学(Cn) | 融合领域知识图谱的汉越跨境民族文本检索方法及装置 |
CN115829058A (zh) * | 2022-12-23 | 2023-03-21 | 北京百度网讯科技有限公司 | 训练样本处理方法、跨模态匹配方法、装置、设备和介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027723A (ja) * | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
WO2013102052A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
-
2023
- 2023-08-02 CN CN202310961196.XA patent/CN116680420B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
CN114004236A (zh) * | 2021-09-18 | 2022-02-01 | 昆明理工大学 | 融入事件实体知识的汉越跨语言新闻事件检索方法 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN114417879A (zh) * | 2021-12-29 | 2022-04-29 | 北京百度网讯科技有限公司 | 跨语言文本语义模型的生成方法、装置及电子设备 |
CN114330334A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 |
CN114595306A (zh) * | 2022-01-26 | 2022-06-07 | 西北大学 | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 |
CN115098620A (zh) * | 2022-07-26 | 2022-09-23 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115470358A (zh) * | 2022-08-04 | 2022-12-13 | 中译语通科技股份有限公司 | 一种跨语言实体链接方法、系统、设备及终端 |
CN115495555A (zh) * | 2022-09-26 | 2022-12-20 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的文献检索方法和系统 |
CN115599888A (zh) * | 2022-10-31 | 2023-01-13 | 昆明理工大学(Cn) | 融合领域知识图谱的汉越跨境民族文本检索方法及装置 |
CN115829058A (zh) * | 2022-12-23 | 2023-03-21 | 北京百度网讯科技有限公司 | 训练样本处理方法、跨模态匹配方法、装置、设备和介质 |
Non-Patent Citations (3)
Title |
---|
Hybrid SOM based cross-modal retrieval exploiting Hebbian learning;Parminder Kaur 等;《Knowledge-Based Systems》;第239卷;1-18 * |
基于领域知识图谱和对比学习的汉越跨境民族文本检索方法;刘思源 等;《南京大学学报(自然科学)》;第59卷(第4期);610-619 * |
视觉语言多模态融合方法研究与实现;于书苹;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);I138-2045 * |
Also Published As
Publication number | Publication date |
---|---|
CN116680420A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
CN116244445B (zh) | 航空文本数据标注方法及其标注系统 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN110598022A (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
US11574004B2 (en) | Visual image search using text-based search engines | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
Li et al. | Social context-aware person search in videos via multi-modal cues | |
CN109241315B (zh) | 一种基于深度学习的快速人脸检索方法 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
Li et al. | Dual relation network for scene text recognition | |
CN116680420B (zh) | 基于知识表示增强的低资源跨语言文本检索方法及装置 | |
Chu et al. | IterVM: iterative vision modeling module for scene text recognition | |
CN115641395A (zh) | 一种基于互信息的图文对齐方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN114510559A (zh) | 一种基于深度学习语义蕴含的商品检索方法及存储介质 | |
Zhang et al. | Hyperlink-aware object retrieval | |
Pham et al. | Towards a large-scale person search by vietnamese natural language: dataset and methods | |
CN111737507A (zh) | 一种单模态图像哈希检索方法 | |
Dash et al. | Generating image captions through multimodal embedding | |
CN115577707B (zh) | 一种多语言新闻主题词的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |