CN115599888A

CN115599888A - 融合领域知识图谱的汉越跨境民族文本检索方法及装置

Info

Publication number: CN115599888A
Application number: CN202211350058.XA
Authority: CN
Inventors: 毛存礼; 刘思源; 余正涛; 黄于欣; 高盛祥; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-13

Abstract

本发明涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置，属于自然语言处理技术领域。汉越跨境民族领域文本特征主要体现在存在大量不常见的领域实体且实体表达形式多样问题。这些问题突出了跨境民族领域的特殊性。本发明提出了融合领域知识图谱的汉越跨境民族文本检索方法，包括汉越跨境民族文本数据预处理、基于汉越知识图谱对查询文档进行扩展、进行汉越跨境民族查询文档特征融合、进行汉越跨境民族文本检索构成。根据这四个功能模块化制成融合领域知识图谱的汉越跨境民族文本检索装置，具有重要的理论和实际运用价值。

Description

融合领域知识图谱的汉越跨境民族文本检索方法及装置

技术领域

本发明涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置，属于自然语言处理技术领域。

背景技术

跨语言文本检索是在大规模文本集合中查找相关文档以回答特定查询的任务，该任务的核心是在于如何学习查询和文本之间的潜在语义特征以及查询和文本特征之间的相似性如何度量。跨语言检索任务是信息抽取技术的研究热点。汉越跨境民族文本检索任务旨在以一种语言作为问题查询，检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档。然而，在汉越跨境民族领域中，存在大量不常见的领域实体以及实体表达形式多样，这些问题突出了跨境民族领域的特殊性。尤其是在汉越跨境民族文本检索中，还面临着领域词对齐困难和语义对齐困难问题。因此，当前通用的跨语言文本检索模型无法解决以上问题，导致通用模型无法精准的检索出相应的跨境民族文档。

本发明提出了融合领域知识图谱的汉越跨境民族文本检索方法，利用跨境民族领域知识图谱扩充查询文本的实体表征并融合在查询文档之中，然后利用多头注意力机制将汉越知识图谱融入查询文档，实现丰富查询文档数据相关的汉越跨境民族实体信息，最后引入对比学习将融合跨境民族实体后的查询文档表征对齐并利用余弦相似度计算作为相关性得分，从而提升文本检索的效率。

发明内容

本发明提供了融合领域知识图谱的汉越跨境民族文本检索方法及装置，用以扩展汉越跨境民族查询文本实体和丰富查询和文本相关的跨境民族领域实体信息，提升文本检索的效率。

本发明的技术方案是：第一方面，本发明提供融合领域知识图谱的汉越跨境民族文本检索方法，所述融合领域知识图谱的汉越跨境民族文本检索的具体步骤如下：

Step1、进行汉越跨境民族文本数据预处理：汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据，一共爬取了中文135572条文本数据和越南与109048条文本数据，为汉越跨境民族文本检索模型训练起到了很好的支撑作用。

Step2、基于汉越知识图谱对查询文档进行扩展：抽取查询或文本中的中文或越南语实体，抽取出的实体与汉越知识图谱实体链接扩展出相关实体。另外，为了扩充汉越跨境民族中不常见的领域实体，还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。

Step3、进行汉越跨境民族查询文档特征融合：利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。

Step4、进行汉越跨境民族文本检索：引入对比学习将融合知识图谱特征后的查询文档表征对齐，将相同类型的查询和文档聚类在一起，然后在通过查询表示和文档表示之间的点积(或余弦相似度)作为相关性得分。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据，数据进行过滤、筛选、去停用词、特殊字符等预处理操作，特殊字符如空格、乱码、表情符号以及公式符号。中文跨境民族数据爬取了91899条文本，越南语跨境民族文化数据爬取了数据71993条文本。

Step1.2、根据这些数据分别构建中文和越南语正负样本对，中文正负样本对为43673条文本，越南语正负样本对为37055条文本，共计中文135572条文本数据和越南与109048条文本数据。

Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征，得到查询文本的向量表示。汉越跨境民族查询与文本分别视为序列q＝{q₁,q₂,…,q_n}和序列d＝{d₁,d₂,…,d_n}组成，其中q_i和d_i分别是查询和文本的第i个词。q和d表示查询和文本。

V_q＝XLM-R(q)

V_d＝XLM-R(d)

其中V_q和V_d分别表示汉越跨境民族文化查询和文本的向量表示，经过多语言预训练模型可以更好的捕捉汉越跨境民文化文本之间的信息。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体，与中文知识图谱实体链接扩展出相关实体。而在查询或文本中的越南语实体使用越南语实体抽取模型抽取，与越南语知识图谱实体链接扩展出相关实体。另外，为了扩充汉越跨境民族中不常见的领域实体，采用多语言知识表示模型(MtransE)对汉越跨境民族知识图谱中的三元组知识嵌入，得到汉越知识图谱对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；

Step2.2、扩展出的实体由于是很多个词集合构成，将查询与知识图谱扩展出的实体视为一个词序列集合

文本与知识图谱扩展出的实体视为一个词序列集合

其中V_E是汉越知识图谱中的实体，e^q和e^d分别表示查询和文本与汉越知识图谱扩展出的词集合。

和

是查询和文本词序列集合中的第i个词。

和

分别通过多语言预训练模型得到词向量集合表示。

其中，

和

分别表示汉越跨境民族查询和文本扩展出的实体向量表示。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。具体的方法是查询向量V_q和查询中的实体与知识图谱实体链接得到的实体向量

相拼接。文本向量V_d和文本中的实体与知识图谱实体链接得到的实体向量

相拼接。

其中，

表示向量相拼接，V_q'和V_d'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量。

Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入，通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息，为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫。

其中，Q、K、V表示查询或文本的输入都是一样的。

是比例因子，可以避免乘积过大。

作为本发明的进一步方案，所述Step4的具体步骤为：

Step4.1、参考了逆完形填空任务中的一种数据增强方法，可生成文档的两个互斥视图，第一个视图是通过从一段文本中随机采样一个段落范围获得的，而该范围的补码形成第二个视图。具体来说给定一个序列文本(w₁,w₂...,w_n)，截取文本中跨度为(w_a...,w_b)，其中，(1≤a≤b≤n)。把截取文本跨度(w_a...,w_b)和(w₁...,w_a-1...,w_b+1,...,w_n)都作为正样本。另外，独立裁剪是一种常见的独立数据增强，该策略从文档中独立采样两个段落以形成正对。两个段落都对应于原始数据的连续子序列。

Step4.2、构建负样本和构建正样本逆完形填空任务相似，只不过是把截取文本段落替换为其他文本，比如，一个序列文本(w₁...,w_a...,w_b...,w_n)随机替换段落文本得到一个新的序列文本(w₁...,n_a...,n_b...,w_n)，其中(n_a...,n_b)是随机替换文本。另外将汉越跨境民族中的专有名词随即替换、删除或屏蔽。

Step4.3、利用对比学习的方法将查询文本训练到同一空间下对齐。对比学习是一种依赖于每个文档在某种程度上都是独一无二的事实的方法，对比损失通过区分文档来学习，这种损失比较正(来自同一文档)或负(来自不同文档)的文档表示对。计算公式如下：

其中τ是温度参数，k₊表示给定一个带有相关正文档的查询q，k_i表示一个负文档池。这种损失促使相关文档的相关性得分较高，而无关文档的相关性得分较低。

Step4.4、利用双编码器架构分别为查询和文档独立编码。可以通过获取文档表示和查询表示之间的点积(或余弦相似度)来计算相关性分数。计算公式如下所示。

s(q,d)＝<f_θ(q),f_θ(d)>

其中，q表示查询和d表示文档，我们使用相同θ参数模型f_θ独立地对的每一个查询文本进行编码。s(q,d)是查询文本点积后得到的相关性分数结果表示。

第二方面，本发明实施例还提供了融合领域知识图谱的汉越跨境民族文本检索装置，该装置包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

1、本发明通过融入汉越跨境民族知识图谱来扩充查询和文档中的实体表征，缓解不常见的领域实体以及民俗实体表达形式多样问题；

2、本发明利用多头注意力机制自适应融合汉越跨境民族领域知识图谱与查询和文档，从而丰富跨境民族相关语义信息；

3、本发明通过引入对比学习方法实现汉越跨境民族查询文档中的领域词表征以及汉越两种语言领域词语义表征对齐并利用余弦相似度计算作为相关性得分，从而提升文本检索的效率。

附图说明

图1为本发明中的总的模型图；

图2为本发明中多语言知识嵌入模型图；

图3为本发明中数据集规模图；

图4为本发明中融合领域知识图谱的汉越跨境民族文本检索整体流程图。

具体实施方式

实施例1：如图1-图4所示，第一方面，本实施例提供融合领域知识图谱的汉越跨境民族文本检索方法，所述融合领域知识图谱的汉越跨境民族文本检索方法的具体步骤如下：

Step1、汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据，一共爬取了中文135572条文本数据和越南与109048条文本数据，为汉越跨境民族文本检索模型训练起到了很好的支撑作用。

所述Step1的具体步骤为：

Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据，数据进行过滤、筛选、去停用词、特殊符号等预处理操作，特殊符号如空格、乱码、表情符号以及公式符号。中文跨境民族数据爬取了91899条文本，越南语跨境民族文化数据爬取了数据71993条文本。

V_q＝XLM-R(q)

V_d＝XLM-R(d)

Step2、抽取查询或文本中的中文或越南语实体，抽取出的的实体与汉越知识图谱实体链接扩展出相关实体。另外，为了扩充汉越跨境民族中不常见的领域实体，本文还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。

所述Step2的具体步骤为：

Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体，与中文知识图谱实体链接扩展出相关实体。而在查询或文本中的越南语实体使用越南语实体抽取模型抽取，与越南语知识图谱实体链接扩展出相关实体。另外，为了扩充汉越跨境民族中不常见的领域实体，采用多语言知识表示模型(MtransE)对汉越跨境民族知识图谱中的三元组知识嵌入，得到汉越知识图谱对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。

文本与知识图谱扩展出的实体视为一个词序列集合

和

是查询和文本词序列集合中的第i个词。

和

分别通过多语言预训练模型得到词向量集合表示。

其中，

和

分别表示汉越跨境民族查询和文本扩展出的实体向量表示。

Step3、利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。

所述Step3的具体步骤为：

相拼接。

其中，

其中，Q、K、V表示查询或文本的输入都是一样的。

是比例因子，可以避免乘积过大。

Step4、引入对比学习将融合知识图谱特征后的查询文档表征对齐，将相同类型的查询和文档聚类在一起，然后在通过查询表示和文档表示之间的点积(或余弦相似度)作为相关性得分。

所述Step4的具体步骤为：

s(q,d)＝＜f_θ(q),f_θ(d)>

为了验证本发明提出的融合领域知识图谱的汉越跨境民族文本检索方法的有效性，本发明进行了如下对比实验其中包括：中文跨境民族文化数据爬取了91899条文本，越南语跨境民族文化数据爬取了数据71993条文本。根据这些数据分别构建中文和越南语正负样本对，中文正负样本对为43673条文本，越南语正负样本对为37055条文本，共计中文135572条文本数据和越南与109048条文本数据。

表1为模型训练过程中的参数设置：

表1模型参数设置

为了验证本发明提出的文本排序的性能，融合领域知识图谱的汉越跨境民族文本检索模型的评价指标主要采用MRR(Mean Reciprocal Rank)，计算方法如下所示：

其中，|Q|是用户的个数，rank_i表示第i个查询语句的第一个正确答案的排名。把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度，再对所有的问题取平均值。

实验1：基线模型对比实验

为了验证模型的有效性，本发明选取4个基线模型在汉越跨境民族文化文本数据上对比，具体如表2所示。

UnsupCLIR模型：由Litschko等人在2018年提出的一种基于共享的跨语言词嵌入空间的无监督方法。

Wasserstein模型：由Georgios等人在2018年提出的一种基于距离来衡量文本段落之间差异的方法。

EncoderCLIR模型：由Chen等人在2021年提出的一种基于多语言编码器的文本排序模型。

mDPR模型：由Akari等人在2021年提出的基于双编码器的查询文本对计算模型。

表2不同方法实验结果对比

从表中可以看出，本发明方法所对应模型与其他四个模型相比较MRR指标分别提升了26.6％、20.1％、12.8％和7.9％。UnsupCLIR模型直接利用共享的跨语言词嵌入空间，直接测量查询和文本中单词的语义相似度效果较差，依赖于单词级和文档级对齐而诱导的跨语言嵌入影响着模型检索效果的好坏。Wasserstein模型提出了一种新的矩阵用于测量文本段落之间的差异，没有考虑词语与文本特征之间的交互，故检索效果欠佳。

值得注意的是，相较于其他的基线模型EncoderCLIR_mBERT模型和mDPR模型表现出了较好的检索性能，这是因为EncoderCLIR_mBERT模型通过多语言模型单独编码每个词汇术语来诱导并引入到静态嵌入空间中，然后为特定语言对细化双语空间。能够更好的捕获查询文本之间的关联关系。而mDPR模型分别对查询和文本进行单独编码,基于神经网络的密集检索器很好的替代了基于词频的经典稀疏方法，使模型检索效果更好。但二者相较于本文模型性能较弱的原因在于本发明融入了汉越跨境民族知识图谱增强查询文本之间的“跨境”关联关系，也从侧面反映了本文模型加入汉越领域知识图谱的这一观点的正确性。

综上所述，本发明提出的融合领域知识图谱的汉越跨境民族文本检索方法所对应模型性能相比于其他基线模型较好，证明了在跨语言文本检索的过程中融合汉越跨境民族能够提高检索排序性能的论证，有效提升模型的稳健性，以及实际检索跨境民族文化文本时可以返回与查询文本相关度较高的文档，提高用户的搜索兴趣。

实验2：消融实验

本实验是为了验证本发明所提模型中融入领域知识图谱的有效性，具体结果如表3所示。

表3消融实验结果对比

由表3可以看出，baseline模型使用XLM-R语言模型的性能明显高于模型使用mBERT语言模型的性能，而本发明提出的方法与Baseline相比提高了4.1％。这是因为在跨境民族查询和文本数据中存在大量的领域实体以及存在相同实体却有不同名称表达的问题，通过增强查询和文本的实体语义信息有利于模型更好的将查询文本对其在同一空间中，从而提升模型检索性能。

实验3：模型检索效果对比

本发明进行了第三个实验用于验证本发明模型的检索性能，具体情况如表4所示。

表4模型检索效果可视化

从表4中可以看出，融合领域知识图谱提高了汉越跨境民族文化文本检索效果(表中加粗部分)，表4左边是中文检索越南语的检索效果，检索文本中包括了“

Tay(泰族)”、“Songkran(宋干节)”、“

Shan(掸族)”、“

(浴佛节)等相关文本。表4右边是越南语检索中文的检索效果，检索文本中包括了“泰族”、“宋干节”、“掸族”、“浴佛节”、“桑勘比迈”、“楞贺桑勘”等相关文本。由此证明，本发明提出的融入领域知识图谱的汉越跨境民族文本检索模型能够有效捕获查询和文档之间“跨境”的关联关系。

如图4所示，具体的可以包括如下模块：

汉越跨境民族文本数据预处理模块，用于完成如下功能：汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据；

基于汉越知识图谱对查询文档进行扩展模块，用于完成如下功能：抽取查询或文本中的中文或越南语实体，抽取出的实体与汉越知识图谱实体链接扩展出相关实体；另外，为了扩充汉越跨境民族中不常见的领域实体，还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；

汉越跨境民族查询文档特征融合模块，用于完成如下功能：利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量；

汉越跨境民族文本检索模块，用于完成如下功能：引入对比学习将融合知识图谱特征后的查询文档表征对齐，将相同类型的查询和文档聚类在一起，然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。

将融合领域知识图谱的汉越跨境民族文本检索模型进行保存，利用Flask技术将模型加载于内存中，避免请求结果带来频繁的模型加载过程，提高识别模型的运行速率；然后，通过Flask技术将模型部署为一个API接口，进而实现Web端口多并发请求的功能；最后，在Web端通调用部署到服务器端的文本排序模型，通过输入检索句或者检索词得到检索排序后的跨境民族文化文本数据，最后将得到的预测结果展示到前端界面。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述方法的具体步骤如下：

Step1、进行汉越跨境民族文本数据预处理：汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据；

Step2、基于汉越知识图谱对查询文档进行扩展：抽取查询或文本中的中文或越南语实体，抽取出的实体与汉越知识图谱实体链接扩展出相关实体；另外，为了扩充汉越跨境民族中不常见的领域实体，还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；

Step3、进行汉越跨境民族查询文档特征融合：利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量；

Step4、进行汉越跨境民族文本检索：引入对比学习将融合知识图谱特征后的查询文档表征对齐，将相同类型的查询和文档聚类在一起，然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。

2.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step1的具体步骤为：

Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据，数据进行过滤、筛选、去停用词、特殊字符预处理操作，特殊字符包括空格、乱码、表情符号以及公式符号；

Step1.2、根据预处理后的数据分别构建中文和越南语正负样本对；

Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征，得到查询文本的向量表示；汉越跨境民族查询与文本分别视为序列q＝{q₁,q₂,…,q_n}和序列d＝{d₁,d₂,…,d_n}组成，其中q_i和d_i分别是查询和文本的第i个词，q和d表示查询和文本；

V_q＝XLM-R(q)

V_d＝XLM-R(d)

其中V_q和V_d分别表示汉越跨境民族文化查询和文本的向量表示，经过多语言预训练模型能更好的捕捉汉越跨境民文化文本之间的信息。

3.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step2的具体步骤为：

Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体，与中文知识图谱实体链接扩展出相关实体；而在查询或文本中的越南语实体使用越南语实体抽取模型抽取，与越南语知识图谱实体链接扩展出相关实体；另外，为了扩充汉越跨境民族中不常见的领域实体，采用多语言知识表示模型MtransE对汉越跨境民族知识图谱中的三元组知识嵌入，得到汉越知识图谱对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；

文本与知识图谱扩展出的实体视为一个词序列集合

其中V_E是汉越知识图谱中的实体，e^q和e^d分别表示查询和文本与汉越知识图谱扩展出的词集合；

和

是查询和文本词序列集合中的第i个词；

和

分别通过多语言预训练模型得到词向量集合表示；

其中，

和

分别表示汉越跨境民族查询和文本扩展出的实体向量表示。

4.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step3的具体步骤为：

Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量；具体的方法是查询向量V_q和查询中的实体与知识图谱实体链接得到的实体向量

相拼接，文本向量V_d和文本中的实体与知识图谱实体链接得到的实体向量

相拼接；

其中，

表示向量相拼接，V_q'和V_d'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量；

Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入，通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息，为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫；

其中，Q、K、V表示查询或文本的输入都是一样的，

是比例因子，能避免乘积过大。

5.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step4的具体步骤为：

Step4.1、参考了逆完形填空任务中的一种数据增强方法，生成文档的两个互斥视图，第一个视图是通过从一段文本中随机采样一个段落范围获得的，而该段落范围的补码形成第二个视图；具体来说给定一个序列文本(w₁,w₂...,w_n)，截取文本中跨度为(w_a...,w_b)，其中，(1≤a≤b≤n)，把截取文本跨度(w_a…,w_b)和(w₁…,w_a-1...,w_b+1,...,w_n)都作为正样本；另外，独立裁剪是一种常见的独立数据增强，该独立裁剪策略从文档中独立采样两个段落以形成正对，两个段落都对应于原始数据的连续子序列；

Step4.2、构建负样本和构建正样本逆完形填空任务相似，只不过是把截取文本段落替换为其他文本；另外将汉越跨境民族中的专有名词随即替换、删除或屏蔽；

Step4.3、利用对比学习的方法将查询文本训练到同一空间下对齐；对比学习是一种依赖于每个文档在某种程度上都是独一无二的事实的方法，对比损失通过区分文档来学习，这种损失比较正或负的文档表示对，计算公式如下：

其中τ是温度参数，k₊表示给定一个带有相关正文档的查询q，k_i表示一个负文档池，这种对比损失促使相关文档的相关性得分较高，而无关文档的相关性得分较低；

Step4.4、利用双编码器架构分别为查询和文档独立编码；通过获取文档表示和查询表示之间的点积或余弦相似度来计算相关性分数，计算公式如下所示；

s(q,d)＝<f_θ(q),f_θ(d)>

其中，q表示查询和d表示文档，使用相同θ参数模型f_θ独立地对的每一个查询文本进行编码，s(q,d)是查询文本点积后得到的相关性分数结果表示。

6.融合领域知识图谱的汉越跨境民族文本检索装置，其特征在于：包括用于执行如权利要求1-5任一项权利要求所述方法的模块。