CN115599888A - 融合领域知识图谱的汉越跨境民族文本检索方法及装置 - Google Patents

融合领域知识图谱的汉越跨境民族文本检索方法及装置 Download PDF

Info

Publication number
CN115599888A
CN115599888A CN202211350058.XA CN202211350058A CN115599888A CN 115599888 A CN115599888 A CN 115599888A CN 202211350058 A CN202211350058 A CN 202211350058A CN 115599888 A CN115599888 A CN 115599888A
Authority
CN
China
Prior art keywords
text
chinese
query
border
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211350058.XA
Other languages
English (en)
Inventor
毛存礼
刘思源
余正涛
黄于欣
高盛祥
张勇丙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211350058.XA priority Critical patent/CN115599888A/zh
Publication of CN115599888A publication Critical patent/CN115599888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置,属于自然语言处理技术领域。汉越跨境民族领域文本特征主要体现在存在大量不常见的领域实体且实体表达形式多样问题。这些问题突出了跨境民族领域的特殊性。本发明提出了融合领域知识图谱的汉越跨境民族文本检索方法,包括汉越跨境民族文本数据预处理、基于汉越知识图谱对查询文档进行扩展、进行汉越跨境民族查询文档特征融合、进行汉越跨境民族文本检索构成。根据这四个功能模块化制成融合领域知识图谱的汉越跨境民族文本检索装置,具有重要的理论和实际运用价值。

Description

融合领域知识图谱的汉越跨境民族文本检索方法及装置
技术领域
本发明涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置,属于自然语言处理技术领域。
背景技术
跨语言文本检索是在大规模文本集合中查找相关文档以回答特定查询的任务,该任务的核心是在于如何学习查询和文本之间的潜在语义特征以及查询和文本特征之间的相似性如何度量。跨语言检索任务是信息抽取技术的研究热点。汉越跨境民族文本检索任务旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档。然而,在汉越跨境民族领域中,存在大量不常见的领域实体以及实体表达形式多样,这些问题突出了跨境民族领域的特殊性。尤其是在汉越跨境民族文本检索中,还面临着领域词对齐困难和语义对齐困难问题。因此,当前通用的跨语言文本检索模型无法解决以上问题,导致通用模型无法精准的检索出相应的跨境民族文档。
本发明提出了融合领域知识图谱的汉越跨境民族文本检索方法,利用跨境民族领域知识图谱扩充查询文本的实体表征并融合在查询文档之中,然后利用多头注意力机制将汉越知识图谱融入查询文档,实现丰富查询文档数据相关的汉越跨境民族实体信息,最后引入对比学习将融合跨境民族实体后的查询文档表征对齐并利用余弦相似度计算作为相关性得分,从而提升文本检索的效率。
发明内容
本发明提供了融合领域知识图谱的汉越跨境民族文本检索方法及装置,用以扩展汉越跨境民族查询文本实体和丰富查询和文本相关的跨境民族领域实体信息,提升文本检索的效率。
本发明的技术方案是:第一方面,本发明提供融合领域知识图谱的汉越跨境民族文本检索方法,所述融合领域知识图谱的汉越跨境民族文本检索的具体步骤如下:
Step1、进行汉越跨境民族文本数据预处理:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据,一共爬取了中文135572条文本数据和越南与109048条文本数据,为汉越跨境民族文本检索模型训练起到了很好的支撑作用。
Step2、基于汉越知识图谱对查询文档进行扩展:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。
Step3、进行汉越跨境民族查询文档特征融合:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。
Step4、进行汉越跨境民族文本检索:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积(或余弦相似度)作为相关性得分。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊字符等预处理操作,特殊字符如空格、乱码、表情符号以及公式符号。中文跨境民族数据爬取了91899条文本,越南语跨境民族文化数据爬取了数据71993条文本。
Step1.2、根据这些数据分别构建中文和越南语正负样本对,中文正负样本对为43673条文本,越南语正负样本对为37055条文本,共计中文135572条文本数据和越南与109048条文本数据。
Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示。汉越跨境民族查询与文本分别视为序列q={q1,q2,…,qn}和序列d={d1,d2,…,dn}组成,其中qi和di分别是查询和文本的第i个词。q和d表示查询和文本。
Vq=XLM-R(q)
Vd=XLM-R(d)
其中Vq和Vd分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型可以更好的捕捉汉越跨境民文化文本之间的信息。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体。而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型(MtransE)对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;
Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合
Figure BDA0003919337760000031
文本与知识图谱扩展出的实体视为一个词序列集合
Figure BDA0003919337760000032
其中VE是汉越知识图谱中的实体,eq和ed分别表示查询和文本与汉越知识图谱扩展出的词集合。
Figure BDA0003919337760000033
Figure BDA0003919337760000034
是查询和文本词序列集合中的第i个词。
Figure BDA0003919337760000035
Figure BDA0003919337760000036
分别通过多语言预训练模型得到词向量集合表示。
Figure BDA0003919337760000037
Figure BDA0003919337760000038
其中,
Figure BDA0003919337760000039
Figure BDA00039193377600000310
分别表示汉越跨境民族查询和文本扩展出的实体向量表示。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。具体的方法是查询向量Vq和查询中的实体与知识图谱实体链接得到的实体向量
Figure BDA00039193377600000311
相拼接。文本向量Vd和文本中的实体与知识图谱实体链接得到的实体向量
Figure BDA00039193377600000312
相拼接。
Figure BDA00039193377600000313
Figure BDA00039193377600000314
其中,
Figure BDA00039193377600000315
表示向量相拼接,Vq'和Vd'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量。
Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入,通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息,为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫。
Figure BDA0003919337760000041
其中,Q、K、V表示查询或文本的输入都是一样的。
Figure BDA0003919337760000042
是比例因子,可以避免乘积过大。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、参考了逆完形填空任务中的一种数据增强方法,可生成文档的两个互斥视图,第一个视图是通过从一段文本中随机采样一个段落范围获得的,而该范围的补码形成第二个视图。具体来说给定一个序列文本(w1,w2...,wn),截取文本中跨度为(wa...,wb),其中,(1≤a≤b≤n)。把截取文本跨度(wa...,wb)和(w1...,wa-1...,wb+1,...,wn)都作为正样本。另外,独立裁剪是一种常见的独立数据增强,该策略从文档中独立采样两个段落以形成正对。两个段落都对应于原始数据的连续子序列。
Step4.2、构建负样本和构建正样本逆完形填空任务相似,只不过是把截取文本段落替换为其他文本,比如,一个序列文本(w1...,wa...,wb...,wn)随机替换段落文本得到一个新的序列文本(w1...,na...,nb...,wn),其中(na...,nb)是随机替换文本。另外将汉越跨境民族中的专有名词随即替换、删除或屏蔽。
Step4.3、利用对比学习的方法将查询文本训练到同一空间下对齐。对比学习是一种依赖于每个文档在某种程度上都是独一无二的事实的方法,对比损失通过区分文档来学习,这种损失比较正(来自同一文档)或负(来自不同文档)的文档表示对。计算公式如下:
Figure BDA0003919337760000043
其中τ是温度参数,k+表示给定一个带有相关正文档的查询q,ki表示一个负文档池。这种损失促使相关文档的相关性得分较高,而无关文档的相关性得分较低。
Step4.4、利用双编码器架构分别为查询和文档独立编码。可以通过获取文档表示和查询表示之间的点积(或余弦相似度)来计算相关性分数。计算公式如下所示。
s(q,d)=<fθ(q),fθ(d)>
其中,q表示查询和d表示文档,我们使用相同θ参数模型fθ独立地对的每一个查询文本进行编码。s(q,d)是查询文本点积后得到的相关性分数结果表示。
第二方面,本发明实施例还提供了融合领域知识图谱的汉越跨境民族文本检索装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
1、本发明通过融入汉越跨境民族知识图谱来扩充查询和文档中的实体表征,缓解不常见的领域实体以及民俗实体表达形式多样问题;
2、本发明利用多头注意力机制自适应融合汉越跨境民族领域知识图谱与查询和文档,从而丰富跨境民族相关语义信息;
3、本发明通过引入对比学习方法实现汉越跨境民族查询文档中的领域词表征以及汉越两种语言领域词语义表征对齐并利用余弦相似度计算作为相关性得分,从而提升文本检索的效率。
附图说明
图1为本发明中的总的模型图;
图2为本发明中多语言知识嵌入模型图;
图3为本发明中数据集规模图;
图4为本发明中融合领域知识图谱的汉越跨境民族文本检索整体流程图。
具体实施方式
实施例1:如图1-图4所示,第一方面,本实施例提供融合领域知识图谱的汉越跨境民族文本检索方法,所述融合领域知识图谱的汉越跨境民族文本检索方法的具体步骤如下:
Step1、汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据,一共爬取了中文135572条文本数据和越南与109048条文本数据,为汉越跨境民族文本检索模型训练起到了很好的支撑作用。
所述Step1的具体步骤为:
Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊符号等预处理操作,特殊符号如空格、乱码、表情符号以及公式符号。中文跨境民族数据爬取了91899条文本,越南语跨境民族文化数据爬取了数据71993条文本。
Step1.2、根据这些数据分别构建中文和越南语正负样本对,中文正负样本对为43673条文本,越南语正负样本对为37055条文本,共计中文135572条文本数据和越南与109048条文本数据。
Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示。汉越跨境民族查询与文本分别视为序列q={q1,q2,…,qn}和序列d={d1,d2,…,dn}组成,其中qi和di分别是查询和文本的第i个词。q和d表示查询和文本。
Vq=XLM-R(q)
Vd=XLM-R(d)
其中Vq和Vd分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型可以更好的捕捉汉越跨境民文化文本之间的信息。
Step2、抽取查询或文本中的中文或越南语实体,抽取出的的实体与汉越知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,本文还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。
所述Step2的具体步骤为:
Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体。而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型(MtransE)对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。
Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合
Figure BDA0003919337760000061
文本与知识图谱扩展出的实体视为一个词序列集合
Figure BDA0003919337760000062
其中VE是汉越知识图谱中的实体,eq和ed分别表示查询和文本与汉越知识图谱扩展出的词集合。
Figure BDA0003919337760000063
Figure BDA0003919337760000064
是查询和文本词序列集合中的第i个词。
Figure BDA0003919337760000065
Figure BDA0003919337760000066
分别通过多语言预训练模型得到词向量集合表示。
Figure BDA0003919337760000067
Figure BDA0003919337760000068
其中,
Figure BDA0003919337760000071
Figure BDA0003919337760000072
分别表示汉越跨境民族查询和文本扩展出的实体向量表示。
Step3、利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。
所述Step3的具体步骤为:
Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量。具体的方法是查询向量Vq和查询中的实体与知识图谱实体链接得到的实体向量
Figure BDA0003919337760000073
相拼接。文本向量Vd和文本中的实体与知识图谱实体链接得到的实体向量
Figure BDA0003919337760000074
相拼接。
Figure BDA0003919337760000075
Figure BDA0003919337760000076
其中,
Figure BDA0003919337760000077
表示向量相拼接,Vq'和Vd'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量。
Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入,通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息,为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫。
Figure BDA0003919337760000078
其中,Q、K、V表示查询或文本的输入都是一样的。
Figure BDA0003919337760000079
是比例因子,可以避免乘积过大。
Step4、引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积(或余弦相似度)作为相关性得分。
所述Step4的具体步骤为:
Step4.1、参考了逆完形填空任务中的一种数据增强方法,可生成文档的两个互斥视图,第一个视图是通过从一段文本中随机采样一个段落范围获得的,而该范围的补码形成第二个视图。具体来说给定一个序列文本(w1,w2...,wn),截取文本中跨度为(wa...,wb),其中,(1≤a≤b≤n)。把截取文本跨度(wa...,wb)和(w1...,wa-1...,wb+1,...,wn)都作为正样本。另外,独立裁剪是一种常见的独立数据增强,该策略从文档中独立采样两个段落以形成正对。两个段落都对应于原始数据的连续子序列。
Step4.2、构建负样本和构建正样本逆完形填空任务相似,只不过是把截取文本段落替换为其他文本,比如,一个序列文本(w1...,wa...,wb...,wn)随机替换段落文本得到一个新的序列文本(w1...,na...,nb...,wn),其中(na...,nb)是随机替换文本。另外将汉越跨境民族中的专有名词随即替换、删除或屏蔽。
Step4.3、利用对比学习的方法将查询文本训练到同一空间下对齐。对比学习是一种依赖于每个文档在某种程度上都是独一无二的事实的方法,对比损失通过区分文档来学习,这种损失比较正(来自同一文档)或负(来自不同文档)的文档表示对。计算公式如下:
Figure BDA0003919337760000081
其中τ是温度参数,k+表示给定一个带有相关正文档的查询q,ki表示一个负文档池。这种损失促使相关文档的相关性得分较高,而无关文档的相关性得分较低。
Step4.4、利用双编码器架构分别为查询和文档独立编码。可以通过获取文档表示和查询表示之间的点积(或余弦相似度)来计算相关性分数。计算公式如下所示。
s(q,d)=<fθ(q),fθ(d)>
其中,q表示查询和d表示文档,我们使用相同θ参数模型fθ独立地对的每一个查询文本进行编码。s(q,d)是查询文本点积后得到的相关性分数结果表示。
为了验证本发明提出的融合领域知识图谱的汉越跨境民族文本检索方法的有效性,本发明进行了如下对比实验其中包括:中文跨境民族文化数据爬取了91899条文本,越南语跨境民族文化数据爬取了数据71993条文本。根据这些数据分别构建中文和越南语正负样本对,中文正负样本对为43673条文本,越南语正负样本对为37055条文本,共计中文135572条文本数据和越南与109048条文本数据。
表1为模型训练过程中的参数设置:
表1模型参数设置
Figure BDA0003919337760000082
Figure BDA0003919337760000091
为了验证本发明提出的文本排序的性能,融合领域知识图谱的汉越跨境民族文本检索模型的评价指标主要采用MRR(Mean Reciprocal Rank),计算方法如下所示:
Figure BDA0003919337760000092
其中,|Q|是用户的个数,ranki表示第i个查询语句的第一个正确答案的排名。把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均值。
实验1:基线模型对比实验
为了验证模型的有效性,本发明选取4个基线模型在汉越跨境民族文化文本数据上对比,具体如表2所示。
UnsupCLIR模型:由Litschko等人在2018年提出的一种基于共享的跨语言词嵌入空间的无监督方法。
Wasserstein模型:由Georgios等人在2018年提出的一种基于距离来衡量文本段落之间差异的方法。
EncoderCLIR模型:由Chen等人在2021年提出的一种基于多语言编码器的文本排序模型。
mDPR模型:由Akari等人在2021年提出的基于双编码器的查询文本对计算模型。
表2不同方法实验结果对比
Figure BDA0003919337760000093
从表中可以看出,本发明方法所对应模型与其他四个模型相比较MRR指标分别提升了26.6%、20.1%、12.8%和7.9%。UnsupCLIR模型直接利用共享的跨语言词嵌入空间,直接测量查询和文本中单词的语义相似度效果较差,依赖于单词级和文档级对齐而诱导的跨语言嵌入影响着模型检索效果的好坏。Wasserstein模型提出了一种新的矩阵用于测量文本段落之间的差异,没有考虑词语与文本特征之间的交互,故检索效果欠佳。
值得注意的是,相较于其他的基线模型EncoderCLIRmBERT模型和mDPR模型表现出了较好的检索性能,这是因为EncoderCLIRmBERT模型通过多语言模型单独编码每个词汇术语来诱导并引入到静态嵌入空间中,然后为特定语言对细化双语空间。能够更好的捕获查询文本之间的关联关系。而mDPR模型分别对查询和文本进行单独编码,基于神经网络的密集检索器很好的替代了基于词频的经典稀疏方法,使模型检索效果更好。但二者相较于本文模型性能较弱的原因在于本发明融入了汉越跨境民族知识图谱增强查询文本之间的“跨境”关联关系,也从侧面反映了本文模型加入汉越领域知识图谱的这一观点的正确性。
综上所述,本发明提出的融合领域知识图谱的汉越跨境民族文本检索方法所对应模型性能相比于其他基线模型较好,证明了在跨语言文本检索的过程中融合汉越跨境民族能够提高检索排序性能的论证,有效提升模型的稳健性,以及实际检索跨境民族文化文本时可以返回与查询文本相关度较高的文档,提高用户的搜索兴趣。
实验2:消融实验
本实验是为了验证本发明所提模型中融入领域知识图谱的有效性,具体结果如表3所示。
表3消融实验结果对比
Figure BDA0003919337760000101
由表3可以看出,baseline模型使用XLM-R语言模型的性能明显高于模型使用mBERT语言模型的性能,而本发明提出的方法与Baseline相比提高了4.1%。这是因为在跨境民族查询和文本数据中存在大量的领域实体以及存在相同实体却有不同名称表达的问题,通过增强查询和文本的实体语义信息有利于模型更好的将查询文本对其在同一空间中,从而提升模型检索性能。
实验3:模型检索效果对比
本发明进行了第三个实验用于验证本发明模型的检索性能,具体情况如表4所示。
表4模型检索效果可视化
Figure BDA0003919337760000102
Figure BDA0003919337760000111
从表4中可以看出,融合领域知识图谱提高了汉越跨境民族文化文本检索效果(表中加粗部分),表4左边是中文检索越南语的检索效果,检索文本中包括了“
Figure BDA0003919337760000112
Figure BDA0003919337760000113
Tay(泰族)”、“Songkran(宋干节)”、“
Figure BDA0003919337760000114
Shan(掸族)”、“
Figure BDA0003919337760000115
(浴佛节)等相关文本。表4右边是越南语检索中文的检索效果,检索文本中包括了“泰族”、“宋干节”、“掸族”、“浴佛节”、“桑勘比迈”、“楞贺桑勘”等相关文本。由此证明,本发明提出的融入领域知识图谱的汉越跨境民族文本检索模型能够有效捕获查询和文档之间“跨境”的关联关系。
第二方面,本发明实施例还提供了融合领域知识图谱的汉越跨境民族文本检索装置,该装置包括用于执行上述第一方面的方法的模块。
如图4所示,具体的可以包括如下模块:
汉越跨境民族文本数据预处理模块,用于完成如下功能:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据;
基于汉越知识图谱对查询文档进行扩展模块,用于完成如下功能:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;
汉越跨境民族查询文档特征融合模块,用于完成如下功能:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量;
汉越跨境民族文本检索模块,用于完成如下功能:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。
将融合领域知识图谱的汉越跨境民族文本检索模型进行保存,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过Flask技术将模型部署为一个API接口,进而实现Web端口多并发请求的功能;最后,在Web端通调用部署到服务器端的文本排序模型,通过输入检索句或者检索词得到检索排序后的跨境民族文化文本数据,最后将得到的预测结果展示到前端界面。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述方法的具体步骤如下:
Step1、进行汉越跨境民族文本数据预处理:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据;
Step2、基于汉越知识图谱对查询文档进行扩展:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;
Step3、进行汉越跨境民族查询文档特征融合:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量;
Step4、进行汉越跨境民族文本检索:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。
2.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step1的具体步骤为:
Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊字符预处理操作,特殊字符包括空格、乱码、表情符号以及公式符号;
Step1.2、根据预处理后的数据分别构建中文和越南语正负样本对;
Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示;汉越跨境民族查询与文本分别视为序列q={q1,q2,…,qn}和序列d={d1,d2,…,dn}组成,其中qi和di分别是查询和文本的第i个词,q和d表示查询和文本;
Vq=XLM-R(q)
Vd=XLM-R(d)
其中Vq和Vd分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型能更好的捕捉汉越跨境民文化文本之间的信息。
3.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step2的具体步骤为:
Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体;而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型MtransE对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;
Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合
Figure FDA0003919337750000021
文本与知识图谱扩展出的实体视为一个词序列集合
Figure FDA0003919337750000022
其中VE是汉越知识图谱中的实体,eq和ed分别表示查询和文本与汉越知识图谱扩展出的词集合;
Figure FDA0003919337750000023
Figure FDA0003919337750000024
是查询和文本词序列集合中的第i个词;
Figure FDA0003919337750000025
Figure FDA0003919337750000026
分别通过多语言预训练模型得到词向量集合表示;
Figure FDA0003919337750000027
Figure FDA0003919337750000028
其中,
Figure FDA0003919337750000029
Figure FDA00039193377500000210
分别表示汉越跨境民族查询和文本扩展出的实体向量表示。
4.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step3的具体步骤为:
Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量;具体的方法是查询向量Vq和查询中的实体与知识图谱实体链接得到的实体向量
Figure FDA00039193377500000211
相拼接,文本向量Vd和文本中的实体与知识图谱实体链接得到的实体向量
Figure FDA00039193377500000212
相拼接;
Figure FDA00039193377500000213
Figure FDA00039193377500000214
其中,
Figure FDA0003919337750000031
表示向量相拼接,Vq'和Vd'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量;
Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入,通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息,为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫;
Figure FDA0003919337750000032
其中,Q、K、V表示查询或文本的输入都是一样的,
Figure FDA0003919337750000033
是比例因子,能避免乘积过大。
5.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step4的具体步骤为:
Step4.1、参考了逆完形填空任务中的一种数据增强方法,生成文档的两个互斥视图,第一个视图是通过从一段文本中随机采样一个段落范围获得的,而该段落范围的补码形成第二个视图;具体来说给定一个序列文本(w1,w2...,wn),截取文本中跨度为(wa...,wb),其中,(1≤a≤b≤n),把截取文本跨度(wa…,wb)和(w1…,wa-1...,wb+1,...,wn)都作为正样本;另外,独立裁剪是一种常见的独立数据增强,该独立裁剪策略从文档中独立采样两个段落以形成正对,两个段落都对应于原始数据的连续子序列;
Step4.2、构建负样本和构建正样本逆完形填空任务相似,只不过是把截取文本段落替换为其他文本;另外将汉越跨境民族中的专有名词随即替换、删除或屏蔽;
Step4.3、利用对比学习的方法将查询文本训练到同一空间下对齐;对比学习是一种依赖于每个文档在某种程度上都是独一无二的事实的方法,对比损失通过区分文档来学习,这种损失比较正或负的文档表示对,计算公式如下:
Figure FDA0003919337750000034
其中τ是温度参数,k+表示给定一个带有相关正文档的查询q,ki表示一个负文档池,这种对比损失促使相关文档的相关性得分较高,而无关文档的相关性得分较低;
Step4.4、利用双编码器架构分别为查询和文档独立编码;通过获取文档表示和查询表示之间的点积或余弦相似度来计算相关性分数,计算公式如下所示;
s(q,d)=<fθ(q),fθ(d)>
其中,q表示查询和d表示文档,使用相同θ参数模型fθ独立地对的每一个查询文本进行编码,s(q,d)是查询文本点积后得到的相关性分数结果表示。
6.融合领域知识图谱的汉越跨境民族文本检索装置,其特征在于:包括用于执行如权利要求1-5任一项权利要求所述方法的模块。
CN202211350058.XA 2022-10-31 2022-10-31 融合领域知识图谱的汉越跨境民族文本检索方法及装置 Pending CN115599888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211350058.XA CN115599888A (zh) 2022-10-31 2022-10-31 融合领域知识图谱的汉越跨境民族文本检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211350058.XA CN115599888A (zh) 2022-10-31 2022-10-31 融合领域知识图谱的汉越跨境民族文本检索方法及装置

Publications (1)

Publication Number Publication Date
CN115599888A true CN115599888A (zh) 2023-01-13

Family

ID=84850025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211350058.XA Pending CN115599888A (zh) 2022-10-31 2022-10-31 融合领域知识图谱的汉越跨境民族文本检索方法及装置

Country Status (1)

Country Link
CN (1) CN115599888A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN116680420B (zh) * 2023-08-02 2023-10-13 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN116822495B (zh) * 2023-08-31 2023-11-03 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN106649786B (zh) 基于深度问答的答案检索方法及装置
US10831769B2 (en) Search method and device for asking type query based on deep question and answer
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN115599888A (zh) 融合领域知识图谱的汉越跨境民族文本检索方法及装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN111291188B (zh) 一种智能信息抽取方法及系统
Yin et al. Facto: a fact lookup engine based on web tables
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
CN113704667A (zh) 一种招标公告的自动提取处理方法和装置
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
Ophir Big data for the humanities using Google Ngrams: Discovering hidden patterns of conceptual trends
CN110866407A (zh) 确定互译文本及文本间相似度分析方法、装置及设备
CN115828893B (zh) 非结构化文档问答的方法、装置、存储介质和设备
CN116401344A (zh) 根据问句检索表格的方法和装置
CN115017264A (zh) 模型效果验证方法及装置
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
Vesanto Detecting and analyzing text reuse with BLAST
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
CN117421392B (zh) 一种基于词级对齐的代码搜索方法及装置
CN111666437A (zh) 一种基于局部匹配的图文检索方法及装置
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及系统
Shau et al. PSAbot: A Chatbot System for the Analysis of Posts on Stack Overflow
Ojokoh et al. A graph model with integrated pattern and query-based technique for extracting answer to questions in community question answering system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination