CN113392191A - 一种基于多维度语义联合学习的文本匹配方法和装置 - Google Patents

一种基于多维度语义联合学习的文本匹配方法和装置 Download PDF

Info

Publication number
CN113392191A
CN113392191A CN202110945838.8A CN202110945838A CN113392191A CN 113392191 A CN113392191 A CN 113392191A CN 202110945838 A CN202110945838 A CN 202110945838A CN 113392191 A CN113392191 A CN 113392191A
Authority
CN
China
Prior art keywords
text
vector representation
core word
dimensional
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110945838.8A
Other languages
English (en)
Other versions
CN113392191B (zh
Inventor
张聪聪
李浩浩
李慎国
梅一多
马亚中
孙雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Smart City Co Ltd
Original Assignee
Zhongguancun Smart City Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguancun Smart City Co Ltd filed Critical Zhongguancun Smart City Co Ltd
Priority to CN202110945838.8A priority Critical patent/CN113392191B/zh
Publication of CN113392191A publication Critical patent/CN113392191A/zh
Application granted granted Critical
Publication of CN113392191B publication Critical patent/CN113392191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法和装置,该方法将待匹配的文本语句对进行多维语义预处理,获得包含多维语义信息的文本序列;然后将文本序列输入至transformer编码器进行编码,得到每个所述文本序列对应的多维向量表征,再根据所述多维向量表征和对应标签构建损失函数;通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息,然后再根据多维语义信息进行深度模型学习,提高了模型训练的准确度,实现了对文本多维度端到端的高效匹配。

Description

一种基于多维度语义联合学习的文本匹配方法和装置
技术领域
本发明涉及文本匹配技术领域,具体涉及一种基于多维度语义联合学习的文本匹配方法和装置。
背景技术
当前人工智能技术取得了飞速发展,自然语言处理技术被誉为人工智能皇冠上最璀璨的明珠,近年来取得了颠覆性的进步。文本语义匹配是智能问答和信息检索等多种自然语言处理任务的重要基础环节,文本语义匹配好坏直接影响下游任务的质量。文本语义匹配主要是对两个待匹配文本之间进行相似度判断,将其分为相关或不相关,目前常规的方法是使用基于TF-IDF/BM25基于词频统计算法或预训练编码器进行稀疏特征提取和稠密度向量的表征,然后利用机器学习方法对表征特征进行分类建模。
以预训练模型为基础的下游文本匹配任务,在常规应用场景已经取得了较好的效果。基于预训练的文本匹配大体上分为基于单模型的句子拼接与分类任务和两句子分别表征的孪生网络模型。基于单模型的句子对匹配方法,其对句子整体进行表征,缺乏对句子的独立表征及句子间的相关性表示;孪生网络对待匹配语句分别进行表征,对效率有一定提升,同时准确率也有一定的下降,因此,单模型对句子进行表征,对效率有一定的提升,同时准确率也有一定的下降;因此单模型对句子分别进行表征将具有重要意义。对于语义匹配往往有一些核心词的匹配,对文本的匹配至关重要,如身份证丢失如何办理”,“户口簿丢失如何办理”文本匹配中“身份证”和“户口簿”的相关性对于文本匹配至关重要。当前的处理方式将文本整体匹配和词的匹配分开,通过多个模型和算法进行处理,这样做不仅效率低,且不利于对整体句子和词之间整体相关性的学习。因此,本发明提出一种多维度语义联合学习的文本匹配方法(MTMJ, Multi-dimensional Text semantic Matching methodbased on Joint learning)。
发明内容
基于以上问题,本发明提出了一种基于多维度语义联合学习的文本匹配方法和装置,该方法从句子和核心词维度信息建模,通过单模型训练学习,实现了对文本多维度端到端的高效匹配。同时,在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习,文本匹配结果达到了业界先进水平。其具体技术方案如下:
本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法,包括步骤:
获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行预处理,得到多个包含多维语义信息的文本序列;
分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征;
根据所述多维向量表征和对应标签构建损失函数;
通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;
将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
进一步的,所述分别对每个所述文本语句对进行预处理,得到多个包含多维语义信息的文本序列,具体包括步骤:
步骤1 获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词;
步骤2 将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列;
步骤3 将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
进一步的,所述将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征,具体包括步骤:
步骤4 将所述文本序列输入至transformer 编码器进行编码,分别得到第一文本语句中每个字符对应的第一字符向量和第二文本语句中每个字符对应的第二字符向量,第一核心词向量表征和第二核心词向量表征;
步骤5 根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征;
步骤6 由所述文本序列向量表征、所述第一核心词向量表征和第二核心词向量表征组成多维向量表征;
步骤7 获取其他文本序列,重复步骤4-步骤6,得到每个所述文本序列对应的多维向量表征。
进一步的,所述根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征,具体包括步骤:
将所述第一字符向量中的每个字符向量进行线性变换后在进行均值计算,得到所述第一文本语句的第一向量表征;
将所述第二字符向量中的每个字符向量进行线性变换后在进行均值计算,得到所述第二文本语句的第二向量表征;
将所述第一向量表征、所述第二向量表征进行差分计算,得到差分向量表征;
将所述第一向量表征、第二向量表征和差分向量表征进行拼接,得到所述文本序列对应的文本序列向量表征。
进一步的,所述根据所述多维向量表征和对应标签构建损失函数,具体包括步骤:
利用交叉熵算法对所述文本序列向量表征计算得到语句损失函数;
利用上述第一核心词向量表征和上述第二核心词向量表征的点积运算,计算得到核心词损失函数;
将所述语句损失函数和所述核心词损失函数求和,得到联合损失函数。
进一步的,所述第一核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第一核心词向量表征;所述第二核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第二核心词向量表征。
本发明的第二方面提供一种基于多维度语义联合学习的文本匹配装置,包括:
获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行预处理,得到多个包含多维语义信息的文本序列;
向量表征模块,用于分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征;
损失函数构建模块,用于根据所述多维向量表征和对应标签构建损失函数;
模型训练模块,用于通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;
预测模块,用于将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
进一步的,所述获取模块包括:
文本语句及标签获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签;
文本语句对获取模块,用于获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词;
拼接模块,用于将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列;
多个文本序列获取模块,用于将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理所述的基于多维度语义联合学习的文本匹配方法。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述的基于多维度语义联合学习的文本匹配方法。
本发明实施例提供的本发明提出的一种基于多维度语义联合学习的文本匹配方法和装置,该方法将待匹配的文本语句对进行多维语义预处理,获得包含多维语义信息的文本序列;然后将文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征,再根据所述多维向量表征和对应标签构建损失函数;通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息,然后再根据多维语义信息进行深度模型学习,提高了模型训练的准确度,实现了对文本多维度端到端的高效匹配。
进一步的,本发明从句子和核心词维度信息建模,通过单模型训练学习,实现了对文本多维度端到端的高效匹配。
更进一步的,本发明在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习,文本匹配结果达到了业界先进水平。
附图说明
图1是本发明一种基于多维度语义联合学习的文本匹配方法流程图;
图2是本发明一种基于多维度语义联合学习的联合损失函数计算流程示意图。
具体实施方式
以下结合附图对本发明进行说明,但不用来限制本发明的范围。
参见图1-图2,图1是本发明一种基于多维度语义联合学习的文本匹配方法流程图,图2是本发明一种基于多维度语义联合学习的联合损失函数计算流程示意图,包括:
S1:获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行多维语义预处理,得到多个包含多维语义信息的文本序列。
在深度学习过程中,都会获取大量的样本对模型进行训练,然后获得损失函数最小的一组参数作为最终的模型参数,在本发明实施例中,样本即为文本语句对,真实的输出结果即为样本结果标签。将文本语句对作为输入,样本结果作为输出,对深度学习模型进行有监督训练。在此,仅对一组样本和结果数据进行介绍。
上述多维语义预处理即对所述文本语句对进行多维语义提取预处理,得到包含多维语义信息的文本序列。
在本发明实施例中,上述文本语句对进行多维语义预处理,得到包含多维语义信息的文本序列,具体包括步骤:
步骤1 获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词。
输入包括两个待匹配中文语句,将其中一个语句中作为第一中文语句S1,另一个作为第二中文语句S2;所述第一中文语句S1和第二中文语句S2中对应的核心词为W1和核心词W2。
步骤2 将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列。
将第一语句S1、第二语句S2拼接,再将关键词W1和W2进行拼接,核心词的起始位置分别插入特殊字符[kw1]、 [kw2] ,得到整体的输入序列。
步骤3 将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
S2:分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征。
在本发明实施例中,为了后期便于计算,需要将文本序列表示成向量表征。
本发明上述步骤具体包括:
步骤4 将所述文本序列输入至transformer 编码器进行编码,分别得到第一文本语句中每个字符对应的第一字符向量和第二文本语句中每个字符对应的第二字符向量,第一核心词向量表征和第二核心词向量表征。
上述文本序列从所述transformer 编码器中编码输出后会得到文本语句中每个字符对应的字符向量。
核心词表征,利用字典、序列标注等方法对两个待匹配语句S1、S2进行核心词识别,得到文本语句对对应的核心词W1、W2,核心词的起始位置分别为特殊字符[kw1]、[kw2],经过transformer 编码,以[kw1]编码的输出
Figure 569049DEST_PATH_IMAGE001
代表第一核心词的第一核心词向量表征,以[kw2]编码的输出
Figure 948078DEST_PATH_IMAGE002
代表第二核心词的第二核心词向量表征。
步骤5 根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征.
然后对编码器输出的文本S1、S2中的每个字符向量进行线性变换,再进行平均操作,从而得到每个句子的向量表示。假设句子S1的字符长度为N,第i个字符的向量表示为
Figure 14254DEST_PATH_IMAGE003
,
Figure 35299DEST_PATH_IMAGE003
为1*768维度的向量,则表换后的第一文本语句S1的第一向量表征
Figure 752588DEST_PATH_IMAGE004
表示为
Figure 568098DEST_PATH_IMAGE005
,其中A为768*256的变换矩阵。
第二文本语句S2的输出向量的第二向量表征
Figure 652728DEST_PATH_IMAGE006
表征为
Figure 867678DEST_PATH_IMAGE007
,M为第二句子S2的字符长度。
所述语句向量包括
Figure 455785DEST_PATH_IMAGE004
Figure 707775DEST_PATH_IMAGE006
Figure 528969DEST_PATH_IMAGE004
Figure 501605DEST_PATH_IMAGE006
的差分向量
Figure 68852DEST_PATH_IMAGE008
,差分向量为
Figure 350798DEST_PATH_IMAGE004
Figure 269075DEST_PATH_IMAGE006
对应位置的值做差值绝对值运算:
|
Figure 779822DEST_PATH_IMAGE004
-
Figure 467155DEST_PATH_IMAGE006
|,
Figure 920002DEST_PATH_IMAGE004
的元素记为
Figure 59997DEST_PATH_IMAGE009
,
Figure 640014DEST_PATH_IMAGE006
中元素记为
Figure 916274DEST_PATH_IMAGE010
,差分向量为
Figure 415389DEST_PATH_IMAGE011
,其向量维度为256维度。
步骤6 由所述文本序列向量表征、所述第一核心词向量表征和第二核心词向量表征组成多维向量表征;
步骤7 获取其他文本序列,重复步骤4-步骤6,得到每个所述文本序列对应的多维向量表征。
S3:根据所述多维向量表征和对应标签构建损失函数。
在本发明实施例中,文本语句和核心词的损失函数的构建是不一样的。具体的:
语句损失函数:
利用交叉熵算法对所述文本序列向量表征计算得到语句损失函数。
语句损失函数采用对语句输出向量作为输出层,采用线性变换运算,得到维度为2的向量,再对其进行softmax变换使得输出值在0 ~1范围之间的概率{y,1-y},其中y表示预测标签为0的概率。
S1、S2匹配类别为2分类,类别
Figure 167313DEST_PATH_IMAGE012
,利用交叉熵损失计算损失得到语句损失函数:
Figure 144496DEST_PATH_IMAGE013
核心词损失函数:
核心词损失函数为最大化核心词1和核心词2的相似性,采用向量的点积计算相似度,最大化相似度作为优化目标:
Figure 681788DEST_PATH_IMAGE014
同时,核心词损失函数中加入了核心词与非核心词的向量作为负样本对比,即最小化核心词与非核心词的相似度,实现对比学习效果。具体地,以核心词1与文本2中的非核心词进行相似度计算,以核心词2与文本1中的非核心词进行相似度计算:
Figure 351804DEST_PATH_IMAGE015
Figure 325445DEST_PATH_IMAGE016
整体的核心词损失函数为正负样本损失函数之和:
Figure 106319DEST_PATH_IMAGE017
利用上述第一核心词向量表征和上述第二核心词向量表征的点积运算,计算得到核心词损失函数;将所述语句损失函数和所述核心词损失函数求和,得到联合损失函数。
联合损失函数为对语句损失和核心词损失函数求和,通过优化联合损失函数达到对每个损失的优化,实现全局优化。
Figure 498117DEST_PATH_IMAGE018
模型网络通过对loss 计算实现参数的更新,参数为包含语句与核心词任务的全局参数,从而实现对整体目标的无限逼近。
S4:通过所述联合损失函数对深度学习模型进行训练,得到多维度语义联合学习模型。
上述联合损失函数是对文本语句和核心词分别求损失函数后求和得到的多维度的损失函数,该损失函数能够兼顾文本语句和核心词的含义,为后续深度学习模型的训练提供了多维度的信息。S5:将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
在对深度学习模型训练好之后,使用该深度学习模型对待匹配的预测文本语句对进行预测,判断出该预测文本语句对是否是匹配的。
本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法和装置,该方法将待匹配的文本语句对进行多维语义预处理,获得包含多维语义信息的文本序列;然后将文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征,再根据所述多维向量表征和对应标签构建损失函数;通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息,实现了对文本多维度端到端的高效匹配。
本发明从句子和核心词维度信息建模,通过单模型训练学习,实现了对文本多维度端到端的高效匹配。
本发明在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习,文本匹配结果达到了业界先进水平。
下面采用实例对本发明进行说明:
训练过程。数据集来源LCQMC和AFQMC及新冠疫情相关三种中文问题匹配数据集,目标是判断两句中文文本间的语义关系,数据集如表1。每个样本由两个中文问题语句与对应这两个问题语句的标签组成。标签分为0和 1两类,其中,标签0代表两个语句的语义不同,标签1代表两个语句的语义相同。
为了满足本方法的核心词,该方法先采用实体识别模型对每个句子中的关键词进行提取。
表1 数据集说明
Figure 339034DEST_PATH_IMAGE019
本实验数据采用从三种数据中取数据,组成新的数据,训练集40000条,验证集5000条,测试集合3000条,集合形式如表2,
表2
Figure 65551DEST_PATH_IMAGE020
模型训练与对比。本次训练采用NVIDIA Tesla v100GPU服务器,参数设置batch_size=24, length=128, epoch=3 lr=2e-5,与RoBERTa -wwm进行了对比。以F1-score为衡量指标,测试集上本发明多维度语义联合学习的文本匹配方法(MTMJ, Multi-dimensionalText semantic Matching method based on Joint learning)模型较基础模型提高.2.1%,测试结果如表3
表3 模型对比效果对比
模型 开发集(F1) 测试集(F1)
RoBERTa-wwm 73.70 72.21
RoBERTa-wwm -MTMJ 75.82 74.33
本发明的第二方面提供一种基于多维度语义联合学习的文本匹配装置,包括:
获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行预处理,得到多个包含多维语义信息的文本序列;
向量表征模块,用于分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征;
损失函数构建模块,用于根据所述多维向量表征和对应标签构建损失函数;
模型训练模块,用于通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;
预测模块,用于将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
进一步的,所述获取模块包括:
文本语句及标签获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签;
文本语句对获取模块,用于获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词;
拼接模块,用于将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列;
多个文本序列获取模块,用于将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理所述的基于多维度语义联合学习的文本匹配方法。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述的基于多维度语义联合学习的文本匹配方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于多维度语义联合学习的文本匹配方法,其特征在于,包括步骤:
获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行多维语义预处理,得到多个包含多维语义信息的文本序列;
分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征;
根据所述多维向量表征和对应标签构建损失函数;
通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;
将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
2.根据权利要求1所述的基于多维度语义联合学习的文本匹配方法,其特征在于,所述分别对每个所述文本语句对进行多维语义预处理,得到多个包含多维语义信息的文本序列,具体包括步骤:
步骤1 获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词;
步骤2 将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列;
步骤3 将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
3.根据权利要求2所述的基于多维度语义联合学习的文本匹配方法,其特征在于,所述将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征,具体包括步骤:
步骤4 将所述文本序列输入至transformer 编码器进行编码,分别得到第一文本语句中每个字符对应的第一字符向量和第二文本语句中每个字符对应的第二字符向量,第一核心词向量表征和第二核心词向量表征;
步骤5 根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征;
步骤6 由所述文本序列向量表征、所述第一核心词向量表征和第二核心词向量表征组成多维向量表征;
步骤7 获取其他文本序列,重复步骤4-步骤6,得到每个所述文本序列对应的多维向量表征。
4.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法,其特征在于,所述根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征,具体包括步骤:
将所述第一字符向量中的每个字符向量进行线性变换后在进行均值计算,得到所述第一文本语句的第一向量表征;
将所述第二字符向量中的每个字符向量进行线性变换后在进行均值计算,得到所述第二文本语句的第二向量表征;
将所述第一向量表征、所述第二向量表征进行差分计算,得到差分向量表征;
将所述第一向量表征、第二向量表征和差分向量表征进行拼接,得到所述文本序列对应的文本序列向量表征。
5.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法,其特征在于,所述根据所述多维向量表征和对应标签构建损失函数,具体包括步骤:
利用交叉熵算法对所述文本序列向量表征计算得到语句损失函数;
利用上述第一核心词向量表征和上述第二核心词向量表征的点积运算,计算得到核心词损失函数;
将所述语句损失函数和所述核心词损失函数求和,得到联合损失函数。
6.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法,其特征在于,所述第一核心词向量表征以其标识符经过所述transformer编码器编码后得到的向量作为第一核心词向量表征;所述第二核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第二核心词向量表征。
7.一种基于多维度语义联合学习的文本匹配装置,其特征在于,包括:
获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签,分别对每个所述文本语句对进行预处理,得到多个包含多维语义信息的文本序列;
向量表征模块,用于分别将每个所述文本序列输入至transformer 编码器进行编码,得到每个所述文本序列对应的多维向量表征;
损失函数构建模块,用于根据所述多维向量表征和对应标签构建损失函数;
模型训练模块,用于通过所述损失函数对深度学习模型进行训练,得到多维度语义联合学习模型;
预测模块,用于将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算,判断所述预测文本语句对是否匹配。
8.根据权利要求7所述的基于多维度语义联合学习的文本匹配装置,其特征在于,所述获取模块包括:
文本语句及标签获取模块,用于获取参与训练的多个文本语句对以及每个语句对对应的标签;
文本语句对获取模块,用于获取一个文本语句对,分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取,得到第一核心词和第二核心词;
拼接模块,用于将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接,并在每个核心词前插入标识符后得到包含多维语义信息的文本序列;
多个文本序列获取模块,用于将获取的其他文本语句对重复步骤1-步骤2,得到多个包含多维语义信息的文本序列。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理权利要求1-6任一所述的基于多维度语义联合学习的文本匹配方法。
10.一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-6任一所述的基于多维度语义联合学习的文本匹配方法。
CN202110945838.8A 2021-08-18 2021-08-18 一种基于多维度语义联合学习的文本匹配方法和装置 Active CN113392191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945838.8A CN113392191B (zh) 2021-08-18 2021-08-18 一种基于多维度语义联合学习的文本匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945838.8A CN113392191B (zh) 2021-08-18 2021-08-18 一种基于多维度语义联合学习的文本匹配方法和装置

Publications (2)

Publication Number Publication Date
CN113392191A true CN113392191A (zh) 2021-09-14
CN113392191B CN113392191B (zh) 2022-01-21

Family

ID=77622804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945838.8A Active CN113392191B (zh) 2021-08-18 2021-08-18 一种基于多维度语义联合学习的文本匹配方法和装置

Country Status (1)

Country Link
CN (1) CN113392191B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987174A (zh) * 2021-10-22 2022-01-28 上海携旅信息技术有限公司 分类标签的核心语句提取方法、系统、设备及存储介质
CN114693396A (zh) * 2022-02-28 2022-07-01 广州华多网络科技有限公司 地址信息匹配方法及其装置、设备、介质、产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987174A (zh) * 2021-10-22 2022-01-28 上海携旅信息技术有限公司 分类标签的核心语句提取方法、系统、设备及存储介质
CN114693396A (zh) * 2022-02-28 2022-07-01 广州华多网络科技有限公司 地址信息匹配方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN113392191B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111291188B (zh) 一种智能信息抽取方法及系统
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN115982403B (zh) 一种多模态哈希检索方法及装置
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115641395A (zh) 一种基于互信息的图文对齐方法
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN116089589B (zh) 问句生成方法及装置
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法
CN116821349B (zh) 一种基于大数据的文献分析方法及管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant