CN116383342B - 一种在噪声标签下鲁棒的跨域文本检索方法 - Google Patents
一种在噪声标签下鲁棒的跨域文本检索方法 Download PDFInfo
- Publication number
- CN116383342B CN116383342B CN202310367958.3A CN202310367958A CN116383342B CN 116383342 B CN116383342 B CN 116383342B CN 202310367958 A CN202310367958 A CN 202310367958A CN 116383342 B CN116383342 B CN 116383342B
- Authority
- CN
- China
- Prior art keywords
- domain
- representation
- public
- loss
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000000452 restraining effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 210000001072 colon Anatomy 0.000 description 3
- 230000003446 memory effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000012086 standard solution Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种在噪声标签下鲁棒的跨域文本检索方法,属于文本智能检索技术领域,该方法包括获取待检索数据;建立跨域文本检索深度模型;利用所述跨域文本检索深度模型对待检索数据进行检索,得到检索结果,完成跨域文本检索。本发明解决了现有的跨域文本深度学习方法在训练时无法区分文本数据中无法避免带有的噪声标签和干净标签,最终过拟合于噪声标签,导致得到的跨域文本的检索效果大幅降低的重要问题。
Description
技术领域
本发明属于文本智能检索技术领域,尤其涉及一种在噪声标签下鲁棒的跨域文本检索方法。
背景技术
不同种类的文本间存在着格式、书写风格的固有差异。如果要想在文本中高效、准确完成检索,是需要消除这些不同种类文本间的固有域偏移,实现跨不同风格、格式域检索的。因此,在文本中实现跨域检索是十分有意义的。然而,传统的跨域文本检索方法往往视不同域的文本归属不同的分布,再基于实例层次地去消除样本对之间的差异从而消除域偏移,然而这类方法计算量巨大,容易受到异常值、噪声样本的影响,同时往往无法满足两个以上域的数据进行跨域的检索。这在该应用场景下是难以接受的。
由于不同域之间的数据存在着数据本质的差异,也就是域偏移,跨域的文本检索的标准解决范式是将每一个域的数据加以约束后,一同投影到一个公共的表示空间当中,从而消除了域偏移,可以在该公共表示空间中做跨域的检索。现有的跨域检索方法可分为两种主要类型:无监督跨域文本检索和有监督跨域文本检索。无监督跨域文本检索方法不利用标签信息来发掘域偏移,而是利用数据之间的相关性。近年来,一些无监督的方法尝试最大化不同域数据在公共表示空间的相关性,从而消除域偏移,但是所得的检索性能十分有限。为了解决上述线性方法的性能问题,一些工作开始采用核方法、非线性神经网络层来建立映射,尽管性能相较于朴素的线性方法得到大幅改善,但是仍然不够理想。监督跨域文本检索充分利用标签信息来指导域偏移的发掘与消除。一般来说,可以获得更好的性能。因此,提出了许多令人满意的方法。一些传统的机器学习方法利用费舍尔准则将不同的域数据约束投影到公共表示空间。为了捕捉不同域数据中的高度非线性,引入了深度神经网络来学习到具有辨别力和域不变性的公共表示。
然而,在跨域文本的检索中,面对海量的文本数据,标签难免会有误标与错标,从而引发噪声标签的问题。现有的跨域检索方法对这些噪声标签毫无鲁棒性,即无法自适应地区分噪声标签与干净标签进行学习与训练,极易受到噪声标签的影响从来带来错误检索与匹配。一般来说,现有的这些跨域文本检索方法都有一些共同的局限性:(1)基于实例层面,需要计算每一个样本对的相似度,计算量巨大。(2)文本涉及众多领域,目前大量方法无法适用于多于两个域文本检索。(3)现有方法不具有辨别噪声标签与干净标签的能力,在有噪声标签信息的指导下不具有鲁棒性。
发明内容
针对现有技术中的上述不足,本发明提供的一种在噪声标签下鲁棒的跨域文本检索方法解决了现有的跨域文本深度学习方法在训练时无法区分文本数据中无法避免带有的噪声标签和干净标签,最终过拟合于噪声标签,导致得到的跨域文本的检索效果大幅降低的重要问题。
为了达到上述发明目的,本发明采用的技术方案为:一种在噪声标签下鲁棒的跨域文本检索方法,包括以下步骤:
S1、获取待检索数据;
S2、获取带有噪声标签的训练数据,并根据训练数据建立跨域文本检索深度模型;
S3、利用所述跨域文本检索深度模型将待检索数据嵌入到公共表示空间,并采用最近邻法进行检索,得到跨域文本检索结果。
本发明的有益效果为:本发明采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理;让每个文本的嵌入特征更具有语义信息,带给后续模型更强的判别力;并通过鲁棒中心损失构建鲁棒的中心判别学习机制让公共子空间类内聚合,类间发散,采用随着训练轮次增大而减小的指示变量,约束模型充分运用神经网络的记忆效应,使其能够区分出噪声标签与干净标签信息,训练得到一个更为鲁棒的深度模型;以及通过公共表示分类损失构建公共表示空间一致性学习机制通过对公共表示的分布进行约束,从而消除域偏移,同时对公共表示的分类作约束,保留公共表示的原有判别力;本发明与常规的深度学习训练范式保持一致,过程简单,并采用类别中心-公共表示“一对多”的范式构造损失函数,极大减小了计算量。
进一步地,所述步骤S2具体为:
S201、获取带有噪声标签的训练数据;
S202、根据训练数据,建立深度公共表示编码器和公共表示分类器;
S203、根据深度公共表示编码器和公共表示分类器,建立跨域文本检索深度模型。
上述进一步方案的有益效果为:根据深度公共表示编码器获取公共表示;利用公共表示分类器获取公共表示预测结果,为跨域文本检索深度模型的构建做准备。
进一步地,所述步骤S201具体为:
S2011、获取带有噪声标签的标签数据与包含多个域的文本数据;
S2012、根据标签数据和文本数据,利用结巴分词技术对文本数据进行分词,得到第一单词表;
S2013、利用汉语常用停用词表去掉第一单词表的常用停用词,得到单词表;
S2014、根据单词表,利用Zh-Bert预训练语言模型得到富含语义信息的深度中文文本数据词嵌入;
S2015、根据深度中文文本数据词嵌入,得到等长度的文本数据,并根据等长度的文本数据得到带有噪声标签的训练数据。
上述进一步方案的有益效果为:采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理;让每个文本的嵌入特征更具有语义信息,带给后续模型更强的判别力。
进一步地,所述步骤S202具体为:
S2021、结合双向长短时记忆网络Bi-LSTM和Doc2Vec骨干网络,建立并初始化深度公共表示编码器;
S2022、采用单隐层全连接神经网络,建立并初始化公共表示分类器。
上述进一步方案的有益效果为:深度公共表示编码器充分发挥循环神经网络的特点,能够充分抓住所放入文本嵌入的深度双向语义信息,获得更具有判别力的文本特征;公共表示分类器利用单隐层全连接神经网络,能够简洁、有效且精准地获取到文本特征的分类结果,为计算公共表示分类损失做基础。
进一步地,所述步骤S203具体为:
S2031、将训练数据进行划分,得到批次训练数据集;
S2032、根据批次训练数据集,利用深度公共表示编码器,得到公共表示集;
S2033、根据批次训练数据集和公共表示集计算类别中心集;
S2034、根据公共表示集和类别中心集,利用鲁棒的中心判别学习机制计算鲁棒中心判别损失;
S2035、根据公共表示集,利用公共表示分类器得到公共表示预测结果集;
S2036、利用公共表示预测结果集、公共表示集中每个公共表示所对应的训练数据的类别标签计算公共表示分类损失;
S2037、根据在公共表示集中不同域但同一实例的公共表示,利用公共表示空间一致性学习机制计算多域偏移损失;
S2038、根据鲁棒中心判别损失、公共表示分类损失和多域偏移损失,得到总损失;
S2039、计算总损失的梯度,并进行反向优化传播;
S20310、判断总损失是否满足收敛条件,若是,则得到已训练的深度公共表示编码器,并进入步骤S20311,否则,返回步骤S2032;
S20311、根据已训练的深度公共表示编码器,将训练数据映射到公共子空间中,完成跨域文本检索深度模型的构建。
上述进一步方案的有益效果为:和常规深度学习训练范式保持一致,过程简单,并采用类别中心以“一对多”的范式取代了基于实例层次的“一对一”的范式,极大减小了计算量。
进一步地,所述步骤S2034中鲁棒中心判别损失的表达式为:
其中,为鲁棒中心判别损失;M为域的数量;N为每个域内样本的数量;i为样本编号;j为域编号;v为指示变量;/>为公共表示与公共空间聚类中心之间的语义差异;α为偏置常数;K为类别的数量;k为类别编号;e为以自然常数为底的指数函数;/>为第j个域的第i个样本的公共表示对应的类别;/>为公共表示空间内非第j个域的第i个样本的中心;/>为公共表示空间内第j个域的第i个样本的中心;/>为预处理后的第j个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;|·|为绝对值函数;T为转置。
上述进一步方案的有益效果为:利用鲁棒中心判别损失构建鲁棒的中心判别学习机制,利用对比学习的思想,鲁棒的中心判别学习机制增加公共表示空间中公共表示与自身类别中心的相似度,减小公共表示与自身类别中心的相似度,从而让公共子空间类内聚合,类间发散,采用随着训练轮次增大而减小的指示变量,约束模型充分运用神经网络的记忆效应,能够区分出噪声标签与干净标签信息,在指示变量归零后,鲁棒地约束模型。
进一步地,所述步骤S2036中公共表示分类损失的表达式为:
其中,为公共表示分类损失;/>为使用/>进行分类的公共表示分类器;Γ为分类网络的权重。
上述进一步方案的有益效果为:利用公共表示分类损失构建公共表示空间一致性学习机制,通过对公共表示的分布进行约束,从而消除域偏移,同时对公共表示的分类作约束,保留公共表示的原有判别力。
进一步地,所述步骤S2037中多域偏移损失的表达式为:
其中,为多域偏移损失;j、p和m均为域编号;log为以自然系数为底的对数函数;τ为温度系数;/>为预处理后的第m个域的第l个样本通过深度公共表示编码器编码后得到的公共表示;/>为预处理后的第p个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;l为样本编号;T为转置。
上述进一步方案的有益效果为:以同个体不同域文本的特征这样个体层面作为切入点,极大增强它们之间的相似性,进而从整体上拉近了不同域间的距离,消除了跨域偏移。
进一步地,所述步骤S2038中总损失的表达式为:
其中,为总损失;βmg为多域偏移损失的权重;βcrc为公共表示分类损失的权重。
上述进一步方案的有益效果为:总损失通过加权结合鲁棒中心判别损失项、公共表示分别损失项和多域偏移损失项,完整、统一且鲁棒地约束得到跨域文本在公共空间具有判别力、易于检索的分布。
进一步地,所述步骤S20310中收敛条件为连续5个批次的总损失满足:
其中,为第ep个批次的总损失;/>为第ep-1个批次的总损失;|·|为绝对值函数。
上述进一步方案的有益效果为:明确深度模型的停机准则,使得模型在最优状态下停机保存。
附图说明
图1为本发明的方法流程图。
图2为本发明中跨域文本检索深度模型的构建流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种在噪声标签下鲁棒的跨域文本检索方法,包括以下步骤:
S1、获取待检索数据;
S2、获取带有噪声标签的训练数据,并根据训练数据建立跨域文本检索深度模型;
S3、利用所述跨域文本检索深度模型将待检索数据嵌入到公共表示空间,并采用最近邻法进行检索,得到跨域文本检索结果。
本实施例中,步骤S3主要包含多个步骤:
S301、获取待检索数据的公共表示,并获取其最近的20个公共表示的类别信息。
S302、取20近邻的类别出现最多者为检索数据的类别。
S303、返回S31直至完成所有数据检索。
所述步骤S2具体为:
S201、获取带有噪声标签的训练数据;
S202、根据训练数据,建立深度公共表示编码器和公共表示分类器;
S203、根据深度公共表示编码器和公共表示分类器,建立跨域文本检索深度模型。
所述步骤S201具体为:
S2011、获取带有噪声标签的标签数据与包含多个域的文本数据;
S2012、根据标签数据和文本数据,利用结巴分词技术对文本数据进行分词,得到第一单词表;
S2013、利用汉语常用停用词表去掉第一单词表的常用停用词,得到单词表;
S2014、根据单词表,利用Zh-Bert预训练语言模型得到富含语义信息的深度中文文本数据词嵌入;
S2015、根据深度中文文本数据词嵌入,得到等长度的文本数据,并根据等长度的文本数据得到带有噪声标签的训练数据。
如图2所示,所述步骤S202具体为:
S2021、结合双向长短时记忆网络Bi-LSTM和Doc2Vec骨干网络,建立并初始化深度公共表示编码器;
S2022、采用单隐层全连接神经网络,建立并初始化公共表示分类器。
所述步骤S203具体为:
S2031、将训练数据进行划分,得到批次训练数据集;
S2032、根据批次训练数据集,利用深度公共表示编码器,得到公共表示集;
S2033、根据批次训练数据集和公共表示集计算类别中心集;
S2034、根据公共表示集和类别中心集,利用鲁棒的中心判别学习机制计算鲁棒中心判别损失;
S2035、根据公共表示集,利用公共表示分类器得到公共表示预测结果集;
S2036、利用公共表示预测结果集、公共表示集中每个公共表示所对应的训练数据的类别标签计算公共表示分类损失;
S2037、根据在公共表示集中不同域但同一实例的公共表示,利用公共表示空间一致性学习机制计算多域偏移损失;
S2038、根据鲁棒中心判别损失、公共表示分类损失和多域偏移损失,得到总损失;
S2039、计算总损失的梯度,并进行反向优化传播;
S20310、判断总损失是否满足收敛条件,若是,则得到已训练的深度公共表示编码器,并进入步骤S20311,否则,返回步骤S2032;
S20311、根据已训练的深度公共表示编码器,将训练数据映射到公共子空间中,完成跨域文本检索深度模型的构建。
本实施例中,步骤S2032为将批次训练数据集中的数据分批次输入到深度公共表示编码器编码得到对应的公共表示;公共表示集为每个类别公共表示的集合;类别中心集为每个类别公共表示对应的类别中心的集合;公共表示预测结果集为各类别的预测结果的集合。
所述步骤S2034中鲁棒中心判别损失的表达式为:
其中,为鲁棒中心判别损失;M为域的数量;N为每个域内样本的数量;i为样本编号;j为域编号;v为指示变量;/>为公共表示与公共空间聚类中心之间的语义差异;α为偏置常数;K为类别的数量;k为类别编号;e为以自然常数为底的指数函数;/>为第j个域的第i个样本的公共表示对应的类别;/>为公共表示空间内非第j个域的第i个样本的中心;/>为公共表示空间内第j个域的第i个样本的中心;/>为预处理后的第j个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;|·|为绝对值函数;T为转置。
本实施例中,υ表示一个指示变量,训练开始设置为1,随着训练轮数的增长逐渐减小,在第15轮训练结束后减少至0,α表示一个偏置常数将的期望尽可能逼近0。
所述步骤S2036中公共表示分类损失的表达式为:
其中,为公共表示分类损失;/>为使用/>进行分类的公共表示分类器;Γ为分类网络的权重。
所述步骤S2037中多域偏移损失的表达式为:
其中,为多域偏移损失;j、p和m均为域编号;log为以自然系数为底的对数函数;τ为温度系数;/>为预处理后的第m个域的第l个样本通过深度公共表示编码器编码后得到的公共表示;/>为预处理后的第p个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;l为样本编号;T为转置。
所述步骤S2038中总损失的表达式为:
其中,为总损失;βmg为多域偏移损失的权重;βcrc为公共表示分类损失的权重。
所述步骤S20310中收敛条件为连续5个批次的总损失满足:
其中,为第ep个批次的总损失;/>为第ep-1个批次的总损失;|·|为绝对值函数。
本发明采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理;让每个文本的嵌入特征更具有语义信息,带给后续模型更强的判别力;并通过鲁棒中心损失构建鲁棒的中心判别学习机制让公共子空间类内聚合,类间发散,采用随着训练轮次增大而减小的指示变量,约束模型充分运用神经网络的记忆效应,使其能够区分出噪声标签与干净标签信息,训练得到一个更为鲁棒的深度模型;以及通过公共表示分类损失构建公共表示空间一致性学习机制通过对公共表示的分布进行约束,从而消除域偏移,同时对公共表示的分类作约束,保留公共表示的原有判别力;本发明与常规的深度学习训练范式保持一致,过程简单,并采用类别中心-公共表示“一对多”的范式构造损失函数,极大减小了计算量。
Claims (7)
1.一种在噪声标签下鲁棒的跨域文本检索方法,其特征在于,包括以下步骤:
S1、获取待检索数据;
S2、获取带有噪声标签的训练数据,并根据训练数据建立跨域文本检索深度模型;所述步骤S2具体为:
S201、获取带有噪声标签的训练数据;
S202、根据训练数据,建立深度公共表示编码器和公共表示分类器;
S203、根据深度公共表示编码器和公共表示分类器,建立跨域文本检索深度模型;
所述步骤S202具体为:
S2021、结合双向长短时记忆网络Bi-LSTM和Doc2Vec骨干网络,建立并初始化深度公共表示编码器;
S2022、采用单隐层全连接神经网络,建立并初始化公共表示分类器;
所述步骤S203具体为:
S2031、将训练数据进行划分,得到批次训练数据集;
S2032、根据批次训练数据集,利用深度公共表示编码器,得到公共表示集;
S2033、根据批次训练数据集和公共表示集计算类别中心集;
S2034、根据公共表示集和类别中心集,利用鲁棒的中心判别学习机制计算鲁棒中心判别损失;
S2035、根据公共表示集,利用公共表示分类器得到公共表示预测结果集;
S2036、利用公共表示预测结果集、公共表示集中每个公共表示所对应的训练数据的类别标签计算公共表示分类损失;
S2037、根据在公共表示集中不同域但同一实例的公共表示,利用公共表示空间一致性学习机制计算多域偏移损失;
S2038、根据鲁棒中心判别损失、公共表示分类损失和多域偏移损失,得到总损失;
S2039、计算总损失的梯度,并进行反向优化传播;
S20310、判断总损失是否满足收敛条件,若是,则得到已训练的深度公共表示编码器,并进入步骤S20311,否则,返回步骤S2032;
S20311、根据已训练的深度公共表示编码器,将训练数据映射到公共子空间中,完成跨域文本检索深度模型的构建;
S3、利用所述跨域文本检索深度模型将待检索数据嵌入到公共表示空间,并采用最近邻法进行检索,得到跨域文本检索结果。
2.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S201具体为:
S2011、获取带有噪声标签的标签数据与包含多个域的文本数据;
S2012、根据标签数据和文本数据,利用结巴分词技术对文本数据进行分词,得到第一单词表;
S2013、利用汉语常用停用词表去掉第一单词表的常用停用词,得到单词表;
S2014、根据单词表,利用Zh-Bert预训练语言模型得到富含语义信息的深度中文文本数据词嵌入;
S2015、根据深度中文文本数据词嵌入,得到等长度的文本数据,并根据等长度的文本数据得到带有噪声标签的训练数据。
3.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S2034中鲁棒中心判别损失的表达式为:
其中,为鲁棒中心判别损失;M为域的数量;N为每个域内样本的数量;i为样本编号;j为域编号;υ为指示变量;/>为公共表示与公共空间聚类中心之间的语义差异;α为偏置常数;K为类别的数量;k为类别编号;e为以自然常数为底的指数函数;/>为第j个域的第i个样本的公共表示对应的类别;/>为公共表示空间内非第j个域的第i个样本的中心;为公共表示空间内第j个域的第i个样本的中心;/>为预处理后的第j个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;|·|为绝对值函数;T为转置。
4.根据权利要求3所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S2036中公共表示分类损失的表达式为:
其中,为公共表示分类损失;/>为使用/>进行分类的公共表示分类器;Γ为分类网络的权重。
5.根据权利要求4所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S2037中多域偏移损失的表达式为:
其中,为多域偏移损失;j、p和m均为域编号;log为以自然系数为底的对数函数;τ为温度系数;/>为预处理后的第m个域的第l个样本通过深度公共表示编码器编码后得到的公共表示;/>为预处理后的第p个域的第i个样本通过深度公共表示编码器编码后得到的公共表示;l为样本编号;T为转置。
6.根据权利要求5所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S2038中总损失的表达式为:
其中,为总损失;βmg为多域偏移损失的权重;βcrc为公共表示分类损失的权重。
7.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法,其特征在于,所述步骤S20310中收敛条件为连续5个批次的总损失满足:
其中,为第ep个批次的总损失;/>为第ep-1个批次的总损失;|·|为绝对值函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367958.3A CN116383342B (zh) | 2023-04-07 | 2023-04-07 | 一种在噪声标签下鲁棒的跨域文本检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367958.3A CN116383342B (zh) | 2023-04-07 | 2023-04-07 | 一种在噪声标签下鲁棒的跨域文本检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383342A CN116383342A (zh) | 2023-07-04 |
CN116383342B true CN116383342B (zh) | 2023-11-14 |
Family
ID=86968987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310367958.3A Active CN116383342B (zh) | 2023-04-07 | 2023-04-07 | 一种在噪声标签下鲁棒的跨域文本检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383342B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049526A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN113010700A (zh) * | 2021-03-01 | 2021-06-22 | 电子科技大学 | 一种基于类别信息对齐的图像文本跨模态检索方法 |
CN113177132A (zh) * | 2021-06-30 | 2021-07-27 | 中国海洋大学 | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114461836A (zh) * | 2022-02-10 | 2022-05-10 | 中南大学 | 一种用于图像-文本的跨模态检索方法 |
-
2023
- 2023-04-07 CN CN202310367958.3A patent/CN116383342B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049526A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN113010700A (zh) * | 2021-03-01 | 2021-06-22 | 电子科技大学 | 一种基于类别信息对齐的图像文本跨模态检索方法 |
CN113177132A (zh) * | 2021-06-30 | 2021-07-27 | 中国海洋大学 | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114461836A (zh) * | 2022-02-10 | 2022-05-10 | 中南大学 | 一种用于图像-文本的跨模态检索方法 |
Non-Patent Citations (3)
Title |
---|
融合深度典型相关分析和对抗学习的跨模态检索;刘立波; 苟婷婷;计算机科学;全文 * |
面向跨模态检索的协同注意力网络模型;邓一姣;张凤荔;陈学勤;艾擎;余苏喆;;计算机科学(04);全文 * |
面向跨模态检索的音频数据库内容匹配方法研究;张天;靳聪;帖云;李小兵;;信号处理(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116383342A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN115221947A (zh) | 一种基于预训练语言模型的鲁棒的多模态主动学习方法 | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN116383342B (zh) | 一种在噪声标签下鲁棒的跨域文本检索方法 | |
CN117273134A (zh) | 一种基于预训练语言模型的零样本知识图谱补全方法 | |
CN114077666A (zh) | 对话意图分类方法、装置和非易失性计算机存储介质 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116720519A (zh) | 一种苗医药命名实体识别方法 | |
CN113792121B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN110717015B (zh) | 一种基于神经网络的多义词识别方法 | |
CN114282537A (zh) | 一种面向社交文本的级联直线型实体关系抽取方法 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN114202013B (zh) | 一种基于自适应半监督的语义相似度计算方法 | |
CN116738345B (zh) | 分类处理方法、相关装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |