CN116226357A - 一种输入中包含错误信息场景下的文档检索方法 - Google Patents
一种输入中包含错误信息场景下的文档检索方法 Download PDFInfo
- Publication number
- CN116226357A CN116226357A CN202310517097.2A CN202310517097A CN116226357A CN 116226357 A CN116226357 A CN 116226357A CN 202310517097 A CN202310517097 A CN 202310517097A CN 116226357 A CN116226357 A CN 116226357A
- Authority
- CN
- China
- Prior art keywords
- text
- query
- document
- input
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 93
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种输入中包含错误信息场景下的文档检索方法,包括:步骤1,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集;步骤2,对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符;步骤3,将数据集中的不包含特殊字符的原始查询文本,不包含特殊字符的文档文本以及插入了特殊字符的包含错误的查询文本输入文档检索网络进行训练,获得文档检索模型;步骤4,使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档。本发明可以有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。
Description
技术领域
本发明涉及自然语言处理领域,并且更具体地,涉及一种输入中包含错误信息场景下的文档检索方法。
背景技术
文档检索技术是指从大量的文档中找出与用户查询相关的文档的技术,它是信息检索的一个重要分支。文档检索技术从最早的布尔模型,到向量空间模型、概率模型、语言模型等经典模型,再到近年来基于深度学习和预训练语言模型的神经排序模型,文档检索技术不断地引入新的理论和方法,提高了检索效果和效率。
文档检索技术可以应用于多种场景,如搜索引擎、问答系统、数据分析、数据管道等。不同场景下可能有不同的需求和挑战,比如数据规模、实时性、多样性、可解释性等。因此,需要根据具体场景选择合适的文档检索方法和策略。
随着互联网数据量和多样性不断增长,以及人工智能领域不断创新,文档检索技术也面临着新的机遇和挑战。在实际应用中,用户的查询可能存在多种形式和含义,文档也可能存在多种类型和质量,如果模型不能适应这些变化,就会导致检索结果不准确或不相关。因此,在设计和评估文档检索模型时,需要考虑其鲁棒性,并采用相应的方法来提高其鲁棒性。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种输入中包含错误信息场景下的文档检索方法,其目的在于解决有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。
为实验上述目的,按照本发明的一个方面,提供了一种输入中包含错误信息场景下的文档检索方法,包括如下步骤:
步骤1:通过拼写错误、顺序替换、停用词删除和同义替换等技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集。
优选的,从构建的初始训练集中提取查询文本,通过拼写错误、顺序替换、停用词删除和同义替换等文本数据处理技术生成新的查询文本,模拟输入中包含错误信息场景下的文本查询。
步骤2:对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符。
优选的,检测文本中单词的长度,得到文本中单词的数量信息;在文本中插入数量的20%的且最至少为1个[MASK]特殊字符。
步骤3:将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即可以用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;
优选的,基于特征编码的文档检索模型的网络结构,其中网络结构可以分为四个部分。
(1)将训练集中的原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后,预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。具体来说,人工设置了一个词汇表包括非ASCII符号在内的256个字符以及添加的一些如[MASK]、[CLS]、[SEP]等特殊标记,词汇表大小为263。首先会对所有单词进行字符级分割,而插入的特殊标记不会进行分割。将单词分割出来的每一个字符转化为一个最大长度为50的one-hot向量,如果字符不在词汇表内就用全零向量表示以保证输入的维度一致,然后将one-hot向量拼接成一个人工设置的维度为16的矩阵,表示为字符嵌入序列。
(2)将字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说,它由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。
(3)将生成的单词级向量表示通过两个Highway层增加一个非线性变化,从而得到上下文特征表示,以提高模型的表达能力和灵活性。
具体来说,所述Highway层的公式如下:
(4)上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层:多头自注意力和前馈神经网络。在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换。在前馈神经网络子层中,预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU,再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量,输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量,输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中,采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量。
最终的损失是由这三个损失函数的值进行加权求和得到的。
步骤4:使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档;
优选的,当模型接收到包含错误信息的查询是,依旧能够保持良好的检索准确率,具体如下:
当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的四部分操作后,得到最终的查询文本向量。为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
总体而言,通过本发现所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)所能处理的错误信息更多,包括:拼写错误、顺序替换、停用词删除和同义替换等,增加文档检索模型在真实环境中的鲁棒性。
(2)基于特征编码的文档检索模型的网络,可以有效避免错误信息对最终编码结果产生的影响以及对模型检索结果的提升,减少了信息损失。
(3)可以提升用户的检索体验,有效检索出用户真实想要的查询结果,减少错误信息对查询结果的影响。
附图说明
图1本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图。
图2本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的文档检索网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,是实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图,包含了错误处理网络训练模块,错误处理网络训练模块包括数据集预处理模型、数据集扩充模型和文档检索网络训练模块,用于学习输入中包含错误信息场景下查询和文档之间的隐藏特征,并且训练得到文档检索模型。实施例提供的一种输入中包含错误信息场景下的文档检索方法包括如下步骤:
(1)通过拼写错误、顺序替换、停用词删除和同义替换等技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集。
具体来说,若原始查询文本q为:who got the first nobel prize in physics,通过数据增强技术生成包含错误信息的查询文本:who got the firts nobel prize inphysics。而p表示的为一系列文档。
(2)对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符。
具体来说,检测到包含错误信息的查询文本的单词个数为8,通过计算得到将在文本中插入8的20%向下取整为1个特殊字符,在文本中随机进行插入,得到预处理后的包含错误信息的查询文本:who got [MASK] the firts nobel prize in physics。
(3)将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即可以用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;;
优选的,基于特征编码的文档检索模型的网络结构,其中网络结构可以分为五个部分。
(1)将原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后,预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。预设的字符编码会将文本进行字符级分割,如将单词firts分割为:f,i,r,t,s且[MASK]将直接作为一个字符不会进行分隔。分隔为字符后,将每个字符转化为长度为50的one-hot向量,然后将one-hot向量拼接成一个维度为16的矩阵,表示为字符嵌入序列。
(2)将上述得到的f,i,r,t,s的字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说,它由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将f,i,r,t,s的字符级向量合成为单词firts的单词级向量。
(3)将生成的单词级向量表示通过两个Highway层增加一个非线性变化,从而得到上下文特征表示,以提高模型的表达能力和灵活性。
具体来说,所述Highway层的公式如下:
(4)上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层:多头自注意力和前馈神经网络。在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换。在前馈神经网络子层中,预设的编码器将多头自注意力的输出送一个全连接层和一个激活函数ReLU,再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
(5)输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量,输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量,输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中,采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量。
最终的损失是由这三个损失函数的值进行加权求和得到的。
(4)使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档;
优选的,当模型接收到包含错误信息的查询是,依旧能够保持良好的检索准确率,具体如下:
当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的五部分操作后,得到最终的查询文本向量。为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
本发明不仅通过重新训练模型从而使模型能够处理更多种类的错误信息,而且当用户输入包含带有错误信息的查询时,能够有效的避免错误信息带来的检索精度下降的问题,有力的保证了用户的查询体验以及最终检索结果的精度。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种输入中包含错误信息场景下的文档检索方法,其特征在于,包括如下步骤:
步骤1,通过拼写错误、顺序替换、停用词删除和同义替换技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集;
步骤2,对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入MASK特殊字符;
步骤3,将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;
所述文档检索网络包括用于将输入的文本转换为字符嵌入序列的字符编码模块、用于将字符嵌入序列转换为单词级向量表示的CharacterCNN模块、用于将单词级向量表转换为上下文特征表示的Highway层和用于进一步学习上下文特征中包含的隐藏信息的Transformer编码器层;
输入的原始查询文本通过文档检索网络得到原始查询的文本词向量,输入的扩充及预处理后的包含错误的查询文本通过文档检索网络得到包含错误信息的查询文本词向量,输入的文档文本通过文档检索网络得到文档的文本词向量,然后采用交叉熵和余弦相似度作为损失函数以加快模型训练的收敛速度;
步骤4,使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档。
2.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:步骤2中插入MASK特殊字符的个数为文本中单词个数的20%,且至少为1个。
3.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:所述字符编码模块的具体处理过程如下;
首先,构建包括字符和特殊标记在内的词汇表,然后对所有单词进行字符级分割,而插入的特殊标记不会进行分割,将每一个字符转化为一个one-hot向量,如果字符不在字符表内就用全零向量表示以保证输入的维度一致,然后将one-hot向量拼接成一个矩阵,表示为字符嵌入序列。
4.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:所述CharacterCNN模块用于将字符嵌入序列转换为单词级的向量表示,CharacterCNN模块由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024];一维卷积层是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性,然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。
6.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:首先,将单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后再输入到Transformer编码器层,其中,所述文档检索网络中包括12个预设的Transformer编码器层;所述Transformer编码器层包含两个子层:多头自注意力和前馈神经网络,在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换;在前馈神经网络子层中,预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU,再送入另一个全连接层,这相当于对每个词进行非线性变换;输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度;残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
7.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布,通过损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置,下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置;
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置,下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置;
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量;
最终的损失函数是由上述三个损失函数的值进行加权求和得到的。
8.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:步骤4的具体实现方式为:当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的四部分操作后,得到最终的查询文本向量,为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示,查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310517097.2A CN116226357B (zh) | 2023-05-09 | 2023-05-09 | 一种输入中包含错误信息场景下的文档检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310517097.2A CN116226357B (zh) | 2023-05-09 | 2023-05-09 | 一种输入中包含错误信息场景下的文档检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226357A true CN116226357A (zh) | 2023-06-06 |
CN116226357B CN116226357B (zh) | 2023-07-14 |
Family
ID=86569986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310517097.2A Active CN116226357B (zh) | 2023-05-09 | 2023-05-09 | 一种输入中包含错误信息场景下的文档检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226357B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579301A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 文本数据增强方法及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319920A (ja) * | 1994-05-24 | 1995-12-08 | Hitachi Ltd | 文書検索方法及び装置 |
US20040255218A1 (en) * | 2002-02-21 | 2004-12-16 | Hitachi, Ltd. | Document retrieval method and document retrieval system |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN111382260A (zh) * | 2020-03-16 | 2020-07-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本纠错方法、装置和存储介质 |
US20200226126A1 (en) * | 2019-01-14 | 2020-07-16 | Alternative Experts, LLC | Vector-based contextual text searching |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
US20210005195A1 (en) * | 2019-07-01 | 2021-01-07 | Koninklijke Philips N.V. | Hierarchical self-attention for machine comprehension |
CN112732864A (zh) * | 2020-12-25 | 2021-04-30 | 中国科学院软件研究所 | 一种基于稠密伪查询向量表示的文档检索方法 |
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN113962228A (zh) * | 2021-10-26 | 2022-01-21 | 北京理工大学 | 一种基于记忆网络语义融合的长文档检索方法 |
US20220092099A1 (en) * | 2020-09-21 | 2022-03-24 | Samsung Electronics Co., Ltd. | Electronic device, contents searching system and searching method thereof |
CN116010553A (zh) * | 2022-12-17 | 2023-04-25 | 福州大学 | 一种基于双路编码和精确匹配信号的观点检索系统 |
-
2023
- 2023-05-09 CN CN202310517097.2A patent/CN116226357B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319920A (ja) * | 1994-05-24 | 1995-12-08 | Hitachi Ltd | 文書検索方法及び装置 |
US20040255218A1 (en) * | 2002-02-21 | 2004-12-16 | Hitachi, Ltd. | Document retrieval method and document retrieval system |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
US20200226126A1 (en) * | 2019-01-14 | 2020-07-16 | Alternative Experts, LLC | Vector-based contextual text searching |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
US20210005195A1 (en) * | 2019-07-01 | 2021-01-07 | Koninklijke Philips N.V. | Hierarchical self-attention for machine comprehension |
CN111382260A (zh) * | 2020-03-16 | 2020-07-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本纠错方法、装置和存储介质 |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
US20220092099A1 (en) * | 2020-09-21 | 2022-03-24 | Samsung Electronics Co., Ltd. | Electronic device, contents searching system and searching method thereof |
CN112732864A (zh) * | 2020-12-25 | 2021-04-30 | 中国科学院软件研究所 | 一种基于稠密伪查询向量表示的文档检索方法 |
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN113962228A (zh) * | 2021-10-26 | 2022-01-21 | 北京理工大学 | 一种基于记忆网络语义融合的长文档检索方法 |
CN116010553A (zh) * | 2022-12-17 | 2023-04-25 | 福州大学 | 一种基于双路编码和精确匹配信号的观点检索系统 |
Non-Patent Citations (2)
Title |
---|
ALESSANDRO VINCIARELLI: "Effect of recognition errors on information retrieval performance", 《NINTH INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING RECOGNITION》, pages 275 - 279 * |
庞焜元 等: "实体消歧中特征文本选取研究", 《计算机与数字工程》, vol. 45, no. 08, pages 1543 - 1547 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579301A (zh) * | 2023-07-14 | 2023-08-11 | 深圳须弥云图空间科技有限公司 | 文本数据增强方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116226357B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN109948691A (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN112732864B (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN112069831A (zh) | 基于bert模型和增强混合神经网络的不实信息检测方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN115658954B (zh) | 一种基于提示学习的跨模态检索对抗防御方法 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN110956039A (zh) | 一种基于多维度向量化编码的文本相似度计算方法及装置 | |
CN116662502A (zh) | 基于检索增强的金融问答文本生成方法、设备及存储介质 | |
CN111680529A (zh) | 一种基于层聚合的机器翻译算法及装置 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN115908641A (zh) | 一种基于特征的文本到图像生成方法、装置及介质 | |
CN113807079A (zh) | 一种基于序列到序列的端到端实体和关系联合抽取方法 | |
CN114662668A (zh) | 神经网络训练方法、语义相似度计算方法及语义检索系统 | |
CN118227769A (zh) | 一种基于知识图谱增强的大语言模型问答生成方法 | |
CN110992943A (zh) | 基于词混淆网络的语义理解方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |