CN116226357A - 一种输入中包含错误信息场景下的文档检索方法 - Google Patents

一种输入中包含错误信息场景下的文档检索方法 Download PDF

Info

Publication number
CN116226357A
CN116226357A CN202310517097.2A CN202310517097A CN116226357A CN 116226357 A CN116226357 A CN 116226357A CN 202310517097 A CN202310517097 A CN 202310517097A CN 116226357 A CN116226357 A CN 116226357A
Authority
CN
China
Prior art keywords
text
query
document
input
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310517097.2A
Other languages
English (en)
Other versions
CN116226357B (zh
Inventor
刘军平
龚明康
郭沛然
胡新荣
姚迅
杨捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202310517097.2A priority Critical patent/CN116226357B/zh
Publication of CN116226357A publication Critical patent/CN116226357A/zh
Application granted granted Critical
Publication of CN116226357B publication Critical patent/CN116226357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种输入中包含错误信息场景下的文档检索方法,包括:步骤1,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集;步骤2,对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符;步骤3,将数据集中的不包含特殊字符的原始查询文本,不包含特殊字符的文档文本以及插入了特殊字符的包含错误的查询文本输入文档检索网络进行训练,获得文档检索模型;步骤4,使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档。本发明可以有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。

Description

一种输入中包含错误信息场景下的文档检索方法
技术领域
本发明涉及自然语言处理领域,并且更具体地,涉及一种输入中包含错误信息场景下的文档检索方法。
背景技术
文档检索技术是指从大量的文档中找出与用户查询相关的文档的技术,它是信息检索的一个重要分支。文档检索技术从最早的布尔模型,到向量空间模型、概率模型、语言模型等经典模型,再到近年来基于深度学习和预训练语言模型的神经排序模型,文档检索技术不断地引入新的理论和方法,提高了检索效果和效率。
文档检索技术可以应用于多种场景,如搜索引擎、问答系统、数据分析、数据管道等。不同场景下可能有不同的需求和挑战,比如数据规模、实时性、多样性、可解释性等。因此,需要根据具体场景选择合适的文档检索方法和策略。
随着互联网数据量和多样性不断增长,以及人工智能领域不断创新,文档检索技术也面临着新的机遇和挑战。在实际应用中,用户的查询可能存在多种形式和含义,文档也可能存在多种类型和质量,如果模型不能适应这些变化,就会导致检索结果不准确或不相关。因此,在设计和评估文档检索模型时,需要考虑其鲁棒性,并采用相应的方法来提高其鲁棒性。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种输入中包含错误信息场景下的文档检索方法,其目的在于解决有效避免查询中包含错误信息的场景下,文档检索模型检索准确率下降的状况。
为实验上述目的,按照本发明的一个方面,提供了一种输入中包含错误信息场景下的文档检索方法,包括如下步骤:
步骤1:通过拼写错误、顺序替换、停用词删除和同义替换等技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集。
优选的,从构建的初始训练集中提取查询文本,通过拼写错误、顺序替换、停用词删除和同义替换等文本数据处理技术生成新的查询文本,模拟输入中包含错误信息场景下的文本查询。
步骤2:对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符。
优选的,检测文本中单词的长度,得到文本中单词的数量信息;在文本中插入数量的20%的且最至少为1个[MASK]特殊字符。
步骤3:将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即可以用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;
优选的,基于特征编码的文档检索模型的网络结构,其中网络结构可以分为四个部分。
(1)将训练集中的原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后,预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。具体来说,人工设置了一个词汇表包括非ASCII符号在内的256个字符以及添加的一些如[MASK]、[CLS]、[SEP]等特殊标记,词汇表大小为263。首先会对所有单词进行字符级分割,而插入的特殊标记不会进行分割。将单词分割出来的每一个字符转化为一个最大长度为50的one-hot向量,如果字符不在词汇表内就用全零向量表示以保证输入的维度一致,然后将one-hot向量拼接成一个人工设置的维度为16的矩阵,表示为字符嵌入序列。
(2)将字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说,它由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。
(3)将生成的单词级向量表示通过两个Highway层增加一个非线性变化,从而得到上下文特征表示,以提高模型的表达能力和灵活性。
具体来说,所述Highway层的公式如下:
Figure SMS_1
其中H是一个全连接层加一个ReLU激活函数,T是一个全连接层加一个sigmoid激活函数,
Figure SMS_2
Figure SMS_3
是可学习的权重矩阵,x是输入向量,y是输出向量。
(4)上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层:多头自注意力和前馈神经网络。在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换。在前馈神经网络子层中,预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU,再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量,输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量,输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中,采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。
进一步的,通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布,通过
Figure SMS_4
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure SMS_5
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
进一步的,通过包含错误信息的查询的文本词向量与文档的文本词向量进行矩阵相乘得到包含错误信息的查询与文档之间的相似度分布,通过
Figure SMS_6
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure SMS_7
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
进一步的,通过
Figure SMS_8
损失函数计算原始查询的文本词向量与包含错误信息的查询词向量之间的相似度损失,公式如下:
Figure SMS_9
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量。
最终的损失是由这三个损失函数的值进行加权求和得到的。
步骤4:使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档;
优选的,当模型接收到包含错误信息的查询是,依旧能够保持良好的检索准确率,具体如下:
当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的四部分操作后,得到最终的查询文本向量。为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
总体而言,通过本发现所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)所能处理的错误信息更多,包括:拼写错误、顺序替换、停用词删除和同义替换等,增加文档检索模型在真实环境中的鲁棒性。
(2)基于特征编码的文档检索模型的网络,可以有效避免错误信息对最终编码结果产生的影响以及对模型检索结果的提升,减少了信息损失。
(3)可以提升用户的检索体验,有效检索出用户真实想要的查询结果,减少错误信息对查询结果的影响。
附图说明
图1本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图。
图2本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的文档检索网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,是实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图,包含了错误处理网络训练模块,错误处理网络训练模块包括数据集预处理模型、数据集扩充模型和文档检索网络训练模块,用于学习输入中包含错误信息场景下查询和文档之间的隐藏特征,并且训练得到文档检索模型。实施例提供的一种输入中包含错误信息场景下的文档检索方法包括如下步骤:
(1)通过拼写错误、顺序替换、停用词删除和同义替换等技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集。
具体来说,若原始查询文本q为:who got the first nobel prize in physics,通过数据增强技术生成包含错误信息的查询文本
Figure SMS_10
:who got the firts nobel prize inphysics。而p表示的为一系列文档。
(2)对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入[MASK]特殊字符。
具体来说,检测到包含错误信息的查询文本的单词个数为8,通过计算得到将在文本中插入8的20%向下取整为1个特殊字符,在文本中随机进行插入,得到预处理后的包含错误信息的查询文本:who got [MASK] the firts nobel prize in physics。
(3)将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即可以用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;;
优选的,基于特征编码的文档检索模型的网络结构,其中网络结构可以分为五个部分。
(1)将原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后,预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。预设的字符编码会将文本进行字符级分割,如将单词firts分割为:f,i,r,t,s且[MASK]将直接作为一个字符不会进行分隔。分隔为字符后,将每个字符转化为长度为50的one-hot向量,然后将one-hot向量拼接成一个维度为16的矩阵,表示为字符嵌入序列。
(2)将上述得到的f,i,r,t,s的字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说,它由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将f,i,r,t,s的字符级向量合成为单词firts的单词级向量。
(3)将生成的单词级向量表示通过两个Highway层增加一个非线性变化,从而得到上下文特征表示,以提高模型的表达能力和灵活性。
具体来说,所述Highway层的公式如下:
Figure SMS_11
其中H是一个全连接层加一个ReLU激活函数,T是一个全连接层加一个sigmoid激活函数,
Figure SMS_12
Figure SMS_13
是可学习的权重矩阵,x是输入向量,y是输出向量。
(4)上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层:多头自注意力和前馈神经网络。在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换。在前馈神经网络子层中,预设的编码器将多头自注意力的输出送一个全连接层和一个激活函数ReLU,再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
(5)输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量,输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量,输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中,采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。
进一步的,通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布,通过
Figure SMS_14
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure SMS_15
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
进一步的,通过包含错误信息的查询的文本词向量与文档的文本词向量进行矩阵相乘得到包含错误信息的查询与文档之间的相似度分布,通过
Figure SMS_16
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure SMS_17
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置。下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置。
进一步的,通过
Figure SMS_18
损失函数计算原始查询的文本词向量与包含错误信息的查询词向量之间的相似度损失,公式如下:
Figure SMS_19
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量。
最终的损失是由这三个损失函数的值进行加权求和得到的。
(4)使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档;
优选的,当模型接收到包含错误信息的查询是,依旧能够保持良好的检索准确率,具体如下:
当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的五部分操作后,得到最终的查询文本向量。为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
本发明不仅通过重新训练模型从而使模型能够处理更多种类的错误信息,而且当用户输入包含带有错误信息的查询时,能够有效的避免错误信息带来的检索精度下降的问题,有力的保证了用户的查询体验以及最终检索结果的精度。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种输入中包含错误信息场景下的文档检索方法,其特征在于,包括如下步骤:
步骤1,通过拼写错误、顺序替换、停用词删除和同义替换技术,对原始的查询文本进行攻击,生成一个包含错误信息的查询文本,以扩充数据集;
步骤2,对生成的包含错误信息的查询文本进行预处理,检测其文本单词个数,并在其文本中随机插入MASK特殊字符;
步骤3,将数据集中的不包含特殊字符的原始查询文本,插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本,即用于回答查询的一串文字表示,输入到文档检索网络进行训练,获得文档检索模型;
所述文档检索网络包括用于将输入的文本转换为字符嵌入序列的字符编码模块、用于将字符嵌入序列转换为单词级向量表示的CharacterCNN模块、用于将单词级向量表转换为上下文特征表示的Highway层和用于进一步学习上下文特征中包含的隐藏信息的Transformer编码器层;
输入的原始查询文本通过文档检索网络得到原始查询的文本词向量,输入的扩充及预处理后的包含错误的查询文本通过文档检索网络得到包含错误信息的查询文本词向量,输入的文档文本通过文档检索网络得到文档的文本词向量,然后采用交叉熵和余弦相似度作为损失函数以加快模型训练的收敛速度;
步骤4,使用训练好的文档检索模型进行结果测试,当输入一个查询时输出一系列与该查询最相关的文档。
2.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:步骤2中插入MASK特殊字符的个数为文本中单词个数的20%,且至少为1个。
3.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:所述字符编码模块的具体处理过程如下;
首先,构建包括字符和特殊标记在内的词汇表,然后对所有单词进行字符级分割,而插入的特殊标记不会进行分割,将每一个字符转化为一个one-hot向量,如果字符不在字符表内就用全零向量表示以保证输入的维度一致,然后将one-hot向量拼接成一个矩阵,表示为字符嵌入序列。
4.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:所述CharacterCNN模块用于将字符嵌入序列转换为单词级的向量表示,CharacterCNN模块由7个不同的一维卷积层组成,卷积核的大小和卷积核的个数为:[1,32],[2,32],[3,64],[4,128],[5,256],[6,512],[7,1024];一维卷积层是通过滑动窗口和卷积核对输入特征进行局部特征提取,然后通过ReLU激活函数增加非线性,然后每个卷积层的输出在字符序列中进行最大池化,并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。
5.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:所述Highway层的公式如下:
Figure QLYQS_1
其中H是一个全连接层加一个ReLU激活函数,T是一个全连接层加一个sigmoid激活函数,
Figure QLYQS_2
Figure QLYQS_3
是可学习的权重矩阵,x是输入向量,y是输出向量;
其中,所述文档检索网络中包括两个Highway层。
6.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:首先,将单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示,然后再输入到Transformer编码器层,其中,所述文档检索网络中包括12个预设的Transformer编码器层;所述Transformer编码器层包含两个子层:多头自注意力和前馈神经网络,在多头自注意力子层中,会将嵌入向量分成多个头,每个头都进行自注意力操作,具体来说,计算输入序列中每个词与其他词之间的相关性,并根据相对性对输入序列进行加权平均,然后预设的编码器将多个头的输出拼接起来,并进行线性变换;在前馈神经网络子层中,预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU,再送入另一个全连接层,这相当于对每个词进行非线性变换;输入的上下文特征表示在经过每一个Transformer层后,还会进行残差连接和层归一化以提高模型的稳定性和收敛速度;残差连接就是将子层的输入和输出相加,层归一化就是将每个词向量沿着维度方向进行标准化,使其均值为0,方差为1。
7.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布,通过
Figure QLYQS_4
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure QLYQS_5
其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置,下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置;
通过包含错误信息的查询的文本词向量与文档的文本词向量进行矩阵相乘得到包含错误信息的查询与文档之间的相似度分布,通过
Figure QLYQS_6
损失函数计算相似度分布与真实标签的交叉熵损失,公式如下:
Figure QLYQS_7
其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵,下标pos表示的是相似度分布矩阵中,原始查询与真实标签对应的位置,下标neg表示的是相似度分布中,除原始查询与真实标签对应的位置的其他位置;
通过
Figure QLYQS_8
损失函数计算原始查询的文本词向量与包含错误信息的查询词向量之间的相似度损失,公式如下:
Figure QLYQS_9
其中A是原始查询的文本词向量与,B是包含错误信息的查询词向量;
最终的损失函数是由上述三个损失函数的值进行加权求和得到的。
8.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法,其特征在于:步骤4的具体实现方式为:当接收到用户输入的一个查询时,无论是否包含错误信息,将查询文本通过步骤3的四部分操作后,得到最终的查询文本向量,为节省检索时的时间消耗,所有的文档采用离线编码的方法,具体来说,当文档检索模型训练完成后,对所有的文档直接进行编码并且直接保存文档的向量表示,查询文本经过文档检索模型生成最终的向量表示后,与磁盘上保存的文档向量进行相似度计算,并且文档检索模型将最终返回一系列与该查询最相关的文档。
CN202310517097.2A 2023-05-09 2023-05-09 一种输入中包含错误信息场景下的文档检索方法 Active CN116226357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310517097.2A CN116226357B (zh) 2023-05-09 2023-05-09 一种输入中包含错误信息场景下的文档检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310517097.2A CN116226357B (zh) 2023-05-09 2023-05-09 一种输入中包含错误信息场景下的文档检索方法

Publications (2)

Publication Number Publication Date
CN116226357A true CN116226357A (zh) 2023-06-06
CN116226357B CN116226357B (zh) 2023-07-14

Family

ID=86569986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310517097.2A Active CN116226357B (zh) 2023-05-09 2023-05-09 一种输入中包含错误信息场景下的文档检索方法

Country Status (1)

Country Link
CN (1) CN116226357B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579301A (zh) * 2023-07-14 2023-08-11 深圳须弥云图空间科技有限公司 文本数据增强方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319920A (ja) * 1994-05-24 1995-12-08 Hitachi Ltd 文書検索方法及び装置
US20040255218A1 (en) * 2002-02-21 2004-12-16 Hitachi, Ltd. Document retrieval method and document retrieval system
JP2005149014A (ja) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 文書関連語彙獲得方法及び装置及びプログラム
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
US20200226126A1 (en) * 2019-01-14 2020-07-16 Alternative Experts, LLC Vector-based contextual text searching
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统
US20210005195A1 (en) * 2019-07-01 2021-01-07 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension
CN112732864A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于稠密伪查询向量表示的文档检索方法
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN113962228A (zh) * 2021-10-26 2022-01-21 北京理工大学 一种基于记忆网络语义融合的长文档检索方法
US20220092099A1 (en) * 2020-09-21 2022-03-24 Samsung Electronics Co., Ltd. Electronic device, contents searching system and searching method thereof
CN116010553A (zh) * 2022-12-17 2023-04-25 福州大学 一种基于双路编码和精确匹配信号的观点检索系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319920A (ja) * 1994-05-24 1995-12-08 Hitachi Ltd 文書検索方法及び装置
US20040255218A1 (en) * 2002-02-21 2004-12-16 Hitachi, Ltd. Document retrieval method and document retrieval system
JP2005149014A (ja) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 文書関連語彙獲得方法及び装置及びプログラム
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
US20200226126A1 (en) * 2019-01-14 2020-07-16 Alternative Experts, LLC Vector-based contextual text searching
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US20210005195A1 (en) * 2019-07-01 2021-01-07 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统
US20220092099A1 (en) * 2020-09-21 2022-03-24 Samsung Electronics Co., Ltd. Electronic device, contents searching system and searching method thereof
CN112732864A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于稠密伪查询向量表示的文档检索方法
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN113962228A (zh) * 2021-10-26 2022-01-21 北京理工大学 一种基于记忆网络语义融合的长文档检索方法
CN116010553A (zh) * 2022-12-17 2023-04-25 福州大学 一种基于双路编码和精确匹配信号的观点检索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO VINCIARELLI: "Effect of recognition errors on information retrieval performance", 《NINTH INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING RECOGNITION》, pages 275 - 279 *
庞焜元 等: "实体消歧中特征文本选取研究", 《计算机与数字工程》, vol. 45, no. 08, pages 1543 - 1547 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579301A (zh) * 2023-07-14 2023-08-11 深圳须弥云图空间科技有限公司 文本数据增强方法及装置

Also Published As

Publication number Publication date
CN116226357B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111694924B (zh) 一种事件抽取方法和系统
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN109948691A (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN112069831A (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN110956039A (zh) 一种基于多维度向量化编码的文本相似度计算方法及装置
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN114048290A (zh) 一种文本分类方法及装置
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN113807079A (zh) 一种基于序列到序列的端到端实体和关系联合抽取方法
CN114662668A (zh) 神经网络训练方法、语义相似度计算方法及语义检索系统
CN118227769A (zh) 一种基于知识图谱增强的大语言模型问答生成方法
CN110992943A (zh) 基于词混淆网络的语义理解方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant