CN116662582A

CN116662582A - 基于自然语言的特定领域业务知识检索方法及检索装置

Info

Publication number: CN116662582A
Application number: CN202310954971.9A
Authority: CN
Inventors: 邱洪涛; 高渐朋
Original assignee: Chengdu Ict Information Technology Co ltd
Current assignee: Chengdu Ict Information Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-08-29
Anticipated expiration: 2043-08-01
Also published as: CN116662582B

Abstract

本发明公开了一种基于自然语言的特定领域业务知识检索方法及检索装置，包括：构建预训练语言模型；对业务知识数据进行特征表示，获得由特征向量构成的数据库；构建语言理解模型；输入自然语句并通过语言理解模型获得检索提问的查询向量；计算查询向量与数据库中的特征向量的相似度；并返回前k个特征向量对应的业务知识；本发明通过构建预训练语言模型和语言理解模型，可以更好地理解用户的查询意图，从而更准确地匹配和检索相关的业务知识。同时，通过计算查询向量与数据库中的特征向量的相似度，可以更快速地找到与查询最相关的业务知识，大大提高了检索的效率。

Description

基于自然语言的特定领域业务知识检索方法及检索装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于自然语言的特定领域业务知识检索方法及检索装置。

背景技术

现有的知识检索技术主要包括关键字搜索、文本匹配、语义匹配等。这些方法一般需要对知识库进行人工分类，然后通过设定特定的搜索算法或者规则，对输入的关键字或者查询语句进行匹配，从而返回相关的结果。这些传统的知识检索方法在处理大规模、多领域、多样性的数据时，可能会遇到搜索效率低、匹配准确性低、无法理解复杂语义等问题。

现有的知识检索方法，尤其是关键词搜索和简单的文本匹配，无法理解查询的真实意图和复杂语义，也无法处理模糊查询。例如，如果用户输入的查询句子包含一些模糊的、非关键词的表述，传统的知识检索方法可能会无法返回正确的结果。

随着互联网和信息技术的发展，特定领域的业务知识数据量日益增长，这使得知识检索变得更加困难。现有的知识检索方法可能无法有效处理大规模的数据，而且难以适应不断变化和更新的知识库。

因此，我们需要一种更智能、更灵活、更高效的知识检索方法，以提高知识检索的效率和准确性，同时也能适应大规模、多样性、不断变化的数据环境。

发明内容

本发明所要解决的技术问题是传统知识检索方法只能进行简单的关键词匹配，可能无法返回正确的结果，目的在于提供一种基于自然语言的特定领域业务知识检索方法及检索装置，实现了通过自然语言进行检索，更好地理解的查询意图，更准确地匹配和检索相关的业务知识。

本发明通过下述技术方案实现：

一种基于自然语言的特定领域业务知识检索方法，包括：

构建针对特定领域的预训练语言模型；

通过该预训练语言模型对业务知识数据进行特征表示，获得由特征向量构成的数据库；

构建进行知识检索的语言理解模型；

向语言理解模型输入进行检索提问的自然语句，并通过语言理解模型获得检索提问的查询向量；

将查询向量发送至数据库，计算查询向量与数据库中的特征向量的相似度；

按照相似度降序排序，并返回前k个特征向量对应的业务知识；

完成对特定领域业务知识的检索。

具体地，所述预训练语言模型的构建方法包括：

构建Transformer模型，并收集特定领域业务知识的文本语料；

对文本语料进行遮罩处理，获得预处理数据；遮罩策略包括掩字遮罩和掩词遮罩；

对预处理数据进行字词嵌入和位置编码，获得第一数据；

将第一数据输入至Transformer编码器，并通过多个串联的编码器逐层处理后获得第二数据；

构建掩码语言模型，并将第二数据输入至掩码语言模型，掩码语言模型输出针对预处理数据的预测数据，并将预测数据作为特征表示。

具体地，Transformer编码器的训练方法包括：

将第一数据输入至编码器的注意力层，并将注意力层的查询矩阵、键矩阵、值矩阵进行多次线性变换后计算点积注意力分数，并将注意力分数进行拼接，再经过线性变换获得多头注意力分数；

通过残差连接将注意力层的输入和输出相加，并经过归一化将神经网络中隐藏层规范化为标准正态分布，获得第一向量；

将获得的第一向量输入至编码器的前馈层，前馈层将第一向量投影至高维空间并获得前馈输出；

通过残差连接将前馈层的输入和输出相加，并经过归一化将神经网络中隐藏层规范化为标准正态分布，获得编码器输出；

具体地，所述掩码语言模型的训练优化目标函数为：，其中，/>为被遮罩的字词数量，/>为词典，/>为掩码语言模型参数，/>为模型掩码预测结构的似然函数。

具体地，所述语言理解模型的构建方法包括：

构建基于LSTM的意图编码器，并输出的自然语句的字词级别的意图特征；

构建嵌入器，根据字词的意图特征将字词与其对应的业务知识进行整合，获得字词级别的知识特征集；

通过知识特征集获得知识上下文向量；

构建解码器，以字词级别的意图特征和知识上下文向量为输入，通过解码器输出输出字词级别的意图预测结果；

通过字词级别的意图预测结果输出语句级别的意图预测结果，，其中，/>为语句的长度，/>为意图标签的数量，/>为第j位为1且其他位为0的/>维0-1向量，为第i个字词级别的意图预测结果，/>为衡量预测结果预测结果中字词是否与实际标签匹配的指示函数；

通过预训练的词嵌入模型将意图预测结果中的字词转换为词向量，在对所有词向量平均获得查询向量。

具体地，字词级别的意图特征的获得方法包括：

构建BERT编码器，并将字词输入至BERT编码器后通过BERT编码器输出T个维度为d的隐藏层状态向量和1个用于分类任务的d为特殊向量，并用隐藏层状态向量表示字词级别的语义槽值特征；用特殊向量表示语句级别的意图特征；其中T为输入的自然语言的长度，d为维度；

将语义槽值特征输入至意图编码器，并将特殊向量作为意图编码器的初始隐藏层状态输入，然后隐射出相对应的T个维度为d的字词级别的意图特征。

具体地，字词级别的知识特征集的获得方法包括：

确定第i字词对应的意图特征，并确定与第i字词对应的n条业务知识，并获得n条业务知识的概念集/>；

使用注意力机制计算概念集中每一条业务知识与第i字词之间的相关性系数b；

通过相关性系数b进行加权计算后，获得第i字词的n维知识特征；

将第i字词的位置编码嵌入其所对应的n位知识特征，获得知识特征集。

具体地，知识上下文向量的获得方法包括：

通过注意力机制计算第i个字词与知识特征的相关性系数，并通过加权计算获得第i个字词的多维知识上下文向量：/>，/>，其中，/>为知识特征集中的元素，W为经训练的权重参数，/>为字词对应的意图特征，/>为字词对应的语义槽值特征；

对多维知识上下文向量进行层标准化，获得自然语句的知识上下文向量。

具体地，字词级别的意图预测结果的获得方法包括：

以字词级别的意图特征和知识上下文向量为输入，通过基于LSTM的解码器映射出字词级别意图特征，并经过层标准化处理意图特征；

计算获得字词级别的意图检测结果，其中，/>为可训练参数。

一种基于自然语言的特定领域业务知识检索装置，包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法的步骤。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明通过构建预训练语言模型和语言理解模型，可以更好地理解用户的查询意图，从而更准确地匹配和检索相关的业务知识。同时，通过计算查询向量与数据库中的特征向量的相似度，可以更快速地找到与查询最相关的业务知识，大大提高了检索的效率。

本发明通过构建特征向量数据库，我们可以有效地组织和管理大规模的业务知识数据。而预训练的语言模型可以持续地学习和适应新的业务知识，保证了检索的实时性和准确性。

通过语言理解模型对自然语句进行解析，不仅可以理解用户的查询意图，而且可以处理复杂的语义和模糊的查询。还可以根据相似度的分布自动确定返回的结果数量，提供了更智能的检索服务。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分，并不构成对本发明实施例的限定。

图1是根据本发明所述的一种基于自然语言的特定领域业务知识检索方法的流程示意图。

图2是根据本发明所述的构建预训练语言模型的流程示意图。

图3是根据本发明所述的构建语言理解模型的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

实施例一

如图1所示，提供一种基于自然语言的特定领域业务知识检索方法，包括：

第一步，构建针对特定领域的预训练语言模型，通过该预训练语言模型对业务知识数据进行特征表示，获得由特征向量构成的数据库；

为了得到能够理解特定领域语言特性的模型。预训练语言模型通常通过大量的无标注文本数据进行训练，从而学习语言的语义和语法规则。对于特定领域，我们可以选择相关的文本数据进行训练，使得模型能够理解并生成该领域的语言。这一步是基于深度学习的自我监督学习，通常使用的模型包括BERT、GPT等。

为了将业务知识数据转化为机器可理解的形式，预训练语言模型会将文本数据转化为高维空间中的向量，这些向量能够保留文本数据的语义信息。然后，我们将这些特征向量组织成数据库，用于后续的知识检索。

第二步，构建进行知识检索的语言理解模型；向语言理解模型输入进行检索提问的自然语句，并通过语言理解模型获得检索提问的查询向量。

第三步，将查询向量发送至数据库，计算查询向量与数据库中的特征向量的相似度。

目的是找到与查询最相关的业务知识。我们通常使用一种相似度计算方法来计算查询向量与数据库中的特征向量的相似度，如余弦相似度或欧氏距离等。

第四步，按照相似度降序排序，并返回前k个特征向量对应的业务知识；完成对特定领域业务知识的检索。

k值可以是动态的，根据查询的复杂度和相似度的分布来决定返回多少个结果。同时，也可以提供一个解释界面，帮助用户理解返回的结果。

在本实施例中，第一步和第二步可以同步进行也可以异步进行。

实施例二

如图2所示，本实施例中预训练语言模型的构建方法进行说明，方法包括：

构建Transformer模型，并收集特定领域业务知识的文本语料。

首先要构建一个基于 Transformer 架构的模型。Transformer 是一个自注意力（self-attention）机制的模型，能够处理变长的输入序列，处理的时候能考虑序列中所有元素之间的交互关系。然后，收集特定领域相关的大量文本数据，数据用于训练该模型，使其理解并适应特定领域。

对文本语料进行遮罩处理，获得预处理数据；遮罩策略包括掩字遮罩和掩词遮罩。

预处理数据时，随机遮盖一些字词或者字符，然后让模型预测这些被遮盖的部分。这样可以帮助模型学习理解上下文以及字词之间的关系。

对预处理数据进行字词嵌入和位置编码，获得第一数据；字词嵌入（wordembedding）是将字词或字符转化为实数向量的过程，使得语义相近的字词或者字符在向量空间中的位置更接近。位置编码则是在词向量中加入位置信息，因为在自然语言处理中，字词的顺序和位置对理解语义往往非常重要。

将第一数据输入至Transformer编码器，并通过多个串联的编码器逐层处理后获得第二数据；Transformer 模型中的编码器由多个相同的层堆叠而成，每一层主要包含一个多头自注意力机制（Multi-Head Self-Attention）和一个前馈神经网络（Feed ForwardNeural Network）。这两个子层都有残差连接和层归一化。第一数据（经过词嵌入和位置编码的输入）首先被送入自注意力机制，然后通过前馈神经网络，逐层处理后得到第二数据。

构建掩码语言模型，并将第二数据输入至掩码语言模型，掩码语言模型输出针对预处理数据的预测数据，并将预测数据作为特征表示。掩码语言模型是用于预训练的模型，目标是预测在输入中被掩码的部分。将经过 Transformer 编码器处理后的第二数据输入到掩码语言模型，然后让模型预测被掩码的部分，这样可以让模型在预训练阶段学习语言的内在结构和上下文关系。

本实施例中掩码语言模型的训练优化目标函数为：，其中，/>为被遮罩的字词数量，/>为词典，/>为掩码语言模型参数，/>为模型掩码预测结构的似然函数。

Transformer编码器的训练方法包括：

将第一数据输入至编码器的注意力层，并将注意力层的查询矩阵、键矩阵、值矩阵进行多次线性变换后计算点积注意力分数，并将注意力分数进行拼接，再经过线性变换获得多头注意力分数；输入数据（经过嵌入和位置编码的数据，也就是第一数据）被分成“查询（query）”、“键（key）”和“值（value）”三部分，它们都会经过一次线性变换。然后，计算查询和键的点积以得到注意力分数，这个分数表明模型应该对输入数据中的哪些部分付予更多的注意力。这个过程会在多个不同的表示空间中进行，每个空间被称为一个“头”，最后，所有头的输出被拼接起来，然后经过一次线性变换，得到多头注意力的输出。

通过残差连接将注意力层的输入和输出相加，并经过归一化将神经网络中隐藏层规范化为标准正态分布，获得第一向量；残差连接（Residual Connection）和归一化（Normalization）操作都是为了防止神经网络的训练过程中出现梯度消失或者梯度爆炸的问题。残差连接是指将输入直接添加到输出，而归一化则是让隐藏层的输出在各个维度上都接近标准正态分布。

将获得的第一向量输入至编码器的前馈层，前馈层将第一向量投影至高维空间并获得前馈输出；前馈层（Feed Forward layer）是一个全连接的神经网络，它将自注意力机制的输出进行处理，然后输出到下一个层次。它会将输入投影到一个高维空间，然后再投影回原始维度，从而产生前馈的输出。

通过残差连接将前馈层的输入和输出相加，并经过归一化将神经网络中隐藏层规范化为标准正态分布，获得编码器输出；与第二步类似，只不过是针对前馈层的。通过将前馈层的输入和输出相加，并对结果进行归一化处理，可以得到编码器的最终输出

实施例三

如图3所示，本实施例对语言理解模型的构建方法进行说明，方法包括：

构建基于LSTM的意图编码器，并输出的自然语句的字词级别的意图特征；LSTM（Long Short Term Memory）是一种特殊的循环神经网络（RNN），它能够在处理序列数据时，有效地捕获长距离的依赖关系。本步骤中使用一个基于LSTM的编码器，来读取输入的自然语句，并为每个字词生成一个含有意图信息的特征向量。这个特征向量能够捕获到该字词在整个句子中的语义信息，以及它与其他字词的关系。

构建嵌入器，根据字词的意图特征将字词与其对应的业务知识进行整合，获得字词级别的知识特征集；将意图特征与对应的业务知识进行整合，生成一个知识特征集，实现将意图特征与业务知识的关联。

通过知识特征集获得知识上下文向量；知识特征集包含了每个字词的知识特征，这些特征一起构成了一个包含了所有字词信息的集合。然后，将这些特征整合成一个单一的向量，这个向量被称为知识上下文向量。

构建解码器，以字词级别的意图特征和知识上下文向量为输入，通过解码器输出输出字词级别的意图预测结果；将之前生成的意图特征和知识上下文向量作为输入，输入到一个解码器（也可以是一个LSTM模型）中。解码器的任务是预测每个字词的意图。

通过字词级别的意图预测结果输出语句级别的意图预测结果，，其中，/>为语句的长度，/>为意图标签的数量，/>为第j位为1且其他位为0的/>维0-1向量，为第i个字词级别的意图预测结果，/>为衡量预测结果预测结果中字词是否与实际标签匹配的指示函数；把解码器生成的字词级别的意图预测结果整合成一个语句级别的意图预测。

通过预训练的词嵌入模型将意图预测结果中的字词转换为词向量，在对所有词向量平均获得查询向量。使用一个预训练的词嵌入模型（例如Word2Vec或者GloVe）将每个字词转换为一个词向量。然后将所有的词向量进行平均，得到一个查询向量。这个查询向量可以被看作是表示整个句子语义的一个单一的向量，它可以用于后续的检索任务。

字词级别的意图特征的获得方法包括：

构建BERT编码器，并将字词输入至BERT编码器后通过BERT编码器输出T个维度为d的隐藏层状态向量和1个用于分类任务的d为特殊向量，并用隐藏层状态向量表示字词级别的语义槽值特征；用特殊向量表示语句级别的意图特征；其中T为输入的自然语言的长度，d为维度；BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的深度学习模型，用于自然语言处理任务。在此步骤中，每个字词都会被输入到BERT编码器中。对于每个输入的字词，BERT编码器会输出一个d维的隐藏层状态向量。这些向量会捕获每个字词的深层次语义信息。除了这些向量外，BERT编码器还会输出一个特殊的向量，该向量常用于执行分类任务。隐藏层状态向量被用来表示每个字词的语义槽值特征，这些特征反映了每个字词在特定上下文中的语义角色。同时，特殊向量被用来表示整个语句的意图特征，该特征能够把握语句的整体含义和目的。

将语义槽值特征输入至意图编码器，并将特殊向量作为意图编码器的初始隐藏层状态输入，然后隐射出相对应的T个维度为d的字词级别的意图特征。利用一个意图编码器来处理字词级别的语义槽值特征。这个意图编码器的初始隐藏层状态输入是前面获取的特殊向量，这个向量包含了整个句子的意图信息。通过这个过程，意图编码器能够根据每个字词的语义槽值特征和整个句子的意图特征，生成对应的字词级别的意图特征。

通过使用注意力机制和位置编码，将业务知识与特定领域的字词关联起来，得到一个详细的知识特征集，字词级别的知识特征集的获得方法包括：

使用注意力机制计算概念集中每一条业务知识与第i字词之间的相关性系数b；注意力机制是一种计算模型，可以测量输入之间的相关性。本步骤中使用注意力机制计算第i个字词与概念集中的每一条业务知识之间的相关性

通过相关性系数b进行加权计算后，获得第i字词的n维知识特征，知识特征能够反映第i个字词与各个业务知识之间的关联性；

将第i字词的位置编码嵌入其所对应的n位知识特征，获得知识特征集。把第i个字词的位置信息编码到它的知识特征中，编码过程确保了每个字词的位置信息被保存下来。

知识上下文向量的获得方法包括：

通过注意力机制计算第i个字词与知识特征的相关性系数，并通过加权计算获得第i个字词的多维知识上下文向量：/>，/>，其中，/>为知识特征集中的元素，W为经训练的权重参数，/>为字词对应的意图特征，/>为字词对应的语义槽值特征；首先，利用注意力机制计算出第i个字词与知识特征集中每个元素之间的相关性系数。这个相关性系数通过比较每个字词对应的意图特征以及语义槽值特征与知识特征集中的元素进行计算，得出的相关性系数会用于后续的加权计算。通过经过训练的权重参数W进行加权计算，可以得到每个字词的多维知识上下文向量。这个向量实际上是知识特征集与每个字词的相关性系数的加权和，这一步确保了每个字词的知识上下文向量在特征空间中的位置。

对多维知识上下文向量进行层标准化，获得自然语句的知识上下文向量。在得到每个字词的多维知识上下文向量后，对这些向量进行层次化的标准化处理。这一步的目的是为了保证模型的稳定性和训练的有效性。标准化处理后得到每个字词对应的知识上下文向量，这些向量的组合形成了整个自然语句的知识上下文向量。

本步骤包括了注意力机制和层标准化，通过计算知识特征的相关性系数并进行加权计算，得到了每个字词的知识上下文向量，进一步将这些向量组合得到整个自然语句的知识上下文向量。这个向量包含了语句中每个字词的上下文知识信息，可以用于后续的自然语言理解和生成任务。

字词级别的意图预测结果的获得方法包括：

以字词级别的意图特征和知识上下文向量为输入，通过基于LSTM的解码器映射出字词级别意图特征，并经过层标准化处理意图特征；首先，取出字词级别的意图特征和知识上下文向量作为输入，输入到基于LSTM的解码器。解码器的任务是将这些输入映射到新的空间，这些特征在解码器的处理下能够获得更高层次的表达，包含更丰富的信息。然后，对这些新映射的意图特征进行层标准化处理。这样做的目的是为了保证模型的稳定性和训练的有效性，让特征值在一个固定的范围内，减少模型训练的难度。

计算获得字词级别的意图检测结果，其中，/>为可训练参数。在经过解码器和标准化处理后，我们已经获得了每个字词的意图特征。接下来，需要将这些特征转化为实际的意图预测结果。

这一步通常涉及到一个分类问题，即判断每个字词的意图是什么。这一步通过一个分类器完成，分类器会有一些可训练的参数，通过优化这些参数来获得最好的预测效果。过程中可能还涉及到一些其他的步骤，例如：解码器的训练、分类器的训练和优化等。这些步骤需要具体的环境和数据来决定，因此在实际操作中，可能需要根据实际情况进行调整。

实施例四

一种基于自然语言的特定领域业务知识检索装置，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的方法的步骤。

存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的执行程序等。

存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件、或其他易失性固态存储器件。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的一种基于自然语言的特定领域业务知识检索方法的步骤。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令数据结构,程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术,CD-ROM、DVD或其他光学存储﹑磁带盒﹑磁带﹑磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器和大容量存储设备可以统称为存储器。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述发明的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种基于自然语言的特定领域业务知识检索方法，其特征在于，包括：

构建针对特定领域的预训练语言模型；

构建进行知识检索的语言理解模型；

完成对特定领域业务知识的检索。

2.根据权利要求1所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，所述预训练语言模型的构建方法包括：

构建Transformer模型，并收集特定领域业务知识的文本语料；

对预处理数据进行字词嵌入和位置编码，获得第一数据；

3.根据权利要求2所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，Transformer编码器的训练方法包括：

通过残差连接将前馈层的输入和输出相加，并经过归一化将神经网络中隐藏层规范化为标准正态分布，获得编码器输出。

4.根据权利要求2所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，所述掩码语言模型的训练优化目标函数为：，其中，/>为被遮罩的字词数量，/>为词典，/>为掩码语言模型参数，/>为模型掩码预测结构的似然函数。

5.根据权利要求1所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，所述语言理解模型的构建方法包括：

通过知识特征集获得知识上下文向量；

6.根据权利要求5所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，字词级别的意图特征的获得方法包括：

7.根据权利要求6所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，字词级别的知识特征集的获得方法包括：

8.根据权利要求6所述的一种基于自然语言的特定领域业务知识检索方法，知识上下文向量的获得方法包括：

9.根据权利要求8所述的一种基于自然语言的特定领域业务知识检索方法，其特征在于，字词级别的意图预测结果的获得方法包括：

计算获得字词级别的意图检测结果，其中，为可训练参数。

10.一种基于自然语言的特定领域业务知识检索装置，包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法的步骤。