CN111475635B

CN111475635B - 语义补全方法、装置和电子设备

Info

Publication number: CN111475635B
Application number: CN202010420180.4A
Authority: CN
Inventors: 谢杨易; 潘寅旭; 崔恒斌; 陈岑; 代世喆
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-04-18
Anticipated expiration: 2040-05-18
Also published as: CN111475635A

Abstract

本说明书提出了一种语义补全方法、装置和电子设备，其中，上述方法包括：获取待语义补全的第一语句，对所述第一语句进行向量转换，得到第一语句向量；获取第一文本，对所述第一文本进行向量转换，得到第一文本向量；将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得第一语句隐向量；根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句；通过上述方法可以对语句进行语义补全，由此可以提高语句的清晰度，进而提高文本的可读性。

Description

语义补全方法、装置和电子设备

【技术领域】

本说明书涉及人工智能技术领域，尤其涉及一种语义补全方法、装置和电子设备。

【背景技术】

人工智能(Artificial Intelligence；以下简称：AI)，是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中，AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作，比如时下出现的文本识别便是AI技术的一个实际应用。

【发明内容】

本说明书实施例提供了一种语义补全方法、装置和电子设备，通过构建知识库及上下文，将待语义补全的语句与知识库及上下文分别计算注意力分布，根据该注意力分布获得最终的补全语句，由此可以提高语句的清晰度，从而提升文本的可读性。

第一方面，本说明书实施例提供一种语义补全方法，包括：

获取待语义补全的第一语句，对所述第一语句进行向量转换，得到第一语句向量；

获取第一文本，对所述第一文本进行向量转换，得到第一文本向量；

将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得第一语句隐向量；

根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句。

其中一种可能的实现方式中，所述对所述第一语句进行向量转换，得到第一语句向量包括：

对所述第一语句进行词向量转换，得到第一语句词向量；

将所述第一语句词向量输入预置特征提取模型进行特征提取，得到第一语句向量；

所述获取第一文本，对所述第一文本进行向量转换，得到第一文本向量包括：

对所述第一文本进行词向量转换，得到第一文本词向量；

将所述第一文本词向量输入预置特征提取模型进行特征提取，得到第一文本向量。

其中一种可能的实现方式中，所述得到第一文本向量之后，还包括：

获取第二文本，对所述第二文本进行向量转换，得到第二文本向量；

所述将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布包括：

将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到第一注意力分布；

将所述第一语句向量和所述第二文本向量输入预置注意力模型进行注意力计算，得到第二注意力分布；

根据所述第一注意力分布及所述第二注意力分布获得所述第一语句向量的注意力分布。

其中一种可能的实现方式中，所述根据所述第一注意力分布及所述第二注意力分布获得所述第一语句向量的注意力分布包括：

根据预置权重系数对所述第一注意力分布及所述第二注意力分布进行加权求和，得到所述第一语句向量的注意力分布。

其中一种可能的实现方式中，所述根据所述注意力分布计算获得第一语句隐向量包括：

根据所述注意力分布计算获得与所述第一语句向量对应的多个第一语句隐向量；

所述根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句包括：

依次将每个所述第一语句隐向量进行归一化计算，得到与每个所述第一语句隐向量对应的词，将所有与所述第一语句隐向量对应的词进行拼接，得到语义补全后的第二语句。

其中一种可能的实现方式中，所述根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句之后，还包括：

获取标注数据，根据所述标注数据与所述第二语句进行损失计算，得到交叉熵损失，并将所述交叉熵损失与所述第二语句共同输出。

上述语义补全方法中，通过构建知识库及上下文，将待语义补全的语句与知识库及上下文分别计算注意力分布，根据该注意力分布获得最终的补全语句，由此可以提高语句的清晰度，从而提升文本的可读性。

第二方面，本说明书实施例提供一种语义补全装置，包括：

第一转换模块，用于获取待语义补全的第一语句，对所述第一语句进行向量转换，得到第一语句向量；

第二转换模块，用于获取第一文本，对所述第一文本进行向量转换，得到第一文本向量；

计算模块，用于将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得第一语句隐向量；

输出模块，用于根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句。

其中一种可能的实现方式中，所述第一转换模块包括：

第一转换单元，用于对所述第一语句进行词向量转换，得到第一语句词向量；

第二转换单元，用于将所述第一语句词向量输入预置特征提取模型进行特征提取，得到第一语句向量；

所述第二转换模块包括：

第三转换单元，用于对所述第一文本进行词向量转换，得到第一文本词向量；

第四转换单元，用于将所述第一文本词向量输入预置特征提取模型进行特征提取，得到第一文本向量。

其中一种可能的实现方式中，所述装置还包括：

第三转换模块，用于获取第二文本，对所述第二文本进行向量转换，得到第二文本向量；

所述计算模块包括：

第一计算单元，用于将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到第一注意力分布；

第二计算单元，用于将所述第一语句向量和所述第二文本向量输入预置注意力标模型进行注意力计算，得到第二注意力分布；

融合单元，用于根据所述第一注意力分布及所述第二注意力分布获得所述第一语句向量的注意力分布。

其中一种可能的实现方式中，所述融合单元还用于根据预置权重系数对所述第一注意力分布及所述第二注意力分布进行加权求和，得到所述第一语句向量的注意力分布。

其中一种可能的实现方式中，所述计算模块还用于根据所述注意力分布计算获得与所述第一语句向量对应的多个第一语句隐向量；

所述输出模块还用于依次将每个所述第一语句隐向量进行归一化计算，得到与每个所述第一语句隐向量对应的词，将所有与所述第一语句隐向量对应的词进行拼接，得到语义补全后的第二语句。

其中一种可能的实现方式中，所述装置还包括：

校正模块，用于获取标注数据，根据所述标注数据与所述第二语句进行损失计算，得到交叉熵损失，并将所述交叉熵损失与所述第二语句共同输出。

第三方面，本说明书实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面提供的方法。

第四方面，本说明书实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的方法。

应当理解的是，本说明书的第二～第四方面与本说明书的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

【附图说明】

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书语义补全方法一个实施例的流程图；

图2为本说明书特征提取一个实施例的示意图；

图3为本说明书注意力计算一个实施例的示意图；

图4为本说明书归一化计算一个实施例的示意图；

图5为本说明书语义补全方法另一个实施例的流程图；

图6为本说明书注意力计算另一个实施例的示意图；

图7为本说明书语义补全装置一个实施例的结构示意图；

图8为本说明书语义补全装置另一个实施例的结构示意图；

图9为本说明书语义补全装置再一个实施例的结构示意图；

图10为本说明书语义补全装置再一个实施例的结构示意图；

图11为本说明书电子设备一个实施例的结构示意图。

【具体实施方式】

为了更好的理解本说明书的技术方案，下面结合附图对本说明书实施例进行详细描述。

应当明确，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本说明书保护的范围。

在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

目前，用户在和客服的对话中通常会包含大量口语，文本的可读性比较差；此外，对话中还会包含大量代词，以及存在中文缺省的问题，由此给后续的数据挖掘造成困难，因此需要对语句进行改写，增加语义的清晰度及可读性；当前常用的方法是通过序列到序列的神经网络模型对语句进行改写，然而由于改写词的不确定性，导致改写后的语句仍然会出现语义不清晰的问题。

在序列到序列的神经网络模型中通常会采用自注意力机制，自注意力机制可以通过模型中的自注意力层实现，该自注意力层可以包括一个编码器及一个解码器，通过编码器对输入语句进行编码，通过解码器进行解码，并获得最终的输出语句；例如，对于一个翻译模型，编码器在对输入句子中的每个单词进行编码时可以根据自注意力机制关注其它单词，由于对其它单词关注的程度不同，即每个单词的注意力不同，由此可以获得不同的注意力；由于循环神经网络在对当前词进行翻译的时候，只关注当前词之前的信息，没有关注当前词之后的信息，因此通过上述自注意力机制可以关注整个句子的上下文信息，由此提升翻译的准确度。

图1为本说明书语义补全方法一个实施例的流程图，如图1所示，上述语义补全方法可以包括：

步骤101，获取待语义补全的第一语句，对所述第一语句进行向量转换，得到第一语句向量。

具体地，该第一语句可以是任意长度的句子，该句子可以是中文，可以是英文，或者其它语言。当获取到该第一语句后，可以对该第一语句进行向量转换，得到第一语句向量。

在具体实现时，在对该第一语句的向量转换过程中，可以先将该第一语句进行分词，得到与该第一语句对应的多个单词，然后将这些单词进行向量转换，得到每个单词对应的向量，假设当前第一语句为一句话“今天天气很好，出来玩”，可以通过分词得到“今天”、“天气”、“很好”、“，”、“出来”及“玩”等6个单词，接着对这些单词进行向量转换，可以得到每个单词对应的词向量。

需要说明的是，词向量构建的方式可以通过word2vec或者glov等方式，词向量的维数也可以事先指定，在具体实现时，可以将词向量设定为300维，本说明书实施例对此不作限定。

应理解，在对该第一语句的向量转换过程中，也可以对该第一语句进行分字，得到与该第一语句对应的多个字，然后将这些字进行向量转换，得到每个字对应的向量，本说明书实施例对此不作限定。

可选地，为了提高运算效率，还可以将上述词向量或字向量进行拼接，以得到一个多维的向量矩阵，该向量矩阵即该第一语句的向量。

可选地，在对上述词向量或字向量进行拼接得到向量矩阵后，还可以对上述向量矩阵进行特征提取，该特征提取可以通过编码的方式，该编码的方式可以通过多层编码器实现，该多层编码器可以通过序列到序列的网络模型得到，其中，该网络模型可以是Transformer模型，也可以是其它具有同等功能的网络模型；此外，特征提取也可以通过神经网络模型的全连接层实现，该神经网络模型可以是循环神经网络(Recurrent NeuralNetwork，RNN)模型或长短期记忆网络(Long Short-Term Memory，LSTM)模型。通过对上述词向量或字向量的特征提取，可以得到第一语句向量。

现结合图2进行说明，如图2所示，输入的第一语句经向量转换后得到三个向量，分别是X1、X2和X3；接着可以分别对X1、X2和X3进行特征提取，该特征提取的方式可以是对X1、X2和X3进行矩阵构建，例如，分别对X1、X2和X3构建查询向量q、键向量k及值向量v，即X1包含一个查询向量q1、一个键向量k1及一个值向量v1，X2包含一个查询向量q2、一个键向量k2及一个值向量v2，X3包含一个查询向量q3、一个键向量k3及一个值向量v3；其中，q1、q2和q3可以由X1、X2和X3分别和预置的矩阵W^Q相乘获得，该预置的矩阵W^Q可以通过训练获得，k1、k2和k3可以由X1、X2和X3分别和预置的矩阵W^K相乘获得，该预置的矩阵W^K可以通过训练获得，v1、v2和v3可以由X1、X2和X3分别和预置的矩阵W^V相乘获得，该预置的矩阵W^V可以通过训练获得；通过对查询向量、键向量及值向量的构建，完成了输入语句向量的特征提取。

步骤102，获取第一文本，对所述第一文本进行向量转换，得到第一文本向量。

具体地，该第一文本可以是和该第一语句相关的上下文，也可以是知识库，该知识库可以包括标准的文本，该标准文本可以包括通过专家的标准语言编写的问题及答案。

其中，当获取到该第一文本后，可以像步骤101进行相同的向量转换，得到第一文本向量，也可以像步骤101进行相同的特征提取。

步骤103，将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得第一语句隐向量；

具体地，当获取到第一语句向量和第一文本向量后，可将该第一语句向量及该第一文本向量输入预置注意力模型进行注意力计算，该注意力模型可以是用于计算注意力的神经网络模型，也可以是其它能实现注意力计算功能的网络模型，通过该预置注意力模型的计算，可以得到与该第一语句向量对应的注意力分布，并可以根据该注意力分布得到与第一语句向量对应的隐向量。

现结合图3进行说明，如图3所示，假设第一语句向量包括三个向量，分别是X1、X2及X3，经过特征提取，可以得到X1对应的{q1、k1、v1}、X2对应的{q2、k2、v2}及X3对应的{q3、k3、v3}，而第一文本向量包括两个向量，分别是Y1和Y2，经过特征提取，也可以得到Y1对应的{q4、k4、v4}、Y2对应的{q5、k5、v5}；接着可以依次计算每个向量(X1、X2及X3)对应的隐向量，该隐向量可以根据注意力分布及值向量进行加权求和获得，而该注意力分布可以通过查询向量q及键向量k计算获得，例如，在计算X1对应的隐向量S1时，可以首先计算X1对应的注意力，该注意力可以是计算q1和k1的点积，接着除以

由此可以得到与X1对应的的注意力值α₁₁，其中，

可以是键向量k的维数的平方根；同样地，在计算X2对应的注意力时，首先可以计算q1和k2的点积，接着除以

由此得到与X2对应的的注意力值α₁₂；依次类推，可以分别得到与X3对应的的注意力值α₁₃，与Y1对应的的注意力值α₁₄及与Y2对应的的注意力值α₁₅；当获取到α₁₁、α₁₂、α₁₃、α₁₄及α₁₅后，由于上述注意力值都不是归一化的值，因此还可以对上述注意力值进行归一化，由此得到归一化后的注意力值α₁₁’、α₁₂’、α₁₃’、α₁₄’及α₁₅’，即注意力分布；其中，归一化的方式可以通过softmax函数实现；接着可以根据上述归一化的注意力值(注意力分布)加权求和得到与X1对应的隐向量S1；其中，S1＝v1*α₁₁’+v2*α₁₂’+v3*α₁₃’+v4*α₁₄’+v5*α₁₅’。

接着可以计算X2对应的隐向量S2，首先可以计算X1对应的注意力，该注意力可以是计算q2和k1的点积，接着除以

由此可以得到与X1对应的的注意力值α₂₁；同样地，在计算X2对应的注意力时，首先可以计算q2和k2的点积，接着除以

由此得到与X2对应的的注意力值α₂₂；并依次得到其余向量对应的注意力值α₂₃、α₂₄及α₂₅，对上述注意力值α₂₁、α₂₂、α₂₃、α₂₄及α₂₅进行归一化可以得到归一化注意力值α₂₁’、α₂₂’、α₂₃’、α₂₄’及α₂₅’，并根据上述归一化注意力值可以得到S2；其中，S2＝v1*α₂₁’+v2*α₂₂’+v3*α₂₃’+v4*α₂₄’+v5*α₂₅’。

按照上述方式还可以得到X3对应的隐向量S3，由于第一语句只包含X1、X2和X3，因此可以只计算隐向量S1、S2和S3，也可以计算Y1对应的隐向量S4和Y2对应的隐向量S5。

步骤104，根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句。

具体地，当获取到第一语句对应的隐向量后，可以对该隐向量进行归一化处理，由此可以得到每个隐向量的分类(词或字)，将这些词或字进行拼接后，即可以得到语义补全后的第二语句；其中，该归一化的过程可以包括对隐向量进行标签空间的转换，该标签空间的转换可以通过全连接方式实现，也可以通过其它形式实现，例如，循环卷积方式；其中，该标签空间可以是字典；当进行标签空间转换后，可以得到与该标签空间对应的输出，并可以将该输出进行归一化，由此获得该标签空间中每个输出(词或字)对应的概率，并选取最大概率对应的输出为最终输出，由此得到第二语句。

现结合图4进行说明，如图4所示，假设当前第一语句经向量转换、特征提取及自注意力计算后得到三个隐向量，分别为S1、S2及S3，接着可以分别将S1、S2及S3进行全连接运算，得到S1对应的标签空间、S2对应的标签空间及S3对应的标签空间；其中，该全连接运算可以由神经网络的全连接层实现，全连接层可以包括两个参数，权值系数W和偏置值b，标签空间中的每个标签(词或字)y＝S*W+b；当获取到每个标签的y值后，可以对该标签值进行归一化，由此得到每个标签对应的概率，其中，归一化的方式可以通过softmax函数实现；并可以将最大概率对应的标签进行输出，由此获得每个隐向量对应的标签，即每个隐向量对应的词或字，最后将所有的词或字进行组合，得到语义补全的第二语句。

进一步地，当获取到语义补全后的第二语句后，由于该第二语句是根据概率预测获得，因此还可以获取预置的标注语句，该标注语句可以是预先设置的标准语句，该标注语句中可以包含对应的标准值，通过第二语句的预测值及标注语句的标准值可以计算交叉熵损失，也可以计算均方差损失，由此可以让用户直观了解本次预测的准确度，以便让用户参考是否采用当前语义补全的第二语句。

图5为本说明书语义补全方法另一个实施例的流程图，如图5所示，步骤102后，还可以包括：

获取第二文本，对所述第二文本进行向量转换，得到第二文本向量。

具体地，该第二文本也可以是与该第一语句对应的上下文或知识库。

应理解，若该第一文本是与该第一语句对应的上下文，则该第二文本是知识库；若该第一文本是知识库，则该第二文本是与该第一语句对应的上下文。

当获取到第二文本之后，可以像步骤101进行向量转换，得到第二文本向量，也可以像步骤101进行相同的特征提取。

进一步地，当通过第一文本向量与第一语句向量进行注意力计算之后，得到与该第一文本向量对应的注意力分布，即第一注意力分布，还可以将该第二文本向量与第一语句向量进行注意力计算，得到与该第二文本向量对应的注意力分布，即第二注意力分布；其中，注意力计算的方式可以和步骤103相同。

进一步地，当获得第一注意力分布及第二注意力分布后，还可以融合该第一注意力分布及第二注意力分布，由此得到最终的注意力分布；其中，融合的方式可以是加权求和，即可以预先设置第一注意力分布的权重系数及第二注意力分布的权重系数。

现结合图6进行说明，如图6所示，首先进行第一语句向量与第一文本向量的注意力计算，由此获得第一注意力分布{α₁₁’、α₁₂’、α₁₃’、α₁₄’及α₁₅’}，根据该第一注意力分布可以获得第一隐向量S1、S2及S3；接着按照上述方式计算第一语句向量与第二文本向量的注意力分布，可以得到第二注意力分布{β₁₁’、β₁₂’、β₁₃’、β₁₄’及β₁₅’}，并根据该第二注意力分布可以获得第二隐向量S1’、S2’及S3’；接着可以将该第一隐向量和该第二隐向量进行融合，其中，该融合的方式可以通过加权求和的方式，例如，可以预置第一隐向量的权重系数A及第二隐向量的权重系数B，则根据上述权重系数A和B可以得到最终的隐向量输出S1”、S2”及S3”，其中，S1”＝A*S1+B*S1’，S2”＝A*S2+B*S2’，S3”＝A*S3+B*S3’；接着可以按照步骤104对该最终输出的隐向量S1”、S2”及S3”进行归一化计算，由此得到语义补全的第二语句。

图7为本说明书语义补全装置70一个实施例的结构示意图，如图7所示，上述语义补全装置70可以包括：第一转换模块71、第二转换模块72、计算模块73和输出模块74；

第一转换模块71，用于获取待语义补全的第一语句，对所述第一语句进行向量转换，得到第一语句向量；

第二转换模块72，用于获取第一文本，对所述第一文本进行向量转换，得到第一文本向量；

计算模块73，用于将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得第一语句隐向量；

输出模块74，用于根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句。

其中一种可能的实现方式中，上述计算模块73还用于根据所述注意力分布计算获得与所述第一语句向量对应的多个第一语句隐向量；

上述输出模块74还用于依次将每个所述第一语句隐向量进行归一化计算，得到与每个所述第一语句隐向量对应的词，将所有与所述第一语句隐向量对应的词进行拼接，得到语义补全后的第二语句。

图7所示实施例提供的语义补全装置可用于执行本说明书图1～图6所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图8为本说明书语义补全装置80另一个实施例的结构示意图，与图7所示的语义补全装置70相比，图8所示的语义补全装置80中，上述装置还可以包括：校正模块81；

校正模块81，用于获取标注数据，根据所述标注数据与所述第二语句进行损失计算，得到交叉熵损失，并将所述交叉熵损失与所述第二语句共同输出。

图8所示实施例提供的语义补全装置可用于执行本申请图1～图6所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图9为本说明书语义补全装置90再一个实施例的结构示意图，与图7所示的语义补全装置70相比，图9所示的语义补全装置90中，上述装置还可以包括：第三转换模块91；上述计算模块73可以包括第一计算单元731、第二计算单元732及融合单元733；

第三转换模块91，用于获取第二文本，对所述第二文本进行向量转换，得到第二文本向量；

第一计算单元731，用于将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到第一注意力分布；

第二计算单元块732，用于将所述第一语句向量和所述第二文本向量输入预置注意力模型进行注意力计算，得到第二注意力分布；

融合单元733，用于根据所述第一注意力分布及所述第二注意力分布获得所述第一语句向量的注意力分布。

其中一种可能的实现方式中，上述融合单元733还可以用于根据目标权重对所述第一注意力分布及所述第二注意力分布进行加权求和，得到所述第一语句向量的注意力分布。

图9所示实施例提供的语义补全装置可用于执行本说明书图1～图6所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图10为本说明书语义补全装置100再一个实施例的结构示意图，与图7所示的语义补全装置70相比，图10所示的语义补全装置100中，上述第一转换模块71可以包括：第一转换单元711及第二转换单元712；上述第二转换模块72可以包括：第三转换单元721及第四转换单元722；

第一转换单元711，用于对所述第一语句进行词向量转换，得到第一语句词向量；

第二转换单元712，用于将所述第一语句词向量输入预置特征提取模型进行特征提取，得到第一语句向量；

第三转换单元721，用于对所述第一文本进行词向量转换，得到第一文本词向量；

第四转换单元722，用于将所述第一文本词向量输入预置特征提取模型进行特征提取，得到第一文本向量。

图10所示实施例提供的语义句补全装置可用于执行本说明书图1～图6所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图11为本说明书电子设备1100一个实施例的结构示意图，如图11所示，上述电子设备可以包括至少一个处理器；以及与上述处理器通信连接的至少一个存储器，其中：存储器存储有可被处理器执行的程序指令，上述处理器调用上述程序指令能够执行本说明书图1～图6所示实施例提供的语义补全方法。

其中，上述电子设备可以为能够进行语义补全的设备，例如：计算机，本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是，这里的电子设备即为方法实施例中提到的机器。

图11示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图11显示的电子设备1100仅仅是一个示例，不应对本说明书实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：一个或者多个处理器1110，存储器1130，连接不同系统组件(包括存储器1130和处理单元1110)的通信总线1140。

通信总线1140表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器1130可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器1130可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本说明书各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在存储器1130中，这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。

处理器1110通过运行存储在存储器1130中的程序，从而执行各种功能应用以及数据处理，例如实现本说明书图1～图6所示实施例提供的语义补全方法。

以上各实施例中，涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

本说明书实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本说明书图1～图6所示实施例提供的语义补全方法。

上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本说明书的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本说明书的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer；以下简称：PC)、个人数字助理(Personal Digital Assistant；以下简称：PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种语义补全方法，包括：

根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句；

所述根据所述注意力分布计算获得第一语句隐向量包括：

2.根据权利要求1所述的方法，所述对所述第一语句进行向量转换，得到第一语句向量包括：

对所述第一语句进行词向量转换，得到第一语句词向量；

对所述第一文本进行词向量转换，得到第一文本词向量；

3.根据权利要求1所述的方法，所述得到第一文本向量之后，还包括：

4.根据权利要求3所述的方法，所述根据所述第一注意力分布及所述第二注意力分布获得所述第一语句向量的注意力分布包括：

5.根据权利要求1所述的方法，所述根据所述第一语句隐向量进行归一化计算，得到语义补全后的第二语句之后，还包括：

6.一种语义补全装置，包括：

计算模块，用于将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算，得到所述第一语句向量的注意力分布，根据所述注意力分布计算获得与所述第一语句向量对应的多个第一语句隐向量；

输出模块，用于依次将每个所述第一语句隐向量进行归一化计算，得到与每个所述第一语句隐向量对应的词，将所有与所述第一语句隐向量对应的词进行拼接，得到语义补全后的第二语句。

7.根据权利要求6所述的装置，所述第一转换模块包括：

所述第二转换模块包括：

8.根据权利要求6所述的装置，所述装置还包括：

所述计算模块包括：

第二计算单元，用于将所述第一语句向量和所述第二文本向量输入预置注意力模型进行注意力计算，得到第二注意力分布；

9.根据权利要求8所述的装置，所述融合单元还用于根据预置权重系数对所述第一注意力分布及所述第二注意力分布进行加权求和，得到所述第一语句向量的注意力分布。

10.根据权利要求6所述的装置，所述装置还包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

12.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。