CN112905772B

CN112905772B - 语义相关性分析方法、装置及相关产品

Info

Publication number: CN112905772B
Application number: CN202110185370.7A
Authority: CN
Inventors: 黄培松; 孙艳庆; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-04-19
Anticipated expiration: 2041-02-10
Also published as: CN112905772A

Abstract

本发明的实施方式提供了一种由机器实施的语义相关性分析方法。该方法包括：接收多轮会话中当前轮次的问题语句和应答语句以及多轮会话的历史会话信息；根据问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定问题语句与应答语句之间的语义相关性，其中自然语言处理机器模型中显式地对问题语句与应答语句所处的多轮会话的轮次信息进行建模；以及基于所述语义相关性，执行对应的自然语言处理任务。根据本发明的语义相关性分析方法，通过对轮次信息进行显式地建模，可以提高涉及多轮会话的自然语言处理任务的准确性。此外，本发明的实施方式提供了一种执行语义相关性分析的装置、计算设备和计算机可读存储介质。

Description

语义相关性分析方法、装置及相关产品

技术领域

本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及由机器实施的语义相关性分析方法、执行语义相关性分析的装置、计算设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

近年来，预先训练的语言模型在大部分自然语言处理(NLP)任务上已经取得了优异表现。这些NLP任务可以包括不同粒度级别(词汇级、短语级、句级、篇章级等)的任务，任务类型例如可以包括分类、序列标注、文本匹配、文本生成等，并且这些NLP任务可以应用于机器翻译、聊天机器人、情感分析、语音助手、语法检查器等各种应用场景中。

发明内容

然而，在智能问答、智能客服、口语评测等通常会发生多轮会话的应用场景中，现有的语言模型尚不能准确地做出决定，例如识别用户意图，选择合适的应答等。因此，对于涉及多轮会话的应用而言，提高语言模型的准确性仍然是一项具有挑战性的任务。

因此，期望提供一种适合于多轮会话的语义相关性分析方案，其能针对多轮会话的特性，提高语言模型的判断准确性。

在本上下文中，本发明的实施方式期望提供一种由机器实施的语义相关性分析方法、执行语义相关性分析的装置、用于执行语义相关性分析的计算设备及计算机可读存储介质。

在本发明实施方式的第一方面中，提供了一种由机器实施的语义相关性分析方法，包括：接收多轮会话中当前轮次的问题语句和应答语句以及所述多轮会话的历史会话信息；根据所述问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定所述问题语句与所述应答语句之间的语义相关性，其中所述自然语言处理机器模型中显式地对所述问题语句与所述应答语句所处的多轮会话的轮次信息进行建模；以及基于所述语义相关性，执行对应的自然语言处理任务。

在本发明的一些实施例中，上述自然语言处理机器模型显式地对所述轮次信息进行建模包括：在所述机器模型的输入层中包括表征所述轮次信息的轮次嵌入。

可选地或附加地，在一些实施例中，上述自然语言处理机器模型显式地对所述轮次信息进行建模包括：在所述机器模型的编码器的自注意力层中引入所述轮次信息。

在本发明进一步的实施例中，在所述自注意力层中引入所述轮次信息包括：在所述自注意力层的键向量和值向量的计算中分别引入所述轮次信息。

在本发明进一步的实施例中，所述轮次信息包括以下任一：相对位置轮次信息；或绝对位置轮次信息。

在本发明进一步的实施例中，所述自然语言处理任务包括以下任一：多轮次问答匹配任务；或多轮次应答选择任务。

在本发明实施方式的第二方面中，提供了一种执行语义相关性分析的装置，包括：接收模块，用于接收多轮会话中当前轮次的问题语句和应答语句以及所述多轮会话的历史会话信息；第一处理模块，用于根据所述问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定所述问题语句与所述应答语句之间的语义相关性，其中所述自然语言处理机器模型中显式地对所述问题语句与所述应答语句所处的多轮会话的轮次信息进行建模；以及第二处理模块，用于基于所述语义相关性，执行对应的自然语言处理任务。

在本发明的一些实施例中，所述自然语言处理机器模型的输入层中显式地包括表征所述轮次信息的轮次嵌入；和/或所述自然语言处理机器模型的编码器的自注意力层中显式地包括所述轮次信息。

在本发明实施方式的第三方面中，提供了一种用于执行语义相关性分析的计算设备，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述计算设备执行根据本发明实施方式的第一方面任一实施例所述的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据本发明实施方式的第一方面任一实施例所述的方法。

根据本发明实施方式的由机器实施的语义相关性分析方法，在对问题与应答进行语义相关性分析的机器模型中，对问题与应答所处的多轮会话的轮次信息进行显式建模，由此可以更准确地分析二者之间的语义相关性，提高判断准确度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性示出BERT模型的网络架构；

图3示意性示出根据本发明实施方式的TE-BERT模型的网络架构；

图4示意性示出根据本发明实施方式的由机器实施的语义相关性分析方法的示例性流程图；以及

图5示意性示出根据本发明实施方式的执行语义相关性分析的装置的结构框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”等。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或装置)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种由机器实施的语义相关性分析方法、执行语义相关性分析的装置、计算设备和计算机可读存储介质。

在本文中，需要理解的是，所涉及的术语包括如下：

NLP：Natural Language Process，自然语言处理，用于研究人类(自然)语言和计算机之间的相互作用，帮助计算机利用信息的语义结构(数据的上下文)来理解含义。

NLI：Natural Language Inference，自然语言推断，让机器去推断人类语言间的逻辑关系的研究。

NLG：Natural Language Generation，自然语言生成，将由机器拆分好的结构化数据以人们能看懂的自然语句表达出来。

IR：Information Retrieval，信息检索。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现实生活中的真实对话场景通常会发生多轮会话，而不是单轮就结束。进一步地，多轮会话之间通常存在一定的关联性，例如相邻轮次中的问题可能存在先后顺序关系。在本发明的实施方式中，提出了在自然语言处理机器模型中引入轮次信息的方案。进一步地，考到在会话上下文中通常存在多个问题，会话上下文中的轮次索引对于多轮会话相关的任务而言非常关键。如果以隐式方式对轮次信息进行建模则容易混淆会话中的问题，使得机器模型很难做出正确的判断，例如确定当前轮次中应当回答哪个问题。因此，在本发明的实施方式中，在机器模型中针对多轮会话中的轮次信息进行显式建模，从而避免上述混淆情况。

机器模型可以是应用NLI技术的各种机器模型，包括但不限于基于BERT(Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码器表征)的模型。现有的BERT模型缺少对轮次信息进行显式建模的设计。为此，在本发明的实施方式中，可以修改机器模型的网络结构，以便引入轮次信息并对其显式建模。在一些实施例中，可以修改机器模型的输入层的网络结构，可选地或附加地，在一些实施例中，可以在机器模型的编码器的自注意力层中引入轮次信息。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

BERT模型架构

BERT模型是一种基于Transformer的语言模型，实现了多层双向的Transformer编码器。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表示，即：文本的语义表示，然后将文本的语义表示在特定自然语言处理任务中作微调，最终应用于该自然语言处理任务。

在基于深度神经网络的自然语言处理方法中，文本中的字/词通常都用一维向量来表示(一般称之为“词向量”)；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列转换后，输出一个一维词向量作为文本的语义表示。BERT模型的主要输入是文本中各个字/词；输出是文本中各个字/词融合了全文语义信息后的向量表示。

图2示意性示出了BERT模型的网络架构。如图所示，BERT模型包括输入层210、由多个Transformer编码器构成的编码层220以及输出层230。

输入层210可以将输入文本转换成向量表示，也称为输入嵌入。在现有的BERT模型中，输入嵌入包括令牌嵌入(token embedding，也称为词向量)、段嵌入(segmentembedding，也称为段向量)和位置嵌入(position embedding，也称为位置向量)。

令牌嵌入是BERT模型中关于输入文本中的单词最主要的信息，令牌嵌入层的作用是将单词转换为固定维度的向量表示形式。

为了解决文本分类一类的NLP任务，例如对两个文本在语义上是否相似进行分类，BERT模型增加了段嵌入，以区分成对的输入语句。段嵌入包含两个向量表示，第一个向量分配给第一个语句的所有令牌，第二个向量分配给第二个语句的所有令牌。句子末尾都有加[SEP]结尾符，两句拼接开头有[CLS]符。

BERT模型是基于Transformer构成的，而Transformer不对输入的顺序特征进行编码。因此，在BERT模型中加入了表示位置的向量，也即位置嵌入，来表示各个单词的时序。

BERT模型的编码层220使用具有强大特征提取能力的Transformer编码器221构成。双向Transformer是指在处理一个单词的时候，能够同时利用当前单词的上下文信息(前面和后面单词的信息)，从而获取上下文的语义。

Transformer编码器221的具体结构如图2右侧所示。每个Transformer编码器221可以包括多个相同的编码器块，每个编码器块包括多头注意力机制222、求和与归一化层223、前馈网络224和求和与归一化层225。

多头注意力机制222使用向量来计算自注意力。在自注意力计算中，涉及三个向量：查询Q(Query)向量、键K(Key)向量和值V(Value)向量。注意力函数可以描述为将一个查询与一组键值对映射到一个输出。

输入序列X可以表示为

在自注意力中，每个注意力头对输入序列X＝(x₁,…,x_n)进行操作并按如下计算与X具有相同长度的新序列Z＝(Z₁,…,Z_n)：

其中W^Q、W^K和W^V分别是计算查询向量(Q)、键向量(K)和值向量(V)的参数矩阵，e_ij是两个输入元素之间的注意力得分，α_ij是通过使用softmax函数计算的注意力权重。

BERT模型的输出层230则输出各个单词对应的融合全文语义信息后的向量表示。

针对具体的NLP任务，BERT模型的最终输入输出会进行微调。例如，在涉及多轮会话的应用中，NLP任务包括语句对分类任务，其实际应用场景可以包括：问答(判断一个问题与一个应答是否匹配)、语句匹配(两句话是否表达同一个意思)等。此时最终的输出结果可以是两个语句的相关性或匹配度得分，或者相关/不相关的二值结论。

从图2的结构可以看出，原始的BERT模型中未对多轮会话的轮次信息进行建模，也缺少捕捉轮次信息的设计，因而对于涉及多轮会话的NLP任务，不能准确地做出判断。

在本发明的实施例中，在BERT模型中引入了轮次信息。为了区分起见，本发明实施例的机器模型可以称为轮次嵌入BERT(Turn-Embedding，TE-BERT)。

TE-BERT模型架构

发明人注意到，对于多轮会话而言，会话的轮次信息对于会话上下文的建模非常重要。现有的BERT模型缺少对轮次信息进行显式建模的设计。因此，在本发明的实施例中，在语义相关性机器模型(例如，BERT模型)的建模中显式地引入了轮次信息。相应地，在这些实施例中，模型的输入除了当前轮次的会话信息(问题语句和应答语句)之外，还包括对话历史信息，具体的可以是当前会话场景下的历史会话信息。可以理解，对于首轮会话，历史会话信息为空。由此，语义相关性机器模型可以根据输入的历史会话信息更好地建模，捕获会话轮次顺序的信息。

为了在建模中显式地引入轮次信息，可以修改BERT模型的神经网络中某些层的网络结构，从而形成本披露实施例的TE-BERT模型。

图3示出了根据本披露实施例的TE-BERT模型的网络架构。

如图所示，TE-BERT模型同样包括输入层310、编码层320和输出层330。

在一些实施例中，可以修改输入层的网络结构，以引入轮次信息。从图2的描述可知，原始BERT模型中，输入层的输入嵌入(input embedding)只包括令牌嵌入(tokenembedding)、段嵌入(segment embedding)和位置嵌入(position embedding)。与之相比，在本发明的一些实施例中，可以在输入层的输入嵌入中增加附加特征，也即将会话的轮次顺序信息(例如，轮次索引)作为特征，将表征轮次信息的轮次嵌入(turn embedding)添加到输入嵌入中。如图3所示，TE-BERT模型的输入层310包括轮次嵌入、位置嵌入、段嵌入和令牌嵌入。

轮次信息可以包括相对位置轮次信息或绝对位置轮次信息。在一些实施例中，优选地将相对位置轮次信息添加到输入层中，因为相对位置轮次信息比绝对位置轮次信息更重要。

为了训练轮次嵌入，可以根据问题和应答之间的距离来定义语句中各令牌的轮次索引。此外，还可以固定具有特殊令牌[PAD]的输入的长度，并将“[PAD]…[PAD]”中的令牌的轮次索引标记为0。因此，语句中各令牌的轮次索引被定义为应答与问题之间的距离+1。继而，可以使用具有已标记令牌的语句针对轮次索引来训练轮次嵌入矩阵。

可选地或附加地，在一些实施例中，可以修改模型的编码层中的自注意力(self-attention)的结构。原始BERT模型中的注意力层缺少捕获字/词之间的相对距离的能力。因此，为了增强模型捕获语句之间的相对距离的能力，可以将轮次嵌入引入到自注意力机制中。由于轮次索引可以视为问题和应答之间的一种相对位置距离，因此可以将轮次信息引入自注意力层中。

如图3所示，可以在编码层320中各编码器的自注意力层中计算的其中两个向量：键向量(K)和值向量(V)中分别引入轮次参数：

其中

和

是不同的可训练的轮次嵌入矩阵。函数F_{turn_index}(x)用于确定令牌x的轮次索引。

接着，在自注意力中，每个注意力头对输入序列X＝(x₁,…,x_n)进行运算并计算新序列Z＝(z₁,…,z_n)。注意，前面的公式(2)和(4)进行了调整，如下：

其中W^Q、W^K和W^V分别是计算查询向量(Q)、键向量(K)和值向量(V)的参数矩阵，e_ij是两个输入元素之间的注意力得分，α_ij是通过使用softmax函数计算的注意力权重。在一些实施例中，轮次参数可以在所有自注意力子层中共享。

TE-BERT模型的输出层330与BERT模型的输出层类似，其可以输出各个单词对应的融合全文语义信息后的向量表示。针对具体的NLP任务，TE-BERT模型的最终输入输出会进行微调。例如，在涉及多轮会话的应用中，NLP任务包括语句对分类任务。图3的示例中示出了增加一个致密层(Dense Layer)，用于将输出维度降至类别数，再进行类别打标签。

实验结果表明，本发明实施例中改进的BERT模型可以很好地捕获轮次信息，并且表现优于现有的BERT模型或其他涉及多轮次会话的语句分类任务的机器模型。

示例性方法

下面结合上述TE-BERT模型，参考图4来描述根据本发明示例性实施方式的由机器实施的语义相关性分析方法。

如图4所示，语义相关性分析方法400可以包括：在步骤410中，接收多轮会话中当前轮次的问题语句和应答语句以及该多轮会话的历史会话信息。

在不同的应用场景中，问题语句和应答语句可以由不同方来提供。例如，在智能客服应用中，会话中可能是客户通过语音或文本提出问题，智能客服机器人针对问题进行应答。又例如，在口语评测应用中，会话中可能是机器发问，用户进行语音回答。在问题语句和/或应答语句不是文本的情况下，可以采用自动语音识别技术，以将语音转换成文本。

接着，在步骤420中，根据接收到的问题语句、应答语句和历史会话信息，利用自然语言处理机器模型(例如，前述TE-BERT模型)，确定问题语句和应答语句之间的语义相关性。如前所描述的，在TE-BERT模型中，显式地对问题语句和应答语句所处的多轮会话的轮次信息进行建模。

在一些实施例中，上述自然语言处理机器模型显式地对轮次信息进行建模包括：在机器模型的输入层中包括表征轮次信息的轮次嵌入。

可选地或附加地，在一些实施例中，上述自然语言处理机器模型显式地对轮次信息进行建模包括：在机器模型的编码器的自注意力层中引入轮次信息。更具体地，在自注意力层中引入轮次信息包括：在自注意力层的键向量(K)和值向量(V)的计算中分别引入轮次信息。

轮次信息可以包括以下任一：相对位置轮次信息，或绝对位置轮次信息。

最后，在步骤S430中，基于前面确定的语义相关性，执行对应的自然语言处理任务。此处的自然语言处理任务可以包括但不限于：多轮次问答匹配任务，例如口语评测应用中；或多轮次应答选择任务，例如智能客服、聊天机器人等应用中。

以上结合图4总体上对根据本发明实施方式的由机器实施的语义相关性分析方法进行了示意性的描述，本领域技术人员可以理解的是，上面的描述是示例性的而非限制性的。从上面的描述可知，通过利用对多轮会话的轮次信息进行显式建模的自然语言处理机器模型，例如前述TE-BERT模型，可以更准确地判断问题与应答之间的相关性，从而更准确地执行后续的自然语言处理任务。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的执行语义相关性的装置进行描述。

图5示意性地示出了根据本发明实施方式的执行语义相关性分析的装置的示意图。如图5中所示，装置500可以包括接收模块510、第一处理模块520和第二处理模块530。

接收模块510可以用于接收多轮会话中当前轮次的问题语句和应答语句以及该多轮会话的历史会话信息。接收模块510接收的问题语句和/或应答语句可以是经由人机交互接口(未示出)从用户接收的。例如，在前述口语评测应用场景中，人机交互接口可以包括但不限于显示器、扬声器、麦克风、摄像头等。在这种场景中，可以通过麦克风采集用户的口语应答，通过自动语音识别技术，转换为应答文本，提供给上述接收模块510。

第一处理模块520可以用于根据接收模块中接收的问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定问题语句与应答语句之间的语义相关性。第一处理模块520可以是任何能够实施上述自然语言处理机器模型的设备。该自然语言处理机器模型的输入层中显式地包括表征轮次信息的轮次嵌入；和/或该自然语言处理机器模型的编码器的自注意力层中显式地包括轮次信息。

第二处理模块530可以用于基于第一处理模块520所确定的语义相关性，执行对应的自然语言处理任务。

可以理解的是，图5中所示的装置500的功能已经在前文中结合图3-图4所示的模型和方法进行了详细的描述和解释，此处不再赘述。还可以理解，图5中各模块的划分仅仅是示例性而非限制性的，可以具有更多或更少的模块，本发明实施例在此方面没有限制。例如，第一处理模块520和第二处理模块560可以由同一设备实现，也可以由不同设备实现。

示例性应用场景

如前所述，本发明实施方式的由机器实施的语义相关性分析方法可以应用于多种涉及多轮会话的应用场景。

在一种应用场景中，可以涉及语言学习应用，特别是口语评测过程。通常，在这种语言学习应用中，在学习若干知识点之后，会进行口语评测，以确认学习效果。例如，在幼儿英语学习APP中，在学习一些句型之后，会提供一些使用到所学句式的情境对话，例如以四宫格或六宫格的形式展示，用户可以选择对话中的角色扮演，之后APP启动对话以进行对各知识点的考察，从而评测学习效果。这种口语评测过程需要进行多轮会话，由机器提问，用户回答，针对每轮会话中用户的口语应答进行打分评测。

在此应用场景中，可以首先利用本发明实施方式的语义相关性分析方法，来分析机器提问与用户回答之间的语义相关性。当确认用户回答与机器提问具有语义强相关之后，再进一步分析用户回答的正确性，从而进行打分评测，以提高评测效率和准确性。

在另一种应用场景中，可以涉及智能客服应用，特别是网购售后服务机器人。通常，在这种场景中，由客户提出问题，例如可以是语音或文本输入的问题，由机器人进行回答。机器人根据问题与应答的相关性，从多个应答中选择最佳应答进行输出，也即多轮应答选择任务。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

通过上面结合附图对根据本发明实施方式的由机器实施的语义相关性分析方案的示例性描述，可以理解是，本发明的实施方式提供了一种能更好地适用于多轮会话相关的任务的语义相关性分析方法，其通过在机器模型中对轮次信息进行显式建模，可以更准确地判断会话的问题与应答之间的语义相关性。

应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种由机器实施的语义相关性分析方法，包括：

接收多轮会话中当前轮次的问题语句和应答语句以及所述多轮会话的历史会话信息；

根据所述问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定所述问题语句与所述应答语句之间的语义相关性，其中所述自然语言处理机器模型中显式地对所述问题语句与所述应答语句所处的多轮会话的轮次信息进行建模；以及

基于所述语义相关性，执行对应的自然语言处理任务；

其中所述自然语言处理机器模型显式地对所述轮次信息进行建模包括：在所述机器模型的编码器的自注意力层的键向量和值向量的计算中分别引入所述轮次信息，所述轮次信息包括：

和

，并且其中

表示键向量K中引入的轮次参数，

表示值向量V中引入的轮次参数，

和

是不同的可训练的轮次嵌入矩阵，函数

用于确定令牌x的轮次索引；

在自注意力层中每个注意力头对输入序列X=(x ₁ ,…,x _n)进行运算并计算新序列Z=(z ₁ ,…,z _n)时按照如下进行计算：

，

，

，

其中W ^Q、W ^K和W ^V分别是计算查询向量Q、键向量K和值向量V的参数矩阵，e _ij是两个输入元素之间的注意力得分，α _ij是通过使用softmax函数计算的注意力权重。

2.根据权利要求1所述的方法，其中所述自然语言处理机器模型显式地对所述轮次信息进行建模包括：

在所述机器模型的输入层中包括表征所述轮次信息的轮次嵌入。

3.根据权利要求1所述的方法，其中所述轮次信息包括以下任一：

相对位置轮次信息；或

绝对位置轮次信息。

4.根据权利要求2所述的方法，其中所述轮次嵌入包括以下任一：

表征相对位置轮次信息的轮次嵌入；或

表征绝对位置轮次信息的轮次嵌入。

5.根据权利要求1-4任一所述的方法，其中所述自然语言处理任务包括以下任一：

多轮次问答匹配任务；或

多轮次应答选择任务。

6.一种执行语义相关性分析的装置，包括：

接收模块，用于接收多轮会话中当前轮次的问题语句和应答语句以及所述多轮会话的历史会话信息；

第一处理模块，用于根据所述问题语句、应答语句和历史会话信息，利用自然语言处理机器模型，确定所述问题语句与所述应答语句之间的语义相关性，其中所述自然语言处理机器模型中显式地对所述问题语句与所述应答语句所处的多轮会话的轮次信息进行建模，包括在所述机器模型的编码器的自注意力层的键向量和值向量的计算中分别引入所述轮次信息，所述轮次信息包括：