CN108920644B

CN108920644B - 对话连贯性的判断方法、装置、设备及计算机可读介质

Info

Publication number: CN108920644B
Application number: CN201810712673.8A
Authority: CN
Inventors: 彭金华; 马宗阳; 姜迪; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-10-08
Anticipated expiration: 2038-06-29
Also published as: CN108920644A

Abstract

本发明提出一种对话连贯性的判断方法、装置、设备及计算机可读介质，所述方法包括：将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中所述主题模型的变量包括文档、词语、句子和主题；将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数。本发明实施例将主题生成模型和神经网络模型结合，以解决通用对话系统中的内容连贯性问题。

Description

对话连贯性的判断方法、装置、设备及计算机可读介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种对话连贯性的判断方法、装置、设备及计算机可读介质。

背景技术

内容连贯性是通用对话系统的一个重要问题，其定义为在多轮对话中，给定当前语句，判定该语句与其前面的语句(可为多个语句)在内容主题等方面上是否一致。传统的方法只考虑了语句在词语层面上的相似性，而忽略了语句在潜在语义上的相似性，因此在处理语句相似上的准确性低。

发明内容

本发明实施例提供一种对话连贯性的判断方法、装置、设备及计算机可读介质，以解决或缓解现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种对话连贯性的判断方法，包括：

将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中所述主题模型的变量包括文档、词语、句子和主题；

将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数。

结合第一方面，本发明实施例在第一方面的第一种实施方式中，包括训练主题模型，所述训练主题模型包括：

通过吉布斯采样算法获得每个主题的概率函数；

采用的梅特罗波利斯－黑斯廷斯采样算法对所述概率函数进行近似处理；

根据词语之间的全局语义相似度对所述概率函数进行更新。

结合第一方面，本发明实施例在第一方面的第二种实施方式，所述的神经网络模型包括词层、句子层和混合层；

其中，所述词层用于输入词向量和/或主题向量；所述句子层用于输入句子的向量；所述混合层用于将句子向量和主题向量进行融合以获得隐向量，并通过分类器输出相关性分数。

第二方面，本发明实施例还提供了一种对话连贯性的判断装置，包括：

主题向量生成模块，用于将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中所述主题模型的变量包括文档、词语、句子和主题；

相关性分数生成模块，用于将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数。

结合第二方面，本发明实施例在第二方面的第一种实施方式中，还包括：主题模型训练模块，所述主题模型训练模块包括：

函数获取子模块，用于通过吉布斯采样算法获得每个主题的概率函数；

近似处理子模块，用于采用的梅特罗波利斯－黑斯廷斯采样算法对所述概率函数进行近似处理；

函数更新子模块，用于根据词语之间的全局语义相似度对所述概率函数进行更新。

结合第二方面，本发明实施例在第二方面的第二种实施方式中，所述的神经网络模型包括词层、句子层和混合层；

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，在一个可能的设计中，对话连贯性的判断装置的结构中包括处理器和存储器，所述存储器用于存储支持对话连贯性的判断装置执行上述第一方面中对话连贯性的判断方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述对话连贯性的判断装置还可以包括通信接口，用于对话连贯性的判断装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读介质，用于存储对话连贯性的判断装置所用的计算机软件指令，其包括用于执行上述第一方面的对话连贯性的判断方法所涉及的程序。

本发明实施例将主题生成模型和神经网络模型结合，以解决通用对话系统中的内容连贯性问题。另外，本发明实施例的主题模型能够有效的挖掘短文本中的主题，并且采用了梅特罗波利斯－黑斯廷斯算法能够在大规模数据集上训练主题模型。同时，本发明实施例的神经网络，能够有效的融入了语句词层面和主题层面的信息，预测能力相对于现有方法有较大的提升。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例的对话连贯性的判断方法的流程图；

图2为本发明实施例的主题模型的生成流程图；

图3为本发明实施例的神经网络模型的示意图；

图4为本发明另一实施例的对话连贯性的判断装置的结构框图；

图5为本发明另一实施例的主题训练模块的内部框图；

图6为本发明另一实施例的对话连贯性的判断设备框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。本发明实施例主要提供了一种通对话连贯性的判断的方法及装置，下面分别通过以下实施例进行技术方案的展开描述。

本发明提供了一种对话连贯性的判断方法和装置，以下详细介绍本发明实施例的对话连贯性的判断方法和装置的具体处理流程和原理。

如图1所示，其为本发明实施例的对话连贯性的判断方法的流程图。本发明实施例的对话连贯性的判断方法可以包括以下步骤：

S100：将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中所述主题模型的变量包括文档、词语、句子和主题。

在本实施例的主题模型同时考虑词与词之间的局部语义连贯和全局语义连贯。所述局部语义连贯，指一句话或者一小段话里面的词语更有可能属于同一个主题。而全局语义连贯可理解为即使词与词在同一个文档没有共现，其在全局上仍然有可能语义相关。例如即使“苹果”和“香蕉”两个词语没有出现在同一篇文章中，仍不能忽略两个词在语义层面上(都是水果)的相关性。

其中，在训练主题模型时，先定义一些变量，d代表文档，w代表词语，s代表句子，z代表主题。模型生成过程可以为：

对于每个主题z_k，产生符合Dirichlet(狄利克雷)分布的词的分布函数：φ_k～Dirichlet(β)；

对于每个文档d，产生符合Dirichlet(狄利克雷)分布的主题分布函数：θ_d～Dirichlet(α)；

然后，对于文档d中的每个句子，可以：

提取符合多项分布主题分布函数z_k～multinomial(θ_d)；

提取符合多项分布的词分布语函数w～multinomial(φ_k)。

如图2所示，在一种实施方式中，所述训练主题模型具体包括以下步骤：

S110：通过吉布斯采样算法获得每个主题的概率函数。

可以规范一个句子的所有词语都由相同的主题产生来保证局部语义连贯。在本实施方式中，所述通过吉布斯采样算法获得每个主题的概率函数的表达式为：

其中，p表示概率函数，所述z_i表示第i个句子的主题，z_-i表示除了第i个句子外的所有句子的主题，w表示词语，v_i表示第i个句子的词语集合，n_dk表示在文档d中属于第k个主题的词语w的数量，n_kv’表示属于第k个主题的词语集合v’的数量，n_di表示在文档d中的第i个句子里面的词语数量；n_iv’表示在第i个句子里面的词语集合v的数量，α_k、α_k’和β_v’为设定的超参数，K表示主题的总数，k’表示从1到K之间的整数，V表示词语集合的总数，Γ表示阶乘函数。

S120：采用的梅特罗波利斯－黑斯廷斯采样算法对所述概率函数进行近似处理。

为了提高利用吉布斯采样的效率，采用基于别名方法的梅特罗波利斯－黑斯廷斯采样算法。当采用后者的时候，相比于吉布斯采样算法，采样一个主题z的时间复杂度从O(K)降为O(1)，K为主题个数。在一种实施方式中，所述近似处理后的表达式为：

S130：根据词语之间的全局语义相似度对所述概率函数进行更新。

同时，也在cpLDA中加入了全局语义连贯。词语之间的全局语义相似度通过词向量之间的相似度进行计算，进而可以更新主题概率函数。在一种实施方式中，所述更新后的概率函数的表达式为：

其中P(·|z_k)表示任意的词语在第k个主题下的概率，R_iw表示词语集合与词语的相似度矩阵，R为词语与词语之间的相似度矩阵，且R为稀疏矩阵，τ为设定的超参数，W为词语的数量。

S200：将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数。

如图3所示，其为本实施例的神经网络模型的示意图。在一种实施方式中，所述神经网络模型为层级GRU(Gated Recurrent Unit，封闭的复发性单元)网络模型，并将从上述的主题模型中获得的主题向量作为输入。

其中，所述神经网络模型里面可以划分为三个模块，主题模块(topic MLP，Multi-Layer Perceptron，多层感知器)，句子模块(sentence LDA，Latent DirichletAllocation，文档主题生成模型)和GRU模块。其中，所述主题模块输入的每个句子内分布的主题向量经过加权求和后的句子主题向量。所述句子模块输入的是一个主题维度的向量，概率就是作为这个维度的值。所述GRU模块输入的是每个句子经过分词后的词向量。

所述的神经网络模型从处理流程可以包括三个层级，分别为：词层、句子层和混合层。

如图4所示，在另一种实施例中，本发明实施例还提供了一种对话连贯性的判断装置，包括：

主题向量生成模块100，用于将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中所述主题模型的变量包括文档、词语、句子和主题。

相关性分数生成模块200，用于将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数。

其中，还包括主题模型训练模块，通过所述主题训练模块对主题模型进行训练。如图5所示，所述主题模型训练模块包括：

函数获取子模块110，用于通过吉布斯采样算法获得每个主题的概率函数；

近似处理子模块120，用于采用的梅特罗波利斯－黑斯廷斯采样算法对所述概率函数进行近似处理；

函数更新子模块130，用于根据词语之间的全局语义相似度对所述概率函数进行更新。

所述函数获取子模块110中获取的概率函数的表达式为：

其中，所述z_i表示第i个句子的主题，z_-i表示除了第i个句子外的所有句子的主题，v_i表示第i个句子的词语集合，n_dk表示在文档d中属于第k个主题的词语w的数量，n_kv表示属于第k个主题的词语集合v的数量，n_di表示在文档d中的第i个句子里面的词语数量；n_iv表示在第i个句子里面的词语集合v的数量，α_k和β_v’为设定的超参数，K表示主题的数量。

所述近似处理子模块120在进行近似处理后的表达式为：

所述函数更新子模块130在对函数进行更新后的表达式为：

其中P(·|z_k)表示任意的词语在第k个主题下的概率，R为词语与词语之间的相似度矩阵，且R为稀疏矩阵，τ为设定的超参数，W为词语的数量。

所述的神经网络模型包括词层、句子层和混合层。其中，所述词层用于输入词向量和/或主题向量；所述句子层用于输入句子的向量；所述混合层用于将句子向量和主题向量进行融合以获得隐向量，并通过分类器输出相关性分数。

本实施例的对话连贯性的判断装置与上述实施例的对话连贯性的判断方法的原理类似，故不再赘述。

在另一个实施例中，本发明还提供一种对话连贯性的判断设备，如图6所示，该设备包括：存储器510和处理器520，存储器510内存储有可在处理器520上运行的计算机程序。所述处理器520执行所述计算机程序时实现上述实施例中的对话连贯性的判断方法。所述存储器510和处理器520的数量可以为一个或多个。

该设备还包括：

通信接口530，用于与外界设备进行通信，进行数据交互传输。

存储器510可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器510、处理器520和通信接口530独立实现，则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器510、处理器520及通信接口530集成在一块芯片上，则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对话连贯性的判断方法，其特征在于，包括：

将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中训练所述主题模型的变量包括文档、词语、句子和主题；

将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数；所述相关性分数用于表示所述最后一个句子与前面所有句子基于所述主题的对话连贯性。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括训练主题模型，所述训练主题模型包括：

通过吉布斯采样算法获得每个主题的概率函数；

根据词语之间的全局语义相似度对所述概率函数进行更新。

3.根据权利要求1所述的方法，其特征在于，所述的神经网络模型包括词层、句子层和混合层；

4.一种对话连贯性的判断装置，其特征在于，包括：

主题向量生成模块，用于将对话输入训练好的主题模型，由所述主题模型输出对应的主题及其概率、以及由主题及其概率构成的所述对话的主题向量，其中训练所述主题模型的变量包括文档、词语、句子和主题；

相关性分数生成模块，用于将所述主题向量、对话中的句子向量和句子分词后的词向量输入至神经网络模型，由神经网络模型输出最后一个句子与前面所有句子的相关性分数；所述相关性分数用于表示所述最后一个句子与前面所有句子基于所述主题的对话连贯性。

5.根据权利要求4所述的装置，其特征在于，还包括：主题模型训练模块，所述主题模型训练模块包括：

6.根据权利要求4所述的装置，其特征在于，所述的神经网络模型包括词层、句子层和混合层；

7.一种对话连贯性的判断设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-3中任意一项所述的对话连贯性的判断方法。

8.一种计算机可读介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任意一项所述的对话连贯性的判断方法。