CN113761145A

CN113761145A - 语言模型训练方法、语言处理方法和电子设备

Info

Publication number: CN113761145A
Application number: CN202011463278.4A
Authority: CN
Inventors: 赵东浩; 袁斌; 郭培伦; 温程; 戚依楠
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-12-07

Abstract

本公开提供了一种语言模型训练方法、语言处理方法和电子设备。该语言模型训练方法包括：处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信息；以及基于句对的联合表示训练语言模型，其中，交互信息包括成对的问句和答句之间的相互检测结果，相互检测结果包括句对样本中问句针对答句的检测结果，以及句对样本中答句针对问句的检测结果。

Description

语言模型训练方法、语言处理方法和电子设备

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种语言模型训练方法、语言处理方法和电子设备。

背景技术

深度学习技术已经在诸如物体分类、文本处理、推荐引擎、图像搜索、面部识别、年龄识别和语音识别、人机对话以及情感计算等领域取得了巨大进展。人机对话成为语音识别和自然语言处理领域中的一个重要的研究和应用热点，而随着人机对话系统的发展和产业应用逐步深入，任务驱动型的多轮对话系统得到了产业界的更多关注。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题，相关技术中语言模型的处理结果的准确度无法满足需求。

发明内容

有鉴于此，本公开提供了一种能提升语言模型的处理结果的准确度的语言模型训练方法、语言处理方法和电子设备。

本公开的一个方面提供了一种语言模型训练方法，包括：处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信息；以及基于句对的联合表示训练语言模型，其中，交互信息包括成对的问句和答句之间的相互检测结果，相互检测结果包括句对样本中问句针对答句的检测结果，以及句对样本中答句针对问句的检测结果。

根据本公开的实施例，成对的问句和答句之间的相互检测结果通过如下方式确定：基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果，并且基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果；以及基于第一测量结果和第二测量结果的乘积，确定成对的问句和答句之间的相互检测结果。

根据本公开的实施例，基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果包括：基于求迹算法、问句的句子表示和针对问句的测量算子，确定第一测量结果；以及基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果包括：基于求迹算法、答句的句子表示和针对答句的测量算子，确定第二测量结果。

根据本公开的实施例，针对问句的测量算子通过如下方式确定：基于全局词频统计的词表征工具确定针对问句的第一矩阵，第一矩阵包括问句中各词的词向量；获取第一矩阵包括的问句中各词的词向量的二范数；以及基于问句中各词的词向量与各自的二范数比值，确定针对问句的测量算子。

根据本公开的实施例，问句的句子表示通过如下方式确定：基于第一矩阵和问句中各词的词向量的二范数确定第二矩阵；以及基于至少两个第二矩阵各自的权重混合至少两个第二矩阵，得到用于表征问句的句子表示的第三矩阵。

根据本公开的实施例，基于句对的联合表示训练语言模型包括：基于反向传播算法和/或批量随机梯度下降法，利用句对的联合表示训练语言模型，以得到语言模型的模型参数的取值，其中，模型参数包括至少两个第二矩阵各自的权重。

根据本公开的实施例，语言模型包括卷积层、全连接层和分类层；基于反向传播算法和/或批量随机梯度下降法，利用句对的联合表示训练语言模型，以得到语言模型的模型参数的取值包括：调整语言模型的模型参数的取值，以及针对多个句对样本中每一个，利用卷积层处理句对的联合表示，得到针对句对的联合表示的状态表示特征，利用全连接层处理状态表示特征，得到表示向量，以及利用分类层处理表示向量，得到类别信息；重复执行以上操作直至针对多个句对样本的类别信息满足停止条件。

根据本公开的实施例，停止条件包括但不限于语言模型收敛。

根据本公开的实施例，训练方法还包括：获取样本数据集，样本数据集包括多个句对样本；从样本数据集中确定样本数据训练集，或者从样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种；将样本数据训练集中句对样本作为训练样本，以对语言模型进行训练；如果存在样本数据验证集，则利用样本数据验证集中句对样本对训练好的语言模型进行验证，以确定最优的模型参数的取值；以及如果存在样本数据测试集，则利用样本数据测试集中句对样本测试采用最优的模型参数的取值的语言模型，以得到测试结果。

根据本公开的实施例，训练方法还包括：在从样本数据集中确定样本数据训练集，或者从样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种之后，对样本数据训练集、样本数据验证集、样本数据测试集中至少部分句对样本进行预处理，以去除至少部分句对样本中停止词和/或特定符号。

根据本公开的实施例，获取样本数据集包括以下至少一种：获取句对样本，以基于多个句对样本构建样本数据集，句对样本包括成对的问句和答句；以及加载语料库，语料库包括多个句对样本。

本公开的一个方面提供了一种语言处理方法包括：获取输入问句；以及利用语言模型处理输入问句，以确定输出答句；其中，语言模型是基于如上的训练方法进行训练的。

根据本公开的实施例，输入问句来自问答系统。

本公开的一个方面提供了一种语言模型训练装置，包括：句对样本处理模块，用于处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信启、；以及语言模型训练模块，用于基于句对的联合表示训练语言模型。

本公开的另一个方面提供了一种语言处理装置，包括：输入问句获取模块，用于获取输入问句；以及利用语言模型处理输入问句，以确定输出答句，其中，语言模型是基于如上的训练方法进行训练的。

本公开的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，存储装置用于存储可执行指令，可执行指令在被处理器执行时，实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的实施例，获取成对的问句和答句之间的交互信息，并且至少基于该交互信息进行模型训练，有助于提升该语言模型的处理结果的准确度。

本公开的实施例，引入了句对的联合表示，有效改善了相关技术中密度矩阵的联合表示不能提取句对间的交互信息的缺点，引入量子理论，使用测量算子测量每个句对，从而达到一个句子的内容指导另一个句子的表示，最终一起将两个句子建模，有助于提升该语言模型的处理结果的准确度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1为根据本公开实施例的语言模型训练方法、语言处理方法和电子设备的适用场景示意图；

图2为根据本公开实施例的可以应用语言模型训练方法、语言处理方法和电子设备的示例性系统架构。

图3为根据本公开实施例的语言模型训练方法的流程图；

图4为根据本公开实施例的语言模型的结构示意图；

图5为根据本公开实施例的第一矩阵的示意图；

图6为根据本公开实施例的第二矩阵的示意图；

图7为根据本公开实施例的第三矩阵的示意图；

图8为根据本公开实施例的样本数据集的示意图；

图9为根据本公开实施例的语言处理方法的流程图；

图10为根据本公开实施例的语言模型训练装置的框图；

图11为根据本公开实施例的语言处理装置的框图；以及

图12为根据本公开实施例的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

相关技术可以采用包括卷积层的网络进行特征提取以及分类等，为了便于理解本公开的实施例，首先对卷积神经网络及其工作过程进行示例性说明。

为了便于理解本公开的实施例，首先对自然语言处理相关进行示例性说明。

随着科学技术的迅猛发展，特别是互联网和社交网络的快速发展，导致大量信息充斥在网络平台上。人们可能通过互联网获取大量资料，但如何提高获取问题答案的速度和准确度，越来越成为人们所关心的问题。一种常见的提效管理方式就是匹配，由此可见文本匹配蕴含巨大的社会价值。本公开实施例主要涉及句对间的匹配。

语言建模(LM)是自然语言处理领域的基础研究课题。量子语言模型(QuantumLanguage Model，简称QLM)，借鉴了量子力学中密度矩阵的概念，将单一术语(singleterm)和术语依赖性(term dependency)的概率不确定性编码(encoding)到密度矩阵中，且与传统汉语语言模型(如n-gram)模型相比，量子语言模型在表示n阶dependency时不会增加参数规模。但是QLM也存在一些限制。例如，QLM中每个词的表示是一个独热(one-hot)向量，它只能编码本地(local)事件，而不能考虑全局语义信息；另外，QLM通过密度矩阵表示文本(例如询问(query)、文档(document))，它通过迭代求解而非解析求解，因此在端到端的设计中很难更新和优化密度矩阵；此外，QLM中密度矩阵的表示、训练和匹配，这三个步骤无法共同优化，限制了QLM的适用性。

基于语义向量进行表示的神经网络分类方法旨在区分给定句子的语义信息。当然目前工业界和学术界都意识到句对间交互信息的重要性，并试图通过设计一系列交互模型来更好的获取它们。例如，基于神经网络的类量子语言模型(NNQLM)提出了使用密度矩阵表示问题和答案，将密度矩阵的联合表示集成到端到端的机制中，将词向量作为单个词的状态向量，单个词表示一个纯态系统，整个句子就可以对应于由密度矩阵表示的混合态系统。这样就可以在没有迭代估计的情况下导出密度矩阵，密度矩阵表示也可以被集成到神经网络结构中并通过反向传播算法自动更新。但是，这种方法仅仅引入了量子语言模型的概念，无法编码(encode)句对间的交互信息且量子力学中测量这不可或缺的部分也被忽略。

匹配任务在自然语言处理任务中扮演重要角色。匹配任务的发展广泛受到业界和学术界的关注。本公开实施例不仅讨论了如何获得句对间的相似度信息，还对句对的匹配关系进行了判断，这是文本匹配领域的细粒度任务。例如“问：你觉得电影中的男主人公怎么样”，“答：电影中连环杀手杰弗里·达默很无聊”。此句对的匹配关系主要由单词“电影”所决定。

本公开实施例提供的技术方案旨在改善上述至少部分问题。

图1为根据本公开实施例的语言模型训练方法、语言处理方法和电子设备的适用场景示意图。

如图1所示，用户通过交互界面输入信息，或者通过语音交互等方式向智能客服发出了提问：想退手机，怎么办？该提问经过智能客服的服务器端处理后，可以自动确定并输出答复信息，如您好，京东为您提供了在线受理退换货的服务，请点击售后申请……。智能客服有效减少了客服岗对人工客服的依赖，或者能辅助人工客服进行作业，降低对人工开客服的业务熟练度水平的要求。此外，智能客服给出的答复可以更加标准，有助于提升客户体验。具体地，本公开实施例可以测量句对间的交互关系，如使用诸如测量算子等测量句对间的交互关系使得可以基于该句对间的交互关系对语言模型进行训练。此外，还可以通过卷积神经网络提取匹配信息以提供精准的回答语句。

本公开实施例提供的语言模型训练方法、语言处理方法和电子设备，该语言模型训练方法包括句对样本处理过程和模型训练过程。在句对样本处理过程中，处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信息。在完成句对样本处理过程之后，进入模型训练过程，基于句对的联合表示训练语言模型。

图2为根据本公开实施例的可以应用语言模型训练方法、语言处理方法和电子设备的示例性系统架构。需要注意的是，图2所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图2所示，根据该实施例的系统架构200可以包括终端设备201、202、203，网络204和服务器205。网络204用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与服务器205交互，以接收或发送消息等。终端设备201、202、203上可以安装有各种通讯客户端应用，例如导航类应用、语言处理类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备201、202、203可以是具语言处理能力的各种电子设备，包括但不限于车辆、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器205可以是提供各种服务的服务器，例如对终端设备201、202、203所请求的回答语句的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果(例如答复语句、模型参数信息、模型验证结果等)反馈给终端设备。

需要说明的是，本公开实施例所提供的语言模型训练方法可以应用于服务器中，本公开实施例所提供的语言处理方法可以由服务器205执行。本公开实施例所提供的语言模型训练方法和语言处理方法也可以由不同于服务器205且能够与终端设备201、202、203和/或服务器205通信的服务器或服务器集群执行。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图3为根据本公开实施例的语言模型训练方法的流程图。

如图3所示，该语言模型训练方法可以包括操作S302～操作S304。

在操作S302，处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信息。

在本实施例中，句对样本可以是具有标注信息，且成对的问句和答句，标注信息可以表征诸如：问句和答句相匹配或不匹配等。句对样本可以是从历史问答数据中获取的，还可以是人工构建的，在此不做限定。

句对的联合表示用于表征成对的问句和答句之间的交互信启、，该交互信息可以用于判断问句和答句是否匹配。

例如，成对的问句和答句之间的交互信息可以包括：成对的问句和答句之间的相互检测结果。其中，相互检测结果可以包括：句对样本中问句针对答句的检测结果，以及句对样本中答句针对问句的检测结果。

其中，检测结果可以是基于诸如密度矩阵、算子等确定的。密度矩阵可以作为句子的表示，例如，问句的表示或答句的表示。算子可以是随机算子或测量算子，其中，测量算子可以表征句子中每个单词的叠加态。

在操作S304，基于句对的联合表示训练语言模型。

在本实施例中，语言模型可以包括多个网络，如卷积神经网络(CNN)、全连接神经网络、分类神经网络等。可以使用诸如反向传播算法和/或批量随机梯度下降法等训练模型，使得语言模型的输出类别趋近于句对样本的标签表征的类别。激活函数、损失函数等可以采用多种相关技术，在此不做限定。

图4为根据本公开实施例的语言模型的结构示意图。

如图4所示，该语言模型可以包括卷积层、全连接层和分类层等，其中，卷积层可以用于提取句对的联合表示的特征，如状态表示特征。全连接层可以输出表示向量，使得分类层可以基于表示向量可以给出分类结果。

本公开的实施例中，基于当前问答系统QA中，密度矩阵的联合表示不能提取句对间的交互信息的缺点，引入量子理论，处理句对样本，得到句对的联合表示，从而达到一个句子的内容指导另一个句子的表示，最终一起将两个句子建模。

以下对确定句对的联合表示进行示例性说明。

在一个实施例中，成对的问句和答句之间的相互检测结果可以通过如下方式确定。

首先，基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果，并且基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果。例如，测量算子可以是在确定句子中各单词的词向量之后，基于词向量的二范数来确定的。

然后，基于第一测量结果和第二测量结果的乘积，确定成对的问句和答句之间的相互检测结果。通过将第一测量结果和第二测量结果做乘积后，就可以得到问句和答句之间的相互检测结果，进而可以表征问句和答句之间的交互信息。

例如，基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果包括：基于求迹算法、问句的句子表示和针对问句的测量算子，确定第一测量结果。求迹算法可以表示为Tr()，Tr(A)表示矩阵A的迹，迹是矩阵的主对角元素的和。

又例如，基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果包括：基于求迹算法、答句的句子表示和针对答句的测量算子，确定第二测量结果。

以下以文件为例，对测量算子的确定过程进行示例性说明。

在一个实施例中，针对问句的测量算子可以通过如下方式确定。

首先，基于全局词频统计的词表征工具确定针对问句的第一矩阵，第一矩阵包括问句中各词的词向量。

例如，运用Glove工具得到每个文本中单词的词向量w_i，它可以看做是独立潜在语义与权重的线性组合(叠加态)，每个单词的分布式表示可以看做被测量后的量子态。其中，Glove是一种主流的训练词向量，生成、抽取信息的向量表征工具。

图5为根据本公开实施例的第一矩阵的示意图。

如图5所示，第一矩阵可以包括多个阵元，其中，各阵元的取值可以为如a、b、c、d等。其中，a、b、c、d等可以为复值词向量。第一矩阵中词向量可以看做是独立潜在语义与权重的线性组合(叠加态)，每个单词的分布式表示可以看做被测量后的量子态，为从复值词向量中获得单位状态向量，我们取每个词向量的二范数。其中，Glove处理后得到的是一个矩阵，该矩阵即为分布式表示。矩阵S的2范数，就是S的转置共轭矩阵与矩阵S的积的最大特征根的平方根值，是指空间上两个向量矩阵的直线距离。

然后，获取第一矩阵包括的问句中各词的词向量的二范数。例如，其可以表示为||s_i||₂。

接着，基于问句中各词的词向量与各自的二范数比值，确定针对问句的测量算子。例如，以Π表示测量算子，则其可以表示为如式(1)所示。

通过以上方式即可确定针对问句的测量算子。需要说明的是，针对答句的测量算子的确定方法可以相同，在此不做限定。

在一个实施例中，问句的句子表示通过如下方式确定。

首先，基于第一矩阵和问句中各词的词向量的二范数确定第二矩阵。

图6为根据本公开实施例的第二矩阵的示意图。如图6所示，可以将第一矩阵中各阵元的取值替换为各自的二范数，如替换为e、f、g、h等。

然后，基于至少两个第二矩阵各自的权重混合至少两个第二矩阵，得到用于表征问句的句子表示的第三矩阵。

其中，至少两个第二矩阵各自的权重可以是在训练模型的过程中自动确定的。混合的过程可以采用加权叠加的方式来实现。

图7为根据本公开实施例的第三矩阵的示意图。如图7所示，通过对多个第二矩阵中相对应的阵元的取值进行加权叠加。

在一个实施例中，基于句对的联合表示训练语言模型可以包括：基于反向传播算法和/或批量随机梯度下降法，利用句对的联合表示训练语言模型，以得到语言模型的模型参数的取值，其中，模型参数包括至少两个第二矩阵各自的权重。

例如，参考图4所示，该语言模型包括卷积层、全连接层和分类层。相应地，基于反向传播算法和/或批量随机梯度下降法，利用句对的联合表示训练语言模型，以得到语言模型的模型参数的取值可以包括如下操作。

调整语言模型的模型参数的取值，以及针对多个句对样本中每一个，首先，利用卷积层处理句对的联合表示，得到针对句对的联合表示的状态表示特征，然后，利用全连接层处理状态表示特征，得到表示向量，接着，利用分类层处理表示向量，得到类别信息。这样，通过重复执行以上调整模型参数的取值，并进行模型训练的操作直至针对多个句对样本的类别信息满足停止条件。例如，停止条件包括但不限于：模型输出结果收敛、模型输出结果与标签信息的相似度大于预设相似度阈值等。

通过以上方式即可实现基于句对的联合表示训练语言模型。

在一个实施例中，训练方法还可以包括如下操作。

首先，获取样本数据集，样本数据集包括多个句对样本。

然后，从样本数据集中确定样本数据训练集，或者从样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种。

接着，将样本数据训练集中句对样本作为训练样本，以对语言模型进行训练。

如果存在样本数据验证集，则利用样本数据验证集中句对样本对训练好的语言模型进行验证，以确定最优的模型参数的取值。

如果存在样本数据测试集，则利用样本数据测试集中句对样本测试采用最优的模型参数的取值的语言模型，以得到测试结果。

为了提升验证结果和测试结果的公平合理性，训练方法还可以包括：在从样本数据集中确定样本数据训练集，或者从样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种之后，对样本数据训练集、样本数据验证集、样本数据测试集中至少部分句对样本进行预处理，以去除至少部分句对样本中停止词和/或特定符号。

图8为根据本公开实施例的样本数据集的示意图。

如图8所示，从文本分类语料集中，随机选取80％的样本作为样本数据训练集，10％的样本划分为样本数据验证集和剩余的10％的样本划分为样本数据测试集，并分别对训练集、验证集和测试集进行预处理，去除每个句对的停止词、特殊符号。

在一个实施例中，样本数据集可以是调用已有样本数据集，也可以是自行构建的数据集，在此不做限定。

例如，获取样本数据集包括以下至少一种：例如，获取句对样本，以基于多个句对样本构建样本数据集，句对样本包括成对的问句和答句。又例如，加载语料库，语料库包括多个句对样本。

以下以问答系统场景为例进行示例性说明。

首先，利用“爬虫”技术，收集并构建问答系统语料集，该语料集的总样本数为N，其中每条样本包含一个问题与一个答案。

然后，从文本分类语料集中，随机选取80％*N个样本作为训练集，10％*N个样本划分为验证集和剩余的10％*N个样本划分为测试集，并分别对训练集、验证集和测试集进行预处理，去除每个句对的停止词、特殊符号。

接着，确定句对的联合表示。具体可以包括如下四个步骤。

第一步：运用glove工具得到每个文本中单词的词向量w_i，它可以看做是独立潜在语义与权重的线性组合(叠加态)，每个单词的分布式表示可以看做被测量后的量子态，为从复值词向量中获得单位状态向量，取每个词向量的二范数，进而计算测量算子Π，公式如式(1)所示。

第二步：每个句子的表示则是由混合态密度矩阵表示，纯密度矩阵，对角线元素代表振幅的分布(语义)，而非对角线元素代表相位干涉(语义组合)。混合态密度矩阵是根据一定概率的纯态密度矩阵的混合。由密度矩阵的公式可以得到句子的表示如式(2)所示。

其中，i是大于等于1的正整数，p_i是权重，

是共轭转置。

第三步：可以使用问句的每个单词的叠加态表示作为测量算子，测量答句，可以得到问句针对答句的测量结果ρ_am，如式(3)所示。

其中，Π是测量算子，q_i是权重，通过模型训练来确定。tr()是求迹函数，如式(4)所示。

第四步：同理可以得到答句测量问句后的表示，而句对的表示则可由两个句子的联合表示得到，即M_qa＝ρ_am*ρ_qm。其中，ρ_qm是答句针对问句的测量结果。

然后，把句对的联合表示输入到卷积神经网络(CNN)网络中，具体计算公式如式(5)所示。

Z＝σ(M_qa*w_i+b_i) 式(5)

其中σ表示sigmod激活函数，w_i表示不同的卷积核，而b_i则表示偏置，而通过用上述的公式，输入每个句对的联合表示M_qa，分别得到网络隐层状态表示

接着，利用网络隐层输出

输入到一个非线性全连接神经网络层得到神经网络表示向量h_out，如式(6)所示。再将表示h_out输入到softmax分类层输出最终的类别

如式(7)所示。

其中，tanh()表示双曲正切函数。W_R表示权重，b_R表示偏置。

为了训练语言模型，定义神经网络模型损失函数如式(8)所示。

其中，y_i代表真实类别标签，

代表模型预测结果。通过反向传播算法、批量随机梯度下降法训练模型。

在验证集上进行验证模型效果，记录保存在验证集上效果达到最优时的模型参数。

接着，可以用于保存的最优的模型去测试测试集上的样本，最终得到每个句对的预测结果，对比测试标签，计算出分类准确率。分类准确率可以如表1所示。

表1分类准确率

表1中，TREC-QA、WIKIQA分别是测试集名称。MAP和MRR分别表征测试方法，如MAP是对多个样本各自的测试结果取平均值。

Method是采用的语言模型的类型，如CNN是卷积神经网络，LSTM是长短时记忆语言模型，QLM是量子语言模型，NNQLM-1是1类量子语言模型。MBQLM是本公开实施例采用的基于测量的类量子语言模型。可以看到，本公开实施例采用的MBQLM针对不同的测试样本集的测试结果都是最优的，有效提升了分类准确率。

本公开实施例还提供了一种语言处理方法。

图9为根据本公开实施例的语言处理方法的流程图。

如图9所示，该语言处理方法可以包括操作S902～操作S904。

在操作S902，获取输入问句。

在操作S904，利用语言模型处理输入问句，以确定输出答句。

其中，语言模型可以是基于如上的训练方法进行训练的。例如，输入问句来自问答系统。本公开实施例使用测量量子来捕获句对间的交互信息，从而提高句子表示的准确度，以及模型的效果。

需要说明的是，测量量子、句对的联合表示等可以如前所示，在此不再赘述。

本公开实施例还提供了一种语言模型训练装置。

图10为根据本公开实施例的语言模型训练装置的框图。

如图10所示，该语言模型训练装置1000可以包括句对样本处理模块1010和语言模型训练模块1020。

句对样本处理模块1010用于处理句对样本，得到句对的联合表示，句对样本包括成对的问句和答句，句对的联合表示包括成对的问句和答句之间的交互信息。

语言模型训练模块1020用于基于句对的联合表示训练语言模型。

本公开实施例将基于当前问答系统QA中，密度矩阵的联合表示不能提取句对间的交互信息的缺点，引入量子理论，使用测量算子测量每个句对，从而达到一个句子的内容指导另一个句子的表示，最终一起将两个句子建模，有效提升了。

本公开实施例中各模块能实现的功能如上述相关方法部分所示，在此不再赘述。

本公开的另一方面提供了一种语言处理装置。

图11为根据本公开实施例的语言处理装置的框图。

如图11所示，该语言处理装置1100可以包括：输入问句获取模块1110和答句输出模块1120。

输入问句获取模块1110用于获取输入问句。

答句输出模块1120用于利用语言模型处理输入问句，以确定输出答句，其中，语言模型是基于如上的训练方法进行训练的。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，句对样本处理模块1010和语言模型训练模块1020中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，句对样本处理模块1010和语言模型训练模块1020中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，句对样本处理模块1010和语言模型训练模块1020中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图12为根据本公开实施例的电子设备的框图。图12示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，根据本公开实施例的电子设备1200包括处理器1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1203中，存储有系统1200操作所需的各种程序和数据。处理器1201、ROM1202以及RAM 1203通过总线1204彼此相连。处理器1201通过执行ROM 1202和/或RAM 1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统1200还可以包括输入/输出(I/O)接口1205，输入/输出(I/O)接口1205也连接至总线1204。系统1200还可以包括连接至I/O接口1205的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM 1203以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种语言模型训练方法，包括：

处理句对样本，得到句对的联合表示，所述句对样本包括成对的问句和答句，所述句对的联合表示包括成对的问句和答句之间的交互信息；以及

基于所述句对的联合表示训练所述语言模型；

其中，所述交互信息包括所述成对的问句和答句之间的相互检测结果，所述相互检测结果包括所述句对样本中问句针对答句的检测结果，以及所述句对样本中答句针对问句的检测结果。

2.根据权利要求1所述的训练方法，其中，所述成对的问句和答句之间的相互检测结果通过如下方式确定：

基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果，并且基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果；以及

基于所述第一测量结果和所述第二测量结果的乘积，确定成对的问句和答句之间的相互检测结果。

3.根据权利要求2所述的训练方法，其中：

所述基于针对问句的测量算子或者随机算子测量答句，得到第一测量结果包括：基于求迹算法、所述问句的句子表示和针对所述问句的测量算子，确定所述第一测量结果；以及

所述基于针对答句的测量算子或者随机算子测量问句，得到第二测量结果包括：基于求迹算法、所述答句的句子表示和针对所述答句的测量算子，确定所述第二测量结果。

4.根据权利要求3所述的训练方法，其中，所述针对所述问句的测量算子通过如下方式确定：

基于全局词频统计的词表征工具确定针对所述问句的第一矩阵，所述第一矩阵包括所述问句中各词的词向量；

获取所述第一矩阵包括的所述问句中各词的词向量的二范数；以及

基于所述问句中各词的词向量与各自的二范数比值，确定针对所述问句的测量算子。

5.根据权利要求4所述的训练方法，其中，所述问句的句子表示通过如下方式确定：

基于所述第一矩阵和所述问句中各词的词向量的二范数确定第二矩阵；以及

基于至少两个第二矩阵各自的权重混合所述至少两个第二矩阵，得到用于表征所述问句的句子表示的第三矩阵。

6.根据权利要求5所述的训练方法，其中，所述基于所述句对的联合表示训练所述语言模型包括：

基于反向传播算法和/或批量随机梯度下降法，利用所述句对的联合表示训练所述语言模型，以得到所述语言模型的模型参数的取值，其中，所述模型参数包括所述至少两个第二矩阵各自的权重。

7.根据权利要求6所述的训练方法，其中，所述语言模型包括卷积层、全连接层和分类层；

所述基于反向传播算法和/或批量随机梯度下降法，利用所述句对的联合表示训练所述语言模型，以得到所述语言模型的模型参数的取值包括：

调整所述语言模型的模型参数的取值，以及针对多个句对样本中每一个，

利用所述卷积层处理所述句对的联合表示，得到针对所述句对的联合表示的状态表示特征，

利用所述全连接层处理所述状态表示特征，得到表示向量，以及

利用所述分类层处理所述表示向量，得到类别信息；

重复执行以上操作直至针对所述多个句对样本的类别信息满足停止条件。

8.根据权利要求1所述的训练方法，还包括：

获取样本数据集，所述样本数据集包括多个句对样本；

从所述样本数据集中确定样本数据训练集，或者从所述样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种；

将所述样本数据训练集中句对样本作为训练样本，以对所述语言模型进行训练；

如果存在样本数据验证集，则利用样本数据验证集中句对样本对训练好的语言模型进行验证，以确定最优的模型参数的取值；以及

如果存在样本数据测试集，则利用样本数据测试集中句对样本测试采用所述最优的模型参数的取值的语言模型，以得到测试结果。

9.根据权利要求8所述的训练方法，还包括：在所述从所述样本数据集中确定样本数据训练集，或者从所述样本数据集中确定样本数据训练集，以及样本数据验证集、样本数据测试集中至少一种之后，

对所述样本数据训练集、所述样本数据验证集、所述样本数据测试集中至少部分句对样本进行预处理，以去除所述至少部分句对样本中停止词和/或特定符号。

10.一种语言处理方法，包括：

获取输入问句；以及

利用语言模型处理所述输入问句，以确定输出答句；

其中，所述语言模型是基于如权利要求1至10任一项所述的训练方法进行训练的。

11.根据权利要求10所述的语言处理方法，其中，所述输入问句来自问答系统。

12.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1至9中任一项所述的语言模型训练方法，或者实现根据权利要求10至11中任一项所述的语言处理方法。