CN110347799A

CN110347799A - 语言模型训练方法、装置和计算机设备

Info

Publication number: CN110347799A
Application number: CN201910631027.3A
Authority: CN
Inventors: 谭翊章; 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-18
Anticipated expiration: 2039-07-12
Also published as: CN110347799B

Abstract

本申请涉及一种语言模型训练方法、装置和计算机设备，所述方法包括：获取待处理文本及对应的标签词；将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词；根据第一概率和第二概率处理得到目标词；根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。本申请提供的方案可以提高语言模型预测的准确性。

Description

语言模型训练方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种语言模型训练方法、装置、计算机可读存储介质和计算机设备。

背景技术

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向，它能通过自然语言实现人与计算机之间的对话通信。目前的自然语言模型训练方法是对上下文中的词进行编码，然后在词表上进行预测得到目标词。然而，目前的语言训练方法预测得到的内容准确性不高。

发明内容

基于此，有必要针对目前的语言训练方法预测得到的内容准确性不高的技术问题，提供一种语言模型训练方法、装置、计算机可读存储介质和计算机设备。

一种语言模型训练方法，包括：

获取待处理文本及对应的标签词；

将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；

根据所述第一概率和所述第二概率处理得到目标词；

根据所述目标词与所述标签词的差异，调整所述语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

一种文本处理方法，所述方法包括：

获取待处理文本及对应的标签词；

根据所述第一概率和所述第二概率处理得到目标词；

根据所述目标词生成所述待处理文本对应的目标文本。

一种语言模型训练装置，所述装置包括：

获取模块，用于获取待处理文本及对应的标签词；

第一处理模块，用于将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；

第二处理模块，用于根据所述第一概率和所述第二概率处理得到目标词；

调整模块，用于根据所述目标词与标签词的差异，调整所述语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

一种文本处理装置，所述装置包括：

文本获取模块，用于获取待处理文本及对应的标签词；

语言模型处理模块，用于将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，所述第一待选词为预设词表中的词，所述第二待选词为待处理文本中的词；

目标词获取模块，用于根据所述第一概率和所述第二概率处理得到目标词；

目标文本生成模块，用于根据所述目标词生成所述待处理文本对应的目标文本。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行获取待处理文本及对应的标签词；

根据所述第一概率和所述第二概率处理得到目标词；

根据所述目标词生成所述待处理文本对应的目标文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行获取待处理文本及对应的标签词；

根据所述第一概率和所述第二概率处理得到目标词；

根据所述目标词生成所述待处理文本对应的目标文本。

上述语言模型训练方法、装置、计算机可读存储介质和计算机设备，通过获取待处理文本及对应的标签词，将待处理文本输入至语言模型中进行处理，得到预设词表中的词对应的第一概率以及待处理文本中的词对应的第二概率，能够加入待处理文本中的词语进行预测，根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型，提高语言模型预测的准确性。

附图说明

图1为一个实施例中语言模型训练方法的流程示意图；

图2为另一个实施例中语言模型训练的示意图；

图3为又一个实施例中语言模型训练方法的示意图；

图4为一个实施例中ELMO的结构框图；

图5为一个实施例中BERT模型的结构框图；

图6为一个实施例中文本处理方法的流程示意图；

图7为一个实施例中语言模型训练装置的结构框图；

图8为一个实施例中文本处理装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，该语言模型训练方法可应用于终端或服务器。其中，终端具体可以是台式终端或手持终端。终端具体可以手机、平板电脑、笔记本电脑等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。语言模型训练方法可通过语言模型训练程序实现，语言模型训练程序可应用于终端或服务器。

在一个实施例中，如图1所示，提供了一种语言模型训练方法。本实施例主要以该方法应用于终端或服务器来举例说明。参照图1，该模型训练方法具体包括如下步骤：

步骤102，获取待处理文本及对应的标签词。

其中，待处理文本是指待进行语义识别的文本。待处理文本具体可以是一句话、一段话或者一篇文章等。待处理文本不限语言类型，例如可以是中文文本，也可以是英文文本等。标签词是指该待处理文本通过语言模型进行训练后的期望结果。标签词是预先为该待处理文本配置的词。每个句子都有对应的标签词。该标签词可以为至少两个标签词，该至少两个标签词能组成一个句子。

具体地，语言模型处理程序可提供输入界面，以获取用户通过输入界面输入的需要进行语义识别的文本，将获取的文本作为待处理文本，并设置对应的标签词。或者，语言模型处理程序获取从其他设备发送的待处理文本，以及该待处理文本对应的标签词。或者，语言模型处理程序获取通过界面选择的文本，将该文本作为待处理文本，并设置对应的标签词。

步骤104，将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。

其中，语言模型(LM,Language Model)是用于度量『词序列t1,…tN是自然语言』的概率的模型，一般用LM(t1,…tN，θ)表示，这里θ是模型参数。在训练时，一般最大化P(tk|context(tk))，这里的context(ti)是词tk的上下文窗口里的词，如『我想吃苹果』，如果tk＝吃，则context(tk)可以是{想，苹果}，语言模型的任务就是要能根据tk的context，去预测出tk，从而得到LM。单向语言模型是指只考虑单向的语言模型，一般是指正向，也就是上面的context(tk)，只从tk的上文或者下文里面取，用公式可以表示为：

正向语言模型：

反向语言模型：

双向语言模型：考虑了正反向关系的语言模型，即上面的context(tk)包含了tk的上下文，也就是t1～tk-1和tk+1～tN。

该语言模型是指未经过训练的初始语言模型。该语言模型不限种类，例如可以是双向语言模型，也可以是单向语言模型。例如语言模型可为seq2seq(Sequence-to-sequence,从序列到序列)模型、BERT(Bidirectional Encoder Representations fromTransformers，双向编码器表示)模型或LSTM(Long Short-Term Memory，长短期记忆网络)模型等。Seq2seq模型主要包括编码器(encoder)和解码器(decoder)，其中编码器用于对待处理文本进行建模并得到一系列的隐含向量，解码器用于根据隐含向量生成预测词。编码器的作用可以是将不定长的输入序列转化为定长的输入序列。第一待选词与第二待选词可以完全不相同，也可以部分相同。第二待选词可以为待处理文本中的部分词。例如，第二待选词可以是待处理文本中的动词或者名词等，介词或者副词等无实际涵义的词语可不作为第二待选词。

具体地，语言模型训练程序将待处理文本分句，将每一个句子输入至语言模型中，该语言模型采用分词方式对句子进行分词。语言模型获取分词后的每个词对应的词向量，得到待处理文本对应的向量序列。语言模型在预设词表上预测该待处理文本对应的向量序列的下一个词，得到第一待选词对应的第一概率。语言模型将待处理文本中的词，例如名词和动词等实体词作为预测词，并预测出待处理文本中的词的第二概率。

步骤106，根据第一概率和第二概率处理得到目标词。

其中，目标词是指经过语言模型预测后得到的词。

具体地，语言模型训练程序可从第一概率和第二概率中确定最高概率值，并获取最高概率值对应的词，将最高概率值对应的词作为目标词。

本实施例中，语言模型训练程序可将第一概率和第二概率进行加权处理，得到每个待选词对应的目标概率，确定目标概率中最大的概率，将最大的概率对应的待选词作为目标词。

步骤108，根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

其中，语言模型的参数可以包括第一概率对应的权重或者第二概率对应的权重等不限于此。训练停止条件具体可以是达到预设次数或者满足迭代条件等不限于此。

具体地，语言模型训练程序根据目标词与标签词的差异，调整语言模型中的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

上述语言模型训练方法，通过获取待处理文本及对应的标签词，将待处理文本输入至语言模型中进行处理，得到预设词表中的词对应的第一概率以及待处理文本中的词对应的第二概率，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型，具有更强的上下文相关性，提高语言模型预测的准确性。

在一个实施例中，将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，包括：将待处理文本转化为向量序列；将向量序列输入至语言模型中，得到第一待选词对应的第一概率；拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率。

其中，待处理文本中的每个词均有对应的向量表示。

具体地，语言模型训练程序采用分词方式将待处理文本进行分词。语言模型训练程序获取分词后每个词对应的词向量，得到待处理文本对应的向量序列。其中，分词方式可以是语义分词法，字符匹配分词法或统计分词法等。语言模型训练程序将向量序列输入语言模型中，通过语言模型在预设词表上进行预测，得到第一待选词对应的第一概率。语言训练程序拷贝该待处理文本，并对该待处理文本分词，通过语言模型对该待处理文本中的词语解码，得到第二待选词对应的第二概率。

上述语言模型训练方法，将待处理文本转化为向量序列，将向量序列输入至语言模型中，得到第一待选词对应的第一概率，拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，从而提高语言模型预测的准确性。

在一个实施例中，根据第一概率和第二概率处理得到目标词，包括：对第一概率和第二概率加权处理，得到每个待选词对应的目标概率；确定目标概率中最大的概率；将最大的概率对应的待选词作为目标词。

具体地，语言模型训练程序对第一概率和第二概率加权处理，得到每个待选词对应的目标概率，即第一待选词和第二待选词中每个待选词对应的目标概率。具体的计算方式如下：

P(tk)＝α*P1(tk|hr,hl)+(1-α)P2(tk|context(tk))

其中，tk为待选词，待选词包括第一待选词和第二待选词，P1表示第一待选词对应的第一概率，P2表示第二待选词对应的第二概率，α为权重参数，hr即正向语言模型的输出，或者说上文的编码输出，hl代表了下文的编码输出，context(tk)为词tk上下文窗口里的词，例如『我想吃苹果』，如果tk＝吃，则context(tk)可以是{想，苹果}等。

例如，第一待选词中包括“苹果”、“雪梨”和“葡萄”，第二待选词中包括“我”、“爱”和“葡萄”，那么“葡萄”对应的概率有第一概率和第二概率，语言模型训练程序对第一概率和第二概率加权处理，得到“葡萄”对应的目标概率。而“苹果”仅对应第一概率，第二概率对应的第二待选词中不存在“苹果”，那么P(tk)中仅有P1项对应的函数。

语言模型训练程序确定目标概率中最大的概率，将最大的概率对应的待选词作为目标词。

上述语言模型训练方法，对第一概率和第二概率加权处理，得到每个待选词对应的目标概率，确定目标概率中最大的概率，将最大的概率对应的待选词作为目标词，能合理分配第一概率的权重和第二概率的权重，提高语言模型预测的准确性。

在一个实施例中，在根据目标词与标签词的差异，调整语言模型的参数之后，该模型训练方法还包括：从待处理文本中获取目标词对应的上下文，将目标词及对应的上下文输入至语言模型中进行处理。

具体地，语言模型训练程序从待处理文本中获取目标词对应的上下文，即上一时刻对应的上下文，将目标词及对应的上下文输入至语言模型进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，根据第一概率和第二概率处理得到目标词，根据目标词与标签词的差异，继续调整语言模型的参数直至满足训练停止条件。

上述语言模型训练方法，从待处理文本中获取目标词对应的上下文，将目标词及对应的上下文输入至语言模型中进行处理，能够更好地结合上下文以及上一时刻的输出结果进行下一时刻的预测，提高语言模型预测的准确性。

在一个实施例中，如图2所示，为另一个实施例中语言模型训练的示意图。待处理文本为“中国队今天在乒乓球赛场以3：0比分战胜美国队”。拷贝模式即为拷贝待处理文本。语言模型训练程序对该待处理文本编码后，通过语言模型处理得到第一待选词对应的第一概率。例如图中的“美国队”、“贸易”和“中国”。语言模型训练程序拷贝该待处理文本后，对该待处理文本中的词解码，得到第二待选词对应的第二概率。例如第二待选词中包含“3：0”和“美国队”。语言模型处理程序对第一概率和第二概率加权处理，得到最终的概率分布。例如，第一待选词和第二待选词中均包含“美国队”，那么“美国队”的概率即为对第一概率和第二概率加权处理后的概率。语言模型训练程序从最终概率分布中确定最大的概率，将最大的概率对应的待选词作为目标词，如图中的“美国队”，为当前时刻的输出。其中第一概率对应的权重为α，第二概率对应的权重为(1-α)；也可以将第一概率对应的权重设置为(1-α)，则第二概率对应的权重为α。解码信息中的“中国队”和“战胜了”表示的是上一时刻的解码信息，语言模型训练程序将上一时刻预测出的词，即上一时刻的解码信息，添加到待处理文本中，得到当前时刻对应的第一概率分布和第二概率分布。

在一个实施例中，该语言模型训练方法还包括：获取测试文本；将测试文本输入至目标语言模型中，得到第一待选词对应的第一概率以及第二待选词对应的第二概率；对第一概率和第二概率加权处理，得到每个待选词对应的目标概率；确定目标概率中最大的概率；将最大的概率对应的待选词作为目标词。

具体地，语言模型训练程序可将目标词拼接成句子。

上述语言模型训练方法，通过测试文本对目标语言模型进行测试，当目标语言模型预测结果不准确时，可训练该目标语言模型，得到预测准确性更高的目标语言模型。

在一个实施例中，该语言模型的参数包括第一概率对应的权重或者第二概率对应的权重。

具体地，语言模型训练程序得到第一概率对应的权重即能计算得到第二概率的权重，或者，得到第二概率对应的权重即能计算得到第一概率对应的权重。例如，第一概率对应的权重为α，第二概率对应的权重为(1-α)。

上述语言模型训练方法，通过调整第一概率对应的权重或者第二概率对应的权重，能得到更好的模型参数，从而提高语言模型预测的准确性。

在一个实施例中，如图3所示，为又一个实施例中语言模型训练方法的示意图。语言模型训练程序获取待处理文本，通过双向语言模型中的神经网络对待处理文本动态编码。模式选择如第一概率对应的权重为α，第二概率对应的权重为(1-α)。生成式信息即第一待选词，拷贝式信息即第二待选词。在计算P(t_k)时，会视为一个V分类问题，这里的V是整个预设词表的大小。通过增加拷贝生成网络，将其变成一个V分类问题叠加一个C分类，这里的C就是双向语言模型所建模的上下文里的词的个数。若α为1，那么仅需要经过生成式的通道；若α为0至1间任意一个数，那么需要经过生成式和拷贝式两条通道；若α为0，那么仅需要经过拷贝式的通道。模型训练程序将这两个通道的信息融合，动态解码出当前时刻的输出。将当前时刻的解码信息作为下一个时刻的输入，再次进行编码等处理。

在一个实施例中，如图4所示，为一个实施例中ELMO(Embeddings from LanguageModels,语言模型嵌入)模型的结构框图。虚线框中的模块，分布代表正向语言模型和反向语言模型。E₁～E_k是对应的初始词向量，t₁～t_k是对应的每一步要预测的词。Elmo是用两套LSTM模块进行堆叠，来实现正向和反向的。在上下文编码完后，在解码得到t_k之前，Elmo可以表示为P(t_k)＝P(t_k|hr,hl)，其中P表示概率，t_k表示当前时刻输出词，hr即正向语言模型的输出，或者说上文的编码输出，hl代表了下文的编码输出。当根据图3加入拷贝式信息后，得到P(t_k)＝α*P1(t_k|hr,hl)+(1-α)P2(t_k|context(t_k))。其中，P2是拷贝生成网络里的拷贝模式，P1是生成模式，α是两种模式的权重系数，是一个可以学习的参数。因此，该语音模型训练方法只需要对输出层或者解码层做改动，即可适用于多种语言模型，适用性强，并且得到更好的预测结果。

在一个实施例中，如图5所示，为一个实施例中BERT模型的结构框图。Bert跟Elmo的区别在于用Transformer，即图中的Trm模块来进行上下文编码，Transformer本质上是一种自注意力机制。自注意力机制是指多个向量内部的注意力机制，是注意力机制的一种。BERT模型的输出层，或者叫解码层，即图3中的生成模式。只不过在BERT模型中，双向语言模型的输出不像Elmo一样，是两边拼接然后送到输出层，而是又经过了一层注意力机制统一输出，所以最后的P(t_k)＝P(t_k|h)，h是上下文编码后统一的输出。增加拷贝模式后，BERT模型的输出可被改造成P(t_k)＝α*P1(t_k|h)+(1-α)P2(t_k|context(t_k))。因此，该语音模型训练方法只需要对输出层或者解码层做改动，即可适用于多种语言模型，适用性强，并且得到更好的预测结果。

在一个实施例中，一种语言模型训练方法，包括：

步骤(a1)，获取待处理文本及对应的标签词。

步骤(a2)，将待处理文本转化为向量序列。

步骤(a3)，将向量序列输入至语言模型中，得到第一待选词对应的第一概率。

步骤(a4)，拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率。

步骤(a5)，对第一概率和第二概率加权处理，得到每个待选词对应的目标概率。

步骤(a6)，确定目标概率中最大的概率。

步骤(a7)，将最大的概率对应的待选词作为目标词。

步骤(a8)，根据目标词与标签词的差异，调整语言模型的参数，其中，语言模型的参数包括第一概率对应的权重或者第二概率对应的权重。

步骤(a9)，从待处理文本中获取目标词对应的上下文，将目标词及对应的上下文输入至语言模型中进行处理，直至满足训练停止条件，得到训练完成的目标语言模型。

步骤(a10)，获取测试文本。

步骤(a11)，将测试文本输入至目标语言模型中，得到第一待选词对应的第一概率以及第二待选词对应的第二概率。

步骤(a12)，对第一概率和第二概率加权处理，得到每个待选词对应的目标概率。

步骤(a13)，确定目标概率中最大的概率。

步骤(a14)，将最大的概率对应的待选词作为目标词。

上述语言模型训练方法，通过获取待处理文本及对应的标签词，将待处理文本输入至语言模型中进行处理，得到预设词表中的词对应的第一概率以及待处理文本中的词对应的第二概率，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，根据目标词与标签词的差异，能够更好地结合上下文以及上一时刻的输出结果进行下一时刻的预测，通过调整第一概率对应的权重或者第二概率对应的权重，能得到更好的模型参数，直至满足训练停止条件，得到训练完成的目标语言模型，提高语言模型预测的准确性。

在一个实施例中，该文本处理方法可应用于终端或服务器。其中，终端具体可以是台式终端或手持终端。终端具体可以手机、平板电脑、笔记本电脑等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。文本处理方法可通过文本处理程序实现，文本处理程序可应用于终端或服务器。如图6所示，为一个实施例中文本处理方法的流程示意图，包括：

步骤602，获取待处理文本及对应的标签词。

步骤604，将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。

具体地，文本处理程序将待处理文本分句，将每一个句子输入至语言模型中，该语言模型采用分词方式对句子进行分词。语言模型获取分词后的每个词对应的词向量，得到待处理文本对应的向量序列。语言模型在预设词表上预测该待处理文本对应的向量序列的下一个词，得到第一待选词对应的第一概率。语言模型将待处理文本中的词，例如名词和动词等作为预测词，并预测出待处理文本中的词的第二概率。

本实施例中，文本处理程序将待处理文本转化为向量序列；将向量序列输入至语言模型中，得到第一待选词对应的第一概率；拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率。

步骤606，根据第一概率和第二概率处理得到目标词。

具体地，文本处理程序可从第一概率和第二概率中确定最高概率值，并获取最高概率值对应的词，将最高概率值对应的词作为目标词。

本实施例中，根据第一概率和第二概率处理得到目标词，包括：对第一概率和第二概率加权处理，得到每个待选词对应的目标概率；确定目标概率中最大的概率；将最大的概率对应的待选词作为目标词。

步骤608，根据目标词生成待处理文本对应的目标文本。

具体地，文本处理程序将目标词进行拼接，得到目标句子。当该待处理文本为一篇文章时，文本处理程序可将目标句子进行拼接，得到目标文本。

在一个实施例中，该文本处理方法可应用于文本理解或者摘要信息生成等场景进行语义识别。例如待处理文本为『篮球巨星张三和李四同场竞技，李四身穿24号球衣，张三身穿23号球衣』，的上下文非常类似，如果上下文窗口比较大的话，张三和李四的上下文窗口几乎一致，比如本句话里面的竞技、篮球、巨星、球衣、23号、24号等。在很多语料库中，的上下文窗口也很接近，如果用现有的语言模型进行训练，会导致『张三』和『李四』的词向量或者对应的模型参数会非常接近，难以区分。在待处理文本中，如果此时需要预测『李四』，上文是『篮球巨星张三和李四同场竞技』，下文是『身穿24号球衣，张三身穿23号球衣』，而由于张三的参数跟李四接近，所以预测的得分可能不相上下，即便预测错，也会被模型当做是正确的示例，预测成『张三身穿24号球衣』。而本申请中的文本处理方法在预测时，会有一部分得分是从原文里来，告诉模型，这里的『李四』出现在了上文里，所以可以直接复制，预测出正确结果，得到更好的模型参数。

在一个实施例中，在问答场景下，文本处理程序获取输入的待处理文本“张三、李四和王五，三个人中到底谁最帅”。其中，问答场景可以为自动问答、客服机器人或者对话系统等不限于此。该待处理文本可以是使用文字输入，也可以是通过语音输入。当该待处理文本为通过语音输入时，文本处理程序可将语音输入的音频信号转化为文本信息。句子中张三、李四和王五的上下文类似，那么将待处理文本输入至语言模型中，能得到预设词表中的词对应的概率以及待处理文本中的词对应的概率，例如“张三”、“李四”和“王五”分别对应的概率，选取最大概率对应的待选词作为目标词，得到“张三、李四、王五谁最帅”的目标文本。文本处理程序可根据目标文本从问答数据库中获取对应的答案，得到“王五最帅”的答案。

上述文本处理方法，获取待处理文本及对应的标签词；将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，根据第一概率和第二概率处理得到目标词，根据目标词生成待处理文本对应的目标文本，提高文本处理的准确性。

图1至3为一个实施例中语言模型训练方法的流程示意图，图6为一个实施例中文本处理方法的流程示意图。应该理解的是，虽然图1至3和6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1至3和6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，为一个实施例中语言模型训练装置的结构框图。一种语言模型训练装置，包括获取模块702、第一处理模块704、第二处理模块706和调整模块708，其中：

获取模块702，用于获取待处理文本及对应的标签词。

第一处理模块704，用于将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。

第二处理模块706，用于根据第一概率和第二概率处理得到目标词。

调整模块708，用于根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

上述语言模型训练装置，通过获取待处理文本及对应的标签词，将待处理文本输入至语言模型中进行处理，得到预设词表中的词对应的第一概率以及待处理文本中的词对应的第二概率，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型，提高语言模型预测的准确性。

在一个实施例中，第一处理模块704用于将待处理文本转化为向量序列；将向量序列输入至语言模型中，得到第一待选词对应的第一概率；拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率。

上述语言模型训练装置，将待处理文本转化为向量序列，将向量序列输入至语言模型中，得到第一待选词对应的第一概率，拷贝待处理文本，通过语言模型对待处理文本解码，得到第二待选词对应的第二概率，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，从而提高语言模型预测的准确性。

在一个实施例中，第二处理模块706用于对第一概率和第二概率加权处理，得到每个待选词对应的目标概率；确定目标概率中最大的概率；将最大的概率对应的待选词作为目标词。

上述语言模型训练装置，对第一概率和第二概率加权处理，得到每个待选词对应的目标概率，确定目标概率中最大的概率，将最大的概率对应的待选词作为目标词，能合理分配第一概率的权重和第二概率的权重，提高语言模型预测的准确性。

在一个实施例中，第一处理模块704还用于从待处理文本中获取目标词对应的上下文，将目标词及对应的上下文输入至语言模型中进行处理。

上述语言模型训练装置，从待处理文本中获取目标词对应的上下文，将目标词及对应的上下文输入至语言模型中进行处理，能够更好地结合上下文以及上一时刻的输出结果进行下一时刻的预测，提高语言模型预测的准确性。

在一个实施例中，获取模块702还用于获取测试文本。第一处理模块704还用于将测试文本输入至目标语言模型中，得到第一待选词对应的第一概率以及第二待选词对应的第二概率。第二处理模块706还用于对第一概率和第二概率加权处理，得到每个待选词对应的目标概率；确定目标概率中最大的概率；将最大的概率对应的待选词作为目标词。

上述语言模型训练装置，通过测试文本对目标语言模型进行测试，当目标语言模型预测结果不准确时，可训练该目标语言模型，得到预测准确性更高的目标语言模型。

在一个实施例中，如图8所示，为一个实施例中文本处理装置的结构框图。一种文本处理装置，包括文本获取模块、语言模型处理模块、目标词获取模块和目标文本生成模块，其中：

文本获取模块802，用于获取待处理文本及对应的标签词。

语言模型处理模块804，用于将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。

目标词获取模块806，用于根据第一概率和第二概率处理得到目标词。

目标文本生成模块808，用于根据目标词生成待处理文本对应的目标文本。

上述文本处理装置，获取待处理文本及对应的标签词；将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词，能够加入待处理文本中的词语进行预测，考虑上下文的关联性，根据第一概率和第二概率处理得到目标词，根据目标词生成待处理文本对应的目标文本，提高文本处理的准确性。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语言模型训练方法和文本处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语言模型训练方法和文本处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语言模型训练装置和文本处理装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该语言模型训练装置和文本处理装置的各个程序模块，比如，图7所示的获取模块、第一处理模块、第二处理模块和调整模块。图8中的文本获取模块、语言模型处理模块、目标词获取模块和目标文本生成模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语言模型训练方法和文本处理方法中的步骤。

例如，图9所示的计算机设备可以通过如图7所示的语言模型训练装置中的获取模块执行获取待处理文本及对应的标签词。计算机设备可通过第一处理模块执行将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。计算机设备可通过第二处理模块执行根据第一概率和第二概率处理得到目标词。计算机设备可通过调整模块执行根据目标词与标签词的差异，调整语言模型的参数，直至满足训练停止条件，得到训练完成的目标语言模型。

图9所示的计算机设备还可以通过如图8所示的文本处理装置中的文本获取模块执行获取待处理文本及对应的标签词。计算机设备可通过语言模型处理模块执行将待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，其中，第一待选词为预设词表中的词，第二待选词为待处理文本中的词。计算机设备可通过目标词获取模块执行根据第一概率和第二概率处理得到目标词。计算机设备可通过目标文本生成模块执行根据目标词生成待处理文本对应的目标文本。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语言模型训练方法的步骤。此处语言模型训练方法的步骤可以是上述各个实施例的语言模型训练方法中的步骤。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本处理方法的步骤。此处文本处理方法的步骤可以是上述各个实施例的文本处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语言模型训练方法的步骤。此处语言模型训练方法的步骤可以是上述各个实施例的语言模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本处理方法的步骤。此处文本处理方法的步骤可以是上述各个实施例的文本处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语言模型训练方法，包括：

获取待处理文本及对应的标签词；

根据所述第一概率和所述第二概率处理得到目标词；

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本输入至语言模型中进行处理，得到第一待选词对应的第一概率以及第二待选词对应的第二概率，包括：

将所述待处理文本转化为向量序列；

将所述向量序列输入至语言模型中，得到第一待选词对应的第一概率；

拷贝所述待处理文本，通过所述语言模型对所述待处理文本解码，得到第二待选词对应的第二概率。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一概率和所述第二概率处理得到目标词，包括：

对所述第一概率和所述第二概率加权处理，得到每个待选词对应的目标概率；

确定所述目标概率中最大的概率；

将所述最大的概率对应的待选词作为目标词。

4.根据权利要求1或2所述的方法，其特征在于，在所述根据所述目标词与所述标签词的差异，调整所述语言模型的参数之后，所述方法还包括：

从所述待处理文本中获取所述目标词对应的上下文，将所述目标词及对应的上下文输入至所述语言模型中进行处理。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取测试文本；

将所述测试文本输入至所述目标语言模型中，得到第一待选词对应的第一概率以及第二待选词对应的第二概率；

确定所述目标概率中最大的概率；

将所述最大的概率对应的待选词作为目标词。

6.根据权利要求1或2所述的方法，其特征在于，所述语言模型的参数包括所述第一概率对应的权重或者所述第二概率对应的权重。

7.一种文本处理方法，其特征在于，所述方法包括：

获取待处理文本及对应的标签词；

根据所述第一概率和所述第二概率处理得到目标词；

根据所述目标词生成所述待处理文本对应的目标文本。

8.一种语言模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文本及对应的标签词；

9.一种文本处理装置，其特征在于，所述装置包括：

文本获取模块，用于获取待处理文本及对应的标签词；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。