CN116127966A

CN116127966A - 文本处理方法、语言模型训练方法及电子设备

Info

Publication number: CN116127966A
Application number: CN202211699662.3A
Authority: CN
Inventors: 白安琪; 蒋宁; 夏粉; 吴海英; 肖冰
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-05-16

Abstract

本申请提供一种文本处理方法、语言模型训练方法及电子设备，该文本处理方法包括：获取待处理文本；对待处理文本进行分词，得到N个分词，N为大于1的整数；获取N个分词中每个分词的至少两个表示向量，至少两个表示向量包括词向量以及义素向量，分词的义素向量用于表示分词的义素；对N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量；根据N个合并向量，确定目标文本，以提高确定的目标文本的准确性。

Description

文本处理方法、语言模型训练方法及电子设备

5技术领域

本申请涉及数据处理技术领域，尤其涉及到一种文本处理方法、语言模型训练方法及电子设备。

背景技术

自然语言处理是以语言为对象，利用计算机技术来分析、理解和处理自然语言的过程，广泛应用于各领域，例如，可主要应用于但不限于机器翻译、舆情监测、文本摘要提取、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文识别等领域。例如，根据需求，通过自然语言处理算法对文本进行相关的处理，以得到需要的文本等。

在对文本进行处理过程中，可先获取文本中分词的特征向量，然后根据文本的分词的特征向量得到需要的文本，然而，上述方法中，获取的分词的特征向量常采用的是分词的词向量，容易导致得到的文本的准确性较差。

发明内容

本申请实施例提供一种文本处理方法、语言模型训练方法及电子设备，以解决现有确定文本的准确性较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种文本处理方法，所述方法包括：

获取待处理文本；

对所述待处理文本进行分词，得到N个分词，N为大于1的整数；

获取所述N个分词中每个分词的至少两个表示向量，所述至少两个表示向量包括词向量以及义素向量，所述分词的义素向量用于表示所述分词的义素；

对所述N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量；

根据所述N个合并向量，确定目标文本。

第二方面，本申请实施例还提供一种语言模型训练方法，包括：

获取词典中的K条释义文本，K为大于1的整数；

将所述K条释义文本输入初始语言模型，利用目标损失值进行训练得到目标语言模型；

其中，所述初始语言模型用于对所述K条释义文本中每条释义文本分别进行分词，得到K个分词序列；获取所述K个分词序列中每个分词的至少两个表示向量，所述至少两个表示向量包括词向量以及义素向量，所述分词的义素向量用于表示所述分词的义素；对所述K个分词序列中每个分词的至少两个表示向量进行合并，得到K个合并向量序列；根据所述K个合并向量序列，确定K个预测文本；所述目标损失值为根据所述K条释义文本以及所述K个预测文本确定的损失值。

第三方面，本申请实施例还提供一种文本处理装置，包括：

第一获取模块，用于获取待处理文本；

分词模块，用于对所述待处理文本进行分词，得到N个分词，所述N个分词中包括N个分词，N为大于1的整数；

第二获取模块，用于获取所述N个分词中每个分词的至少两个表示向量，所述至少两个表示向量包括词向量以及义素向量，所述分词的义素向量用于表示所述分词的义素；

合并模块，用于对所述N个分词中每个分词的至少两个表示向量进行合并，得到合并向量序列，所述合并向量序列包括N个合并向量，一个合并向量为一个分词的至少两个表示向量合并后的向量；

确定模块，用于根据所述合并向量序列，确定目标文本。

第四方面，本申请实施例还提供一种语言模型训练装置，包括：

文本获取模块，用于获取词典中的K条释义文本，K为大于1的整数；

训练模块，用于将所述K条释义文本输入初始语言模型，利用目标损失值进行训练得到目标语言模型；

第五方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面提供的方法中的步骤或实现上述第二方面提供的方法中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的方法中的步骤或实现上述第二方面提供的方法中的步骤。

在本实施例的文本处理方法中，对待处理文本进行分词得到N个分词后，不但可获取每个分词的词向量，而且可获取每个分词的义素向量，可对每个分词的词向量和义素向量进行合并，得到每个分词的合并向量，如此，得到的合并向量中不但可包括词本身信息，而且可包括词的义素信息，利用向量合并后的N个合并向量来确定目标文本，可提高得到的目标文本的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本处理方法的流程图之一；

图2是本申请实施例提供的一种文本处理方法的流程图之二；

图3是本申请实施例提供的一种文本处理方法的流程图之三；

图4是本申请实施例提供的一种语言模型训练方法的流程图；

图5是本申请实施例提供的一种文本处理装置的结构示意图；

图6是本申请实施例提供的一种语言模型训练装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图之一；

图8是本申请实施例提供的一种电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在对文本进行处理过程中，一般是通过获取文本中分词的特征向量，然后根据文本的分词的特征向量得到需要的文本，而获取的分词的特征向量常采用的是分词的词向量，容易导致得到的文本的准确性较差。基于此，本申请实施例提供一种文本处理方法，通过获取待处理文本的N个分词中每个分词的至少两个向量表示，至少两个表示向量包括词向量以及义素向量，即不但可获取每个分词的词向量，而且可获取每个分词的义素向量，可对每个分词的词向量和义素向量进行合并，得到每个分词的合并向量，如此，得到的合并向量中不但可包括词本身信息，而且可包括词的义素信息，利用向量合并后的N个合并向量来确定目标文本，可提高得到的目标文本的准确性。

参见图1，图1是本申请实施例提供的一种文本处理方法的流程图，该方法可应用于具有数据处理功能的电子设备，电子设备可以是移动设备或非移动设备，移动设备可以包括但不限于智能手机、平板电脑、车载电脑、穿戴式智能设备等，非移动设备可包括台式计算机等。如图1所示，该方法包括以下步骤：

步骤101：获取待处理文本。

本申请实施例的文本处理方法可应用于各领域，例如，可应用于但不限于机器翻译、舆情监测、文本摘要提取、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文识别等场景，待处理文本可以是方法应用的场景下的待处理的文本，例如，对于机器翻译场景，待处理文本可以是待翻译文本，对于文本摘要提取场景，采用本方法对其进行处理后可得到对应的翻译文本，待处理场景可以是待提取摘要的文本，采用本方法对其进行处理后可得到对应的摘要文本。

步骤102：对待处理文本进行分词，得到N个分词，N为大于1的整数；

需要说明的是，分词算法多种多样，在本实施例中，对待处理文本进行分词采用的分词算法不作限定。

步骤103：获取N个分词中每个分词的至少两个表示向量，至少两个表示向量包括词向量以及义素向量；

分词的词向量可用于表示该分词的含义，一个示例中，分词的词向量可用于表示该分词的语义特征，分词的义素向量用于表示分词的义素，可以理解，分词的义素向量可用于表示该分词的义素的含义，一个示例中，分词的义素向量可用于表示该分词的义素的语义特征。义素是指可用于描述分词的不可再分的基本元素，可以理解，义素，是现代语义学术语，指语言中意义(或者说内容)的单位，又被称为义子，与音位、音节等语言形式的单位相对应。义素又称语义成分、语义特征，是词的义位的构成因子。一个分词可通过一组义素来表示，分词的义素可以有多个，则该分词的义素向量可以有多个，分词的一个义素向量用于表示该分词的一个义素。

在本实施例中，不但可获取分词对应的词向量，而且可获取对应的义素向量。一个示例中，可预先确定词汇表(包括多个词)，词汇表也可以理解是预先设置的词汇空间，也可称为预设词汇表，预先确定词汇表中每个词的义素向量，生成词与义素向量的对应关系表，在对待处理文本分词得到N个分词后，可通过查询词与义素向量的对应关系表，获取N个分词中每个分词对应的义素向量。另一个示例中，在对待处理文本分词得到N个分词后，可对N个分词中每个分词对应的义素，对每个分词对应的义素进行义素编码，得到每个分词的义素向量。一个示例中，可预先确定词汇表，预先确定词汇表中每个词的词向量，生成词与词向量的对应关系表，在对待处理文本分词得到N个分词后，可通过查询词与词向量的对应关系表，获取N个分词中每个分词对应的词向量。另一个示例中，在对待处理文本分词得到N个分词后，可对N个分词中每个分词分别进行词嵌入(词编码)，得到每个分词的词向量。

步骤104：对N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量。

步骤105：根据N个合并向量，确定目标文本。

由于每个分词对应至少两个表示向量，可对同一分词的至少两个表示向量进行合并，得到该分词的合并向量，可分别对N个分词中每个分词的至少两个表示向量进行合并，从而可得到每个分词的合并向量，即获得N个合并向量。一个示例中，对N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量可包括：对所述N个分词中每个分词的至少两个表示向量进行拼接或相加，得到所述N个合并向量。需要说明的是，词向量与义素向量的维度相同。

需要说明的是，可将待处理文本输入预先训练的目标语言模型进行文本处理得到目标文本，即可通过预先训练的目标语言模型对所述待处理文本进行分词，得到N个分词；获取所述N个分词中每个分词的至少两个表示向量；对所述N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量；根据所述N个合并向量，确定目标文本。一个示例中，目标语言模型包括依次连接的目标分词层、目标向量获取层、目标合并层和目标文本确定层，目标分词层用于对所述待处理文本进行分词，得到N个分词；目标向量获取层用于获取所述N个分词中每个分词的至少两个表示向量；目标合并层用于对所述N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量；目标文本确定层用于根据所述N个合并向量，确定目标文本。

在一个实施例中，至少两个表示向量还包括位置向量。

分词的位置向量用于表示分词的位置信息，可对N个分词中每个分词分别进行位置编码，得到每个分词的位置向量。在本实施例中，在对分词的至少两个表示向量进行合并过程中，可合并分词的词向量、义素向量和位置向量，分词的合并向量不但可包括词本身信息和义素信息，而且可包括分词的位置信息，如此，利用N个合并向量确定目标文本，可进一步提高确定的目标文本的准确性。

如图2所示，在一个实施例中，根据N个合并向量，确定目标文本的步骤105，包括：

步骤1051：对N个合并向量进行编码，得到N个编码向量；

步骤1052：对N个编码向量进行解码，得到M个解码向量，M为正整数；

步骤1053：对M个解码向量进行线性转换，得到M个转换向量；

步骤1054：对M个转换向量输入进行归一化处理，得到M个概率向量，概率向量用于表征词汇表中每个词的概率；

步骤1055：根据M个概率向量，确定目标文本。

在利用N个合并向量确定目标文本的过程中，可先对N个合并向量进行特征编码，可进一步提取更细节的特征，得到N个编码向量，N个编码向量与N个合并向量一一对应。然后可对N个解码向量进行特征解码，得到M个解码向量，其中，M可以大于N，或者可以小于N，或者可以等于N，M个大小取决于解码过程，在解码过程中，解码到标志结束的字符的情况下完成解码，获得M个解码向量，根据一个解码向量可确定一个分词，具体地，可以是根据一个概率向量确定一个分词，如此，可得到M个分词，可根据M个分词确定目标文本，目标文本可包括M个分词中的P个分词，P≤M。另外，需要说明的是，转换向量中包括词汇表中每个词的分数，可以理解，一个转换向量可用于表示词汇表中每个词的分数。一个转换向量中一个词的分数可用于表示该转换向量的解码向量对应该词的可能性，一个转换向量中词的分数越大，则该转换向量的解码向量对应该词的可能性越大，转换向量的维度与词汇表中词的总数量相同，对每个转换向量分别进行归一化处理，得到对应的概率向量，通过归一化可将转换向量的分数被归一到一个量级上，使得到的概率范围比较集中，从而得到的概率向量中的概率能更加准确表示词的可能性。例如，可将转换向量中的每个分数归一化到[0，1]范围的概率。另外，需要说明，概率向量的维度与词汇表中词的总数量相同。

一个示例中，上述目标语言模型中目标文本确定层可包括依次连接的目标编码器(目标Encoder)、目标解码器(目标Decoder)、目标线性层(目标Linear)、目标归一化层(例如，可以是目标Softmax)和目标选择层，目标编码器用于对N个合并向量进行编码，得到N个编码向量，目标解码器用于对N个编码向量进行解码，得到M个解码向量，目标线性层用于对M个解码向量进行线性转换，得到M个转换向量，目标归一化层用于对M个转换向量进行归一化处理，得到M个概率向量，目标选择层可用于分别根据M个概率向量中每个概率向量从词汇表中选择对应的词，根据选择的词确定目标文本。示例性地，本申请实施例中编码器和解码器可以采用Tranformer(转换器模型)的编码器-解码器结构，编码器和解码器的结构相似或相同，例如，目标编码器可以包括多头注意力机制单元(Multi-head Attention)和前馈神经网络单元等，目标解码器可包括掩码多头注意力机制单元(Masked Multi-headAttention)、多头注意力机制单元(Multi-head Attention)、前馈神经网络单元等，对于Masked Multi-head Attention，可以理解的是当解码第L个向量时，只能看到第L-1及其之前的解码结果。

在本实施例中，在对分词的至少两个表示向量进行合并得到合并向量后，可对合并向量进行进一步的特征编码，可得到表征更细节特征的编码向量，对N个编码向量进行解码，可提高解码准确性，即提高得到的解码向量的准确性，然后对解码向量进行线性转换得到转换向量，转换向量中包括词汇表中每个词的分数，再对转换向量进行归一化处理，得到表示词汇表中每个词的概率的概率向量，基于M个概率向量，确定所述目标文本，以提高得到的目标文本的准确性。

在一个实施例中，根据M个概率向量，确定目标文本，包括：

基于M个概率向量确定M个分词，M个分词中一个分词为词汇表中一个概率向量中最大概率对应的词；

基于M个分词中概率大于或等于预设概率阈值的词，生成目标文本。

可以理解，根据M个概率向量中的一个概率向量的最大概率，确定对应的一个分词，如此，针对M个概率向量，可确定M个分词，M个分词与M个概率向量一一对应。例如，词汇表中词的总数量为Q(大于1的整数，比如取30000个)，M为2，2个概率向量的维度均为Q，2个概率向量包括第一概率向量和第二概率向量，第一概率向量为(P₁₁，P₁₂，……，P_1Q)，第二概率向量为(P₂₁，P₂₂，……，P_2Q)，P₁₁为第一概率向量中为词汇表中第一个词的概率，P₁₂为第一概率向量中为词汇表中第二个词的概率，P_1Q为第一概率向量中为词汇表中第Q个词的概率，P₂₁为第二概率向量中为词汇表中第一个词的概率，P₂₂为第二概率向量中为词汇表中第二个词的概率，P_2Q为第二概率向量中为词汇表中第Q个词的概率，第一概率向量中最高概率为P₁₁，则可确定其对应的分词可以为词汇表中P₁₁对应的词，第一概率向量中最高概率为P₂₂，则可确定其对应的分词可以为词汇表中P₂₂对应的词，如此，确定的M个分词即为P₁₁对应的词和P₂₂对应的词。即在本实施例中，可将概率向量中最大的概率对应的词(词汇表中的词)作为该概率向量对应的分词，这样，可得到M个概率向量中每个概率向量中最大的概率对应的词，即确定N个概率向量对应的分词(M个分词)，以提高确定的M个分词的准确性。而且，在生成目标文本过程中，可排除M个分词中概率小于预设概率阈值的分词，利用M个分词中概率大于或等于预设概率阈值的词，生成目标文本，以提高生成的目标文本的准确性。可以理解，目标文本包括M个分词中概率大于或等于预设概率阈值的词。

在一个实施例中，根据N个合并向量，确定目标文本之后，还包括：

计算目标文本中目标分词的平均相似度，其中，目标分词的平均相似度为目标分词分别与其他分词之间的相似度的平均值，目标分词为目标文本中的任一分词，其他分词为目标文本中除目标分词之外的分词；

将目标文本中平均相似度小于预设相似度阈值的分词删除，以更新目标文本。

在利用N个合并向量确定目标文本之后，可对目标文本进行质量检测以及纠正，逐个分析目标文本中每个分词对本目标文本质量的影响，将拉低目标文本质量的分词去掉，以更新目标文本，使目标文本更加准确。具体地，在本实施例中，可计算目标文本中每个分词分别对应的平均相似度，目标文本中任一分词的平均相似度为该分词与其他分词(目标文本中除该分词之外的分词)之间的相似度的平均值，一个分词的平均相似度越低，表示该分词在目标文本中与其他分词之间的联系越低，将目标文本中平均相似度小于预设相似度阈值的分词删除，以更新目标文本，提高目标文本的准确性。

下面以一个具体实施例对上述文本处理方法的过程加以说明，以该方法应用于翻译场景为例，如图3所示，本实施例的文本处理方法的过程如下：

步骤301：获取待翻译文本；

步骤302：对待翻译文本进行分词，得到待翻译文本的N个分词；

步骤303：获取待翻译文本的N个分词中每个分词的词向量、义素向量和位置向量；

步骤304：对待翻译文本的N个分词中每个分词的词向量、义素向量和位置向量进行合并，得到待翻译文本的N个合并向量；

步骤305：对待翻译文本的N个合并向量进行编码，得到待翻译文本的N个编码向量；

步骤306：对待翻译文本的N个编码向量进行解码，得到待翻译文本的M个解码向量；

步骤307：对待翻译文本的M个解码向量进行线性转换，得到待翻译文本的M个转换向量；

步骤308：对待翻译文本的M个转换向量输入进行归一化处理，得到待翻译文本的M个概率向量；

步骤309：确定翻译文本的M个概率向量中每个概率向量中最大概率对应的分词，以得到M个分词；

步骤310：基于M个分词中概率大于或等于预设概率阈值的词，生成待翻译文本对应的目标翻译结果文本。

通过上述过程实现对待翻译文本的翻译，得到对应的目标翻译结果文本，例如，待翻译文本为英文文本，需要将其翻译为中文文本，通过本实施例上述文本处理方法，可实现对待翻译文本的翻译，得到对应的中文翻译文本。

如图4所示，本申请还提供一种实施例的一种语言模型训练方法，可应用于具有数据处理功能的电子设备，该方法包括：

步骤401：获取词典中的K条释义文本，K为大于1的整数；

步骤402：将K条释义文本输入初始语言模型，利用目标损失值进行训练得到目标语言模型；

其中，初始语言模型用于对K条释义文本中每条释义文本分别进行分词，得到K个分词序列；获取K个分词序列中每个分词的至少两个表示向量，至少两个表示向量包括词向量以及义素向量，分词的义素向量用于表示分词的义素；对K个分词序列中每个分词的至少两个表示向量进行合并，得到K个合并向量序列；根据K个合并向量序列，确定K个预测文本；目标损失值为根据K条释义文本以及K个预测文本确定的损失值。

需要说明的是，由于每个分词对应至少两个表示向量，可对同一分词的至少两个表示向量进行合并，得到该分词的合并向量，对一个分词序列中每个分词的至少两个表示向量进行合并，可得到一个合并向量序列，分别对K个分词序列中每个分词序列中的分词的至少两个表示进行合并，即可获得K个合并向量序列，一个合并向量序列中包括一个分词序列中每个分词的至少两个表示向量分别进行合并后的合并向量，合并向量序列中的一个合并向量为一个分词的至少两个表示向量进行合并后的向量，K个预测文本与K个合并向量序列一一对应。

在本申请实施例的训练过程中，可获取词典中的释义文本，词典可包括但不限于基础词典、专业词典(不同专业领域的词典)。在本实施例中，通过借助词典的方式，可获取到最能表现语言基本构词、语法、多样性最高的语料，即用于训练的K条释义文本，使得初始语言模型可以在较小规范的语料的基础上，通过较短的时间，训练出了解语言内在规律的目标语言模型，提高目标语言模型的性能。示例性地，初始语言模型可以是预训练语言模型。另外，在训练过程中，可获取分词的至少两个表示向量，且至少两个表示向量包括词向量以及义素向量，即不但可获取每个分词的词向量，而且可获取每个分词的义素向量，可对每个分词的词向量和义素向量进行合并，得到每个分词的合并向量，如此，得到的合并向量中不但可包括词本身信息，而且可包括词的义素信息，利用向量合并后的合并向量序列来确定预测文本，根据K条释义文本以及K个预测文本确定的损失值，利用该损失值进行模型训练，这样可提高训练得到的目标语言模型的性能。

在一个实施例中，初始语言模型包括依次连接的初始分词层、初始向量获取层、初始合并层和初始文本确定层，初始分词层用于对K条释义文本中每条释义文本分别进行分词，得到K个分词序列；初始向量获取层用于获取K个分词序列中每个分词的至少两个表示向量；初始合并层用于对K个分词序列中每个分词的至少两个表示向量进行合并，得到K个合并向量序列；初始文本确定层用于根据K个合并向量序列，确定K个预测文本。需要说明的是，目标语言模型是初始语言模型训练后的模型，两者的结构相同，模型参数不同，目标分词层是初始分词层训练后的结果，目标向量获取层为初始向量获取层训练后的结果，目标合并层为初始合并层训练后的结果，目标文本确定层为初始文本确定训练后的结果。

在一个实施例中，上述初始语言模型中初始文本确定层可包括依次连接的初始编码器、初始解码器、初始线性层、初始归一化层和初始选择层，初始编码器用于对K个合并向量序列进行编码，得到K个编码向量序列(一个编码向量序列中的编码向量数量与对应的合并向量序列中的向量数量相同)，初始解码器用于对K个编码向量序列进行解码，得到K个解码向量序列(一个解码向量序列中向量数量与对应的编码向量序列中的向量数量可相同或不同)，初始线性层(linear)用于K个解码向量序列中每个向量分别进行线性转换，得到K个转换向量序列(一个转换向量序列中向量数量与对应的解码向量序列中的向量数量相同)，初始归一化层(例如，可采用Softmax)用于对K个转换向量序列中每个向量进行归一化处理，得到K个概率向量序列(一个概率向量序列中向量数量与对应的转换向量序列中的向量数量相同)，初始选择层可用于分别根据K个概率向量序列中每个概率向量从词汇表中选择对应的词，根据每个概率向量序列选择的词确定对应的预测文本，从而可得到K个预测文本。需要说明的是，目标编码器为初始编码器训练后的结果，目标解码器是初始解码器训练后的结果，目标线性层为初始线性层训练后的结果，目标归一化层是初始归一化层训练后的结果，目标选择层是初始选择层训练后的结果。

在一个实施例中，所述至少两个表示向量还包括位置向量。

在一个实施例中，初始选择层，可具体用于：

基于所K个概率向量序列确定K个分词序列，一个分词序列包括词汇表中一个概率向量序列中每个概率向量的最大概率对应的词；

对于所述K个分词序列的每个分词序列，基于所述分词序列中概率大于或等于预设概率阈值的词，生成所述分词序列对应的预测文本。

在一个实施例中，所述根据K个合并向量序列，确定K个预测文本之后，还包括：

对于K个预测文本中的每个预测文本，计算所述预测文本中每个分词的平均相似度，其中，参考分词的平均相似度为所述参考分词分别与其余分词之间的相似度的平均值，所述参考分词为所述预测文本中的任一分词，所述其余分词为所述预测文本中除所述参考分词之外的分词；

将所述预测文本中平均相似度小于预设相似度阈值的分词删除，以更新所述预测文本。

在一个实施例中，所述对所述K分词序列中每个分词的至少两个表示向量进行合并，得到K个合并向量序列，包括：

对K分词序列中每个分词的至少两个表示向量进行拼接或相加，得到K个合并向量序列。

参见图5，图5是本申请实施例提供的文本处理装置的结构图，能实现上述实施例中文本处理方法的细节，技术特征一一对应，并达到相同的效果。如图5所示，文本处理装置500，可应用于具有数据处理功能的电子设备，装置500包括：

第一获取模块501，用于获取待处理文本；

分词模块502，用于对待处理文本进行分词，得到N个分词，N个分词中包括N个分词，N为大于1的整数；

第二获取模块503，用于获取N个分词中每个分词的至少两个表示向量，至少两个表示向量包括词向量以及义素向量，分词的义素向量用于表示分词的义素；

合并模块504，用于对N个分词中每个分词的至少两个表示向量进行合并，得到合并向量序列，合并向量序列包括N个合并向量，一个合并向量为一个分词的至少两个表示向量合并后的向量；

确定模块505，用于根据合并向量序列，确定目标文本。

在一个实施例中，至少两个表示向量还包括位置向量。

在一个实施例中，确定模块505，包括：

第一编码模块，用于对N个合并向量进行编码，得到N个编码向量；

第一解码模块，用于对N个编码向量进行解码，得到M个解码向量，M为正整数；

第一线性变换模块，用于对M个解码向量进行线性转换，得到M个转换向量；

第一归一化模块，用于对M个转换向量输入进行归一化处理，得到M个概率向量，概率向量中包括词汇表中每个词的概率；

文本确定模块，用于根据M个概率向量，确定目标文本。

在一个实施例中，文本确定模块，包括：

分词确定模块，用于基于M个概率向量确定M个分词，所述M个分词中一个分词为所述词汇表中一个概率向量中最大概率对应的词；

文本生成模块，用于基于M个分词中概率大于或等于预设概率阈值的词，生成目标文本。

在一个实施例中，装置500，还包括：

相似度确定模块，用于计算目标文本中目标分词的平均相似度，目标分词的平均相似度为目标分词分别与其他分词之间的相似度的平均值，目标分词为目标文本中的任一分词，其他分词为目标文本中除目标分词之外的分词；

文本更新模块，用于将目标文本中平均相似度小于预设相似度阈值的分词删除，以更新目标文本。

在一个实施例中，合并模块504，具体用于对N个分词中每个分词的至少两个表示向量进行拼接或相加，得到N个合并向量。

参见图6，图6是本申请实施例提供的语言模型训练装置的结构图，能实现上述实施例中网络训练方法的细节，技术特征一一对应，并达到相同的效果。如图6所示，语言模型训练装置600，可应用于具有数据处理功能的电子设备，装置600包括：

文本获取模块601，用于获取词典中的K条释义文本，K为大于1的整数；

训练模块602，用于将K条释义文本输入初始语言模型，利用目标损失值进行训练得到目标语言模型；

图7为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、服务器、可穿戴设备、以及计步器等。

其中，处理器710，用于：

获取待处理文本；

对待处理文本进行分词，得到N个分词，N个分词中包括N个分词，N为大于1的整数；

获取N个分词中每个分词的至少两个表示向量，至少两个表示向量包括词向量以及义素向量，分词的义素向量用于表示分词的义素；

对N个分词中每个分词的至少两个表示向量进行合并，得到合并向量序列，合并向量序列包括N个合并向量，一个合并向量为一个分词的至少两个表示向量合并后的向量；

根据合并向量序列，确定目标文本。

在一个实施例中，至少两个表示向量还包括位置向量。

在一个实施例中，处理器710，具体用于：

对N个合并向量进行编码，得到N个编码向量；

对N个编码向量进行解码，得到M个解码向量，M为正整数；

对M个解码向量进行线性转换，得到M个转换向量；

对M个转换向量输入进行归一化处理，得到M个概率向量，概率向量中包括词汇表中每个词的概率；

根据M个概率向量，确定目标文本。

在一个实施例中，处理器710，具体用于：

基于M个概率向量确定M个分词，所述M个分词中一个分词为所述词汇表中一个概率向量中最大概率对应的词；

在一个实施例中，处理器710，还用于：

计算目标文本中每个分词的平均相似度，目标分词的平均相似度为目标分词分别与其他分词之间的相似度的平均值，目标分词为目标文本中的任一分词，其他分词为目标文本中除目标分词之外的分词；

在一个实施例中，处理器710，具体用于对N个分词中每个分词的至少两个表示向量进行拼接或相加，得到N个合并向量。

或者，处理器710，用于：

获取词典中的K条释义文本，K为大于1的整数；

将K条释义文本输入初始语言模型，利用目标损失值进行训练得到目标语言模型；

本申请实施例的具有数据处理功能的电子设备700，同样具有与上述方法所示实施例的技术特征一一对应，具有相同的有益技术效果，具体在此不再赘述。

应理解的是，本申请实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

如图8所示，本申请实施例还提供一种电子设备800，包括处理器810，存储器820，存储在存储器820上并可在处理器810上运行的计算机程序，该计算机程序被处理器810执行时实现上述文本处理方法实施例的各个过程或实现上述语言模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程或实现上述语言模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取待处理文本；

根据所述N个合并向量，确定目标文本。

2.根据权利要求1所述的方法，其特征在于，所述至少两个表示向量还包括位置向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述N个合并向量，确定目标文本，包括：

对所述N个合并向量进行编码，得到N个编码向量；

对所述N个编码向量进行解码，得到M个解码向量，所述M为正整数；

对所述M个解码向量进行线性转换，得到M个转换向量；

对所述M个转换向量输入进行归一化处理，得到M个概率向量，所述概率向量用于表征词汇表中每个词的概率；

根据所述M个概率向量，确定所述目标文本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述M个概率向量，确定所述目标文本，包括：

基于所述M个概率向量确定M个分词，所述M个分词中一个分词为所述词汇表中一个概率向量中最大概率对应的词；

基于所述M个分词中概率大于或等于预设概率阈值的词，生成所述目标文本。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据所述N个合并向量，确定目标文本之后，还包括：

计算所述目标文本中目标分词的平均相似度，其中，所述目标分词的平均相似度为所述目标分词分别与其他分词之间的相似度的平均值，所述目标分词为所述目标文本中的任一分词，所述其他分词为所述目标文本中除所述目标分词之外的分词；

将所述目标文本中平均相似度小于预设相似度阈值的分词删除，以更新所述目标文本。

6.根据权利要求1所述的方法，其特征在于，所述对所述N个分词中每个分词的至少两个表示向量进行合并，得到N个合并向量，包括：

对所述N个分词中每个分词的至少两个表示向量进行拼接或相加，得到所述N个合并向量。

7.一种语言模型训练方法，其特征在于，所述方法包括：

获取词典中的K条释义文本，K为大于1的整数；

8.一种文本处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理文本；

确定模块，用于根据所述合并向量序列，确定目标文本。

9.一种语言模型训练装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文本处理方法中的步骤，或实现如权利要求7所述的语言模型训练方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本处理方法中的步骤，或实现如权利要求7所述的语言模型训练方法中的步骤。