CN110245332B

CN110245332B - 基于双向长短时记忆网络模型的中文编码方法和装置

Info

Publication number: CN110245332B
Application number: CN201910322128.2A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2024-03-15
Anticipated expiration: 2039-04-22
Also published as: CN110245332A; WO2020215581A1

Abstract

本发明实施例提供了一种基于双向长短时记忆网络模型的中文编码方法和装置。本发明涉及人工智能技术领域，该方法包括：将训练语料数据转换为字符级数据；根据预设符号将字符级数据进行切分，得到多个第一字符级数据，根据第一字符级数据的长度将多个第一字符级数据进行分组，得到K个数据集合；根据K个数据集合，得到K个训练后的双向长短时记忆网络模型；将目标语料数据经过处理之后输入K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到目标语料数据的编码结果。因此，本发明实施例提供的技术方案能够解决现有技术中中文编码精确度低的问题。

Description

基于双向长短时记忆网络模型的中文编码方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于双向长短时记忆网络模型的中文编码方法和装置。

背景技术

在自然语言处理领域中，现有的中文编码方法仅能处理序列长度较短的序列数据，对于一些序列长度较长的序列数据或其他复杂的数据，处理精度并不是很高。

发明内容

有鉴于此，本发明实施例提供了一种基于双向长短时记忆网络模型的中文编码方法、装置和计算机设备，用以解决现有技术中中文编码精确度低的问题。

第一方面，本发明实施例提供了一种基于双向长短时记忆网络模型的中文编码方法，包括：

将训练语料数据转换为字符级数据；

根据预设符号将所述字符级数据进行切分，得到多个第一字符级数据，根据所述第一字符级数据的长度将所述多个第一字符级数据进行分组，得到K个数据集合，所述K个数据集合中的每个数据集合包含的第一字符级数据的长度相等，K为大于1的自然数；

从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型；

将目标语料数据转换为字符级数据，得到第一数据，将所述第一数据输入所述K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到所述目标语料数据的编码结果。

其中在一种可能的实现方式中，所述从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，包括：

获取所述多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；

将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将所述多个第一字符级数据中的每个字符转换成对应的向量；

将所述多个第一字符级数据中的每个字符对应的向量分别输入所述第i个双向长短时记忆网络模型中的双向长短时记忆网络层正向和反向的一个长短时记忆网络单元，其中，正向的第i-1个长短时记忆网络单元的输出结果输入正向的第i个长短时记忆网络单元，反向的第i-1个长短时记忆网络单元的输出结果输入反向的第i个长短时记忆网络单元；

将正向和反向的每个长短时记忆网络单元的输出数据输入所述第i个双向长短时记忆网络模型中的连接层，将正向和反向的长短时记忆网络单元的输出数据拼接在一起组合成第三数据；

将所述第三数据输入所述第i个双向长短时记忆网络模型中的输出层，所述输出层输出所述多个第一字符级数据对应的向量，将输出的向量确定为第四数据；

根据所述第四数据与所述第二数据计算损失函数的值；以及，

当所述损失函数的值小于或等于预设值时，停止优化所述第i个双向长短时记忆网络模型的网络参数，并获得训练好的第i个双向长短时记忆网络模型。

其中在一种可能的实现方式中，所述获取所述多个第一字符级数据对应的初始向量，包括：

通过预设编码方式将所述多个第一字符级数据转换为对应的初始向量，所述预设编码方式为独热编码或者词转向量编码。

其中在一种可能的实现方式中，所述将所述第一数据输入所述K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到所述目标语料数据的编码结果，包括：

根据预设符号将所述第一数据进行切分，得到多个字符级数据；

根据字符级数据的长度将所述多个字符级数据进行分组，得到L个数据集合，所述L个数据集合中每个数据集合包含的所有字符级数据的长度相等，L为自然数，1≤L≤K；

根据训练过程中使用的第一字符级数据的长度从所述K个训练后的双向长短时记忆网络模型中筛选出L个训练后的双向长短时记忆网络模型，得到第L1个至第LL个训练后的双向长短时记忆网络模型，将第j个数据集合包含的所有字符级数据输入第Lj个训练后的双向长短时记忆网络模型中，得到多个向量表示，其中，所述第Lj个训练后的双向长短时记忆网络模型训练过程中使用的第一字符级数据的长度与所述第j个数据集合包含的字符级数据的长度相等，j依次取1至L之间的自然数，Lj为1至K之间的自然数；

将所述多个向量表示作为所述目标语料数据的编码结果。

其中在一种可能的实现方式中，所述第i个数据集合中第一字符级数据的长度等于所述第i个双向长短时记忆网络模型中的长短时记忆网络层正向的长短时记忆网络单元个数。

第二方面，本发明实施例提供了一种基于双向长短时记忆网络模型的中文编码装置，包括：

第一转换模块，用于将训练语料数据转换为字符级数据；

第一切分模块，用于将经所述第一转换模块转换之后的所述字符级数据进行切分，得到多个第一字符级数据；

第一分组模块，用于根据所述第一切分模块得到的所述多个第一字符级数据的长度将所述多个第一字符级数据进行分组，得到K个数据集合，所述K个数据集合中的每个数据集合包含的第一字符级数据的长度相等，K为大于1的自然数；

训练模块，用于从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型；

第一输出模块，用于将目标语料数据转换为字符级数据，得到第一数据，将所述第一数据输入所述K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到所述目标语料数据的编码结果。

其中在一种可能的实现方式中，所述训练模块包括：获取单元、第二转换单元、第一输入单元、拼接单元、第二输出单元、计算单元、优化单元以及第三输出单元；

所述获取单元，用于获取所述多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；

所述第二转换单元，用于将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将所述多个第一字符级数据中的每个字符转换为对应的向量；

所述第一输入单元，用于将所述多个第一字符级数据中的每个字符对应的向量分别输入所述第i个双向长短时记忆网络模型中的双向长短时记忆网络层正向和反向的一个长短时记忆网络单元，其中，正向的第i-1个长短时记忆网络单元的输出结果输入正向的第i个长短时记忆网络单元，反向的第i-1个长短时记忆网络单元的输出结果输入反向的第i个长短时记忆网络单元；

所述拼接单元，用于将正向和反向的每个长短时记忆网络单元的输出数据输入所述第i个双向长短时记忆网络模型中的连接层，将正向和反向的长短时记忆网络单元的输出数据拼接在一起组合成第三数据；

所述第二输出单元，用于将所述第三数据输入所述第i个双向长短时记忆网络模型中的输出层，所述输出层输出所述多个第一字符级数据对应的向量，将输出的向量确定为第四数据；

所述计算单元，用于根据所述第四数据与所述第二数据计算损失函数的值；

所述优化单元，用于当所述损失函数的值大于预设值时，对所述第i个双向长短时记忆网络模型的网络参数进行优化，直至所述损失函数的值小于或等于所述预设值；

所述第三输出单元，用于当所述损失函数的值小于或等于所述预设值时，确定训练完成，得到训练后的第i个双向长短时记忆网络模型。

其中在一种可能的实现方式中，所述第一输出模块包括：第二切分单元、第二分组单元、第二输入单元以及第四输出单元；

所述第二切分单元，用于根据预设符号将所述第一数据进行切分，得到多个字符级数据；

所述第二分组单元，用于根据字符级数据的长度将所述多个字符级数据进行分组，得到L个数据集合，所述L个数据集合中每个数据集合包含的所有字符级数据的长度相等，L为自然数，1≤L≤K；

所述第二输入单元，用于根据训练过程中使用的第一字符级数据的长度从所述K个训练后的双向长短时记忆网络模型中筛选出L个训练后的双向长短时记忆网络模型，得到第L1个至第LL个训练后的双向长短时记忆网络模型，将第j个数据集合包含的所有字符级数据输入第Lj个训练后的双向长短时记忆网络模型中，得到多个向量表示，其中，所述第Lj个训练后的双向长短时记忆网络模型训练过程中使用的第一字符级数据的长度与所述第j个数据集合包含的字符级数据的长度相等，j依次取1至L之间的自然数，Lj为1至K之间的自然数；

所述第四输出单元，用于将所述多个向量表示作为所述目标语料数据的编码结果。

第三方面，本发明实施例还提供了一种存储介质，所述存储介质包括存储的程序，在程序运行时控制所述存储介质所在设备执行上述基于双向长短时记忆网络模型的中文编码方法。

第四方面，本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述基于双向长短时记忆网络模型的中文编码方法。

本发明实施例中，将目标语料数据转换为字符级数据，将字符级数据输入训练后的双向长短时记忆网络模型中，得到目标语料数据的编码结果，本发明中的双向长短时记忆网络可以处理序列长度较长的序列数据或其他复杂的数据，提高了中文编码的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例一种可选的基于双向长短时记忆网络模型的中文编码方法的流程图；

图2是根据本发明实施例一种可选的基于双向长短时记忆网络模型的中文编码装置的示意图；

图3是根据本发明另一实施例一种可选的基于双向长短时记忆网络模型的中文编码装置的示意图；

图4是根据本发明再一实施例一种可选的基于双向长短时记忆网络模型的中文编码装置的示意图；

图5是根据本发明实施例提供的一种可选的计算机设备的示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1是根据本发明实施例一种可选的基于双向长短时记忆网络模型的中文编码方法的流程图，如图1所示，该方法包括：

步骤101：将训练语料数据转换为字符级数据。

步骤102：根据预设符号将上述字符级数据进行切分，得到多个第一字符级数据，根据上述第一字符级数据的长度将上述多个第一字符级数据进行分组，得到K个数据集合，K个数据集合中的每个数据集合包含的第一字符级数据的长度相等，K为大于1的自然数。本申请出现的预设符号指用于断句的标点符号，例如：句号、问号、感叹号、逗号、顿号、分号、冒号等。

步骤103：从第i个数据集合中抽取多个第一字符级数据并将抽取的上述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练上述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型。

步骤104：将目标语料数据转换为字符级数据，得到第一数据，将上述第一数据输入上述K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到上述目标语料数据的编码结果。

语料数据是以电子计算机为载体承载语言知识的基础资源，是在语言的实际使用中真实出现过的语言材料，本申请中的训练语料数据泛指用于训练所述双向长短时记忆网络模型的语料数据。

本申请可通过BMES(Begin,Middle,End,Single)的标记方式将训练语料数据转换为字符级数据。Begin，词首，常用B表示；Middle，词中，常用M表示；End，词尾，常用E表示；Single，单字词，常用S表示。比如，训练语料数据为“我爱北京天安门”，采用BMES标记后，即可获取字符级数据“我/S爱/S北/B京/E天/B安/M门/E”。

双向长短时记忆网络(Bi Long Short-Term Memory；以下简称：Bi-LSTM)模型是一种深度学习的神经网络，本发明利用Bi-LSTM，能够充分利用上下文信息。同时，Bi-LSTM不仅能利用序列前面的信息来预测可能出现的词语，还可利用序列后面的信息对前面可能出现的词语进行预测。

本发明实施例中，将目标语料数据转化为字符级的数据；将字符级的数据输入训练后的双向长短时记忆网络模型中，得到目标语料数据的编码结果，双向长短时记忆网络可以通过增加网络层数的方式以指数增长的速度扩大接收域，从而可以处理序列长度较长的序列数据或其他复杂的数据，以提高了中文编码的精确度。

上述步骤103具体包括如下步骤：

步骤201，获取多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据。

步骤202，将抽取的多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将多个第一字符级数据中的每个字符转换成对应的向量。

步骤203，将多个第一字符级数据中的每个字符对应的向量分别输入第i个双向长短时记忆网络模型中的Bi-LSTM层正向和反向的一个长短时记忆网络(Long Short-TermMemory；以下简称：LSTM)单元，其中，正向的第i-1个LSTM单元的输出结果输入正向的第i个LSTM单元，反向的第i-1个LSTM单元的输出结果输入反向的第i个LSTM单元。

步骤204，将正向和反向的每个LSTM单元的输出数据输入第i个Bi-LSTM模型中的连接层，将正向和反向的LSTM单元的输出数据拼接在一起组合成第三数据。

步骤205，将第三数据输入第i个Bi-LSTM模型中的输出层，输出层输出多个第一字符级数据对应的向量，将输出的向量确定为第四数据。

步骤206，根据第四数据与第二数据计算损失函数的值。

步骤207：当所述损失函数的值小于或等于预设值时，停止优化所述第i个Bi-LSTM，并获得训练好的第i个双向长短时记忆网络模型。

可选地，获取多个第一字符级数据对应的初始向量，包括：

通过预设编码方式将多个第一字符级数据转换为对应的初始向量，预设编码方式为独热编码或者词转向量编码。

独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如，一组数据的特征是颜色，包括黄色、红色、绿色，采用独热编码后，黄色变成[100]，红色变成[010]，绿色变成[001]，这样经过独热编码的序列数据与向量对应，可以运用在神经网络模型中。

词转向量编码可以为word2vec，word2vec是词表征为实数值向量的一种高效的算法模型，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算。word2vec输出的词向量可以被用来做很多NLP(神经语言程序学)相关的工作，比如聚类、找同义词、词性分析等等。例如：word2vec将字符级的数据当做特征，将特征映射到K维向量空间，得到特征表示的序列数据。

其中，优化第i个Bi-LSTM是基于损失函数的值，具体包括：通过随机梯度下降法对第i个Bi-LSTM的网络参数进行迭代训练，每迭代一次计算一次损失函数的值，当该损失函数的值小于预设值时，得到训练完成后的第i个Bi-LSTM模型。

可选地，作为一种可选的实施方式，计算Bi-LSTM模型损失函数的值，具体包括：

(41)将迭代数据在双向长短时记忆模型的字符向量量化层进行向量化，将迭代数据中的每个字符转换成一向量，迭代数据为输入双向长短时记忆模型的数据；

(42)将该迭代数据中的每一字符对应的向量分别传入Bi-LSTM层正向和反向的一LSTM单元；且正向的第i-1个LSTM单元的输出结果输入正向的第i个LSTM单元、反向的第i-1个LSTM单元的输出结果输入反向的第i个LSTM单元；

(43)将正向和反向的每个LSTM单元的输出结果进行拼接，并传入Drop Out层；

(44)将每一Drop Out层的输出经一分类模型处理后，根据得到的输出计算损失函数的值。

可选地，损失函数的计算公式为：

上述公式(1)中，Loss表示损失函数的值，N表示输入Bi-LSTM的第一字符级数据的数量，y^(m)表示输入Bi-LSTM的第m个第一字符级数据，表示将第m个第一字符级数据输入Bi-LSTM之后输出的数据。

可选地，将第一数据输入K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到目标语料数据的编码结果，包括：

根据预设符号将第一数据进行切分，得到多个字符级数据；

根据字符级数据的长度将多个字符级数据进行分组，得到L个数据集合，L个数据集合中每个数据集合包含的所有字符级数据的长度相等，L为自然数，1≤L≤K；

根据训练过程中使用的第一字符级数据的长度从K个训练后的双向长短时记忆网络模型中筛选出L个训练后的双向长短时记忆网络模型，得到第L1个至第LL个训练后的双向长短时记忆网络模型，将第j个数据集合包含的所有字符级数据输入第Lj个训练后的双向长短时记忆网络模型中，得到多个向量表示，其中，第Lj个训练后的双向长短时记忆网络模型训练过程中使用的第一字符级数据的长度与第j个数据集合包含的字符级数据的长度相等，j依次取1至L之间的自然数，Lj为1至K之间的自然数；

将多个向量表示作为目标语料数据的编码结果。

可选地，第i个数据集合中第一字符级数据的长度等于第i个双向长短时记忆网络模型中的LSTM层正向的LSTM单元个数。

其中，优化第i个Bi-LSTM是基于损失函数的值，具体包括：通过随机梯度下降法对第i个Bi-LSTM的网络参数进行迭代训练，每迭代一次计算一次损失函数的值，当该损失函数的值小于或等于预设值时，得到训练完成后的第i个Bi-LSTM模型。

可选地，作为一种可选的实施方式，可通过上述步骤(41)～(44)计算双向长短时记忆模型损失函数的值。

图2是根据本发明实施例一种可选的基于双向长短时记忆网络模型的中文编码装置的示意图，该装置用于执行上述基于双向长短时记忆网络模型的中文编码方法，如图2所示，该装置包括：第一转换模块21、第一切分模块22、第一分组模块23、训练模块24以及第一输出模块25。

第一转换模块21，用于将训练语料数据转换为字符级数据。

第一切分模块22，用于将经第一转换模块21转换之后的字符级数据进行切分，得到多个第一字符级数据。

第一分组模块23，用于根据第一切分模块22得到的多个第一字符级数据的长度将多个第一字符级数据进行分组，得到K个数据集合，K个数据集合中的每个数据集合包含的第一字符级数据的长度相等，K为大于1的自然数。

训练模块24，用于从第i个数据集合中抽取多个第一字符级数据并将抽取的多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型。

第一输出模块25，用于将目标语料数据转换为字符级数据，得到第一数据，将第一数据输入K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到目标语料数据的编码结果。

可选地，请参阅图3所示，上述训练模块24包括：获取单元31、第二转换单元32、第一输入单元33、拼接单元34、第二输出单元35、计算单元36、优化单元37以及第三输出单元38；

获取单元31，用于获取多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；

第二转换单元32，用于将抽取的多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将多个第一字符级数据中的每个字符转换为对应的向量；

第一输入单元33，用于将多个第一字符级数据中的每个字符对应的向量分别输入第i个Bi-LSTM模型中的Bi-LSTM层正向和反向的一个LSTM单元，其中，正向的第i-1个LSTM单元的输出结果输入正向的第i个LSTM单元，反向的第i-1个LSTM单元的输出结果输入反向的第i个LSTM单元；

拼接单元34，用于将正向和反向的每个LSTM单元的输出数据输入第i个Bi-LSTM模型中的连接层，将正向和反向的LSTM单元的输出数据拼接在一起组合成第三数据；

第二输出单元35，用于将第三数据输入第i个Bi-LSTM模型中的输出层，输出层输出多个第一字符级数据对应的向量，将输出的向量确定为第四数据；

计算单元36，用于根据第四数据与第二数据计算损失函数的值；

优化单元37，用于当损失函数的值大于预设值时，对第i个Bi-LSTM模型的网络参数进行优化，直至损失函数的值小于或等于预设值；

第三输出单元38，用于当损失函数的值小于或等于预设值时，确定训练完成，得到训练后的第i个Bi-LSTM模型。

可选地，上述第二转换单元32还用于通过预设编码方式将上述多个第一字符级数据转换为对应的初始向量，上述预设编码方式为独热编码或者词转向量编码。

可选地，损失函数的计算公式为：

可选地，请参阅图4所示，上述第一输出模块包括25：第二切分单元41、第二分组单元42、第二输入单元43以及第四输出单元44；

第二切分单元41，用于根据预设符号将第一数据进行切分，得到多个字符级数据；

第二分组单元42，用于根据字符级数据的长度将多个字符级数据进行分组，得到L个数据集合，L个数据集合中每个数据集合包含的所有字符级数据的长度相等，L为自然数，1≤L≤K；

第二输入单元43，用于根据训练过程中使用的第一字符级数据的长度从K个训练后的Bi-LSTM模型中筛选出L个训练后的Bi-LSTM模型，得到第L1个至第LL个训练后的Bi-LSTM模型，将第j个数据集合包含的所有字符级数据输入第Lj个训练后的Bi-LSTM模型中，得到多个向量表示，其中，第Lj个训练后的Bi-LSTM模型训练过程中使用的第一字符级数据的长度与第j个数据集合包含的字符级数据的长度相等，j依次取1至L之间的自然数，Lj为1至K之间的自然数；

第四输出单元44，用于将多个向量表示作为目标语料数据的编码结果。

可选地，可通过上述步骤(41)～(44)计算Bi-LSTM模型损失函数的值。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：将训练语料数据转换为字符级数据；根据预设符号将字符级数据进行切分，得到多个第一字符级数据，根据第一字符级数据的长度将多个第一字符级数据进行分组，得到K个数据集合，K个数据集合中的每个数据集合包含的第一字符级数据的长度相等，K为大于1的自然数；从第i个数据集合中抽取多个第一字符级数据并将抽取的多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型；将目标语料数据转换为字符级数据，得到第一数据，将第一数据输入K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到目标语料数据的编码结果。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：

步骤201，获取多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；

步骤202，将抽取的多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将多个第一字符级数据中的每个字符转换成对应的向量；

步骤203，将多个第一字符级数据中的每个字符对应的向量分别输入第i个双向长短时记忆网络模型中的Bi-LSTM层正向和反向的一个LSTM单元，其中，正向的第i-1个LSTM单元的输出结果输入正向的第i个LSTM单元，反向的第i-1个LSTM单元的输出结果输入反向的第i个LSTM单元；

步骤204，将正向和反向的每个LSTM单元的输出数据输入第i个双向长短时记忆网络模型中的连接层，将正向和反向的LSTM单元的输出数据拼接在一起组合成第三数据；

步骤205，将第三数据输入第i个双向长短时记忆网络模型中的输出层，输出层输出多个第一字符级数据对应的向量，将输出的向量确定为第四数据；

步骤206，根据第四数据与第二数据计算损失函数的值；

步骤207，如果损失函数的值大于预设值，则对第i个双向长短时记忆网络模型的网络参数进行优化；

步骤208，循环步骤202至206，直至损失函数的值小于或等于预设值；

步骤209，如果损失函数的值小于或等于预设值，确定训练完成，得到训练后的第i个双向长短时记忆网络模型。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：通过预设编码方式将多个第一字符级数据转换为对应的初始向量，预设编码方式为独热编码或者词转向量编码。

根据预设符号将第一数据进行切分，得到多个字符级数据；

将多个向量表示作为目标语料数据的编码结果。

图5是本发明实施例提供的一种计算机设备的示意图。如图5所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于双向长短时记忆网络模型的中文编码方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于双向长短时记忆网络模型的中文编码装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于双向长短时记忆网络模型的中文编码方法，其特征在于，所述方法包括：

将训练语料数据转换为字符级数据；

从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型；其中，所述从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，包括：获取所述多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将所述多个第一字符级数据中的每个字符转换成对应的向量；将所述多个第一字符级数据中的每个字符对应的向量分别输入所述第i个双向长短时记忆网络模型中的双向长短时记忆网络层正向和反向的一个长短时记忆网络单元，其中，正向的第i-1个长短时记忆网络单元的输出结果输入正向的第i个长短时记忆网络单元，反向的第i-1个长短时记忆网络单元的输出结果输入反向的第i个长短时记忆网络单元；将正向和反向的每个长短时记忆网络单元的输出数据输入所述第i个双向长短时记忆网络模型中的连接层，将正向和反向的长短时记忆网络单元的输出数据拼接在一起组合成第三数据；将所述第三数据输入所述第i个双向长短时记忆网络模型中的输出层，所述输出层输出所述多个第一字符级数据对应的向量，将输出的向量确定为第四数据；根据所述第四数据与所述第二数据计算损失函数的值；以及，当所述损失函数的值小于或等于预设值时，停止优化所述第i个双向长短时记忆网络模型的网络参数，并获得训练好的第i个双向长短时记忆网络模型；

2.根据权利要求1所述的方法，其特征在于，所述获取所述多个第一字符级数据对应的初始向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述第一数据输入所述K个训练后的双向长短时记忆网络模型中的至少一个训练后的双向长短时记忆网络模型，得到所述目标语料数据的编码结果，包括：

将所述多个向量表示作为所述目标语料数据的编码结果。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述第i个数据集合中第一字符级数据的长度等于所述第i个双向长短时记忆网络模型中的长短时记忆网络层正向的长短时记忆网络单元个数。

5.一种基于双向长短时记忆网络模型的中文编码装置，其特征在于，所述装置包括：

第一转换模块，用于将训练语料数据转换为字符级数据；

训练模块，用于从第i个数据集合中抽取多个第一字符级数据并将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型中，训练所述第i个双向长短时记忆网络模型，得到训练后的第i个双向长短时记忆网络模型，i依次取1至K之间的自然数，一共得到K个训练后的双向长短时记忆网络模型；所述训练模块包括：获取单元、第二转换单元、第一输入单元、拼接单元、第二输出单元、计算单元、优化单元以及第三输出单元；所述获取单元，用于获取所述多个第一字符级数据对应的初始向量，将获取的初始向量确定为第二数据；所述第二转换单元，用于将抽取的所述多个第一字符级数据输入第i个双向长短时记忆网络模型的嵌入层进行向量化，将所述多个第一字符级数据中的每个字符转换为对应的向量；所述第一输入单元，用于将所述多个第一字符级数据中的每个字符对应的向量分别输入所述第i个双向长短时记忆网络模型中的双向长短时记忆网络层正向和反向的一个长短时记忆网络单元，其中，正向的第i-1个长短时记忆网络单元的输出结果输入正向的第i个长短时记忆网络单元，反向的第i-1个长短时记忆网络单元的输出结果输入反向的第i个长短时记忆网络单元；所述拼接单元，用于将正向和反向的每个长短时记忆网络单元的输出数据输入所述第i个双向长短时记忆网络模型中的连接层，将正向和反向的长短时记忆网络单元的输出数据拼接在一起组合成第三数据；所述第二输出单元，用于将所述第三数据输入所述第i个双向长短时记忆网络模型中的输出层，所述输出层输出所述多个第一字符级数据对应的向量，将输出的向量确定为第四数据；所述计算单元，用于根据所述第四数据与所述第二数据计算损失函数的值；所述优化单元，用于当所述损失函数的值大于预设值时，对所述第i个双向长短时记忆网络模型的网络参数进行优化，直至所述损失函数的值小于或等于所述预设值；所述第三输出单元，用于当所述损失函数的值小于或等于所述预设值时，确定训练完成，得到训练后的第i个双向长短时记忆网络模型；

6.根据权利要求5所述的装置，其特征在于，所述第一输出模块包括：第二切分单元、第二分组单元、第二输入单元以及第四输出单元；

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的基于双向长短时记忆网络模型的中文编码方法。

8.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至4任意一项所述的基于双向长短时记忆网络模型的中文编码方法。