CN110276052B

CN110276052B - 一种古汉语自动分词及词性标注一体化方法及装置

Info

Publication number: CN110276052B
Application number: CN201910495060.8A
Authority: CN
Inventors: 皇甫伟; 于学金
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2021-02-12
Anticipated expiration: 2039-06-10
Also published as: CN110276052A

Abstract

本发明提供一种古汉语自动分词及词性标注一体化方法及装置，能够有效提升古汉语分词及词性标注的正确率。所述方法包括：获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。本发明适用于机器翻译、信息检索、语义识别领域。

Description

一种古汉语自动分词及词性标注一体化方法及装置

技术领域

本发明涉及机器翻译、信息检索、语义识别领域，特别是指一种古汉语自动分词及词性标注一体化方法及装置。

背景技术

古汉语自动分词及词性标注的研究，对古汉语的采录、收集、整理和校对等方面起重要作用，是古汉语自然语言处理领域后续机器自动翻译、情感分析和语义识别等工作的基础。由于古汉语和现代汉语存在着“源”和“流”的关系，二者存在着密切的关联，现代汉语中仍然存在不少古汉语语句词汇的存留和古代汉语的诗句和文章的引用，因此古汉语自动分词及词性标注的研究也是现代汉语研究的重要补充，将支持现代自然语言处理的相关研究工作。

虽然现代汉语的分词与词性标注研究已经取得了比较丰硕的成果，但古汉语方面的研究仍然存在不足。古代汉语在词汇和语法等方面与现代汉语有很大不同，例如，古代汉语以单音为主，词类分工不明确，词类活用丰富。现代汉语词汇中复音词占了更大的比例，由于复音词中字与字之间的相互限定，词义用法相对单一，词类活用的例子不多见。基于二者的不同，直接将针对现代汉语设计的模型用于古汉语的自动分词和词性标注任务肯定会产生误差。

现有技术中，针对古汉语的分词与词性标注研究，通常是先分词后词性标注，这样，分词任务中产生的错误会累计传递到标记任务中，从而会造成更多的错误。

发明内容

本发明要解决的技术问题是提供一种古汉语自动分词及词性标注一体化方法及装置，以解决现有技术所存在的先分词后词性标注会将分词任务中产生的错误累计传递到标记任务中，造成更多的错误的问题。

为解决上述技术问题，本发明实施例提供一种古汉语自动分词及词性标注一体化方法，包括：

获取古汉语语料库中的古汉语文本；

对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；

对得到的二元标签结构进行编码；

构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。

进一步地，所述古汉语文本的标签包括：词性标签和分词标签；

所述对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构包括：

对获取的古汉语文本的标签进行标签转换，将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构；

其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

其中，T表示二元标签结构；T_d为词性标签列表，T_d中有m种词性标记；T_c为分词标签列表，T_c中有n种分词标记；二元标签结构T中的每个标签为

点乘T_c得到的矩阵，

的上标T表示矩阵转置。

进一步地，所述对得到的二元标签结构进行编码包括：

对m×n种不同词性标记和分词标记的自由组合结果进行编号，对编号进行独热编码，得到一串m×n位的0/1序列，其中，除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签。

进一步地，所述对得到的二元标签结构进行编码包括：

对m×n种二元标签进行二维编码，第一维有m列，表示词性标记信息，第二维有n列，表示分词标记信息，则二元标签结构的编码为一串m+n位的0/1序列，其中，前m位中仅有一位为1，对应词性标签的独热编码，后n位仅有一位为1，对应分词标签的独热编码。

进一步地，所述基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括：

利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。

本发明实施例还提供一种古汉语自动分词及词性标注一体化装置，包括：

获取模块，用于获取古汉语语料库中的古汉语文本；

转换模块，用于对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；

编码模块，用于对得到的二元标签结构进行编码；

训练模块，用于构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。

所述转换模块，用于对获取的古汉语文本的标签进行标签转换，将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构；

其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

其中，T表示二元标签结构；T_d为词性标签列表，T_d中有m种词性标记；T_c为分词标签列表，T_c中有n种分词标记；二元标签结构T中的每个标签为T_d ^T点乘T_c得到的矩阵，

的上标T表示矩阵转置。

进一步地，所述编码模块，用于对m×n种不同词性标记和分词标记的自由组合结果进行编号，对编号进行独热编码，得到一串m×n位的0/1序列，其中，除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签。

进一步地，所述编码模块，用于对m×n种二元标签进行二维编码，第一维有m列，表示词性标记信息，第二维有n列，表示分词标记信息，则二元标签结构的编码为一串m+n位的0/1序列，其中，前m位中仅有一位为1，对应词性标签的独热编码，后n位仅有一位为1，对应分词标签的独热编码。

进一步地，所述训练模块，用于构建双向长短期记忆神经网络，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。

本发明的上述技术方案的有益效果如下：

上述方案中，获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注，从而实现一体化分词及词性标注，这样，摒弃了现有的分词及词性标注“两步走”的策略，将分词和词性标注统一在一个模型中，能够有效提升古汉语分词及词性标注的正确率，从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。

附图说明

图1为本发明实施例提供的古汉语自动分词及词性标注一体化方法的流程示意图；

图2为本发明实施例提供的标签转换流程示意图；

图3(a)为本发明实施例提供的标签编码方式一示意图；

图3(b)为本发明实施例提供的标签编码方式二示意图；

图4为本发明实施例提供的古汉语自动分词及词性标注一体化方法的详细流程示意图；

图5为本发明实施例提供的基于Bi-LSTM的自动分词及词性标注一体化模型的构建流程示意图；

图6为本发明实施例提供的标签转换路径示意图；

图7为本发明实施例提供的Bi-LSTM一体化模型与字典法在不同句长下F值比较示意图；

图8为本发明实施例提供的CRF方法与一体化模型在不同句长下的词性标注F值比较示意图；

图9为本发明实施例提供的古汉语自动分词及词性标注一体化装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的先分词后词性标注会将分词任务中产生的错误累计传递到标记任务中，造成更多的错误的问题，提供一种古汉语自动分词及词性标注一体化方法及装置。

实施例一

如图1所示，本发明实施例提供的古汉语自动分词及词性标注一体化方法，包括：

S101，获取古汉语语料库中的古汉语文本；

S102，对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；

S103，对得到的二元标签结构进行编码；

S104，构建双向长短期记忆神经网络(Bidirectional Long Short-Term Memory，Bi-LSTM)，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。

本发明实施例所述的古汉语自动分词及词性标注一体化方法，获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注，从而实现一体化分词及词性标注，这样，摒弃了现有的分词及词性标注“两步走”的策略，将分词和词性标注统一在一个模型中，能够有效提升古汉语分词及词性标注的正确率，从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。

本实施例中，根据词性标注结果可以进行信息检索、语义识别等操作。

本实施例中，在训练双向长短期记忆神经网络之前，需要进行执行以下步骤：

S101，需获取古汉语语料库中的古汉语文本作为训练集，还需获取训练集中每个古汉语文本的标签，所述古汉语文本的标签包括：词性标签和分词标签；

S102，需要对古汉语文本的标签进行标签转换，将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构；其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

其中，T表示二元标签结构；T_d为词性标签列表，T_d中有m种词性标记，元素d₁、d₂等分别表示不同的词性标记；T_c为分词标签列表，T_c中有n种分词标记，元素c₁、c₂等表示不同的分词标记，携带不同的分词信息；二元标签结构T中的每个标签为

点乘T_c得到的矩阵，

的上标T表示矩阵转置，T中的每个标签都分别携带了词性标记信息和分词标记信息。

本实施例中，所述对古汉语文本(如图2所示，以文本Wn为例)的标签进行标签转换，将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构具体可以包括以下步骤：

A1，将文本Wn拆分成单字Zn，并且单字Zn也携带该字隶属词的词性标记信息d₁，例如，将“司马/N”转换为‘司/N’和‘马/N’，其中，N表示词性标记信息；

A2，使用分词标签为每个字打上分词标记，即将中文分词当成分类任务；

A3，将词性标签作为第一维标签，分词信息标签作为第二维标签组合成二元标签结构T。

S103，对得到的二元标签结构进行编码。

本实施例中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型(也指：双向长短期记忆神经网络)的输出不同于分词或词性标记单任务模型的单标签输出，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型输出的是经过编码的二元标签结构，标签的两个维度分别表示词性标记信息和分词标记信息，可以使网络更加充分考虑字、词性和分词之间的内在关联，相较分词后再进行词性标注这样的“两步走”策略增加了词性和分词之间的内在关联，使一体化模型的精确度更高。

本实施例中，针对所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，提出两种二元标签结构的编码方式，首先假设二元标签结构包括m种词性标记，用d_m表示，n种分词标记，用c_n表示，则如图3(a)所示，标签编码方式一为：

对(m×n)种不同词性标记和分词标记的自由组合结果进行编号，即每一个不同的二元标签有自己固定的某一编号，然后对其进行独热(One-hot)编码，即一串(m×n)位的0/1序列，其中除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签。

如图3(b)所示，标签编码方式二：

对(m×n)种二元标签进行二维编码，第一维有m列，表示词性标记信息，第二维有n列，表示分词标记信息，则二元标签结构的编码为一串(m+n)位的0/1序列，其中前m位中仅有一位为1，对应词性标签的One-hot编码，后n位有一位为1，对应分词标签的One-hot编码，从而组成了一串计算机能处理的0/1序列。

在前述古汉语自动分词及词性标注一体化方法的具体实施方式中，进一步地，如图4所示，所述基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括：

本实施例中，在获取训练集中的古汉语文本作为Bi-LSTM的输入后，首先将该文本中所有字转化成字向量，然后送入Bi-LSTM进行训练，得到如图5所示的基于Bi-LSTM的自动分词及词性标注一体化模型总体示意图。

本实施例中，将该文本中所有字转化成字向量的第一步是将它们表示为分布式向量，也称为嵌入向量，如图5所示。一般来说，在中文自然语言处理过程中有一个从训练集中提取出的大小为|C|的字符字典C，字符字典C也可以称为表C，|C|表示表C中存在|C|行字符，每个字符c∈C表示为实值向量(字符嵌入)v_c∈R^d，其中，R表示实数，d是向量空间的维数，每一行(一个d维向量)代表一个字符c。然后将所有字符嵌入向量堆叠成嵌入矩阵M∈R^d ^×|C|。对于字符c∈C，查找表C检索相应的字符嵌入v_c∈R^d。查找表C和嵌入层之间可以被视为简单的投影层，每个字符嵌入通过其查找表索引到相应的列操作来实现，然后将字符向量送入到Bi-LSTM的神经网络中，进行计算训练。

本实施例中，如图5所示，神经网络层就是将训练集文本逐字送入Bi-LSTM神经网络，通过比较神经网络的计算结果与正确答案(即：编码后得到的二元标签信息)的差异，不断更新神经网络的参数，使网络正确率不断提升，直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。

本实施例中，为了进一步提升古汉语分词及词性标注的正确率，还提供了标注推理层，将标注推理层作为自动分词及词性标注一体化模型的一部分。本实施例中，神经网络层输出的是每一种标签的概率，但本实施例中通过标注推理层并不是选择概率最高的那种标签。本实施例中，在标注推理层中增加了转换概率的概念，在选择概率大的标签的同时也要考虑该标签到前一个标签和下一个标签的转换概率，最终选择的标签是：标签自身概率和转换概率乘积最大的一条标签转换路径。

假设，图6为仅为四个字的标签输出，虽然第三个字中标签二的概率较大，但是前一标签转换到标签二的转换概率(0.05)很小，标签二转换到下一标签的转换概率(0.1)也很小。所以标注推理层会选择的标签转换路径为：标签一、标签一、标签三、标签二，而不选神经网络层计算得到概率最大的标签转换路径：标签一、标签一、标签二、标签二。

本实施例中，如图7所示，在分词任务上，图7为本实施例所述的古汉语自动分词及词性标注一体化方法的正确率与传统字典法正确率比较图，本实施例所述的古汉语自动分词及词性标注一体化方法的分词正确率高于字典法正确率。

本实施例中，如图8所示，在标注任务上，本实施例所述的古汉语自动分词及词性标注一体化方法的正确率(F值)与条件随机场(conditional random field，CRF)方法标注正确率比较图，本实施例所述的古汉语自动分词及词性标注一体化方法的标注正确率高于字典法正确率。

本实施例中所述的古汉语自动分词及词性标注一体化方法，能够同时进行分词和标注任务，所以其中的错误是一次性形成的，会相对较少。而传统的两步走方法则是先分词后标注，分词任务中产生的错误会累计传递到标记任务中，从而会造成更多的错误。

实施例二

本发明还提供一种古汉语自动分词及词性标注一体化装置的具体实施方式，由于本发明提供的古汉语自动分词及词性标注一体化装置与前述古汉语自动分词及词性标注一体化方法的具体实施方式相对应，该古汉语自动分词及词性标注一体化装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述古汉语自动分词及词性标注一体化方法具体实施方式中的解释说明，也适用于本发明提供的古汉语自动分词及词性标注一体化装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图9所示，本发明实施例还提供一种古汉语自动分词及词性标注一体化装置，包括：

获取模块11，用于获取古汉语语料库中的古汉语文本；

转换模块12，用于对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；

编码模块13，用于对得到的二元标签结构进行编码；

训练模块14，用于构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。

本发明实施例所述的古汉语自动分词及词性标注一体化装置，获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络；基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注，从而实现一体化分词及词性标注，这样，摒弃了现有的分词及词性标注“两步走”的策略，将分词和词性标注统一在一个模型中，能够有效提升古汉语分词及词性标注的正确率，从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。

在前述古汉语自动分词及词性标注一体化装置的具体实施方式中，进一步地，所述古汉语文本的标签包括：词性标签和分词标签；

其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

点乘T_c得到的矩阵，

的上标T表示矩阵转置。

在前述古汉语自动分词及词性标注一体化装置的具体实施方式中，进一步地，所述编码模块，用于对m×n种不同词性标记和分词标记的自由组合结果进行编号，对编号进行独热编码，得到一串m×n位的0/1序列，其中，除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签。

在前述古汉语自动分词及词性标注一体化装置的具体实施方式中，进一步地，所述编码模块，用于对m×n种二元标签进行二维编码，第一维有m列，表示词性标记信息，第二维有n列，表示分词标记信息，则二元标签结构的编码为一串m+n位的0/1序列，其中，前m位中仅有一位为1，对应词性标签的独热编码，后n位仅有一位为1，对应分词标签的独热编码。

在前述古汉语自动分词及词性标注一体化装置的具体实施方式中，进一步地，所述训练模块，用于构建双向长短期记忆神经网络，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种古汉语自动分词及词性标注一体化方法，其特征在于，包括：

获取古汉语语料库中的古汉语文本；

对获取的古汉语文本的标签进行标签转换，其中，所述古汉语文本的标签包括：词性标签和分词标签；

将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构；

其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

点乘T_c得到的矩阵，

的上标T表示矩阵转置；

对m×n种不同词性标记和分词标记的自由组合结果进行编号，对编号进行独热编码，得到一串m×n位的0/1序列，其中，除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签；或者，

对m×n种二元标签进行二维编码，第一维有m列，表示词性标记信息，第二维有n列，表示分词标记信息，则二元标签结构的编码为一串m+n位的0/1序列，其中，前m位中仅有一位为1，对应词性标签的独热编码，后n位仅有一位为1，对应分词标签的独热编码；

2.根据权利要求1所述的古汉语自动分词及词性标注一体化方法，其特征在于，所述基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括：

3.一种古汉语自动分词及词性标注一体化装置，其特征在于，包括：

获取模块，用于获取古汉语语料库中的古汉语文本；

转换模块，用于对获取的古汉语文本的标签进行标签转换，其中，所述古汉语文本的标签包括：词性标签和分词标签；

其中，所述二元标签结构表示为：

T_d＝[d₁,d₂,d₃,...,d_m]

T_c＝[c₁,c₂,c₃,...,c_n]

点乘T_c得到的矩阵，

的上标T表示矩阵转置；

编码模块，用于对m×n种不同词性标记和分词标记的自由组合结果进行编号，对编号进行独热编码，得到一串m×n位的0/1序列，其中，除某一位为1以外，其他均为0，为1的位对应的编号即为对应的二元标签；或者，

4.根据权利要求3所述的古汉语自动分词及词性标注一体化装置，其特征在于，所述训练模块，用于构建双向长短期记忆神经网络，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。