CN117077672A

CN117077672A - 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法

Info

Publication number: CN117077672A
Application number: CN202310822927.2A
Authority: CN
Inventors: 孙广路; 逯永健; 梁丽丽; 朱素霞; 李秀娇
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-11-17
Anticipated expiration: 2043-07-05
Also published as: CN117077672B

Abstract

本发明提出一种基于词汇增强和TCN‑BILSTM模型的中文命名实体识别方法，属于计算机自然语言技术领域。包括S1、将输入语句中的字符映射成字符表示；S2、将语句中的词汇和分词信息拼接到字符表示上，得到词汇增强后的字符表示；S3、使用预训练的BERT模型，获得输入语句中具有上下文表示的字符表示，将具有上下文表示的字符表示与词汇增强后的字符表示做拼接，得到拼接后的字符表示；S4、对拼接后的字符向量表示做特征提取，得到具有上下文信息和长距离语义信息的特征向量表示；S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。解决对于多层次语义信息识别率低的问题。

Description

一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法

技术领域

本申请涉及一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，属于计算机自然语言技术领域。

背景技术

中文命名实体识别是一种自然语言处理技术，其目的是在文本中自动识别和提取出具有特定意义的实体，如人名、地名、组织机构名等，相对于英文命名实体识别而言，中文命名实体识别任务的难度更高。如何合理利用中文文本中丰富的语义信息是中文命名实体识别研究的一个基本问题。

随着各种词嵌入(或词向量)方法和预训练语言模型的出现，利用深度学习方法去解决命名实体识别问题成为研究热点，目前常用于命名实体识别领域的深度学习神经网络有：卷积神经网络和循环神经网络以及它们的变体空洞卷积神经网络、长短期记忆网络、双向长短期记忆网络和门控循环单元。后来的研究发现字符级别的表示要好过词级别的表示，目前中文命名实体识别普遍使用字符粒度的输入，从而避免分词错误/分词粒度和命名实体识别粒度不一致限制模型表现的天花板以及词输入OOV(Out-of-Vocabulary)的问题，但是字符的输入会存在缺失了字符在词汇中的语义表达和丢失词边界信息的问题，因此后续出现了很多引入词汇信息来做词汇则强。

虽然双向长短记忆网络在处理命名实体识别中有着不错的效果，但是在处理过长的序列时会存在梯度消失或梯度爆炸，此外双向长短记忆网络的隐藏状态仅能捕捉到当前时刻的语义信息，无法处理多层次的语义信息。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中对于多层次语义信息识别率低的技术问题，本发明提供一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，本发明基于词汇增强和长短期记忆的时序卷积模型(TCN-BILSTM)进行中文命名实体识别，在双向长短记忆网络之前引入时序卷积网络来学习到更长距离的依赖关系，使每个输入双向长短记忆网络的信息更加丰富，再通过条件随机场来预测实体标签。

方案一、一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，包括以下步骤：

S1、使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示；

S2、将语句中的词汇和分词信息拼接到字符表示上，得到词汇增强后的字符表示；

S21.将所有可能的分词结果按照字符在词汇中的位置存储到BMES四类词集中；

S22.在获取BMES四类词集后，对每个词集中的词进行加权平均，得到每个字符对应的BMES四个词集加权后的向量；

S23.将步骤S1得到的字符表示与S22得到的四个词集加权后的向量表示在特征维度上进行拼接，融合到字符表示上；

S3、使用预训练的BERT模型，获得输入语句中具有上下文表示的字符表示，将具有上下文表示的字符表示与词汇增强后的字符表示做拼接，得到拼接后的字符表示；

S4、构建TCN-BILSTM模块，对拼接后的字符向量表示做特征提取，得到具有上下文信息和长距离语义信息的特征向量表示；

S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。

优选的，使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示的方法是：字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合；对输入的语句，通过字符向量查找表把语句中的每个字符转化为对应的字符表示。

优选的，使用预训练的BERT模型，获得输入语句中具有上下文表示的字符表示，将具有上下文表示的字符表示与词汇增强后的字符表示做拼接，得到拼接后的字符表示的方法是：将语句S＝{w₁,w₂,…,w_n}输入到BERT模型，获取一组字符表示{m₁,m₂…m_n}与词汇增强后的字符表示进行拼接，得到拼接后的字符表示。

优选的，构建TCN-BILSTM模块，对拼接后的字符向量表示做特征提取，得到具有上下文信息和长距离语义信息的特征向量表示的方法是：

S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中，TCN-BILST模块是由TCN和BILSTM组成；对S3拼接后的字符表示T^n×m＝{T₁,T₂…T_n}进行计算；

S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Q^n×m＝{Q₁,Q₂…Q_n}，其中n为字符个数，m为每个字符的特征维度；BiLSTM由t时刻的输入x_t、单元状态C_t、临时单元状态S_t、隐藏状态h_t、遗忘门f_t、记忆门i_t和输出门o_t组成，遗忘门有选择地遗忘掉旧信息，记忆门有选择地记忆新信息。

优选的，将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是：

S51.将具有上下文信息和长距离语义信息的特征表示Q^n×m＝{Q₁,Q₂…Q_n}输入至全连接分类层对字符表示进行实体标签预测，输出发射矩阵R^n×k，其中k表示字符为各实体标签的预测分数；

S52.为语句中的字符位置设置索引序列X＝[x₁,x₂,…,x_n]，为各实体标签设置索引序列y＝[y₁,y₂,…,y_n]；

S53.计算标签序列的得分函数；

S54.对标签序列的得分函数进行归一化处理，得到序列X产生标签序列y的概率分布；

S55.在训练阶段，采用极大条件似然估计最大化对数似然；

S56.在解码阶段，通过最大化预测标签列的分数输出最终的实体标签序列。

方案二、一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统，包括：包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块：

所述字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块依次连接；

所述字符嵌入模块用于获取输入语句中字符表示；

所述词汇增强模块用于将输入语句中词汇信息和分词信息拼接到字符表示上，得到词汇增强后的字符表示；

所述的BERT特征提取模块用于获取输入句子的上下文信息的字符向量，拼接到带有词汇信息的字符表示上；

所述TCN-BILSTM模块包括TCN和BILSTM，用于提取上下文信息和长距离语义信息；

所述解码模块预测每个字符的实体标签。

方案三、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的步骤。

方案四、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法。

本发明的有益效果如下：本发明设计了TCN-BILSTM模块，由改进的TCN和BiLSTM组成，针对双向长短记忆网络对较长依赖的限制，引入了时序卷积获得更大的感受野，更好的捕获了长距离的依赖关系，同时丰富了内在的信息表示，使模型学习的效果更好。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法流程示意图；

图2为TCN-BILSTM识别框架示意图；

图3为一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统结构示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-图2说明本实施方式，一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统，包括以下步骤：

字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合；对输入的语句S＝{w₁,w₂,…,w_n}，通过字符向量查找表把语句中的每个字符转化为对应的字符表示：

其中，e^c表示字符嵌入查找表，w_i表示输入的第i个语句；

S21.将所有可能的分词结果按照字符在词汇中的位置存储到BMES四类词集中；BMES四类词集中B类词集存储的是一个词词首位置的字符，M类词集存储的是一个词中间位置的字符，E类词集存储的是一个词词尾的字符，S类词集存储的是单独一个字符，每个字符得到字符作为B/M/E/S能匹配上的所有词；

因此，每个字符得到该字符作为B/M/E/S所能匹配上的所有词，在引入词边界信息的同时也引入了词汇本身信息。

基于Chinese Treebank 6.0语料库训练得到词汇查找表，在词汇查找表中，对每个字符c_i进行搜索，获得输入语句中每个字符对应的所有匹配的词，将匹配的词根据c_i在词中的位置存储到BMES四个词集中，构建方法如下式：

其中，L表示词汇查找表，i表示字符在句子中的位置，n表示句子的长度，w_jk代表匹配的词，j和k代表词的起始位置和结束位置，当某个字在词汇集合中没有对应时，将该词对应的BMES四类词集填充为NONE；

S22.在获取BMES四类词集后，对每个词集中的词进行加权平均，每个字符对应的BMES四个词集加权后的向量计算公式为：

其中，z(w)表示词汇w在数据集中出现的次数，e^w(w)表示词汇w在词向量查找表中对应的表示，P表示BMES中的任意一个词集，v^P(c_i)代表词集P加权后的向量表示，weight表示对一个词集中所有词求和的权重；

S23.将步骤S1得到的字符表示与S22得到的四个词集加权后的向量表示在特征维度上进行拼接，融合到字符表示上，方法如下：

其中，v^B(c_i)、v^M(c_i)、v^E(c_i)、v^S(c_i)分别表示词集B中词加权后的向量表示、词集M中词加权后的向量表示、词集E中词加权后的向量表示、词集S中词加权后的向量表示，对输入的句子进行词汇增强，得到句子词汇增强后的字符表示为

将语句S＝{w₁,w₂,…,w_n}输入到BERT模型，获取一组字符表示{m₁,m₂…m_n}与词汇增强后的字符表示进行拼接，得到拼接后的字符表示如下式：

其中，||表示拼接操作；

S4.构建TCN-BILSTM模块，对拼接后的字符向量表示做特征提取，得到具有上下文信息和长距离语义信息的特征向量表示；

具体的，TCN-BILST模块是由TCN和BILSTM组成。对于长文本数据，TCN-BILSTM模块获取丰富的语义信息，再不丢失上下文信息的同时，弥补BILSTM对长距离序列处理时出现的梯度消失问题。

S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中，TCN-BILST模块是由TCN和BILSTM组成；在TCN中，对对S3拼接后的字符表示T^n×m＝{T₁,T₂…T_n}进行计算；其中n为字符个数，m为每个字符的维度，具体计算如下：

s_i＝conv(T_i,K_j),i∈{1,2,...,n}

{s₁,s₂…s_n}＝dropout({s₁,s₂…s_n})

{d₁,d₂…d_n}＝tanh({s₁,s₂…s_n})

其中，s_i为对第i个时间卷积计算得到的文本局部特征映射，T_i为该时间步要做卷积操作的字符表示，K_j为第j层的卷积核，{s₁,s₂,…,s_n)为卷积后的结果，为防止{s₁,s₂,…,s_n)过拟合和让网络更加稳定，对其添加dropout和tanh非线性映操作，获得{d₁,d₂…,d_n}。

上述计算描述了一次完整的膨胀因果卷积过程，通过多次膨胀因果卷积，得到TCN模型的输出D^n×m＝{D₁,D₂…D_n}；

S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Q^n×m＝{Q₁,Q₂…Q_n}，其中n为字符个数，m为每个字符的特征维度；

BiLSTM由t时刻的输入x_t、单元状态C_t、临时单元状态S_t、隐藏状态h_t、遗忘门f_t、记忆门i_t和输出门o_t组成，遗忘门有选择地遗忘掉旧信息，记忆门有选择地记忆新信息。

计算过程如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

S_t＝tanh(W_s·[h_t-1,x_t]+b_s)

C_t＝f_t*C_t-1+i_t*S_t

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

其中，σ和tanh表示两种激活函数，W_f、W_i、W_s、W_o和b_f、b_i、b_s、b_o指训练权重和偏置参数；

S5.将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是：

S53.计算标签序列的得分函数；

其中，A为转移概率矩阵，为标签y_i转移到标签y_i+1的概率，/>为发射矩阵第i个字符为标签y_i的预测分数；

其中，y′为真实的标签序列，Y_X为所有可能的标签序列；

S55.在训练阶段，采用极大条件似然估计来最大化对数似然ln(P(y|X))，计算过程如下：

其中，P(y|X)表示给定X的条件下y的条件概率分布，y′表示真实的标签序列。

S56.在解码阶段，通过最大化预测标签列的分数来输出最终的实体标签序列，计算过程如下：

式中，X表示字符的索引序列，y′表示一个真实的标签，P(y′|X)用于计算每个y′是X的标签序列的概率值，argmax函数用于选出最大概率值对应的标签序列对应最终的标签序列y^*。

实施例2、参照图3说明本实施方式，一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统，包括：包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块：

所述字符嵌入模块用于获取输入语句中字符表示；

所述解码模块预测每个字符的实体标签。

对本发明提出的方法进行实验分析：

本发明使用公共数据集Resume，该数据集根据新浪财经网关于上市公司的高级经理人的简历摘要数据，进行筛选过滤和人工标注生成的；该数据集包含4761条样本，8种类别，为人名NAME、学历EDU、地名LOC、机构名ORG、物品PRO、头衔TITLE、国籍CONT和民族RACE。

为了客观的评估本发明提出的方法的性能，本发明使用通用的评价指标。NER任务需要同时确定实体边界以及实体类别。在精确匹配评估中，只有当实体边界以及实体类别同时被精确标出时，实体识别任务才能被认定为成功。基于数据的TP、FP以及FN，可以计算NER任务的准确率，召回率以及F-score用于评估任务优劣。

其中单实体的评价指标如下：

TP(True Positive)：NER能正确识别出实体。

FP(False Positive)：NER能识别出实体但类或者边界判定出现错误。

FN(False Negative)：应该但没有被NER所识别的实体。

NER任务的评价指标准确率(Precision)、召回率(Recall)、F-score使用TP、FP、FN计算，公式如下：

本发明按照具体实施方法中描述的步骤进行实验，所得的测试结果如表1(测试结果对比表)所示，Lattice-LSTM、LR-CNN、SoftLexicon为其他人的中文命名实体识别方法,TCN-BILSTM为本发明结果，结果的度量为准确率(％)：

表1测试结果对比表

Models	Precision	Recall	F-score
				Lattice-LSTM	94.81	94.11	94.46
LR-CNN	95.37	94.84	95.11
				SoftLexicon	96.08	96.13	96.11
TCN-BILSTM	96.65	96.21	96.43

本发明的工作原理：

对输入的句子使用Word2vec预训练的字符向量查找表将句中的字符映射成一个字符表示，然后使用已有的SoftLexicon方法做词汇增强，将带有词汇和分词信息的Embedding拼接到字符向量表示上，得到增强字符表示。再对输入的句子使用预训练的BERT模型获得具有上下文表示的字符表示，再与增强的字符向量表示做拼接，得到模型的最终字符嵌入表示，将拼接后的字符嵌入表示送入TCN-BILSTM模块中提取距离和方向信息，最终使用CRF预测输入文本中每个字符的实体标签。

相比于一般的中文命名实体识别方法，本发明设计TCN-BILSTM模块，该模块使用时序卷积网络获取更长依赖的信息，弥补了双向长短记忆网络不足的同时，又可以使双向长短记忆网络学习更丰富的语义特征，本发明比传统的中文命名实体识别方法效果更好。

实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例4、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，其特征在于，使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示的方法是：字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合；对输入的语句，通过字符向量查找表把语句中的每个字符转化为对应的字符表示。

3.根据权利要求2所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，其特征在于，使用预训练的BERT模型，获得输入语句中具有上下文表示的字符表示，将具有上下文表示的字符表示与词汇增强后的字符表示做拼接，得到拼接后的字符表示的方法是：将语句S＝{w₁,w₂,···,w_n}输入到BERT模型，获取一组字符表示{m₁,m₂···m_n}与词汇增强后的字符表示进行拼接，得到拼接后的字符表示。

4.根据权利要求3所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，其特征在于，构建TCN-BILSTM模块，对拼接后的字符向量表示做特征提取，得到具有上下文信息和长距离语义信息的特征向量表示的方法是：

S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中，TCN-BILST模块是由TCN和BILSTM组成；对S3拼接后的字符表示T^n×m＝{T₁,T₂···T_n}进行计算；

S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Q^n×m＝{Q₁,Q₂···Q_n}，其中n为字符个数，m为每个字符的特征维度；BiLSTM由t时刻的输入x_t、单元状态C_t、临时单元状态S_t、隐藏状态h_t、遗忘门f_t、记忆门i_t和输出门o_t组成，遗忘门有选择地遗忘掉旧信息，记忆门有选择地记忆新信息。

5.根据权利要求4所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法，其特征在于，将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是：

S51.将具有上下文信息和长距离语义信息的特征表示Q^n×m＝{Q₁,Q₂···Q_n}输入至全连接分类层对字符表示进行实体标签预测，输出发射矩阵R^n×k，其中k表示字符为各实体标签的预测分数；

S52.为语句中的字符位置设置索引序列X＝[x₁,x₂,···,x_n]，为各实体标签设置索引序列y＝[y₁,y₂,···,y_n]；

S53.计算标签序列的得分函数；

S55.在训练阶段，采用极大条件似然估计最大化对数似然；

6.一种中文命名实体识别系统，其特征在于，用于实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的系统，包括：包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块：

所述字符嵌入模块用于获取输入语句中字符表示；

所述解码模块预测每个字符的实体标签。

7.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法。