CN112163089A

CN112163089A - 一种融合命名实体识别的军事高技术文本分类方法及系统

Info

Publication number: CN112163089A
Application number: CN202011013637.6A
Authority: CN
Inventors: 王浩伊; 杨军; 钱宝生; 钟晨; 涂鑫
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-01-01
Anticipated expiration: 2040-09-24
Also published as: CN112163089B

Abstract

本发明涉及一种融合命名实体识别的军事高技术文本分类方法及系统，包括：确定文本向量，输入至BiLSTM网络结构中，得到文本序列的隐向量；对原始文本分类模型进行训练，计算当前文本在各个类别中所占比例；对原始命名实体识别模型进行训练，得到训练后的命名实体识别模型；基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语，得到术语列表L；确定L中的每个元素在各类别词典中分别出现的频率和，并转换为占比；基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。本发明中的上述方法能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响，集成两种算法能够有效提升文本分类的准确性。

Description

一种融合命名实体识别的军事高技术文本分类方法及系统

技术领域

本发明涉及文本分类领域，特别是涉及一种融合命名实体识别的军事高技术文本分类方法及系统。

背景技术

随着网络资源在当今社会中越来越庞大，如何能在海量级的文本信息中更有效率地挖掘出我们所需要的信息资源变得愈发重要。文本分类作为自然语言处理(naturallanguage processing)的一个分支解决了实际应用中的很多问题，它能够帮助人们更好地管理信息资源，更有效率地获取目标信息。

目前，对于文本分类任务，机器学习和深度学习方法被广泛采纳。在传统的机器学习方法中，文本分类可采用朴素贝叶斯、支持向量机、K近邻、Rocchio等。在深度学习方法中，卷积神经网络(CNN)、双向长短期记忆网络模型(BiLSTM)等神经网络近些年同样在文本分类任务中同样取得了不错的效果。

现阶段，文本分类任务目前采用的一种主流方法为BERT中文预训练模型加入自己的训练数据进行fine-tune操作，后续连接BiLSTM、CNN等神经网络的模型结构，相较于其他方法取得了很好的效果。但是由于经BERT所训练后的预训练模型是通用“语言理解”模型，对于某个特定领域的文本阐述方法或者专业术语并没有充分学习到，所以在解决该领域的文本分类任务上的准确率往往受限。谷歌训练BERT模型使用了16个TPU集群，并花费了4天的时间，因此，现阶段，如果使用自己准备的特定领域语料来训练效果较好的BERT模型成本是非常大的。但是对于特定领域的文本来说，一些在文中出现的关键词或者专业术语在分类任务中也许起着重要的作用，如何能够融合这些词语列表很大概率能够提升文本分类的准确性。

发明内容

本发明的目的是提供一种融合命名实体识别的军事高技术文本分类方法及系统，能够更加充分地考虑到文本内的专业术语，从而提升文本分类的准确性。

为实现上述目的，本发明提供了如下方案：

一种融合命名实体识别的军事高技术文本分类方法，所述分类方法包括：

步骤1：确定文本向量；

步骤2：将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量；

步骤3：获取原始文本分类模型；

步骤4：基于所述文本序列的隐向量对所述原始文本分类模型进行训练；

步骤5：基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例；

步骤7：获取命名实体识别的训练数据；

步骤8：执行步骤1-步骤2，得到命名实体识别的训练数据的隐向量；

步骤9：获取原始命名实体识别模型；

步骤10：基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练，得到训练后的命名实体识别模型；

步骤11：基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语，得到术语列表L；

步骤12：遍历L中的每个元素，确定L中的每个元素在各类别词典中分别出现的频率和，记为f_r＝(f_r1,f_r2,…,f_rn)，并转换为占比

步骤13：基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。

可选的，所述确定文本向量具体包括：

确定文本分类模型训练数据T＝(T₁,T₂,…,T_len(n))；

对于每个训练数据T_i，基于WordPiece的方法进行分字，如果len(T_i)＞max Len-2，则在位置Len-2处截断；

对于分字后的结果，在首部添加符号“[CLS]”，在尾部添加符号“[SEP]”，并查询词汇表将每一个字转换为其对应的索引值记为input_ids；

如果len(input-ids)＜max Len，则在结果后添加0进行补齐操作，使len(input-ids)等于max Len；

对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层，三个结果向量值相加生成词向量记为Input Embeddings；

将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量，记为S。

可选的，将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量具体包括：

计算遗忘门，f_t＝σ(W_f×[h_t-1,x_t]+b_f)，其中，W_f表示遗忘门的权重，b_f表示遗忘门的偏移向量，h_t-1表示前一时刻的隐层状态，x_t表示当前时刻的输入字，f_t表示遗忘门的值，σ表示sigmoid函数；

计算记忆门，i_t＝σ(W_i×[h_t-1,x_t]+b_i)，其中，W_i表示记忆门的权重，b_i表示遗忘门的偏移量，i_t表示记忆门的值，σ表示sigmoid函数；

计算当前时刻细胞状态，

其中，f_t表示遗忘门的值，C_t-1表示上一时刻细胞的状态，i_t表示记忆门的值，

其中，W_c表示单元状态的权重，b_c表示单元状态的偏移量，tanh表示双曲函数；

计算输出门，o_t＝σ(W_o×[h_t-1,x_t]+b_o)，其中，W_o表示输出门的权重，b_o表示输出门的偏移量，o_t表示输出门的值，h_t-1表示前一时刻的隐层状态，σ表示sigmoid函数；

计算当前时刻的隐藏状态，h_t＝o_t×tanh(C_t)，o_t表示输出门的值，C_t表示当前时刻细胞的状态；

基于所述当前时刻的隐藏状态确定正向隐层状态序列{h_L0,h_L1,…,h_Ln-1}；

执行上述步骤得到反向隐层状态序列{h_R0,h_R1,…,h_Rn-1}；

将所述正向隐层状态序列和所述反向隐层状态序列拼接，得到文本序列的隐向量{[h_L0,h_R0],[h_L1,h_R1],…,[h_Ln-1,h_Rn-1]}，即，{h₀,h₁,…,h_n-1}。

可选的，基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式：

其中，

表示预测类别的概率，W^T表示n×k的全连接权重矩阵，b为偏置项。

可选的，基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练具体包括：

将命名实体识别的训练数据的隐向量连接CRF层；

基于整个序列的打分之和计算文本序列X对应的概率最大的序列Y，计算公式为

其中，A为标签i到j的转移矩阵，P为n×k的双向LSTM网络的输出矩阵，k为标签的数量；

利用softmax函数确定归一化后的概率

其中score(x,y)＝S(X,Y)，y′为所有标签序列中的其中一个，y为当前标签序列。

可选的，基于所述步骤5中当前文本在各个类别中所占比例结合softmax函数对文本中的专业术语进行分类具体采用以下公式：

其中，W为命名识别体的权重，P_r为，命名实体识别模型预测出来的术语在各类别的专业词汇词典中出现的次数占比，

为文本分类模型预测该文本属于各类别的概率。

本发明另外提供一种融合命名实体识别的军事高技术文本分类系统，所述系统包括：

文本向量确定模块，用于确定文本向量；

文本序列隐向量确定模块，用于将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量；

原始文本分类模块获取模块，用于获取原始文本分类模型；

原始文本分类模型训练模块，用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练；

比例计算模块，用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例；

命名实体识别的训练数据获取模块，用于获取命名实体识别的训练数据；

循环模块，用于执行文本向量确定模块-文本序列隐向量确定模块，得到命名实体识别的训练数据的隐向量；

原始命名实体识别模型获取模块，用于获取原始命名实体识别模型；

原始命名实体识别模型训练模块，用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练，得到训练后的命名实体识别模型；

专业术语抽取模块，用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语，得到术语列表L；

占比计算模块，用于遍历L中的每个元素，确定L中的每个元素在各类别词典中分别出现的频率和，记为f_r＝(f_r1,f_r2,…,f_rn)，并转换为占比

分类模块，基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。

可选的，所述文本向量确定模块具体包括：

训练数据确定单元，用于确定文本分类模型训练数据T＝(T₁,T₂,…,T_len(n))；

分字单元，用于对于每个训练数据T_i，基于WordPiece的方法进行分字，如果len(T_i)＞max Len-2，则在位置Len-2处截断；

索引值确定单元，用于对于分字后的结果，在首部添加符号“[CLS]”，在尾部添加符号“[SEP]”，并查询词汇表将每一个字转换为其对应的索引值记为input_ids；

补齐单元，用于当len(input-ids)＜max Len，则在结果后添加0进行补齐操作，使len(input-ids)等于max Len；

词向量生成单元，用于对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层，三个结果向量值相加生成词向量记为Input Embeddings；

文本向量确定单元，用于将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量，记为S。

可选的，所述文本序列的隐向量确定模块包括：

遗忘门计算单元，用于计算遗忘门，f_t＝σ(W_f×[h_t-1,x_t]+b_f)，其中，W_f表示遗忘门的权重，b_f表示遗忘门的偏移向量，h_t-1表示前一时刻的隐层状态，x_t表示当前时刻的输入字，f_t表示遗忘门的值，σ表示sigmoid函数；

记忆门计算单元，用于计算记忆门，i_t＝σ(W_i×[h_t-1,x_t]+b_i)，其中，W_i表示记忆门的权重，b_i表示遗忘门的偏移量，i_t表示记忆门的值，σ表示sigmoid函数；

当前时刻细胞状态计算单元，用于计算当前时刻细胞状态，

输出门计算单元，用于计算输出门，o_t＝σ(W_o×[h_t-1,x_t]+b_o)，其中，W_o表示输出门的权重，b_o表示输出门的偏移量，o_t表示输出门的值，h_t-1表示前一时刻的隐层状态，σ表示sigmoid函数；

当前时刻隐藏状态计算单元，用于计算当前时刻的隐藏状态，h_t＝o_t×tanh(C_t)，o_t表示输出门的值，C_t表示当前时刻细胞的状态；

正向隐层状态序列确定单元，用于基于所述当前时刻的隐藏状态确定正向隐层状态序列{h_L0,h_L1,…,h_Ln-1}；

反向隐层状态序列确定单元，用于执行上述步骤得到反向隐层状态序列{h_R0,h_R1,…,h_Rn-1}；

拼接单元，用于将所述正向隐层状态序列和所述反向隐层状态序列拼接，得到文本序列的隐向量{[h_L0,h_R0],[h_L1,h_R1],…,[h_Ln-1,h_Rn-1]}，即，{h₀,h₁,…,h_n-1}。

其中，

根据本发明提供的具体实施例，本发明公开了以下技术效果：

现有技术中通用BERT模型因训练使用数据的是通用语料，所以对某领域的一些专业词汇并没有学习到，故对其生成的语义表示往往不能达到一个很好的表征效果。本发明中的上述方法，通过融合实体识别能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响，集成两种算法能够有效提升文本分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图；

图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图，如图1所示，所述方法包括：

步骤1：确定文本向量。

用于文本分类的训练数据为10类不同领域的军事高技术文本，来源为各大军事网站，其中包含电子技术、计算机技术、新材料技术、高性能推进与动力技术、仿真技术、先进制造技术、生物技术、航天技术、海洋技术、新能源等主要10类。

命名实体识别训练数据为带有实体标注的语料，标注的实体为在该文本中出现的专业术语，来源同样是各大军事网站的军事高技术文本，采用的标注方法为BIO标注，“B”表示此元素的片段属于专业术语的开头，“I”表示此元素所在的片段属于专业术语的中间位置，“O”表示不属于任何类型。

每个领域需维护一个领域专业词汇词典来存储大概率会出现在该类别的标志性专业术语，比如航天技术领域词典会存储“载人航天”、“月球探测卫星”、“发射台”等词汇，计算机领域词典会存储“CPU”、“处理器”、“吞吐量”等词汇。

具体包括如下步骤：

确定文本分类模型训练数据T＝(T₁,T₂,…,T_len(n))；

定义训练数据中文本序列的最长长度为maxLen；

从i＝1开始遍历训练数据，对于每个训练数据T_i，基于WordPiece的方法进行分字，如果len(T_i)＞max Len-2，则在位置Len-2处截断；

Token Embeddings会将文本序列经过wordpiece分词后将每一个词转换成768维的向量形式。

Segment Embeddings代表了句子是哪一句(BERT能够处理对输入句子对的分类任务。这类任务就像判断两个文本是否是语义相似的。句子对中的两个句子被简单的拼接在一起后送入到模型中。那BERT区分一个句子对中的两个句子的方法就是segmentembeddings.)。

Segment Embeddings层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子，那么它的segment embedding就是全0。

Position Embeddings代表了句子中单词位置的表示，即给每个位置进行一次编码。

具体实现为BERT能够处理最长512个token的输入序列。论文作者通过让BERT在各个位置上学习一个向量表示来讲序列顺序的信息编码进来。这意味着PositionEmbeddings layer实际上就是一个大小为(512,768)的lookup表，表的第一行是代表第一个序列的第一个位置，第二行代表序列的第二个位置，以此类推。因此，如果有这样两个句子“Hello world”和“Hi there”,“Hello”和“Hi”会由完全相同的position embeddings，因为他们都是句子的第一个词。同理，“world”和“there”也会有相同的position embedding。

步骤2：将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量。

具体包括如下步骤：

计算当前时刻细胞状态，

执行上述步骤得到反向隐层状态序列{h_R0,h_R1,…,h_Rn-1}；

步骤3：获取原始文本分类模型。

步骤4：基于所述文本序列的隐向量对所述原始文本分类模型进行训练。

步骤5：基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例。

占比最大的一项即为文本的分类结果。

具体采用以下公式：

其中，

步骤7：获取命名实体识别的训练数据。

步骤8：执行步骤1-步骤2，得到命名实体识别的训练数据的隐向量。

与文本分类网络结构不同，命名实体识别任务BILSTM层后需要连接CRF层来计算文本序列X对应的概率最大的序列Y，评判依据为整个序列的打分之和为S(X,y)，具体公式如下：

计算所有打分和后，利用softmax函数确定归一化后的概率

步骤9：获取原始命名实体识别模型。

步骤10：基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练，得到训练后的命名实体识别模型。

步骤11：基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语，得到术语列表L。

具体的，默认术语列表在每个专业词汇词典中至少出现的次数至少为1，因此分子统一加1，防止分子为0的状况出现，因为总共10种类别，所以分母统一加10。

具体公式为：

其中，W为命名识别体的权重，P_r为命名实体识别模型预测出来的术语在各类别的专业词汇词典中出现的次数占比，

为文本分类模型预测该文本属于各类别的概率。

图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图，如图2所示，所述系统包括：

文本向量确定模块201，用于确定文本向量；

文本序列隐向量确定模块202，用于将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量；

原始文本分类模块获取模块203，用于获取原始文本分类模型；

原始文本分类模型训练模块204，用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练；

比例计算模块205，用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例；

命名实体识别的训练数据获取模块206，用于获取命名实体识别的训练数据；

循环模块207，用于执行文本向量确定模块-文本序列隐向量确定模块，得到命名实体识别的训练数据的隐向量；

原始命名实体识别模型获取模块208，用于获取原始命名实体识别模型；

原始命名实体识别模型训练模块209，用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练，得到训练后的命名实体识别模型；

专业术语抽取模块210，用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语，得到术语列表L；

占比计算模块211，用于遍历L中的每个元素，确定L中的每个元素在各类别词典中分别出现的频率和，记为f_r＝(f_r1,f_r2,…,f_rn)，并转换为占比

分类模块212，基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种融合命名实体识别的军事高技术文本分类方法，其特征在于，所述分类方法包括：

步骤1：确定文本向量；

步骤3：获取原始文本分类模型；

步骤7：获取命名实体识别的训练数据；

步骤9：获取原始命名实体识别模型；

2.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法，其特征在于，所述确定文本向量具体包括：

确定文本分类模型训练数据T＝(T₁,T₂,…,T_len(n))；

对于每个训练数据T_i，基于WordPiece的方法进行分字，如果len(T_i)＞maxLen-2，则在位置Len-2处截断；

如果len(input_ids)＜maxLen，则在结果后添加0进行补齐操作，使len(input_ids)等于maxLen；

对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、SegmentEmbeddings层以及PositionEmbeddings层，三个结果向量值相加生成词向量记为InputEmbeddings；

将InputEmbeddings输入到Transformer模型中获得文本序列中字的最终的文本向量，记为S。

3.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法，其特征在于，将所述文本向量输入至BiLSTM网络结构中，得到文本序列的隐向量具体包括：

计算当前时刻细胞状态，

执行上述步骤得到反向隐层状态序列{h_R0,h_R1,…,h_Rn-1}；

4.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法，其特征在于，基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式：

其中，

5.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法，其特征在于，基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练具体包括：

将命名实体识别的训练数据的隐向量连接CRF层；

利用softmax函数确定归一化后的概率

6.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法，其特征在于，基于所述步骤5中当前文本在各个类别中所占比例结合softmax函数对文本中的专业术语进行分类具体采用以下公式：

为为文本分类模型预测该文本属于各类别的概率。

7.一种融合命名实体识别的军事高技术文本分类系统，其特征在于，所述系统包括：

文本向量确定模块，用于确定文本向量；

原始文本分类模块获取模块，用于获取原始文本分类模型；

8.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统，其特征在于，所述文本向量确定模块具体包括：

分字单元，用于对于每个训练数据T_i，基于WordPiece的方法进行分字，如果len(T_i)＞maxLen-2，则在位置Len-2处截断；

补齐单元，用于当len(input_ids)＜maxLen，则在结果后添加0进行补齐操作，使len(input_ids)等于maxLen；

词向量生成单元，用于对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、Segment Embeddings层以及Position Embeddings层，三个结果向量值相加生成词向量记为Input Embeddings；

9.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统，其特征在于，所述文本序列的隐向量确定模块包括：

当前时刻细胞状态计算单元，用于计算当前时刻细胞状态，

10.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统，其特征在于，所述比例计算模块具体采用以下公式：

其中，