CN112163089A - 一种融合命名实体识别的军事高技术文本分类方法及系统 - Google Patents

一种融合命名实体识别的军事高技术文本分类方法及系统 Download PDF

Info

Publication number
CN112163089A
CN112163089A CN202011013637.6A CN202011013637A CN112163089A CN 112163089 A CN112163089 A CN 112163089A CN 202011013637 A CN202011013637 A CN 202011013637A CN 112163089 A CN112163089 A CN 112163089A
Authority
CN
China
Prior art keywords
text
named entity
representing
vector
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011013637.6A
Other languages
English (en)
Other versions
CN112163089B (zh
Inventor
王浩伊
杨军
钱宝生
钟晨
涂鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202011013637.6A priority Critical patent/CN112163089B/zh
Publication of CN112163089A publication Critical patent/CN112163089A/zh
Application granted granted Critical
Publication of CN112163089B publication Critical patent/CN112163089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种融合命名实体识别的军事高技术文本分类方法及系统,包括:确定文本向量,输入至BiLSTM网络结构中,得到文本序列的隐向量;对原始文本分类模型进行训练,计算当前文本在各个类别中所占比例;对原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;确定L中的每个元素在各类别词典中分别出现的频率和,并转换为占比;基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。本发明中的上述方法能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响,集成两种算法能够有效提升文本分类的准确性。

Description

一种融合命名实体识别的军事高技术文本分类方法及系统
技术领域
本发明涉及文本分类领域,特别是涉及一种融合命名实体识别的军事高技术文本分类方法及系统。
背景技术
随着网络资源在当今社会中越来越庞大,如何能在海量级的文本信息中更有效率地挖掘出我们所需要的信息资源变得愈发重要。文本分类作为自然语言处理(naturallanguage processing)的一个分支解决了实际应用中的很多问题,它能够帮助人们更好地管理信息资源,更有效率地获取目标信息。
目前,对于文本分类任务,机器学习和深度学习方法被广泛采纳。在传统的机器学习方法中,文本分类可采用朴素贝叶斯、支持向量机、K近邻、Rocchio等。在深度学习方法中,卷积神经网络(CNN)、双向长短期记忆网络模型(BiLSTM)等神经网络近些年同样在文本分类任务中同样取得了不错的效果。
现阶段,文本分类任务目前采用的一种主流方法为BERT中文预训练模型加入自己的训练数据进行fine-tune操作,后续连接BiLSTM、CNN等神经网络的模型结构,相较于其他方法取得了很好的效果。但是由于经BERT所训练后的预训练模型是通用“语言理解”模型,对于某个特定领域的文本阐述方法或者专业术语并没有充分学习到,所以在解决该领域的文本分类任务上的准确率往往受限。谷歌训练BERT模型使用了16个TPU集群,并花费了4天的时间,因此,现阶段,如果使用自己准备的特定领域语料来训练效果较好的BERT模型成本是非常大的。但是对于特定领域的文本来说,一些在文中出现的关键词或者专业术语在分类任务中也许起着重要的作用,如何能够融合这些词语列表很大概率能够提升文本分类的准确性。
发明内容
本发明的目的是提供一种融合命名实体识别的军事高技术文本分类方法及系统,能够更加充分地考虑到文本内的专业术语,从而提升文本分类的准确性。
为实现上述目的,本发明提供了如下方案:
一种融合命名实体识别的军事高技术文本分类方法,所述分类方法包括:
步骤1:确定文本向量;
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
步骤3:获取原始文本分类模型;
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
步骤7:获取命名实体识别的训练数据;
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量;
步骤9:获取原始命名实体识别模型;
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L;
步骤12:遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure BDA0002698352390000021
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
可选的,所述确定文本向量具体包括:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
可选的,将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量具体包括:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算当前时刻细胞状态,
Figure BDA0002698352390000031
其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,
Figure BDA0002698352390000032
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
可选的,基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式:
Figure BDA0002698352390000041
其中,
Figure BDA0002698352390000042
表示预测类别的概率,WT表示n×k的全连接权重矩阵,b为偏置项。
可选的,基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练具体包括:
将命名实体识别的训练数据的隐向量连接CRF层;
基于整个序列的打分之和计算文本序列X对应的概率最大的序列Y,计算公式为
Figure BDA0002698352390000043
其中,A为标签i到j的转移矩阵,P为n×k的双向LSTM网络的输出矩阵,k为标签的数量;
利用softmax函数确定归一化后的概率
Figure BDA0002698352390000044
其中score(x,y)=S(X,Y),y′为所有标签序列中的其中一个,y为当前标签序列。
可选的,基于所述步骤5中当前文本在各个类别中所占比例结合softmax函数对文本中的专业术语进行分类具体采用以下公式:
Figure BDA0002698352390000045
其中,W为命名识别体的权重,Pr为,命名实体识别模型预测出来的术语在各类别的专业词汇词典中出现的次数占比,
Figure BDA0002698352390000046
为文本分类模型预测该文本属于各类别的概率。
本发明另外提供一种融合命名实体识别的军事高技术文本分类系统,所述系统包括:
文本向量确定模块,用于确定文本向量;
文本序列隐向量确定模块,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块,用于获取原始文本分类模型;
原始文本分类模型训练模块,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块,用于获取命名实体识别的训练数据;
循环模块,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
占比计算模块,用于遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure BDA0002698352390000051
分类模块,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
可选的,所述文本向量确定模块具体包括:
训练数据确定单元,用于确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
分字单元,用于对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
索引值确定单元,用于对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
补齐单元,用于当len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
词向量生成单元,用于对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
文本向量确定单元,用于将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
可选的,所述文本序列的隐向量确定模块包括:
遗忘门计算单元,用于计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
记忆门计算单元,用于计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
当前时刻细胞状态计算单元,用于计算当前时刻细胞状态,
Figure BDA0002698352390000061
其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,
Figure BDA0002698352390000062
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
输出门计算单元,用于计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
当前时刻隐藏状态计算单元,用于计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
正向隐层状态序列确定单元,用于基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
反向隐层状态序列确定单元,用于执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
拼接单元,用于将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
可选的,基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式:
Figure BDA0002698352390000071
其中,
Figure BDA0002698352390000072
表示预测类别的概率,WT表示n×k的全连接权重矩阵,b为偏置项。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
现有技术中通用BERT模型因训练使用数据的是通用语料,所以对某领域的一些专业词汇并没有学习到,故对其生成的语义表示往往不能达到一个很好的表征效果。本发明中的上述方法,通过融合实体识别能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响,集成两种算法能够有效提升文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图;
图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种融合命名实体识别的军事高技术文本分类方法及系统,能够更加充分地考虑到文本内的专业术语,从而提升文本分类的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图,如图1所示,所述方法包括:
步骤1:确定文本向量。
用于文本分类的训练数据为10类不同领域的军事高技术文本,来源为各大军事网站,其中包含电子技术、计算机技术、新材料技术、高性能推进与动力技术、仿真技术、先进制造技术、生物技术、航天技术、海洋技术、新能源等主要10类。
命名实体识别训练数据为带有实体标注的语料,标注的实体为在该文本中出现的专业术语,来源同样是各大军事网站的军事高技术文本,采用的标注方法为BIO标注,“B”表示此元素的片段属于专业术语的开头,“I”表示此元素所在的片段属于专业术语的中间位置,“O”表示不属于任何类型。
每个领域需维护一个领域专业词汇词典来存储大概率会出现在该类别的标志性专业术语,比如航天技术领域词典会存储“载人航天”、“月球探测卫星”、“发射台”等词汇,计算机领域词典会存储“CPU”、“处理器”、“吞吐量”等词汇。
具体包括如下步骤:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
定义训练数据中文本序列的最长长度为maxLen;
从i=1开始遍历训练数据,对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
Token Embeddings会将文本序列经过wordpiece分词后将每一个词转换成768维的向量形式。
Segment Embeddings代表了句子是哪一句(BERT能够处理对输入句子对的分类任务。这类任务就像判断两个文本是否是语义相似的。句子对中的两个句子被简单的拼接在一起后送入到模型中。那BERT区分一个句子对中的两个句子的方法就是segmentembeddings.)。
Segment Embeddings层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子,那么它的segment embedding就是全0。
Position Embeddings代表了句子中单词位置的表示,即给每个位置进行一次编码。
具体实现为BERT能够处理最长512个token的输入序列。论文作者通过让BERT在各个位置上学习一个向量表示来讲序列顺序的信息编码进来。这意味着PositionEmbeddings layer实际上就是一个大小为(512,768)的lookup表,表的第一行是代表第一个序列的第一个位置,第二行代表序列的第二个位置,以此类推。因此,如果有这样两个句子“Hello world”和“Hi there”,“Hello”和“Hi”会由完全相同的position embeddings,因为他们都是句子的第一个词。同理,“world”和“there”也会有相同的position embedding。
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量。
具体包括如下步骤:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算当前时刻细胞状态,
Figure BDA0002698352390000101
其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,
Figure BDA0002698352390000102
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
步骤3:获取原始文本分类模型。
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练。
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例。
占比最大的一项即为文本的分类结果。
具体采用以下公式:
Figure BDA0002698352390000103
其中,
Figure BDA0002698352390000104
表示预测类别的概率,WT表示n×k的全连接权重矩阵,b为偏置项。
步骤7:获取命名实体识别的训练数据。
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量。
与文本分类网络结构不同,命名实体识别任务BILSTM层后需要连接CRF层来计算文本序列X对应的概率最大的序列Y,评判依据为整个序列的打分之和为S(X,y),具体公式如下:
Figure BDA0002698352390000111
其中,A为标签i到j的转移矩阵,P为n×k的双向LSTM网络的输出矩阵,k为标签的数量;
计算所有打分和后,利用softmax函数确定归一化后的概率
Figure BDA0002698352390000112
其中score(x,y)=S(X,Y),y′为所有标签序列中的其中一个,y为当前标签序列。
步骤9:获取原始命名实体识别模型。
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型。
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L。
步骤12:遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure BDA0002698352390000113
具体的,默认术语列表在每个专业词汇词典中至少出现的次数至少为1,因此分子统一加1,防止分子为0的状况出现,因为总共10种类别,所以分母统一加10。
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
具体公式为:
Figure BDA0002698352390000114
其中,W为命名识别体的权重,Pr为命名实体识别模型预测出来的术语在各类别的专业词汇词典中出现的次数占比,
Figure BDA0002698352390000115
为文本分类模型预测该文本属于各类别的概率。
图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图,如图2所示,所述系统包括:
文本向量确定模块201,用于确定文本向量;
文本序列隐向量确定模块202,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块203,用于获取原始文本分类模型;
原始文本分类模型训练模块204,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块205,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块206,用于获取命名实体识别的训练数据;
循环模块207,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块208,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块209,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块210,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
占比计算模块211,用于遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure BDA0002698352390000121
分类模块212,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种融合命名实体识别的军事高技术文本分类方法,其特征在于,所述分类方法包括:
步骤1:确定文本向量;
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
步骤3:获取原始文本分类模型;
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
步骤7:获取命名实体识别的训练数据;
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量;
步骤9:获取原始命名实体识别模型;
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L;
步骤12:遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure FDA0002698352380000011
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
2.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,所述确定文本向量具体包括:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>maxLen-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input_ids)<maxLen,则在结果后添加0进行补齐操作,使len(input_ids)等于maxLen;
对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、SegmentEmbeddings层以及PositionEmbeddings层,三个结果向量值相加生成词向量记为InputEmbeddings;
将InputEmbeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
3.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量具体包括:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算当前时刻细胞状态,
Figure FDA0002698352380000021
其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,
Figure FDA0002698352380000022
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
4.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式:
Figure FDA0002698352380000031
其中,
Figure FDA0002698352380000032
表示预测类别的概率,WT表示n×k的全连接权重矩阵,b为偏置项。
5.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练具体包括:
将命名实体识别的训练数据的隐向量连接CRF层;
基于整个序列的打分之和计算文本序列X对应的概率最大的序列Y,计算公式为
Figure FDA0002698352380000033
其中,A为标签i到j的转移矩阵,P为n×k的双向LSTM网络的输出矩阵,k为标签的数量;
利用softmax函数确定归一化后的概率
Figure FDA0002698352380000034
其中score(x,y)=S(X,Y),y′为所有标签序列中的其中一个,y为当前标签序列。
6.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,基于所述步骤5中当前文本在各个类别中所占比例结合softmax函数对文本中的专业术语进行分类具体采用以下公式:
Figure FDA0002698352380000035
其中,W为命名识别体的权重,Pr为命名实体识别模型预测出来的术语在各类别的专业词汇词典中出现的次数占比,
Figure FDA0002698352380000036
为为文本分类模型预测该文本属于各类别的概率。
7.一种融合命名实体识别的军事高技术文本分类系统,其特征在于,所述系统包括:
文本向量确定模块,用于确定文本向量;
文本序列隐向量确定模块,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块,用于获取原始文本分类模型;
原始文本分类模型训练模块,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块,用于获取命名实体识别的训练数据;
循环模块,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
占比计算模块,用于遍历L中的每个元素,确定L中的每个元素在各类别词典中分别出现的频率和,记为fr=(fr1,fr2,…,frn),并转换为占比
Figure FDA0002698352380000041
分类模块,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
8.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统,其特征在于,所述文本向量确定模块具体包括:
训练数据确定单元,用于确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
分字单元,用于对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>maxLen-2,则在位置Len-2处截断;
索引值确定单元,用于对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
补齐单元,用于当len(input_ids)<maxLen,则在结果后添加0进行补齐操作,使len(input_ids)等于maxLen;
词向量生成单元,用于对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
文本向量确定单元,用于将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
9.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统,其特征在于,所述文本序列的隐向量确定模块包括:
遗忘门计算单元,用于计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
记忆门计算单元,用于计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
当前时刻细胞状态计算单元,用于计算当前时刻细胞状态,
Figure FDA0002698352380000051
其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,
Figure FDA0002698352380000052
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
输出门计算单元,用于计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
当前时刻隐藏状态计算单元,用于计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
正向隐层状态序列确定单元,用于基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
反向隐层状态序列确定单元,用于执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
拼接单元,用于将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
10.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统,其特征在于,所述比例计算模块具体采用以下公式:
Figure FDA0002698352380000061
其中,
Figure FDA0002698352380000062
表示预测类别的概率,WT表示n×k的全连接权重矩阵,b为偏置项。
CN202011013637.6A 2020-09-24 2020-09-24 一种融合命名实体识别的高技术文本分类方法及系统 Active CN112163089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011013637.6A CN112163089B (zh) 2020-09-24 2020-09-24 一种融合命名实体识别的高技术文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011013637.6A CN112163089B (zh) 2020-09-24 2020-09-24 一种融合命名实体识别的高技术文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN112163089A true CN112163089A (zh) 2021-01-01
CN112163089B CN112163089B (zh) 2023-06-23

Family

ID=73863584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011013637.6A Active CN112163089B (zh) 2020-09-24 2020-09-24 一种融合命名实体识别的高技术文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN112163089B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112861540A (zh) * 2021-04-25 2021-05-28 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻关键词自动抽取方法
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢腾;杨俊安;刘辉;: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机系统应用, no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112836056B (zh) * 2021-03-12 2023-04-18 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112861540A (zh) * 2021-04-25 2021-05-28 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻关键词自动抽取方法
CN113569016A (zh) * 2021-09-27 2021-10-29 北京语言大学 一种基于Bert模型的专业术语提取方法及装置

Also Published As

Publication number Publication date
CN112163089B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN109657239A (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN117171333B (zh) 一种电力文件问答式智能检索方法及系统
CN112906397B (zh) 一种短文本实体消歧方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
Xue et al. A method of chinese tourism named entity recognition based on bblc model
Zhan et al. Improving offline handwritten Chinese text recognition with glyph-semanteme fusion embedding
Che et al. Chinese word segmentation based on bidirectional GRU-CRF model
CN115759090A (zh) 一种结合软词典和汉字字形特征的中文命名实体识别方法
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Zhang et al. Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF
Tong et al. Research on named entity recognition based on bert-BiGRU-CRF model in spacecraft field
He et al. Mongolian word segmentation based on BiLSTM-CNN-CRF model
Sun et al. Research on The Word Segmentation Model Construction Based on CNN+ BiLSTM+ HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant