CN112163089A - 一种融合命名实体识别的军事高技术文本分类方法及系统 - Google Patents
一种融合命名实体识别的军事高技术文本分类方法及系统 Download PDFInfo
- Publication number
- CN112163089A CN112163089A CN202011013637.6A CN202011013637A CN112163089A CN 112163089 A CN112163089 A CN 112163089A CN 202011013637 A CN202011013637 A CN 202011013637A CN 112163089 A CN112163089 A CN 112163089A
- Authority
- CN
- China
- Prior art keywords
- text
- named entity
- representing
- vector
- entity recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005516 engineering process Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 103
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000013145 classification model Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种融合命名实体识别的军事高技术文本分类方法及系统,包括:确定文本向量,输入至BiLSTM网络结构中,得到文本序列的隐向量;对原始文本分类模型进行训练,计算当前文本在各个类别中所占比例;对原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;确定L中的每个元素在各类别词典中分别出现的频率和,并转换为占比;基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。本发明中的上述方法能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响,集成两种算法能够有效提升文本分类的准确性。
Description
技术领域
本发明涉及文本分类领域,特别是涉及一种融合命名实体识别的军事高技术文本分类方法及系统。
背景技术
随着网络资源在当今社会中越来越庞大,如何能在海量级的文本信息中更有效率地挖掘出我们所需要的信息资源变得愈发重要。文本分类作为自然语言处理(naturallanguage processing)的一个分支解决了实际应用中的很多问题,它能够帮助人们更好地管理信息资源,更有效率地获取目标信息。
目前,对于文本分类任务,机器学习和深度学习方法被广泛采纳。在传统的机器学习方法中,文本分类可采用朴素贝叶斯、支持向量机、K近邻、Rocchio等。在深度学习方法中,卷积神经网络(CNN)、双向长短期记忆网络模型(BiLSTM)等神经网络近些年同样在文本分类任务中同样取得了不错的效果。
现阶段,文本分类任务目前采用的一种主流方法为BERT中文预训练模型加入自己的训练数据进行fine-tune操作,后续连接BiLSTM、CNN等神经网络的模型结构,相较于其他方法取得了很好的效果。但是由于经BERT所训练后的预训练模型是通用“语言理解”模型,对于某个特定领域的文本阐述方法或者专业术语并没有充分学习到,所以在解决该领域的文本分类任务上的准确率往往受限。谷歌训练BERT模型使用了16个TPU集群,并花费了4天的时间,因此,现阶段,如果使用自己准备的特定领域语料来训练效果较好的BERT模型成本是非常大的。但是对于特定领域的文本来说,一些在文中出现的关键词或者专业术语在分类任务中也许起着重要的作用,如何能够融合这些词语列表很大概率能够提升文本分类的准确性。
发明内容
本发明的目的是提供一种融合命名实体识别的军事高技术文本分类方法及系统,能够更加充分地考虑到文本内的专业术语,从而提升文本分类的准确性。
为实现上述目的,本发明提供了如下方案:
一种融合命名实体识别的军事高技术文本分类方法,所述分类方法包括:
步骤1:确定文本向量;
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
步骤3:获取原始文本分类模型;
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
步骤7:获取命名实体识别的训练数据;
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量;
步骤9:获取原始命名实体识别模型;
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L;
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
可选的,所述确定文本向量具体包括:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
可选的,将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量具体包括:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
可选的,基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式:
可选的,基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练具体包括:
将命名实体识别的训练数据的隐向量连接CRF层;
可选的,基于所述步骤5中当前文本在各个类别中所占比例结合softmax函数对文本中的专业术语进行分类具体采用以下公式:
本发明另外提供一种融合命名实体识别的军事高技术文本分类系统,所述系统包括:
文本向量确定模块,用于确定文本向量;
文本序列隐向量确定模块,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块,用于获取原始文本分类模型;
原始文本分类模型训练模块,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块,用于获取命名实体识别的训练数据;
循环模块,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
分类模块,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
可选的,所述文本向量确定模块具体包括:
训练数据确定单元,用于确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
分字单元,用于对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
索引值确定单元,用于对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
补齐单元,用于当len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
词向量生成单元,用于对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
文本向量确定单元,用于将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
可选的,所述文本序列的隐向量确定模块包括:
遗忘门计算单元,用于计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
记忆门计算单元,用于计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
当前时刻细胞状态计算单元,用于计算当前时刻细胞状态,其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
输出门计算单元,用于计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
当前时刻隐藏状态计算单元,用于计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
正向隐层状态序列确定单元,用于基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
反向隐层状态序列确定单元,用于执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
拼接单元,用于将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
可选的,基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例具体采用以下公式:
根据本发明提供的具体实施例,本发明公开了以下技术效果:
现有技术中通用BERT模型因训练使用数据的是通用语料,所以对某领域的一些专业词汇并没有学习到,故对其生成的语义表示往往不能达到一个很好的表征效果。本发明中的上述方法,通过融合实体识别能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响,集成两种算法能够有效提升文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图;
图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种融合命名实体识别的军事高技术文本分类方法及系统,能够更加充分地考虑到文本内的专业术语,从而提升文本分类的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例融合命名实体识别的军事高技术文本分类方法流程图,如图1所示,所述方法包括:
步骤1:确定文本向量。
用于文本分类的训练数据为10类不同领域的军事高技术文本,来源为各大军事网站,其中包含电子技术、计算机技术、新材料技术、高性能推进与动力技术、仿真技术、先进制造技术、生物技术、航天技术、海洋技术、新能源等主要10类。
命名实体识别训练数据为带有实体标注的语料,标注的实体为在该文本中出现的专业术语,来源同样是各大军事网站的军事高技术文本,采用的标注方法为BIO标注,“B”表示此元素的片段属于专业术语的开头,“I”表示此元素所在的片段属于专业术语的中间位置,“O”表示不属于任何类型。
每个领域需维护一个领域专业词汇词典来存储大概率会出现在该类别的标志性专业术语,比如航天技术领域词典会存储“载人航天”、“月球探测卫星”、“发射台”等词汇,计算机领域词典会存储“CPU”、“处理器”、“吞吐量”等词汇。
具体包括如下步骤:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
定义训练数据中文本序列的最长长度为maxLen;
从i=1开始遍历训练数据,对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>max Len-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input-ids)<max Len,则在结果后添加0进行补齐操作,使len(input-ids)等于max Len;
对字索引值、句子分割编码以及位置信息编码分布送入Token Embeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
Token Embeddings会将文本序列经过wordpiece分词后将每一个词转换成768维的向量形式。
Segment Embeddings代表了句子是哪一句(BERT能够处理对输入句子对的分类任务。这类任务就像判断两个文本是否是语义相似的。句子对中的两个句子被简单的拼接在一起后送入到模型中。那BERT区分一个句子对中的两个句子的方法就是segmentembeddings.)。
Segment Embeddings层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子,那么它的segment embedding就是全0。
Position Embeddings代表了句子中单词位置的表示,即给每个位置进行一次编码。
具体实现为BERT能够处理最长512个token的输入序列。论文作者通过让BERT在各个位置上学习一个向量表示来讲序列顺序的信息编码进来。这意味着PositionEmbeddings layer实际上就是一个大小为(512,768)的lookup表,表的第一行是代表第一个序列的第一个位置,第二行代表序列的第二个位置,以此类推。因此,如果有这样两个句子“Hello world”和“Hi there”,“Hello”和“Hi”会由完全相同的position embeddings,因为他们都是句子的第一个词。同理,“world”和“there”也会有相同的position embedding。
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量。
具体包括如下步骤:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
步骤3:获取原始文本分类模型。
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练。
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例。
占比最大的一项即为文本的分类结果。
具体采用以下公式:
步骤7:获取命名实体识别的训练数据。
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量。
与文本分类网络结构不同,命名实体识别任务BILSTM层后需要连接CRF层来计算文本序列X对应的概率最大的序列Y,评判依据为整个序列的打分之和为S(X,y),具体公式如下:
步骤9:获取原始命名实体识别模型。
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型。
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L。
具体的,默认术语列表在每个专业词汇词典中至少出现的次数至少为1,因此分子统一加1,防止分子为0的状况出现,因为总共10种类别,所以分母统一加10。
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
具体公式为:
图2为本发明实施例融合命名实体识别的军事高技术文本分类系统结构示意图,如图2所示,所述系统包括:
文本向量确定模块201,用于确定文本向量;
文本序列隐向量确定模块202,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块203,用于获取原始文本分类模型;
原始文本分类模型训练模块204,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块205,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块206,用于获取命名实体识别的训练数据;
循环模块207,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块208,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块209,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块210,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
分类模块212,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种融合命名实体识别的军事高技术文本分类方法,其特征在于,所述分类方法包括:
步骤1:确定文本向量;
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
步骤3:获取原始文本分类模型;
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
步骤7:获取命名实体识别的训练数据;
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量;
步骤9:获取原始命名实体识别模型;
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L;
步骤13:基于所述步骤5中当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
2.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,所述确定文本向量具体包括:
确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>maxLen-2,则在位置Len-2处截断;
对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
如果len(input_ids)<maxLen,则在结果后添加0进行补齐操作,使len(input_ids)等于maxLen;
对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、SegmentEmbeddings层以及PositionEmbeddings层,三个结果向量值相加生成词向量记为InputEmbeddings;
将InputEmbeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
3.根据权利要求1所述的融合命名实体识别的军事高技术文本分类方法,其特征在于,将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量具体包括:
计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
7.一种融合命名实体识别的军事高技术文本分类系统,其特征在于,所述系统包括:
文本向量确定模块,用于确定文本向量;
文本序列隐向量确定模块,用于将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
原始文本分类模块获取模块,用于获取原始文本分类模型;
原始文本分类模型训练模块,用于基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
比例计算模块,用于基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
命名实体识别的训练数据获取模块,用于获取命名实体识别的训练数据;
循环模块,用于执行文本向量确定模块-文本序列隐向量确定模块,得到命名实体识别的训练数据的隐向量;
原始命名实体识别模型获取模块,用于获取原始命名实体识别模型;
原始命名实体识别模型训练模块,用于基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
专业术语抽取模块,用于基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;
分类模块,基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。
8.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统,其特征在于,所述文本向量确定模块具体包括:
训练数据确定单元,用于确定文本分类模型训练数据T=(T1,T2,…,Tlen(n));
分字单元,用于对于每个训练数据Ti,基于WordPiece的方法进行分字,如果len(Ti)>maxLen-2,则在位置Len-2处截断;
索引值确定单元,用于对于分字后的结果,在首部添加符号“[CLS]”,在尾部添加符号“[SEP]”,并查询词汇表将每一个字转换为其对应的索引值记为input_ids;
补齐单元,用于当len(input_ids)<maxLen,则在结果后添加0进行补齐操作,使len(input_ids)等于maxLen;
词向量生成单元,用于对字索引值、句子分割编码以及位置信息编码分布送入TokenEmbeddings层、Segment Embeddings层以及Position Embeddings层,三个结果向量值相加生成词向量记为Input Embeddings;
文本向量确定单元,用于将Input Embeddings输入到Transformer模型中获得文本序列中字的最终的文本向量,记为S。
9.根据权利要求7所述的融合命名实体识别的军事高技术文本分类系统,其特征在于,所述文本序列的隐向量确定模块包括:
遗忘门计算单元,用于计算遗忘门,ft=σ(Wf×[ht-1,xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻的隐层状态,xt表示当前时刻的输入字,ft表示遗忘门的值,σ表示sigmoid函数;
记忆门计算单元,用于计算记忆门,it=σ(Wi×[ht-1,xt]+bi),其中,Wi表示记忆门的权重,bi表示遗忘门的偏移量,it表示记忆门的值,σ表示sigmoid函数;
当前时刻细胞状态计算单元,用于计算当前时刻细胞状态,其中,ft表示遗忘门的值,Ct-1表示上一时刻细胞的状态,it表示记忆门的值,其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
输出门计算单元,用于计算输出门,ot=σ(Wo×[ht-1,xt]+bo),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻的隐层状态,σ表示sigmoid函数;
当前时刻隐藏状态计算单元,用于计算当前时刻的隐藏状态,ht=ot×tanh(Ct),ot表示输出门的值,Ct表示当前时刻细胞的状态;
正向隐层状态序列确定单元,用于基于所述当前时刻的隐藏状态确定正向隐层状态序列{hL0,hL1,…,hLn-1};
反向隐层状态序列确定单元,用于执行上述步骤得到反向隐层状态序列{hR0,hR1,…,hRn-1};
拼接单元,用于将所述正向隐层状态序列和所述反向隐层状态序列拼接,得到文本序列的隐向量{[hL0,hR0],[hL1,hR1],…,[hLn-1,hRn-1]},即,{h0,h1,…,hn-1}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011013637.6A CN112163089B (zh) | 2020-09-24 | 2020-09-24 | 一种融合命名实体识别的高技术文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011013637.6A CN112163089B (zh) | 2020-09-24 | 2020-09-24 | 一种融合命名实体识别的高技术文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163089A true CN112163089A (zh) | 2021-01-01 |
CN112163089B CN112163089B (zh) | 2023-06-23 |
Family
ID=73863584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011013637.6A Active CN112163089B (zh) | 2020-09-24 | 2020-09-24 | 一种融合命名实体识别的高技术文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163089B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836056A (zh) * | 2021-03-12 | 2021-05-25 | 南宁师范大学 | 一种基于网络特征融合的文本分类方法 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN113569016A (zh) * | 2021-09-27 | 2021-10-29 | 北京语言大学 | 一种基于Bert模型的专业术语提取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN110826334A (zh) * | 2019-11-08 | 2020-02-21 | 中山大学 | 一种基于强化学习的中文命名实体识别模型及其训练方法 |
CN111694924A (zh) * | 2020-06-17 | 2020-09-22 | 合肥中科类脑智能技术有限公司 | 一种事件抽取方法和系统 |
-
2020
- 2020-09-24 CN CN202011013637.6A patent/CN112163089B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN110826334A (zh) * | 2019-11-08 | 2020-02-21 | 中山大学 | 一种基于强化学习的中文命名实体识别模型及其训练方法 |
CN111694924A (zh) * | 2020-06-17 | 2020-09-22 | 合肥中科类脑智能技术有限公司 | 一种事件抽取方法和系统 |
Non-Patent Citations (1)
Title |
---|
谢腾;杨俊安;刘辉;: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机系统应用, no. 07 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN112836056A (zh) * | 2021-03-12 | 2021-05-25 | 南宁师范大学 | 一种基于网络特征融合的文本分类方法 |
CN112836056B (zh) * | 2021-03-12 | 2023-04-18 | 南宁师范大学 | 一种基于网络特征融合的文本分类方法 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN113569016A (zh) * | 2021-09-27 | 2021-10-29 | 北京语言大学 | 一种基于Bert模型的专业术语提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112163089B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
Lin et al. | Automatic translation of spoken English based on improved machine learning algorithm | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN109657239A (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN117171333B (zh) | 一种电力文件问答式智能检索方法及系统 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
Zhan et al. | Improving offline handwritten Chinese text recognition with glyph-semanteme fusion embedding | |
Che et al. | Chinese word segmentation based on bidirectional GRU-CRF model | |
CN115759090A (zh) | 一种结合软词典和汉字字形特征的中文命名实体识别方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Zhang et al. | Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF | |
Tong et al. | Research on named entity recognition based on bert-BiGRU-CRF model in spacecraft field | |
He et al. | Mongolian word segmentation based on BiLSTM-CNN-CRF model | |
Sun et al. | Research on The Word Segmentation Model Construction Based on CNN+ BiLSTM+ HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |