CN112948588B - 一种用于情报快速整编的中文文本分类方法 - Google Patents

一种用于情报快速整编的中文文本分类方法 Download PDF

Info

Publication number
CN112948588B
CN112948588B CN202110509222.6A CN202110509222A CN112948588B CN 112948588 B CN112948588 B CN 112948588B CN 202110509222 A CN202110509222 A CN 202110509222A CN 112948588 B CN112948588 B CN 112948588B
Authority
CN
China
Prior art keywords
character
word
words
meaning
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110509222.6A
Other languages
English (en)
Other versions
CN112948588A (zh
Inventor
郭爱博
赵翔
庞宁
谭真
王吉
李硕豪
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110509222.6A priority Critical patent/CN112948588B/zh
Publication of CN112948588A publication Critical patent/CN112948588A/zh
Application granted granted Critical
Publication of CN112948588B publication Critical patent/CN112948588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于情报快速整编的中文文本分类方法,包括将每个字符和输入词转换为向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;利用三个LSTM单元来融合多种字符意义、多种单词意义以及字符级和单词级特征,获得双向隐藏向量序列,并馈送到字符级注意模块产生句子级特征向量,将最终表示传输到完全连接层中以计算每种类型的置信度得分;以交叉熵损失为目标函数,迭代优化模型中的参数直至收敛;生成用户情报产品。在三个中文文本分类基准数据集上,本发明取得了超越基线的优异分类准确率,有效解决了中文分词的歧义性带来的负面影响,运行简单高效,模型复杂性远低于BERT类模型。

Description

一种用于情报快速整编的中文文本分类方法
技术领域
本发明属于文本分类技术领域,尤其涉及一种用于情报快速整编的中文文本分类方法。
技术背景
文本分类作为自然语言处理中的一项基础任务,目前在英文文本上的效果已经达到了可实用的程度,但是在中文文本上,由于分词所带来的歧义性仍然给文本分类带来了严峻挑战。具体而言,由于中文没有自然定界符,将输入句子序列分词可能得到不同的分割结果,而分割歧义会进而损害文本分类模型的性能;此外,即使正确分割之后,每个词也可能存在一词多义的现象,为准确识别语义带来了困难。已有模型为多义词训练单一的嵌入表示明显是不合理的,也会导致模型性能的下降。
在自然语言处理中,文本分类是众多下游应用所依赖(包括情感分析和观点挖掘)的关键任务。该任务被定义为从预定义的标签集中为给定文本选择适当的类别标签。传统方法设计手工特征,例如词袋(BOW)和n-gram,并将线性分类器应用于分类。最近,神经网络(例如卷积神经网络和递归神经网络)的流行提升了神经文本分类模型的热度,因为神经网络可以自动从原始文本中提取有用的特征来进行端到端的类别预测,并且取得更好的效果。
然而,目前大多数关于文本分类的高级研究都集中在英语上,却忽略了不同语言具有不同的文本形式。基于英语文本的主流方法不能直接套用到其他语言上,因为这些方法依赖分词好的句子序列。然而有些语言没有自然定界符,例如中文,这就使得句子分割变得困难。现有的中文文本分类工作可以按照分割粒度分为两类:基于字符的模型和基于单词的模型。在基于字符的模型中,输入句子被视为字符序列。这种类型的模型的缺点是没有充分利用单词的信息量。而基于单词的模型使用自然语言处理工具来执行单词分割。然而,他们存在由单词分割工具引起的分割歧义的问题。例如,图1中第一行是句子的字符序列。第二行显示正确的分段单词序列,而第三行显示错误的单词序列。在图1中的句子,正确的单词序列表示的是“位置”类型,但是错误的单词序列倾向于描述“学习”的类型。可见,分词歧义性可能会损害文本分类模型的性能。
最近有工作试图通过级联或加法方式整合这两个粒度的特征,从而解决分词歧义性问题。但是它们的融合策略仍然停留在浅层。虽然它们使用神经网络分别从单词序列和字符序列中提取特征,但是忽略了内部单词和字符之间的依赖关系,这就导致提取到的特征仅仅是两个文本细粒度上的简单组合,并不能够有效地提高模型性能。但是在现实文本中,单词序列和字符序列是相互依赖的,例如,单词“法学院(Law School)”以字符“法(Law)”开头,因此它们共享相同的历史上下文信息。然后,在此位置应集成单词级和字符级信息,因为单词“法学院(Law School)”以字符“院(Institute)”结尾。
此外,即使能够正确分割一个句子序列,分割后得到的多义词的模糊性仍然不可忽视。现有的神经文本分类模型首先通过查找嵌入表将离散的单词或字符映射到向量空间中。具有多种含义的单词或字符不能用这种方式很好地处理,因为每个单词或字符仅对应一个嵌入。因此,为多义词训练单一嵌入是不合理的。
传统的文本分类模型第一步从文本中提取了一些手工的特征。第二步,将这些特征送入分类器以进行预测。典型特征包括词袋和TF-IDF,流行的分类器包括支持向量机和随机森林。但是,这种方法严重依靠繁琐的特征工程来实现较好的性能,需要依赖于领域知识来设计特征。因此这种方法限制了对新任务的推广。
深度学习的最新发展引发了采用神经网络进行文本分类的趋势,因为神经网络可以自动学习输入文本的特征以进行分类。
前馈神经网络是表示文本的最简单的神经网络,而这一系列方法也称为基于嵌入的模型。对于文本中的每个单词,基于嵌入的方法将学习一个嵌入,并且单词嵌入的总和或平均值代表文本。句子嵌入经过一个或多个前馈层,然后投入分类器。最近的研究采用联合训练方法,联合单词、句子和句子标签嵌入,以进一步提高句子嵌入的质量。这些代表性的神经网络包括递归神经网络,卷积神经网络,胶囊网络和图卷积网络。
一些研究使用长短期记忆网络(递归神经网络的扩展形式)来学习文本表示。在这些工作中,包括利用标准的长期短期记忆网络对临床笔记进行分类,或为了解决训练数据不足的普遍问题,通过跨多个相关任务的联合学习,将文本分类任务纳入基于长短期记忆网络的多任务学习框架。考虑到目标文本中存在一些琐碎信息,引入了注意力机制,通过区分文本中少量的重要信息来更灵活地生成文本表示。对于情感分析这种文本分类的特殊情况,在非专利文献1中,Ma等人从外部知识库中提取情感知识,并将其纳入长期短期记忆网络中[LSTM, Long Short Term Memory]。但是,此模型仅用于情感分析,不适用于其他文本分类任务。情感分析需要专门的调查,这超出了该研究的范围。
另一组研究集中在基于卷积神经网络的模型上,使用单层卷积神经网络作为句子分类的编码器,实现了较好的性能。非专利文献2中,Zhang等人设计了字符级卷积网络,在文本中挖掘不同级别的信息。一些研究表明,某些浅的词级卷积神经网络比字符级卷积神经网络更精确。
但是,卷积神经网络中的合并操作会导致空间信息的丢失。为了解决这个问题,非专利文献3中,S. Sabour等人提出了胶囊网络,其中网络中的胶囊旨在检测模式的类别。胶囊的输出是向量,其中向量的长度指示模式是否存在,并且向量的每个尺寸代表模式的特征。近来,胶囊网络已经被用于文本分类。其他更复杂神经网络也可用于文本分类,例如图卷积网络和Transformer。此外,还对一些语言模型(包括BERT,XLNet和ALBERT)进行了微调,以对已在多个基准测试中取得最新结果的文本进行分类。然而,大多数上述研究集中在英语文本上。由于中文单词之间没有分隔符。因此,这些模型不能直接用于中文文本分类。
现有的中文文本分类模型是基于单词或基于字符的。但是,基于单词的方法需要使用分词工具将文本切成单词序列。由于分词工具和字符的有限知识表示所引起的错误,Zhou等人使用两个单独的双向长短期存储网络分别提取单词和字符级特征。这些特征被集成以补充字符序列中缺失的语义信息,并减轻单词序列中的分词错误。为了增加融合词和字符级特征的灵活性,引入了词级和字符级注意力。
因为中文是一种象形文字,有些工作利用基本特征来处理中文自然语言。非专利文献4中,Sun等首先从每个字符中选择一个部首,然后开发部首增强型汉字嵌入。为了充分利用字符中的所有部首,非专利文献5中,Shi等人为各种任务训练纯基本嵌入。此外,非专利文献6中,Peng等研究基于部首的分层中文嵌入以进行情感分析。然后,非专利文献7中,通过注意力方式探索单词和汉字的部首,形成多粒度特征。
先前的特征融合策略分为两种类型:串联和加权求和。这些策略只是表面地集成了不同级别的信息。我们认为需要改进现有模型以解决分词歧义性和分割后多义词歧义带来的挑战。
参考文献
非专利文献
[1]Ma Y , Peng H , Khan T , et al. Sentic LSTM: a Hybrid Network forTargeted Aspect-Based Sentiment Analysis[J]. Cognitive Computation, 2018.
[2]Zhang X , Zhao J , Lecun Y . Character-level ConvolutionalNetworks for Text Classification[C]// Neural Information Processing Systems.MIT Press, 2015.
[3]S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic routing betweencapsules,” in Advances in Neural Information Processing Systems 30: AnnualConference on Neural Information Processing Systems 2017, Long Beach, CA,USA, December 4-9, 2017, pp. 3856–3866.
[4]Sun Y , Lin L , Tang D , et al. Radical-Enhanced Chinese CharacterEmbedding[C]// International Conference on Neural Information Processing.Springer International Publishing, 2014:279-286.
[5]X. Shi, J. Zhai, X. Yang, Z. Xie, and C. Liu, “Radical embedding:Delving deeper to chinese radicals,” in Proceedings of the 53rd AnnualMeeting of the Association for Computational Linguistics and the 7thInternational Joint Conference on Natural Language Processing of the AsianFederation of Natural Language Processing, Beijing, China, July 26-31, 2015,pp. 594–598.
[6]H. Peng, E. Cambria, and X. Zou, “Radical-based hierarchicalembeddings for chinese sentiment analysis at sentence level,” in Proceedingsof the Thirtieth International Florida Artificial Intelligence ResearchSociety Conference, Marco Island, Florida, USA, May 22-24, 2017, pp. 347–352.
[7]Tao H , Tong S , Zhao H , et al. A Radical-Aware Attention-BasedModel for Chinese Text Classification[J]. Proceedings of the AAAI Conferenceon Artificial Intelligence, 2019, 33:5125-5132。
发明内容
有鉴于此,本发明提出了一种用于情报快速整编的中文文本分类方法。为了解决分割歧义带来的问题,使用了一种具有外部感知知识的双向晶格长短期记忆网络(Sk-Lattice)用于中文文本分类,该网络以句子中的字符和单词作为输入。本发明的网络与标准的长短期记忆网络的不同之处在于,它增加了链接单词的开头和结尾字符的路径以控制信息流。字符级特征通过额外的门进入单词级,而单词级特征则通过另一个门根据不同的上下文选择正确的匹配词,通过加权方式集成到字符级。为了更好地解决分词歧义性问题,本发明还首次利用知网中提供的词义来进一步改善词的表示学习,并消除了分词后多义词造成的歧义。此外,本发明设计一个附加的门来对多义单词的多种意义施加选择性注意,并动态强调单词正确的意义。
本发明公开的一种用于情报快速整编的中文文本分类方法,包括以下步骤:
获取情报中的中文文本,将每个字符ci转换为向量xi,将每个输入词wi训练得到dw维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;
利用字符意义LSTM单元来融合字符的多种字符意义、利用单词意义LSTM单元来融 合单词的多种单词意义以及利用融合LSTM单元来融合字符级和单词级特征,获得双向隐藏 向量序列
Figure 888766DEST_PATH_IMAGE001
将所述双向隐藏向量序列馈送到字符级注意模块以产生句子级特征向量,获得最终表示g
将所述最终表示g传输到完全连接层中以计算每种类型的置信度得分;
以交叉熵损失为目标函数,通过迭代优化模型中的所有参数直至收敛,以最小化损失函数;
对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品。
进一步的,所述将每个字符
Figure 413288DEST_PATH_IMAGE002
转换为向量
Figure 574142DEST_PATH_IMAGE003
的步骤如下:
给定一个由m个字符组成的句子
Figure 311154DEST_PATH_IMAGE004
,通过查找预先训练的嵌入 表,将每个字符
Figure 365698DEST_PATH_IMAGE002
通过下式映射到具有相应的字母组合嵌入的向量表示中:
Figure 936488DEST_PATH_IMAGE005
, 其中
Figure 709271DEST_PATH_IMAGE006
表示字符嵌入表,
Figure 656499DEST_PATH_IMAGE007
代表字符的词汇量,
Figure 565549DEST_PATH_IMAGE008
表示字 符
Figure 572819DEST_PATH_IMAGE002
unigram嵌入;
所述将每个输入词
Figure 567320DEST_PATH_IMAGE009
训练得到
Figure 318238DEST_PATH_IMAGE010
维向量的步骤如下:对应输入句子的单词序列
Figure 81795DEST_PATH_IMAGE011
,每个单词
Figure 259967DEST_PATH_IMAGE009
通过下式捕获单词的语义和句法信息:
Figure 413868DEST_PATH_IMAGE012
,其中,
Figure 827531DEST_PATH_IMAGE013
是词汇表为
Figure 914436DEST_PATH_IMAGE014
的单词嵌入表,句子的向量表 示为
Figure 260579DEST_PATH_IMAGE015
所述通过共同学习词语和感觉来获得多重感觉嵌入的步骤如下:
Figure 229672DEST_PATH_IMAGE016
Figure 322393DEST_PATH_IMAGE017
其中
Figure 60542DEST_PATH_IMAGE018
代表意义嵌入表,
Figure 580516DEST_PATH_IMAGE019
是词汇量,
Figure 302485DEST_PATH_IMAGE020
Figure 933317DEST_PATH_IMAGE021
的意义嵌入,代表了第j个字符的意义。
进一步的,利用字符意义LSTM单元来融合字符的多种字符意义的步骤包括通过以 下公式计算
Figure 525973DEST_PATH_IMAGE022
第 j个意义的单元的门:
Figure 951269DEST_PATH_IMAGE023
Figure 894954DEST_PATH_IMAGE024
其中
Figure 126215DEST_PATH_IMAGE025
代表字符
Figure 714323DEST_PATH_IMAGE026
的意义嵌入,
Figure 700733DEST_PATH_IMAGE027
是字符
Figure 69398DEST_PATH_IMAGE028
的前向隐表示,
Figure 42033DEST_PATH_IMAGE029
表示
Figure 874860DEST_PATH_IMAGE028
的单元状态,
Figure 904608DEST_PATH_IMAGE030
Figure 557306DEST_PATH_IMAGE031
Figure 333632DEST_PATH_IMAGE032
是训练参数,
Figure 286545DEST_PATH_IMAGE033
分别代表了输入门,遗忘门 和字符
Figure 490124DEST_PATH_IMAGE034
的字符级特征。
进一步的,所述利用单词意义LSTM单元来融合单词的多种单词意义的步骤包括:
通过一个附加的LSTM单元获得单词
Figure 630118DEST_PATH_IMAGE035
的第j个意义的单元门:
Figure 944556DEST_PATH_IMAGE036
Figure 486396DEST_PATH_IMAGE037
其中,
Figure 595297DEST_PATH_IMAGE038
是单词
Figure 222588DEST_PATH_IMAGE039
的第j个意义的嵌入,
Figure 340717DEST_PATH_IMAGE040
Figure 2642DEST_PATH_IMAGE041
是字符
Figure 548024DEST_PATH_IMAGE042
的正向 隐藏向量和单元状态;
通过以下方式计算
Figure 662611DEST_PATH_IMAGE043
的单元状态:
Figure 584430DEST_PATH_IMAGE044
其中
Figure 835283DEST_PATH_IMAGE045
如下定义:
Figure 879462DEST_PATH_IMAGE046
Figure 377219DEST_PATH_IMAGE047
Figure 961784DEST_PATH_IMAGE048
Figure 208089DEST_PATH_IMAGE045
分别代表了单词
Figure 219907DEST_PATH_IMAGE049
、字符
Figure 184452DEST_PATH_IMAGE050
和句子c的各个意义层级的单 元状态,
Figure 572708DEST_PATH_IMAGE051
是字符
Figure 673519DEST_PATH_IMAGE050
的输入门,
Figure 121818DEST_PATH_IMAGE052
Figure 635976DEST_PATH_IMAGE053
由控制单词意义和字符意义的附加门生成,
Figure 437710DEST_PATH_IMAGE054
代表了单词
Figure 783241DEST_PATH_IMAGE055
的第j个意义的嵌入结合附加的单词意义门后的特征表示。
进一步的,所述获得双向隐藏向量序列
Figure 277807DEST_PATH_IMAGE056
的步骤如下:
Figure 75999DEST_PATH_IMAGE057
,其中
Figure 681424DEST_PATH_IMAGE058
Figure 84723DEST_PATH_IMAGE059
是每个输入字符
Figure 609245DEST_PATH_IMAGE050
的前向隐藏表示和后向隐藏表 示。
进一步的,所述最终表示g通过如下公式计算:
Figure 770099DEST_PATH_IMAGE060
Figure 303849DEST_PATH_IMAGE061
其中
Figure 230829DEST_PATH_IMAGE062
表示可训练的参数,
Figure 191832DEST_PATH_IMAGE063
是所述双向隐藏向量的维数,
Figure 167878DEST_PATH_IMAGE064
为所述双 向隐藏向量序列中的元素,m为所述双向隐藏向量序列中元素个数。
进一步的,所述置信度得分定义如下:
Figure 849526DEST_PATH_IMAGE065
其中
Figure 24156DEST_PATH_IMAGE066
表示可学习的转换矩阵,
Figure 31426DEST_PATH_IMAGE067
表示偏向向量, K是文本 种类的数量。
进一步的,给定训练集
Figure 291506DEST_PATH_IMAGE068
,所述交叉熵损失定义为:
Figure 776845DEST_PATH_IMAGE069
其中
Figure 805981DEST_PATH_IMAGE070
表示模型中使用的所有参数,P为计算得到的概率。
进一步的,利用随机梯度下降优化器通过迭代优化
Figure 312049DEST_PATH_IMAGE070
直至收敛,以最小化损失函 数。
本发明的有益效果如下:
1)发现中文分词歧义性是固有地存在于中文文本分类任务中的,这对文本分类任务带来巨大影响,有效解决了中文分词的歧义性带来的负面影响;
2)首创从知网中检索词义,以共同训练更具代表性的词和字符嵌入,并获得多义词的词义嵌入,很大程度上解决了分割后的多义词带来的歧义性;
3)在三个中文文本分类数据集上进行了广泛的实验,并对比了20个基线方法,充分显示本发明能够成功在字和词的粒度进行特征融合,相比基线方法简单又高效。
附图说明
图1本发明的分段的单词序列;
图2本发明的模型架构;
图3本发明的一种用于情报快速整编的中文文本分类方法流程图;
图4本发明实施例研究的热图可视化。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
消除歧义的分词:与以前的基于单词的模型使用分词工具剪切句子不同,本发明使用外部词典来提取句子中所有匹配的词,如图1所示,图中最后一行是本发明的文本分割方法的示例,该方法提取句子中所有匹配的单词。因此,所有词级信息维护时都不会引入细分错误。对于每个匹配的单词,通过在字符序列中直接链接其开始和结束字符来构造快捷通道,该快捷通道控制字符级别和单词级别之间的信息交互。具体地,字符级特征首先流入单词级,然后通过根据上下文动态选择正确的匹配单词的门将单词级特征集成到该字符中。
消除多义词:在主流的神经文本分类方法中,每个输入词都对应一个向量,该向量不能表示多义性的多种含义。本发明首创地从知网中检索了单词意义作为外部知识,以提高单词嵌入的质量,并获得了多义词的意义嵌入。对于具有多种意义的每个输入字符或匹配的单词,本发明将其映射到相应的多重意义嵌入中,然后将其注入神经网络。此外,本发明设计了一种注意力门控机制,在多种意义上施加选择性注意,能够自动根据上下文选择正确的意义。
在上述解决方案的基础上,本发明提出了一种具有感知知识的晶格长短期记忆网络模型(Sk-Lattice)。该模型利用词与字符之间的依存关系,对中文原始文本进行编码,进而完成文本分类任务。模型架构如图2所示。在该网络中,使用标准的长期短期存储网络来提取字符级信息。同样,一个附加的门控制单词级和字符级特征的集成,另一个门来选择多义词的正确含义。
本发明的模型与这些工作有关,主要区别在于本发明精心设计了晶格结构以改善多粒度特征的集成,并且将基于晶格长短期记忆网络的模型制定为一项新任务。
基线方法
现有的中文文本分类方法主要基于字符或基于单词。本发明以基于字符和基于单 词的双向长短期记忆神经网络为基线。对于一个有m个字符
Figure 669212DEST_PATH_IMAGE071
n个单 词的输入,这里
Figure 82876DEST_PATH_IMAGE072
表示句子中的第i个字符(单词)。一层双向长期记忆网络(LSTM, Long Short Term Memory)被用作编码器,并且使用softmax分类器来预测所有类型的概 率。为了清楚起见,下面使用缩写LSTM表示长短期记忆神经网络。对基线的详细介绍如下。
基于字符的输入表示
基于字符的基线将句子的字符序列作为直接输入。给定一个由m个字符组成的句 子
Figure 107464DEST_PATH_IMAGE071
,首先通过查找预先训练的嵌入表,将每个字符c映射到具有相应 的字母组合嵌入的向量表示中,表示为:
Figure 581170DEST_PATH_IMAGE073
(1)
其中
Figure 425629DEST_PATH_IMAGE006
表示字符嵌入表,
Figure 580667DEST_PATH_IMAGE007
代表字符的词汇量,
Figure 584395DEST_PATH_IMAGE008
表示字符
Figure 104370DEST_PATH_IMAGE074
unigram嵌入,完成上述变换后,将
Figure 826338DEST_PATH_IMAGE075
投入到双向LSTM层中。
基于单词的输入表示
类似于基于字符的基线方法,基于单词的基线方法将句子的单词序列
Figure 454241DEST_PATH_IMAGE011
作为输入。每个单词wi通过Skip-Gram模型训练得到dw维向量,该 模型捕获单词的语义和句法信息,表示为:
Figure 46896DEST_PATH_IMAGE012
(2)
其中,
Figure 65668DEST_PATH_IMAGE013
是词汇表为
Figure 884719DEST_PATH_IMAGE014
的单词嵌入表。句子的向量表示可以表 示为
Figure 443877DEST_PATH_IMAGE015
。同样采用双向长短期存储网络层作为编码器,以自动从句子中提 取特征以进行文本分类。
基线编码器
由于基于字符的和基于单词的基线方法都使用相同的编码器,因此本发明以基于 字符的基线方法为例来说明双向长期短期存储网络的机制。长短期记忆网络是一种带有附 加门单元的递归神经网络,可以保留长期信息并解决梯度消失问题。字符
Figure 31984DEST_PATH_IMAGE002
的正向表示通 过以下方式计算:
Figure 18394DEST_PATH_IMAGE076
(3)
Figure 324742DEST_PATH_IMAGE077
(4)
Figure 422011DEST_PATH_IMAGE078
(5)
其中,
Figure 458100DEST_PATH_IMAGE079
Figure 225199DEST_PATH_IMAGE080
以及
Figure 143476DEST_PATH_IMAGE081
为分别用来控制数入门,输出门和遗忘门,
Figure 919802DEST_PATH_IMAGE082
代表字符
Figure 607136DEST_PATH_IMAGE002
的 字符级特征,
Figure 810715DEST_PATH_IMAGE030
Figure 950709DEST_PATH_IMAGE031
Figure 858623DEST_PATH_IMAGE032
为待学习的模型参数,
Figure 275829DEST_PATH_IMAGE083
Figure 774943DEST_PATH_IMAGE084
分别表示sigmoid和 双曲正切函数。
对于每个输入字符
Figure 540249DEST_PATH_IMAGE002
,得到其前向隐藏表示和后向隐藏表示
Figure 783012DEST_PATH_IMAGE058
Figure 54724DEST_PATH_IMAGE059
。为了从两个 方向捕获信息, c的最终向量表示是通过将两个方向的表示串联而得出的:
Figure 724740DEST_PATH_IMAGE057
(6)
字符序列
Figure 42589DEST_PATH_IMAGE085
编码为
Figure 698829DEST_PATH_IMAGE086
。同样,对于基于单词的基 准,编码序列表示为
Figure 480840DEST_PATH_IMAGE087
如图2所示,晶格长短期记忆网络通过将每个匹配的单词的初始字符链接到最后 一个字符,为每个匹配的单词添加了一条捷径(每个匹配的单词经过一个Cell连接器首位 字符)。与前面介绍的基线方法不同,晶格LSTM模型的输入包括了已有的字符序列
Figure 197124DEST_PATH_IMAGE085
和所有子序列
Figure 799006DEST_PATH_IMAGE088
,它们是匹配到外部 词典
Figure 258938DEST_PATH_IMAGE089
中的词。图2仅展示出了前向晶格长短期存储网络(LSTM)。双矩形、深色单矩形和浅 色单矩形分别表示句子中的字符、匹配词和歧义词。箭头表示信息流的方向。
如图3所示,本发明公开的一种用于情报快速整编的中文文本分类方法的步骤如下:
S10:输入表示:获取情报中的中文文本,将每个字符转换为向量,将每个输入词训 练得到维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感 觉嵌入,离散的字符和单词在映射到低维向量后应馈入神经网络。对于字符级输入,每个字 符
Figure 833138DEST_PATH_IMAGE002
由公式1转换为向量
Figure 844957DEST_PATH_IMAGE003
。每个输入词
Figure 543922DEST_PATH_IMAGE090
由公式2表示为
Figure 932178DEST_PATH_IMAGE091
Skip-Gram模型通过无监督的方式捕获了字符和词的语义信息,但是在训练过程中不能很好地处理多义词,因为它只能为每个字符或单词获得一个向量。本发明为解决这个问题,借助HowNet中的感官知识,通过SAT模型学习了多义词的感官嵌入。对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入。第个字符和单词可以嵌入为:
Figure 298569DEST_PATH_IMAGE092
(7)
Figure 481289DEST_PATH_IMAGE093
(8)
其中
Figure 933130DEST_PATH_IMAGE094
代表意义嵌入表,
Figure 62760DEST_PATH_IMAGE095
是词汇量。
Figure 142711DEST_PATH_IMAGE020
Figure 634348DEST_PATH_IMAGE021
的意义嵌入,代表了第个字符的意义。
S20:晶格LSTM编码器:利用字符意义LSTM单元来融合字符的多种字符意义、利用单词意义LSTM单元来融合单词的多种单词意义以及利用融合LSTM单元来融合字符级和单词级特征,获得双向隐藏向量序列
本发明的晶格LSTM编码器是传统LSTM的扩展,旨在完全捕获单词嵌入和意义嵌入中包含的语义信息,同时更好地组合字符级和单词级特征。利用三个不同的LSTM单元来融合多种字符意义、多种单词意义以及字符级和单词级特征。采用正向晶格LSTM来说明其机理如下。
字符意义LSTM单元
假设每个字符都有 M 个意义,本发明使用LSTM单元来整合字符的所有M个意义。因此,通过以下公式计算
Figure 698119DEST_PATH_IMAGE096
第j个意义的单元的门:
Figure 303544DEST_PATH_IMAGE023
(9)
Figure 238002DEST_PATH_IMAGE024
(10)
其中
Figure 231365DEST_PATH_IMAGE025
代表字符
Figure 392219DEST_PATH_IMAGE097
的意义嵌入,
Figure 863652DEST_PATH_IMAGE027
是字符
Figure 121458DEST_PATH_IMAGE028
的前向隐表示,
Figure 957827DEST_PATH_IMAGE029
表示
Figure 465032DEST_PATH_IMAGE028
的单元状态。单元门和激活函数的定义与公式3、4相同。要动态集成所有字符感知,本发 明对 M个单元状态应用加权方法:
Figure 412259DEST_PATH_IMAGE098
(11)
Figure 852468DEST_PATH_IMAGE099
(12)
其中,
Figure 594159DEST_PATH_IMAGE100
代表
Figure 854239DEST_PATH_IMAGE101
的注意力分数,而
Figure 667474DEST_PATH_IMAGE102
由另一个门获得:
Figure 571976DEST_PATH_IMAGE103
(13)
W,U和b是可训练的参数,而
Figure 609202DEST_PATH_IMAGE003
Figure 494594DEST_PATH_IMAGE002
的字符嵌入。使用字符意义LSTM单元,本发明将
Figure 908258DEST_PATH_IMAGE002
的所有意义都纳入了单元状态。同样,应考虑每个潜在单词的多种含义。
单词意义LSTM单元
与字符相似,假设每个单词都具有N种意义,并通过注意力方式将它们整合在一 起。可以通过一个附加的LSTM单元获得
Figure 667267DEST_PATH_IMAGE035
的第j个意义的单元门:
Figure 140973DEST_PATH_IMAGE104
(14)
Figure 313329DEST_PATH_IMAGE105
(15)
其中,
Figure 140470DEST_PATH_IMAGE038
是单词
Figure 144198DEST_PATH_IMAGE039
的第j个意义的嵌入,
Figure 664173DEST_PATH_IMAGE040
Figure 120562DEST_PATH_IMAGE041
是字符
Figure 751394DEST_PATH_IMAGE042
的正向 隐藏向量和单元状态。类似于公式11、12,可以通过加权和来获得单词
Figure 609629DEST_PATH_IMAGE039
的综合意义:
Figure 628400DEST_PATH_IMAGE106
(16)
Figure 447452DEST_PATH_IMAGE107
(17)
和公式11、12类似,
Figure 741030DEST_PATH_IMAGE108
由另一个门获得:
Figure 594716DEST_PATH_IMAGE109
(18)
Figure 581127DEST_PATH_IMAGE003
是第i个字符在输入序列中的字符嵌入。此外,可以使用公式11和16动态集成字 符和单词的多种含义。使用一个附加的LSTM单元来融合字符和单词级别的输出结果。
融合LSTM单元
该LSTM单元用于将字符感知和单词感知融合到基于字符的LSTM中。基于字符的 LSTM与公式3、4、5相同。要合并下表以结尾的所有单词的信息,序列中第i个字符的单元状 态应考虑所有
Figure 887475DEST_PATH_IMAGE035
Figure 984744DEST_PATH_IMAGE110
。因此,可以通过以下方式计算
Figure 755253DEST_PATH_IMAGE002
的单元状态:
Figure 785002DEST_PATH_IMAGE044
(19)
其中
Figure 703279DEST_PATH_IMAGE045
如下定义:
Figure 479605DEST_PATH_IMAGE046
(20)
Figure 166939DEST_PATH_IMAGE111
(21)
Figure 370518DEST_PATH_IMAGE048
(22)
Figure 713775DEST_PATH_IMAGE051
由公式3获得,它是字符
Figure 418426DEST_PATH_IMAGE050
的输入门,
Figure 835632DEST_PATH_IMAGE052
Figure 334746DEST_PATH_IMAGE053
由控制单词意义和字符意义 的附加门生成:
Figure 102982DEST_PATH_IMAGE112
(23)
其中,
Figure 80165DEST_PATH_IMAGE113
Figure 617457DEST_PATH_IMAGE114
分别由公式16和11计算,b为训练参数,代表偏转矢量。
最后,可以通过公式5计算每个字符的正向隐藏向量
Figure 192532DEST_PATH_IMAGE115
。可以通过类似的机制来学 习向后隐藏向量
Figure 16042DEST_PATH_IMAGE116
。使用公式6,获得了双向隐藏向量序列
Figure 203441DEST_PATH_IMAGE117
S30:将双向隐藏向量序列馈送到字符级注意模块以产生句子级特征向量,获得最终表示
获得隐藏的向量序列后,本发明将其馈送到字符级注意模块以产生句子级特征向 量,表示为
Figure 595239DEST_PATH_IMAGE118
,其中
Figure 436156DEST_PATH_IMAGE119
是隐藏向量的维数。最终表示g是隐藏向量序列的加权和:
Figure 241301DEST_PATH_IMAGE060
(24)
Figure 701233DEST_PATH_IMAGE061
(25)
其中
Figure 72171DEST_PATH_IMAGE062
表示可训练的参数。
S40:将g传输到完全连接层中以计算每种类型的置信度得分:
Figure 224935DEST_PATH_IMAGE065
(26)
其中
Figure 48534DEST_PATH_IMAGE066
表示可学习的转换矩阵,
Figure 309227DEST_PATH_IMAGE067
表示偏向向量,K是文本种 类的数量。在实现中,在此层中应用dropout,以通过在正向传播过程中随机丢弃隐藏单元 来防止特征解码器的共同适应。属于类型y的文本s的概率计算为:
Figure 737934DEST_PATH_IMAGE120
(27)
S50:以交叉熵损失为目标函数。给定训练集
Figure 920654DEST_PATH_IMAGE121
,则损失定义为:
Figure 372495DEST_PATH_IMAGE069
(28)
其中
Figure 564442DEST_PATH_IMAGE070
表示模型中使用的所有参数。在实现中,本发明利用随机梯度下降(SGD)优 化器通过迭代优化
Figure 519760DEST_PATH_IMAGE070
直至收敛,以最小化损失函数。
S60:对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品
根据用户需要的内容和格式,对获取的情报要素进行组织,生成满足用户需要的情报产品,例如对获取的文本进行参数整编或专项分析服务;根据原始数据、态势情报、电子目标情报的存在形态和规模,采用网络化数据管理技术,提高情报共享能力和情报快速分发效率。
实验与结果
这里,首先介绍实验中的评估指标、数据集和实现细节。然后,进行了广泛的实验,以证明本发明的模型能够成功应用在中文文本分类任务中。
度量标准
本发明将准确率(Acc)用于评估性能。考虑到一个好的分类器应该在不同类别上具有均衡的性能,因此本发明还将精确度(Pre)、召回率(Rec)和F1值作为本发明的实验评估指标。
数据集
为了验证本发明提出的模型的有效性,本发明在三个带有很好分类标签的中文数据集上进行了广泛的实验。第一个数据集是从32个类别的中文新闻标题中收集的,其中47,952个标题被标记为用于训练,而15,986个标题用于测试(即数据集1)。第二个数据集是CLUE(即数据集2)上的数据集,其中包含53,360个实例用于训练,10,000个实例用于验证,10,000个实例用于测试。在实验中,本发明在数据集2的验证集上展示了测试模型的评估指标。至于数据集3,它是从新浪新闻中收集的10种类型的数据,数据集中包括180,000个实例用于训练的实例,10,000个实例用于验证,另外10,000个实例用于测试。可以从https://github.com/ningpang/Ch-TC获得本文的代码和数据集。
实验设置
本发明通过网格搜索方法对模型的超参数进行了调整。本发明将随机梯度下降的 学习率设置为
Figure 138960DEST_PATH_IMAGE122
(其中学习率为 0.016时效果最优)和LSTM隐藏层大小
Figure 140414DEST_PATH_IMAGE123
(其中隐藏层大小 为200时效果最优)。由于其他超参数对整体结果影响很小,因此本发明根据经验进行设置。 衰减率设定为0.05。换句话说,学习速率
Figure 480259DEST_PATH_IMAGE124
在每个周期乘以。本发明使用SAT模型来预训练 200维的意义嵌入。而预训练的字符嵌入为100维度。为了避免过拟合问题,本发明将公式26 的dropout设置为0.5。对于本发明实验中基于单词的对比方法,使用了jieba分词工具将中 文文本切成单词序列。
晶格LSTM编码器的作用
本发明的实验旨在展示本发明的模型在融合字符级和单词级功能方面的成功效果。采用了性能较强的基准方法作为对比:利用标准双向LSTM代替双向晶格LSTM,以与本发明提出的Sk-Lattice比较。对于基于字符的基线方法,采用的是Char-Baseline基线方法。为了增强字符级别的表示,本发明添加了额外的单词级别特征,即bichar和softword。这两种变体是通过将unigram字符嵌入与bigram字符嵌入和softword(当前字符所在的单词)嵌入串联在一起实现的。在基于单词的基线中,Word-Baseline将句子的单词序列作为输入,并使用标准的双向LSTM来编码序列。此外,字符级特征是通过卷积神经网络(CNN)或标准的双向LSTM学习的,并与相应的词嵌入作为附加的语义特征连接在一起。因此,两种类型的强基线都使用字符和单词信息对文本进行分类。
表1显示了本发明提出的模型和所有基线方法的实验结果,从中可以看出:(1)对于基于字符的基线方法,单词级别的信息(包括bichar和softword)为所有数据集的所有度量标准带来了改进。同样,与基于CNN或LSTM提取的字符级功能结合使用时,基于单词的基准也得到了改善。(2)尽管集成不同级别的信息能够提高两个基线的性能,级联方法的效果相对有限,尤其是对于Word-Baseline。(3)本发明提出的Sk-Lattice在数据集1、数据集2和数据集3上超过所有基线多于5%,这表明Sk-Lattice通过动态控制字符和单词级别的特征是一种更有效的融合字符和单词级功能的策略。除此之外,字符和单词的多种意义也通过消歧而有助于性能的提高。
Figure 680297DEST_PATH_IMAGE125
晶格LSTM编码器的作用
Figure 345764DEST_PATH_IMAGE126
总体效果
在这一部分中,将本发明的方法与多种最新方法进行比较,如下所示:
TF-IDF+SVM:是一种是采用词频、逆文档频率做权重的词袋模型(BOW),其分类器为SVM。
LEAM:将句子中的单词和标签嵌入到统一的空间中以用来文本分类。在本发明的比较中,在单词级和字符级嵌入中均进行了测试。
GCN:将包含句子的结点以及单词(或字符)的结点构建成异质图,并采用GCN对图中的结点进行编码。本发明测试了基于单词的GCN以及基于字符的GCN。
TexCNN:在用于句子级别分类的预训练词向量顶层应用CNN层,这个方法主要应用于单词级别。
CharCNN:实验性地探索了字符级卷积网络在文本分类任务中的使用。
RadicalCNN:将输入文本分解为部首,并在部首嵌入之上应用CNN架构。
Hsentic:通过融合部首级特征和字符级特征,开发了一种层次结构来学习字符嵌入。CNN模型在字符嵌入的顶部提取句子级别的特征进行分类。
DPCNN:是在单词级别构建的深金字塔CNN结构。
CapsuleNet:由四层组成,一个n-gram卷积层,一个胶囊层,一个卷积胶囊层和一个全连接胶囊层。
TextRNN:使用RNN的最后一个隐藏状态作为整个文本的最终表示形式。
BLSTM-C:是用于中文文本分类的单词级神经模型。它使用由双向LSTM层和CNN层组成的混合神经结构来提取特征。
Stacke-BLSTM:将两层双向LSTM堆叠在预训练的单词嵌入序列之上,以进行中文微博情感分析。
HAN:在基于GRU的序列编码器中对文档分类应用了分层注意机制。
Transformer:使用多头注意力来吸引句子中单词之间的全局依存关系,从而使用了非循环的结构。
FastText:将n-gram嵌入作为句子嵌入的平均值,然后将嵌入的句子输入线性分类器。
Albert-tiny:是经过预训练的精简BERT语言模型的微型版本,针对中文文本分类进行了微调。
RAFG:集成了四个粒度特征,包括字符、单词、字符部首和单词部首,用于中文文本分类。
在这些对比方法中,TFIDF + SVM是基于特征的方法。基于嵌入的模型包括FastText和LEAM。神经网络模型包括GCN,TextCNN,CharCNN,RadialCNN,Hsentic,DPCNN,CapsuleNet,TextRNN,BLSTM-C,HAN,Transformer和RAFG。其中,CharCNN,TextCNN,RadialCNN和DPCNN基于CNN,而TextRNN,BLSTM-C,HAN基于RNN。GCN使用两层图卷积网络。CapsuleNet是胶囊网络在文本分类中的应用。RadicalCNN,Hsentic和RAFG利用基本信息来进行中文文本分类。Albert-tiny是一种经过微调的语言模型。上述竞争方法涵盖了所有类型的文本分类模型。
表2显示了三个数据集上每个模型的结果。从比较中可以明显看出:(1)一些基于英文文本的最新方法在中文文本分类中显示出较差的性能,因为它们只能基于单词或基于字符,无法充分利用包含在不同级别的信息。(2)RadicalCNN使用纯粹的部首嵌入,并通过字符嵌入和单词嵌入获得较好的性能。Hsentic的性能优于RadicalCNN,因为它利用了层次结构中的部首和字符特征。由于RAFG结合了基本特征、字符和单词级特征,因此在数据集1上的性能得到了明显的改善。但是,RAFG仍被Sk-Lattice超越,因为它未能探索不同粒度特征之间的深层关系。(3)训练有素的语言模型Albert-tiny是最强的对比方法。在所有指标上,本发明的Sk-Lattice都比它好1%以上。
表2不同模型的整体表现
Figure 631252DEST_PATH_IMAGE127
BERT对比实验
作为NLP研究中具有里程碑意义的模型,BERT在多个NLP任务上都取得了优异的成绩。考虑到目前几乎所有的研究工作都会使用或参考对比BERT的工作,本发明在这里将单独对比本发明的SK-Lattice和BERT-Base进行比较。BERT-Base模型具有12层,768个隐藏维度和12个注意力头,总参数量达到102M。为了公平起见,本发明将两种模型统一在一块2080ti 11G显卡上进行训练和测试,实验结果如表3所示。本发明的模型在三个数据集上的效果与BERT-Base模型相比,差距并没有特别悬殊。此外,本发明对模型进行集成处理(设定为5折)之后,SK-Lattice的性能优于BERT-Base模型。可见,本发明的模型更加简单高效,即使在没有采用复杂BERT模型的情况下也已经取得了优异效果。根据应用需求,本发明也能灵活地将BERT融合入模型架构中。这段话作为脚注:由于BERT-Base模型参数量过大、训练时间过长,因此不再比较BERT-Base模型的集成效果,而作为后续工作。
表3 在三个数据集上使用BERT-Base模型进行性能比较
Figure 40368DEST_PATH_IMAGE128
为了显示SK-Lattice模型的效率,本发明还将模型复杂度(参数量)和推理时间与BERT-Base模型进行了比较。在使用Intel Core i7 CPU的HUAWEI MateBook 14上,仅使用BERT-Base和SK-Lattice模型对一批一条文本进行预测。报告的统计数据是处理500批次的平均值和标准偏差。比较结果如表4所示,本发明的方法具有很高的CPU推理速度。与BERT-Base模型相比,SK-Lattice的速度提高了10倍,并且模型复杂度大大降低。总而言之,实验结果表明,本发明提出的SK-Lattice模型在具有更少参数量和更快速推理速度的情况下,就可以达到与最新大规模语料预训练模型相当的性能。
表4 SK-Lattice和BERT-Base模型在#Dataset3上的参数大小和推断时间
Figure 94912DEST_PATH_IMAGE129
为了显示每个组件的效果,本发明进行了一次消融研究,一次去除一个组件以找出其对整体性能的影响。第一种变型是通过去除反向晶格LSTM(即w/o双向)来构造的。第二个只考虑了word2vec模型预训练的字符嵌入和单词嵌入,而不是SAT模型预训练的字符和单词的多义嵌入(即不带多重意义)。最后测试的变体是通过用平均池化操作(即不带字符注意力)替换字符级别注意模块来建立的。
结果表明:(1)去除反向晶格LSTM后,所有数据集上的所有度量指标均降低,从而表明双向的上下文有助于理解文本以进行文本分类。(2)当不考虑字符和单词的多种意义时,性能会明显下降。这是因为没有多义输入的变体无法解决多义词的歧义,而歧义是自然语言理解中的重要问题。(3)删除字符级注意力模块时,所有度量标准都会降低,因为将所有字符均等地对待是不合理的。所有类型的文本中都出现的一些常见字符应给以弱化,因为它们不包含用于分类的区分信息。尽管如此,字符级注意力模块提供了一种动态的方式,以加权和的方式融合字符的所有隐藏向量,从而鼓励模型更加关注信息性字符。
表 5 消融实验结果
Figure 993597DEST_PATH_IMAGE130
案例研究
在这一部分中本发明将介绍一个案例,来展示本发明的Sk-Lattice是如何选择正确的意义以及如何融合不同的粒度功能。在图4中,本发明可视化了意义和单词的选择(参见公式16、20、21和22)。热量图显示了匹配单词一个单词和上下文单元格状态的权重,颜色越深表示权重越高。从上下文来看,“生产”一词的意思是“Production”,而不是“Givebirth to”,因此,“Product”意义的热力图具有更深的色彩。此外,当本发明将句子分割成单词序列时,公司名称“益生(Yisheng)”一词不合适。如热力图4所示,单词“益生(Yisheng)” (
Figure 641748DEST_PATH_IMAGE131
)的单元状态权重低于上下文单元状态(
Figure 713609DEST_PATH_IMAGE132
)。图4中本发明提出了正确的单词顺序和句子中所有匹配的单词,可以根据匹配的单词将句子转换为如图2所示的格结构。上方的热图将“生产”一词的感官选择可视化,其中第一感是“Production”,第二感是“Give birth to”。较低的热量图显示了错误匹配单词“益生”和上下文单元格状态的权重。
本发明用结合外部感知知识的双向晶格长期短期记忆网络(Sk-Lattice)对汉字分类的字符和单词级特征进行了深度集成。此外,通过添加三个额外的门来解决中文文本分类中的分隔歧义性和一词多义的问题。与先前研究不同,本发明使用从知网中检索的词义信息来提高字符和词的预训练嵌入的质量,并获得多义词的多义嵌入。在三个数据集上的结果表明,本发明提出的Sk-Lattice具有比各种高级文本分类模型更好的性能。通过与基于字符和基于单词的基线方法进行比较,该模型在融合两个粒度特征方面取得了成功。在与BERT-Base模型的对比实验中,本发明提出的Sk-Lattice在使用效率方面更出色,同时在实验效果上也达到甚至超越了BERT-Base模型。消融研究证明,Sk-Lattice中的每个组件都有助于提升整体性能。
本发明的有益效果如下:
1)发现中文分词歧义性是固有地存在于中文文本分类任务中的,这对文本分类任务带来巨大影响,有效解决了中文分词的歧义性带来的负面影响;
2)首创从知网中检索词义,以共同训练更具代表性的词和字符嵌入,并获得多义词的词义嵌入,很大程度上解决了分割后的多义词带来的歧义性;
3)在三个中文文本分类数据集上进行了广泛的实验,并对比了20个基线方法,充分显示本发明能够成功在字和词的粒度进行特征融合,相比基线方法简单又高效。
上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种用于情报快速整编的中文文本分类方法,其特征在于,包括以下步骤:
获取情报中的中文文本,将每个字符ci转换为向量xi,将每个输入词wi训练得到dw维向量,对于具有多重感觉的字符和单词,通过共同学习词语和感觉来获得多重感觉嵌入;
利用字符意义LSTM单元来融合字符的多种字符意义、利用单词意义LSTM单元来融合单词的多种单词意义以及利用融合LSTM单元来融合字符级和单词级特征,获得双向隐藏向量序列{h1,h2,...,hm};
将所述双向隐藏向量序列馈送到字符级注意模块以产生句子级特征向量,获得最终表示g;
将所述最终表示g传输到完全连接层中以计算每种类型的置信度得分;
以交叉熵损失为目标函数,通过迭代优化模型中的所有参数直至收敛,以最小化损失函数;
对分类后的情报文本根据用户需要的内容和格式进行组织,生成用户需要的情报产品;
其中,所述将每个字符ci转换为向量xi的步骤如下:
给定一个由m个字符组成的句子s={c1,c2,...,cm},通过查找预先训练的嵌入表,将每个字符ci通过下式映射到具有相应的字母组合嵌入的向量表示中:xi=Ec(ci),其中
Figure FDA0003125738440000011
表示字符嵌入表,|Vc|代表字符的词汇量,
Figure FDA0003125738440000012
表示字符ci的unigram 嵌入;
所述将每个输入词wi训练得到dw维向量的步骤如下:对应输入句子的单词序列s={w1,w2,...,wn},每个单词wi通过下式捕获单词的语义和句法信息:wi=Ew(wi),其中,
Figure FDA0003125738440000021
是词汇表为|Vw|的单词嵌入表,句子的向量表示为{w1,w2,...,wn};
所述通过共同学习词语和感觉来获得多重感觉嵌入的步骤如下:
Figure FDA0003125738440000022
Figure FDA0003125738440000023
其中
Figure FDA0003125738440000024
代表意义嵌入表,|Vsen|是词汇量,
Figure FDA0003125738440000025
Figure FDA0003125738440000026
的意义嵌入,代表了第j个字符的意义。
2.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,利用字符意义LSTM单元来融合字符的多种字符意义的步骤包括通过以下公式计算ci第j个意义的单元的门:
Figure FDA0003125738440000027
Figure FDA0003125738440000028
其中
Figure FDA0003125738440000029
代表字符ci的意义嵌入,
Figure FDA00031257384400000210
是字符ci-1的前向隐表示,
Figure FDA00031257384400000214
表示ci-1的单元状态,
Figure FDA00031257384400000211
Figure FDA00031257384400000212
和bc是训练参数,
Figure FDA00031257384400000213
分别代表了输入门,遗忘门和字符ci的字符级特征,σ(·)表示sigmoid函数。
3.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,所述利用单词意义LSTM单元来融合单词的多种单词意义的步骤包括:
通过一个附加的LSTM单元获得单词wb,e的第j个意义的单元门:
Figure FDA0003125738440000031
Figure FDA0003125738440000032
其中,
Figure FDA0003125738440000033
是单词wb,e的第j个意义的嵌入,
Figure FDA0003125738440000034
Figure FDA0003125738440000035
是字符cb-1的正向隐藏向量和单元状态;
通过以下方式计算ci的单元状态:
Figure FDA0003125738440000036
其中
Figure FDA0003125738440000037
Figure FDA0003125738440000038
如下定义:
Figure FDA0003125738440000039
Figure FDA00031257384400000310
Figure FDA00031257384400000311
Figure FDA00031257384400000312
Figure FDA00031257384400000313
分别代表了单词wb,e、字符ci和句子c的各个意义层级的单元状态,
Figure FDA00031257384400000314
是字符ci的输入门,
Figure FDA00031257384400000315
Figure FDA00031257384400000316
由控制单词意义和字符意义的附加门生成,
Figure FDA00031257384400000317
代表了单词wb,e的第j个意义的嵌入结合附加的单词意义门后的特征表示。
4.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,所述获得双向隐藏向量序列{h1,h2,...,hm}的步骤如下:
Figure FDA00031257384400000318
其中
Figure FDA00031257384400000319
Figure FDA00031257384400000320
是每个输入字符ci的前向隐藏表示和后向隐藏表。
5.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,所述最终表示g通过如下公式计算:
Figure FDA0003125738440000041
Figure FDA0003125738440000042
其中
Figure FDA0003125738440000043
表示可训练的参数,dh是所述双向隐藏向量的维数,hi为所述双向隐藏向量序列中的元素,m为所述双向隐藏向量序列中元素个数。
6.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,所述置信度得分定义如下:
o=Wog+bo
其中
Figure FDA0003125738440000044
表示可学习的转换矩阵,
Figure FDA0003125738440000045
表示偏向向量,K是文本种类的数量。
7.根据权利要求1所述的用于情报快速整编的中文文本分类方法,其特征在于,给定训练集T={(si,yi)},所述交叉熵损失定义为:
Figure FDA0003125738440000046
其中Θ表示模型中使用的所有参数,P为计算得到的概率。
8.根据权利要求7所述的用于情报快速整编的中文文本分类方法,其特征在于,利用随机梯度下降优化器通过迭代优化Θ直至收敛,以最小化损失函数。
CN202110509222.6A 2021-05-11 2021-05-11 一种用于情报快速整编的中文文本分类方法 Active CN112948588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110509222.6A CN112948588B (zh) 2021-05-11 2021-05-11 一种用于情报快速整编的中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509222.6A CN112948588B (zh) 2021-05-11 2021-05-11 一种用于情报快速整编的中文文本分类方法

Publications (2)

Publication Number Publication Date
CN112948588A CN112948588A (zh) 2021-06-11
CN112948588B true CN112948588B (zh) 2021-07-30

Family

ID=76233736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509222.6A Active CN112948588B (zh) 2021-05-11 2021-05-11 一种用于情报快速整编的中文文本分类方法

Country Status (1)

Country Link
CN (1) CN112948588B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881042B (zh) * 2022-06-02 2023-05-02 电子科技大学 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN117252159A (zh) * 2023-08-03 2023-12-19 吉贝克信息技术(北京)有限公司 一种支持撤销重做的多人协作的在线xbrl编辑器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239539B (zh) * 2013-09-22 2017-11-07 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
US10713039B2 (en) * 2018-05-04 2020-07-14 Dell Products L.P. Linguistic semantic analysis application integration system
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109753660B (zh) * 2019-01-07 2023-06-13 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN110083833B (zh) * 2019-04-18 2022-12-06 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法

Also Published As

Publication number Publication date
CN112948588A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN111027595B (zh) 双阶段语义词向量生成方法
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
CN112948588B (zh) 一种用于情报快速整编的中文文本分类方法
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Khatun et al. Authorship Attribution in Bangla literature using Character-level CNN
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114911947A (zh) 一种基于知识提示的概念抽取模型
Sethia et al. Framework for topic modeling using BERT, LDA and k-means
Abdollahpour et al. Image classification using ontology based improved visual words
CN113177120B (zh) 一种基于中文文本分类的情报快速整编方法
CN117112786A (zh) 一种基于图注意力网络的谣言检测方法
Zhou et al. An attention-based model for joint extraction of entities and relations with implicit entity features
Derbentsev et al. Sentiment Analysis of Electronic Social Media Based on Deep Learning
Aalaa Abdulwahab et al. Documents classification based on deep learning
Yang et al. Research on fusion model of BERT and CNN-BiLSTM for short text classification
CN114154505A (zh) 一种面向电力规划评审领域的命名实体识别方法
Mokhamed et al. Emoji Prediction from Arabic Sentence
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
Xu et al. Incorporating forward and backward instances in a bi-lstm-cnn model for relation classification
Wu et al. Character-level recurrent neural network for text classification applied to large scale Chinese news corpus
Yu-kun et al. Hierarchical Label Text Classification Method with Deep-Level Label-Assisted Classification
Wang An unsupervised approach to relatedness analysis of legal language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant