CN117473095B - 基于主题增强词表示的短文本分类方法和系统 - Google Patents

基于主题增强词表示的短文本分类方法和系统 Download PDF

Info

Publication number
CN117473095B
CN117473095B CN202311818547.8A CN202311818547A CN117473095B CN 117473095 B CN117473095 B CN 117473095B CN 202311818547 A CN202311818547 A CN 202311818547A CN 117473095 B CN117473095 B CN 117473095B
Authority
CN
China
Prior art keywords
word
text
topic
word vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311818547.8A
Other languages
English (en)
Other versions
CN117473095A (zh
Inventor
王芹
顾王逸青
朱凯旋
赵树平
杨雪洁
戈戋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202311818547.8A priority Critical patent/CN117473095B/zh
Publication of CN117473095A publication Critical patent/CN117473095A/zh
Application granted granted Critical
Publication of CN117473095B publication Critical patent/CN117473095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于主题增强词表示的短文本分类方法和系统,涉及文本分类技术领域。本发明基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip‑gram模型得到,所述改进的Skip‑gram模型是在Skip‑gram模型上增加预测中心词主题得分的任务。本发明通过待分类文本所属领域的训练文本对改进的Skip‑gram模型进行训练,得到的词向量增强模型可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,有效提升短文本分类的分类精度。

Description

基于主题增强词表示的短文本分类方法和系统
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于主题增强词表示的短文本分类方法和系统。
背景技术
随着移动互联网技术的发展,以知乎、微博等为代表的一系列社交平台应运而生。在这些社交平台中,用户们围绕感兴趣的内容进行自由交流,产生了许多包含用户观点的有用评论短文本。因此,构建短文本分类方法有助于识别出包含关键信息的短文本,为后续的用户观点挖掘提供支持。
短文本由于词汇量有限、上下文不完整和缺乏复杂的句法结构等原因,通常表现出信息量少和特征稀疏的特点。传统的短文本分类通常将n-gram、TF-IDF文本特征输入到机器学习模型进行分类,通过增加特征工程的方式来提升短文本分类的效果。但是机器学习的特征工程构建通常需要依赖人工的经验和领域知识,难以进行大规模数据处理。
或者,现有的深度学习技术往往利用word2vec、BERT等模型训练的词嵌入来向量化短文本,并通过CNN、RNN、Transformer等模型来进行文本分类任务。但由于用户的评论内容往往属于同一个领域,基于通用知识库训练的词向量可能会稀释短文本所在领域中词汇的语义,且分类模型仅依赖文本语义表示难以判断分类所需的关键信息特征,使得短分类精度不高。
因此,亟需一种短文本分类方法,用以提升短文本分类的分类精度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于主题增强词表示的短文本分类方法和系统,解决了现有短文本分类的分类精度较低的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于主题增强词表示的短文本分类方法,包括:
S1、获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
S2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
S3、基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。
优选的,所述预先构建词向量增强模型的构建过程包括:
a、获取目标领域的多条短文本,并进行清洗和分词处理,得到目标领域语料库,并对目标领域语料库中的词进行初始化词向量;
b、将目标领域语料库中的每个词依次作为中心词,并基于中心词对目标领域语料库进行窗口滑动操作,获取所述中心词的上下文词,将中心词的上下文词的初始词向量作为上下文矩阵真实值;
c、基于预设的主题词典获取所述中心词对应的主题得分,作为主题得分真实值;
d、将中心词的初始词向量输入至改进的Skip-gram模型的隐藏层,预测中心词主题得分;
e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数,计算损失值,并进行误差反向传播用于更新输出层和隐藏层之间的权重;设置一个最大的训练轮数B,如果词向量增强模型损失值在b轮次中没有降低,则提前结束训练,得到词向量增强模型,其中b<B。
优选的,所述预设的主题词典的构建过程包括:
从目标领域语料库中随机选取条随机样本,从与目标领域无关的领域选取/>条随机样本;
并对条随机样本进行数据清洗和分词处理,以得到单词集合;
根据出现频率从多至少的顺序选取所述单词集合中个单词,作为常用词;
计算所述常用词在目标领域的出现频率和在无关领域的出现频率,并对所述出现频率进行归一化处理;
通过归一化处理后的出现频率提取所述常用词中的通用常用词和领域特异性词汇;
从所述目标领域语料库中删除通用常用词,并留领域特异性词汇,得到处理后的目标领域语料库;
基于预设的LDA模型对处理后的目标领域语料库进行主题提取,得到主题词典。
优选的,所述预设的词向量增强模型损失函数包括:
其中,表示词向量增强模型损失函数,/>表示预测窗口内上下文词任务的损失函数,/>表示预测主题词得分任务的函数,/>为权重。
优选的,所述预先构建的TextCNN网络包括卷积层、Chunk-MaxPooling网络层、全连接网络层和最大池化层,其中,最大池化层为Chunk-MaxPooling网络层。
优选的,所述对预处理后的待分类文本中的词进行初始向量化,包括:基于one-hot对预处理后的待分类文本中的词进行初始向量化。
第二方面,本发明提供一种基于主题增强词表示的短文本分类系统,包括:
数据获取模块,用于获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
词向量增强模块,用于基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
分类模块,用于基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。
优选的,所述预先构建词向量增强模型的构建过程包括:
a、获取目标领域的多条短文本,并进行清洗和分词处理,得到目标领域语料库,并对目标领域语料库中的词进行初始化词向量;
b、将目标领域语料库中的每个词依次作为中心词,并基于中心词对目标领域语料库进行窗口滑动操作,获取所述中心词的上下文词,将中心词的上下文词的初始词向量作为上下文矩阵真实值;
c、基于预设的主题词典获取所述中心词对应的主题得分,作为主题得分真实值;
d、将中心词的初始词向量输入至改进的Skip-gram模型的隐藏层,预测中心词主题得分;
e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数,计算损失值,并进行误差反向传播用于更新输出层和隐藏层之间的权重,设置一个最大的训练轮数B,如果词向量增强模型损失值在b轮次中没有降低,则提前结束训练,得到词向量增强模型,其中b<B。
第三方面,本发明提供一种计算机可读存储介质,其存储用于基于主题增强词表示的短文本分类的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于主题增强词表示的短文本分类方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器,存储器,以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于主题增强词表示的短文本分类方法。
(三)有益效果
本发明提供了一种基于主题增强词表示的短文本分类方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。本发明通过待分类文本所属领域的训练文本对改进的Skip-gram模型进行训练,得到的词向量增强模型可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,有效提升短文本分类的分类精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于主题增强词表示的短文本分类方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于主题增强词表示的短文本分类方法和系统,解决了现有短文本分类的分类精度较低的问题,实现本发明实施例不仅收集了待分类文本所属领域的大量内容作为语料库进行词向量的训练,可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,而且结合卷积神经网络和Chunk-MaxPooling进行特征提取,可以尽可能地保留短文本中的关键信息,实现短文本的有效分类。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
传统的短文本分类模型通常计算短文本中词语的TF-IDF值,机器学习模型根据TF-IDF文本特征进行分类,由于文本内容少、特征稀疏使得分类效果不佳。为此,产生了基于规则的短文本分类,思想是规则是否与文本匹配。规则可以经过总结训练文本自动生成,通过人工审核去除冗余规则集,该人工审核构造特征集的方式可以有效提升短文本的分类效果。但是这种方式不能适应大规模文本分类。
深度学习的出现使得短文本分类可以利用文本语义特征。基于指定窗口大小内共同出现的词具有相似语义的假设,以Skip-gram为代表的词嵌入模型为每个词生成对应的词向量增强模型。Skip-gram在给定中心词以及窗口大小的情况下,将中心词分别与每个上下文语境词计算相似性来优化词向量矩阵,由此训练得到的词向量增强模型考虑了不同词之间的相似性。以BERT为代表的语言模型,通过大型通用语料库预训练词表示。BERT通过预测掩码词语任务和下一句预测任务,来完成词向量的训练,由此训练的词表示具有较好的语言表征能力。目前很多研究利用通用语料库训练的词表示表示文本,并输入到深度学习模型进行训练。常用的文本分类模型包括CNN、RNN、Transformer。CNN基于卷积层及池化操作进行关键信息提取;RNN是一种基于循环层的特征提取网络结构,主要用于处理序列数据;Transformer是一种基于自注意力机制的特征提取网络结构,可以对输入序列的位置进行注意力计算,文本分类主要使用Transformer的decoder层。
目前已经存在多种短文本分类方法,根据短文本信息量少、特征稀疏、数量庞大等特点进行一些改进,但仍然存在以下问题:
1、短文本信息量少、特征稀疏,仅依赖待分类文本训练的词向量难以充分表示词语的语义信息。目前的深度学习方法利用通用语料库训练的词向量进行文本表示,可以在一定程度上缓解短文本语义稀疏的问题,但该表示不适用于特定领域的短文本分类任务。
2、现有的分类方法仅依靠词嵌入没有给出短文本的关键信息特征,使得短文本分类的分类过程较为困难。
为了解决上述问题,本发明实施例提供了一种基于主题增强词表示的短文本分类方法,该方法为Skip-gram模型增加了预测中心词主题得分的任务,基于领域语料库训练主题增强的丰富词向量增强模型;然后利用卷积层和池化层识别关键信息特征,辅助文本分类。具体的:
由于短文本信息量少、特征稀疏,仅依赖待分类文本训练的词向量难以充分表示词语的语义信息。为了得到短文本丰富的语义表示,本发明实施例的方法收集了待分类文本所属领域的大量内容作为语料库进行词向量的训练。
同时,仅依赖词表示会使分类模型难以找到关键特征进行有效分类,为使词向量在具有丰富的上下文信息的同时还能具有关键特征主题信息,本发明实施例的方法对Skip-gram模型进行改进,为Skip-gram增加了预测中心词主题得分的任务,通过Skip-gram的窗口内上下文词预测任务聚合关键特征信息,并通过中心词主题得分预测任务强化词语的主题信息。
此外,基于CNN的文本分类模型对待分类文本矩阵进行卷积和特异性池化操作,该关键特征识别的方式能够提升模型的分类效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供的一种基于主题增强词表示的短文本分类方法,如图1所示,该方法包括以下步骤:
S1、获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
S2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
S3、基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果。
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。
本发明实施例通过待分类文本所属领域的训练文本对改进的Skip-gram模型进行训练,得到的词向量增强模型可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,有效提升短文本分类的分类精度。
下面对各个步骤进行详细描述:
在本发明实施例中,通过目标领域的训练文本训练改进的Skip-gram模型得到词向量增强模型的具体过程如下:
a、获取目标领域的多条短文本,并进行清洗和分词处理,得到目标领域语料库,并对目标领域语料库中的词进行初始化词向量。具体为:
获取目标领域的多条短文本,并对多条短文本进行清洗处理,短文本的清洗处理为现有技术,此处不再赘述。
采用结巴分词工具对目标领域语料库进行文本分词,得到,序列中的第/>个词表示为/>,T表示目标领域语料库中单词的总数。目标领域语料库中唯一词的个数为V;基于one-hot将分词后的语料进行初始向量化,,序列中的第/>个词的初始化词向量为/>
b、将目标领域语料库中的每个词依次作为中心词,并基于中心词对目标领域语料库进行窗口滑动操作,获取所述中心词的上下文词,将中心词的上下文词的初始词向量作为上下文矩阵真实值。具体为:
目标领域语料库中的每个词语的初始词向量依次作为中心词进行窗口大小为的滑动操作,窗口内词数为/>,中心词为/>,中心词的上下文词为
上下文词的初始词向量
c、基于预设的主题词典获取所述中心词对应的主题得分,作为主题得分真实值。具体为:
预设的主题词典的构建过程包括:
步骤一,找到与目标领域有显著关联的单词和短语。
具体为:从语料库中随机选取条随机样本,从其它不相关的子社区选取/>条随机样本。本发明对这/>条文本进行数据清洗及分词得到/>个不同的单词,统计这/>个单词的出现频次,取出前/>个常用词在该领域出现频次/>和其它领域的出现频次
对两个频次进行归一化操作,出现的频次分别为()。
本发明实施例将两个频次作为坐标点,判断在平面内与直线的距离,与直线距离短表明该词语为通用常用词,与直线距离长且靠近坐标横轴表明该词为该领域特异性词汇。其中,本发明实施例采用预设的距离阈值判断与直线距离的长短。若与直线距离小于距离阈值,则判断与直线距离短。从而,本发明实施例中保留了在目标领域中明显更频繁使用的单词。
步骤二、对领域词汇进行主题构建。
具体为:在步骤一中删除了与短文本所在领域无关的单词。保留待分类文本中明显与领域相关的词汇,然后使用LDA模型进行主题提取,得到待分类文本的文本–主题矩阵以及主题–词汇矩阵。人工审查得到分类关键信息所在的主题,并将其组成包含关键信息的主题词典
如果中心词在主题词典D中,则该中心词的主题得分为1,反之为0。即中心词的主题/>得分为
d、将中心词的初始词向量输入至改进的Skip-gram模型的隐藏层,预测中心词主题得分/>。具体为
是输入向量,/>代表输入层和隐藏层之间的权重/>,/>是隐藏层/>
为输出层/>,/>代表隐藏层和上下文预测输出层之间的权重矩阵/>
表示中心词的主题预测输出/>。/>代表隐藏层和中心词主题输出层之间的权重矩阵/>
e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数,计算损失值,并进行误差反向传播用于更新输出层和隐藏层之间的权重;设置一个最大的训练轮数B,如果词向量增强模型损失值在b轮次中没有降低,则提前结束训练,得到词向量增强模型,其中b<B。
反向传播包括计算最小化损失函数及误差反向传播更新权值矩阵。本文词嵌入模型为主题增强的词嵌入模型,实现方式是给Skip-gram增加一个主题预测的任务,因此该模型的损失函数包括两个部分,/>表示预测窗口内上下文词任务的损失函数,/>表示预测主题词得分任务的函数,/>为权重。
初始词向量用one-hot表示,为中心词,/>表示中心词的周围词,/>表示中心词的周围词的下标集合,即/>的取值,/>代表中心词主题信息。/>为语料库的总词数,损失函数由滑动窗口浏览整个语料库对所有误差求平均后得到。实际损失函数为:
语料库遍历完成后,进行误差反向传播更新参数,目的是最小化损失函数。是输入向量,/>是隐藏层,/>代表输入层和隐藏层之间的权重,/>是输出层和隐藏层之间的权重,/>为窗口内上下文单词的真实值,/>是预测值。/>为中心词的主题得分,/>为预测主题得分,/>为隐藏层与主题输出层之间的权重矩阵;/>和/>分别代表上下文预测和主题得分预测的真实值和预测值之间的差异。
其中,为输入词更新后的向量表示,/>为输入词当前的向量表示,参数/>是学习率,/>是输入层和隐藏层之间的权重。参数更新公式为:
在本发明实施例中,设置一个最大的训练轮数,如100个epoch,如果模型的性能在几轮中效果没有提升(即损失值没有变小),则提前结束训练。
预先构建TextCNN网络包括卷积层、Chunk-MaxPooling网络层、全连接网络层和最大池化层,其中,最大池化层为Chunk-MaxPooling网络层。预先构建TextCNN网络的训练过程为现有技术,此处不再赘述。
在步骤S1中,获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量。具体实施过程如下:
待分类文本可以为社交媒体上的评论文本、帖子的回复文本或帖子内容的短文本内容。预处理包括清洗和分词,初始向量化采用one-hot,具体参见词向量增强模型训练步骤中的a,此处不再赘述。
在步骤S2中,基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量。具体实施过程如下:
具体为:用上述训练的词向量增强模型对待分类文本的初始词向量进行主题增强,得到主题增强的词向量,是句子中第/>个词的主题增强的词向量,维度为/>。句子长度为/>(实际使用中可能padding),句子表示为:/>,/>为拼接操作符。/>表示/>,/>,/>,即从句子下标为/>到/>的句子表征。
在步骤S3中,基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果。具体实施过程如下:
S301、利用所述TextCNN网络中多个卷积核大小不一的卷积层提取所述主题增强的词向量的文本特征,作为特征向量。具体为:
使用卷积核不同大小的卷积层提取多个n-gram文本特征,通过卷积操作在固定窗口中组合单词表示来捕获局部信息;在TextCNN中,使用的卷积核是2×D,3×D,4×D的长方形卷积核,而且是对输入层同时使用这三种尺寸的卷积核,可以提取到更多的特征。将文本表示输入到卷积层,用/>个不同的卷积核/>提取评论文本特征,/>表示卷积核的窗口大小,本文所取卷积核窗口大小为/>
其中,表示第/>个主题增强的词向量与第/>个主题增强的词向量间形成的矩阵,卷积之后得到评论文本特征为/>,/>个不同卷积核所提取的文本特征表示为/>
S302、基于Chunk-MaxPooling网络层对所述特征向量进行特征值提取,并将提取后的特征值拼接成一个长特征向量。具体为:
通过池化操作对卷积得到特征向量进行关键特征提取,把卷积核对应的特征向量进行分段,每个特征向量切割成/>段后,在每个分段里面各自取得一个最大特征值,于是获得/>个特征值,所有卷积核最终获得/>个特征值,拼接成一个包含关键信息的长特征向量/>。Chunk-MaxPooling保留了多个局部Max特征值的相对顺序信息。
S303、基于全连接网络层将所述长特征向量映射为二维向量,并基于SoftMax网络层对所述二维向量进行分类。具体为:
通过全连接层映射到二维向量,映射所需的参数矩阵表示为,再通过SoftMax层对结果进行分类。
其中,表示分类模型最终输出结果。
下面具体的实例对本发明实施例的方法进行详细说明:
知乎过敏性鼻炎话题下用户发表的评论数量非常多,会涉及自己疾病治疗、预防、危险因素、症状等疾病的多个方面,给单个主题的短文本分类任务带来了难题。因此本发明的实例以知乎过敏性鼻炎话题下的评论文本为例进行过敏性鼻炎危险因素的识别任务,可以获得含有过敏性鼻炎危险因素的评论文本。
首先,主题词典构建:
第一步,领域语料库获取。
本发明实施例爬取了过敏性鼻炎话题下的所有文本构成本方法的领域语料库,包括文章、回复、评论。
第二步,找到与该领域有显著关联的单词和短语。
本发明实施例选择过敏性鼻炎话题下的5000条文本,其它话题下的文本5000条。对这些文本进行清洗、分词,统计出前1000个常用词及每个词在过敏性鼻炎话题下的词频和在其它话题下的词频,并对两个词频归一化。计算与直线的距离,与直线距离短表明该词语为通用常用词,与直线距离长且靠近坐标横轴表明该词为该领域特异性词汇。
第三步,对领域词汇进行主题构建。
将待分类文本保留主题词汇输入到LDA进行主题提取,得到主题-词汇矩阵。本实施例要解决的问题是识别出包含危险因素的评论文本,本方法人工审查该矩阵中包含危险因素的主题,并将其作为该实施例中的主题词典。
其次,基于改进的Skip-gram模型与领域语料库训练词向量增强模型:
第一步,基于分词后的语料用one-hot初始化词向量。
对语料库进行数据清洗,并采用结巴分词工具实现语料库的文本分词,然后利用one-hot初始化词向量。
第二步,根据输入语料生成训练文本并将其向量化,并给出中心词的主题得分。
语料库中的每个词语依次作为中心词进行大小为d的滑动窗口操作本例中d的值为2,窗口内词数为5。根据第一步得到的初始化词向量,获取5个词的初始词向量。同时如果中心词在主题词典D中,则该中心词的主题得分为1,反之为0。
第三步,前向传播,经过隐藏层,预测上下文词和中心词主题得分。
经过参数输入矩阵用one-hot进行初始化词向量,再经过上下文输出矩阵预测上下文输出,通过主题输出矩阵预测中心词的主题得分。语料库的所有词语都作为中心词进行前向传播。
第四步,反向传播计算损失,更新参数。
损失函数由滑动窗口浏览整个语料库对所有误差求平均后得到,语料库遍历完成后,进行误差反向传播更新参数,目的是最小化损失函数(即设置一个最大的训练轮数,如果模型的性能在几轮中效果没有提升(即损失值没有变小),即损失值最小)。训练结束后,得到词向量增强模型。
最后,将词向量增强模型应用到文本分类任务中:
第一步,将知乎过敏性鼻炎话题下用户发表的评论进行预处理,对预处理后的知乎过敏性鼻炎话题下用户发表的评论中的词进行初始向量化,得到待分类文本的初始词向量;将初始词向量输入到词向量增强模型中,输出主题增强的词向量。
第二步,卷积操作。
使用不同大小的卷积核提取多个n-gram文本特征,通过卷积操作在固定窗口中组合单词表示来捕获局部信息;对输入层同时使用的卷积核为2×D,3×D,4×D的长方形卷积核,可以提取到更多的特征。
第三步,利用Chunk-MaxPooling进行关键信息提取。
当对特征向量进行分段切割时,本发明实施例将特征向量分为3个局部区域,在每个区域内,我们选择一个最大特征值,即选择该区域内的最显著特征,最终获得6个特征值,拼接成一个包含关键信息的长特征向量。Chunk-MaxPooling将每个区域内的关键特征保留下来,并且保持了它们的相对顺序。
第四步,全连接及SoftMax层
最后通过全连接层映射到二维向量,得到短文本的分类。
基于上述处理,本发明实施例为Skip-gram增加了预测中心词主题得分的任务,通过Skip-gram的窗口内上下文词预测任务聚合关键特征信息,并通过中心词主题得分预测任务强化词语的主题信息。强化短文本分类中的关键信息特征。
本发明实施例还提供一种基于主题增强词表示的短文本分类系统,包括:
数据获取模块,用于获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
词向量增强模块,用于基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
分类模块,用于基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果。
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。
可理解的是,本发明实施例提供的基于主题增强词表示的短文本分类系统与上述基于主题增强词表示的短文本分类方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于主题增强词表示的短文本分类方法中的相应内容,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其存储用于基于主题增强词表示的短文本分类的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于主题增强词表示的短文本分类方法。
本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于主题增强词表示的短文本分类方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过待分类文本所属领域的训练文本对改进的Skip-gram模型进行训练,得到的词向量增强模型可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,有效提升短文本分类的分类精度。
2、本发明实施例将TextCNN网络中的池化层设置为Chunk-MaxPooling层,可以尽可能地保留短文本中的关键信息,进一步提升短文本分类的分类精度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于主题增强词表示的短文本分类方法,其特征在于,包括:
S1、获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
S2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
S3、基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务;
其中,所述先构建词向量增强模型的构建过程包括:
a、获取目标领域的多条短文本,并进行清洗和分词处理,得到目标领域语料库,并对目标领域语料库中的词进行初始化词向量;
b、将目标领域语料库中的每个词依次作为中心词,并基于中心词对目标领域语料库进行窗口滑动操作,获取所述中心词的上下文词,将中心词的上下文词的初始词向量作为上下文矩阵真实值;
c、基于预设的主题词典获取所述中心词对应的主题得分,作为主题得分真实值;
d、将中心词的初始词向量输入至改进的Skip-gram模型的隐藏层,预测中心词主题得分;
e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数,计算损失值,并进行误差反向传播用于更新输出层和隐藏层之间的权重;设置一个最大的训练轮数B,如果词向量增强模型损失值在b轮次中没有降低,则提前结束训练,得到词向量增强模型,其中b<B。
2.如权利要求1所述的基于主题增强词表示的短文本分类方法,其特征在于,所述预设的主题词典的构建过程包括:
从目标领域语料库中随机选取条随机样本,从与目标领域无关的领域选取/>条随机样本;
并对条随机样本进行数据清洗和分词处理,以得到单词集合;
根据出现频率从多至少的顺序选取所述单词集合中个单词,作为常用词;
计算所述常用词在目标领域的出现频率和在无关领域的出现频率,并对所述出现频率进行归一化处理;
通过归一化处理后的出现频率提取所述常用词中的通用常用词和领域特异性词汇;
从所述目标领域语料库中删除通用常用词,并留领域特异性词汇,得到处理后的目标领域语料库;
基于预设的LDA模型对处理后的目标领域语料库进行主题提取,得到主题词典。
3.如权利要求1所述的基于主题增强词表示的短文本分类方法,其特征在于,所述预设的词向量增强模型损失函数包括:
其中,表示词向量增强模型损失函数,/>表示预测窗口内上下文词任务的损失函数,/>表示预测主题词得分任务的函数,/>为权重。
4.如权利要求1~3任一所述的基于主题增强词表示的短文本分类方法,其特征在于,所述预先构建的TextCNN网络包括卷积层、Chunk-MaxPooling网络层、全连接网络层和最大池化层,其中,最大池化层为Chunk-MaxPooling网络层。
5.如权利要求1~3任一所述的基于主题增强词表示的短文本分类方法,其特征在于,所述对预处理后的待分类文本中的词进行初始向量化,包括:基于one-hot对预处理后的待分类文本中的词进行初始向量化。
6.一种基于主题增强词表示的短文本分类系统,其特征在于,包括:
数据获取模块,用于获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;
词向量增强模块,用于基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;
分类模块,用于基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;
其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务;
其中,所述先构建词向量增强模型的构建过程包括:
a、获取目标领域的多条短文本,并进行清洗和分词处理,得到目标领域语料库,并对目标领域语料库中的词进行初始化词向量;
b、将目标领域语料库中的每个词依次作为中心词,并基于中心词对目标领域语料库进行窗口滑动操作,获取所述中心词的上下文词,将中心词的上下文词的初始词向量作为上下文矩阵真实值;
c、基于预设的主题词典获取所述中心词对应的主题得分,作为主题得分真实值;
d、将中心词的初始词向量输入至改进的Skip-gram模型的隐藏层,预测中心词主题得分;
e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数,计算损失值,并进行误差反向传播用于更新输出层和隐藏层之间的权重;设置一个最大的训练轮数B,如果词向量增强模型损失值在b轮次中没有降低,则提前结束训练,得到词向量增强模型,其中b<B。
7.一种计算机可读存储介质,其特征在于,其存储用于基于主题增强词表示的短文本分类的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~5任一所述的基于主题增强词表示的短文本分类方法。
8.一种电子设备,其特征在于,包括:
一个或多个处理器,存储器,以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~5任一所述的基于主题增强词表示的短文本分类方法。
CN202311818547.8A 2023-12-27 2023-12-27 基于主题增强词表示的短文本分类方法和系统 Active CN117473095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311818547.8A CN117473095B (zh) 2023-12-27 2023-12-27 基于主题增强词表示的短文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311818547.8A CN117473095B (zh) 2023-12-27 2023-12-27 基于主题增强词表示的短文本分类方法和系统

Publications (2)

Publication Number Publication Date
CN117473095A CN117473095A (zh) 2024-01-30
CN117473095B true CN117473095B (zh) 2024-03-29

Family

ID=89639995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311818547.8A Active CN117473095B (zh) 2023-12-27 2023-12-27 基于主题增强词表示的短文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN117473095B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN110263152A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 基于神经网络的文本分类方法、系统及计算机设备
CN110321434A (zh) * 2019-06-27 2019-10-11 厦门美域中央信息科技有限公司 一种基于词义消歧卷积神经网络的文本分类方法
CN110502753A (zh) * 2019-08-23 2019-11-26 昆明理工大学 一种基于语义增强的深度学习情感分析模型及其分析方法
CN111309920A (zh) * 2020-03-26 2020-06-19 清华大学深圳国际研究生院 一种文本分类方法、终端设备及计算机可读存储介质
WO2022116444A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和介质
CN116108185A (zh) * 2023-03-09 2023-05-12 中关村科学城城市大脑股份有限公司 一种用于文本分类的注意力增强预训练方法和装置
CN116467452A (zh) * 2023-04-26 2023-07-21 东北大学 一种基于多任务学习混合神经网络的中文投诉分类方法
CN116467443A (zh) * 2023-04-17 2023-07-21 西安理工大学 基于主题识别的网络舆情文本分类方法
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230100508A1 (en) * 2021-09-30 2023-03-30 Oracle International Corporation Fusion of word embeddings and word scores for text classification

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN110263152A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 基于神经网络的文本分类方法、系统及计算机设备
CN110321434A (zh) * 2019-06-27 2019-10-11 厦门美域中央信息科技有限公司 一种基于词义消歧卷积神经网络的文本分类方法
CN110502753A (zh) * 2019-08-23 2019-11-26 昆明理工大学 一种基于语义增强的深度学习情感分析模型及其分析方法
CN111309920A (zh) * 2020-03-26 2020-06-19 清华大学深圳国际研究生院 一种文本分类方法、终端设备及计算机可读存储介质
WO2022116444A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和介质
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质
CN116108185A (zh) * 2023-03-09 2023-05-12 中关村科学城城市大脑股份有限公司 一种用于文本分类的注意力增强预训练方法和装置
CN116467443A (zh) * 2023-04-17 2023-07-21 西安理工大学 基于主题识别的网络舆情文本分类方法
CN116467452A (zh) * 2023-04-26 2023-07-21 东北大学 一种基于多任务学习混合神经网络的中文投诉分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
文本分类研究综述;汪岿等;《数据通信》;20190628;全文 *
陈欢 ; 黄勃 ; 朱翌民 ; 俞雷 ; 余宇新 ; .结合LDA与Self-Attention的短文本情感分类方法.计算机工程与应用.(18),全文. *

Also Published As

Publication number Publication date
CN117473095A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
Anaby-Tavor et al. Do not have enough data? Deep learning to the rescue!
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN109815493B (zh) 一种智能嘻哈音乐歌词生成的建模方法
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111639252A (zh) 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
Rashid et al. Emotion detection of contextual text using deep learning
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110489554B (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
Wang et al. Named entity recognition method of brazilian legal text based on pre-training model
CN115757792A (zh) 一种基于深度学习的微博文本情感分类方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN117473095B (zh) 基于主题增强词表示的短文本分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant