CN114969324A - 基于主题词特征扩展的中文新闻标题分类方法 - Google Patents

基于主题词特征扩展的中文新闻标题分类方法 Download PDF

Info

Publication number
CN114969324A
CN114969324A CN202210394208.0A CN202210394208A CN114969324A CN 114969324 A CN114969324 A CN 114969324A CN 202210394208 A CN202210394208 A CN 202210394208A CN 114969324 A CN114969324 A CN 114969324A
Authority
CN
China
Prior art keywords
vector
word
weight
chinese news
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210394208.0A
Other languages
English (en)
Inventor
何欣
苗凯
李金波
于俊洋
王龙葛
王光辉
翟锐
宋亚林
李涵
王瑛琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202210394208.0A priority Critical patent/CN114969324A/zh
Publication of CN114969324A publication Critical patent/CN114969324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于主题词特征扩展的中文新闻标题分类方法。该方法包括:步骤1:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;步骤2:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;步骤3:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;步骤4:利用卷积神经网络对所述特征向量进行特征提取并分类。

Description

基于主题词特征扩展的中文新闻标题分类方法
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于主题词特征扩展的中文新闻标题分类方法。
背景技术
随着5G时代的到来,互联网技术的飞速发展给人们带来便利的同时也带来了诸多挑战。人们每天接触到的短文本数据如搜索片段、微博、新闻标题等,都包含了大量有价值的信息,然而现有短文本分类方法大多只关注微博等几十词的文本,而很少考虑新闻标题等词量更少的少词短文本数据。新闻标题分类主要是依据标题语义对其所属领域进行判断并分类。由于新闻标题是建立在弱相关词语上的强迫性语义表述的短句,常规的短文本分类方法并不能有效进行分类,同时高质量的标题分类对新闻内容类别划分有着高效的促进作用,并有效节省计算开销,其主要应用方向包括领域机器翻译及虚假信息检测等。
截至目前,虽然有很多机器学习算法及深度神经网络方法在进行短文本分类时表现良好,但这些分类方法在领域标题分类时表现不佳。这是由于新闻标题一般含有的文本较少特征相对稀疏,并且词语间关联程度不高,从而影响分类精度,因此以往的短文本分类方法很难有效对其进行处理。此外,由于新闻标题词语间的弱关联性导致缺乏词的共现信息,严重阻碍了文档主题分布的生成,因此传统的主题建模方法在领域标题主题建模领域无法取得满意的效果。
发明内容
为了解决由于新闻标题的强领域性及有限的文本长度导致的特征稀疏性,现有的常规短文本分类方法很难在新闻标题领域分类中取得良好的效果的问题,本发明提供一种基于主题词特征扩展的中文新闻标题分类方法。
本发明提供一种基于主题词特征扩展的中文新闻标题分类方法,包括:
步骤1:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;
步骤2:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;
步骤3:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;
步骤4:利用卷积神经网络对所述特征向量进行特征提取并分类。
进一步地,步骤2中,所述计算每个单词的权重,具体包括:计算每个单词的类别区分程度和词性权重。
进一步地,根据公式(1)计算每个单词的类别区分程度IDF:
Figure BDA0003598318340000021
其中,Pt表示单词在当前类别出现的频率,Po单词在其他类别出现的频率。
进一步地,所述计算每个单词的词性权重,具体包括:
针对名词和/或动词,对应的词性权重为α;针对形容词和/或副词,对应的词性权重为β;除名词、动词、形容词和副词之外的其他词性单词,对应的词性权重为γ;其中,1>α>β>γ>0。
进一步地,步骤2中,所述基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重,具体包括:
获取中文新闻标题数据集,所述数据集中包括多个中文新闻标题;
计算每个中文新闻标题的文本向量,并比较任意两个所述文本向量之间的相似度,将相似度值大于预设阈值的中文新闻标题进行聚合得到长伪文本;
利用所述长伪文本构成训练集以训练LDA模型;
利用训练好的LDA模型得到所述待分类中文新闻标题的主题-词矩阵;
对所述主题-词矩阵进行向量化表示,并计算每个主题下任意两个单词之间的相似度并作为两个单词之间词关系的权重;
针对每个主题,过滤掉权重值较低的词关系,并将其余的单词进行两两连接以形成一条边;
针对每个主题,采用TextRank算法进行迭代,提取得到每个主题下的关键词;
基于每个主题下的关键词,计算每个主题对应的主题向量权重。
进一步地,所述相似度的计算公式如公式(3)所示:
Figure BDA0003598318340000022
其中,S(p,q)表示向量Wp和向量Wq之间的相似度。
进一步地,采用公式(5)计算每个主题对应的主题向量权重PLDA
Figure BDA0003598318340000031
其中,Ci是关键词的概率值,ω是关键词的词性权重,T表示关键词个数。
进一步地,步骤4具体包括:
步骤4.1:使用一个卷积层对所述特征向量进行卷积操作;所述卷积层具有一维卷积核和多通道;
步骤4.2:在步骤4.1输出的每个特征图上进行随时间推移的最大池化操作,得到每个特征图的最大值,然后将最大值连接到步骤4.1中的特征向量中;
步骤4.3:将步骤4.2得到的特征向量馈送到全连接层进行分类,并使用softmax输出分类结果;其中,所述全连接层使用dropout策略防止过拟合现象。
进一步地,所述分词算法至少包括jieba分词算法、PKU分词算法和THU分词算法。
本发明的有益效果:
本发明首先使用复合分词方法来降低预处理过程中错误分词的概率;其次提出了一种主题词语义扩展方法,该方法通过新的加权方式对预处理结果进行加权处理,并使用新的主题构建模型动态构建新闻标题的相关主题,对其进行主题词特征扩展;最后利用卷积神经网络对新闻标题进行特征提取并分类,并利用准确率和召回率对分类结果进行评价。实验结果证明,本发明方法能有效提高中文新闻标题的分类性能。
附图说明
图1为本发明实施例提供的基于主题词特征扩展的中文新闻标题分类方法的流程示意图之一;
图2为本发明实施例提供的基于主题词特征扩展的中文新闻标题分类方法的流程示意图之二;
图3为本发明实施例提供的新的主题模型构建方式的流程示意图;
图4为本发明实施例提供的向量拼接示意图;
图5为本发明实施例提供的使用卷积神经网络进行特征提取并分类的示意图;
图6为本发明实施例提供的不同分词方法的精确度及F1比较结果图;
图7为本发明实施例提供的不同Epoch下各模型精确度对比结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1和图2所示,本发明实施例提供一种基于主题词特征扩展的中文新闻标题分类方法,包括以下步骤:
S101:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;
具体地,中文短文本分类通常使用单词序列来获得潜在词义从而得到更好的分类结果。然而由于不同的分词方法通常采用不同的分割粒度从而导致分词结果的不同,同时汉语分词通常无法避免地存在着错误、歧义或不一致等问题,因此基于词的模型往往会遇到由分词引起的一些潜在问题,从而影响最终分词结果。
例如句子“南京市长江大桥”可分为“南京市长/江/大桥”或“南京市/长江大桥”,前者是对人物的描述,而后者则侧重于建筑,从根本上已经发生了语义的转变。
考虑到上述情况,本步骤采用复合分词算法对待分类中文新闻标题进行分词,该复合分词算法基于投票法的前提,在预处理部分将目前使用率最高的jieba、PKU、THU三种分词方法进行合并,对每一个文本文件,并不直接对低频分词结果进行丢弃处理,而是将三种分词结果进行合并保存在同一个文件内进行后续处理。
S102:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;
具体地,本步骤主要从两方面实现了关键词特征扩展。其中,一方面是对分词结果进行加权处理,从词语层面进行关键词特征扩展;另一方面是基于分词结果构建主题模型,对主题词进行扩展,从而从句子层面进行关键词特征扩展。
关于对分词结果进行加权处理这一方面:在现有的许多研究中,术语频率-逆文档频率(TF-IDF)经常被作为文本分类的术语权重,在传统任务中取得了较好的效果,但传统的IDF结构可能会忽略文档的类别信息,并不能有效反映单词的重要性及类别区分能力,从而无法实现正确的权重调整功能。基于此,为了能够更好地从词语层面进行关键词特征扩展,除了可以采用现有的加权方式得到待分类中文新闻标题的加权后标题向量之外,本发明实施例还提出了一种新的加权方式(称为TIF-POS权重算法),具体为:计算每个单词的类别区分程度和词性权重,从而将所述类别区分程度和词性权重进行综合后作为单词的权重。例如将类别区分程度和词性权重相乘之后的权重值作为单词的权重。
该加权方式能更好地学习单词语义信息,在保留TF-IDF突出重要词、抑制次要词的基础上,以类别界限来划分词语对分类的贡献度,以此来度量给定文档集合中某个术语的类别区分程度。
例如在教育类别中,“分数线”、“报考”等词通常会多次出现,同时在其他类别中出现概率则非常低,这些出现在某一种类别的概率远远大于其他类别的词语,可以有效地捕获领域知识并进行区分,因此该类词语可以作为很好的类别鉴别词,被赋予更高的权重。
作为一种可实施方式,使用公式(1)计算每个单词的类别区分程度IDF:
Figure BDA0003598318340000051
此外,在现实生活中,不同词性的词语对语意表达的贡献是不同的,在一些文本中非名词和动词的出现频率可能更高,但这些词对主题识别能力较低,同时又会增加短文本的噪声。同时,考虑到现有技术中的研究方法经常忽略的新闻标题稀疏性的特点,词性过滤并没有体现到词性特征对特征选择的重要性,反而可能会对分类结果造成一定的负面影响。因此,本步骤的加权方式还引入了词性权重,即引入词性特征时针对不同词性的词语赋予不同的权重,从而更好地体现出其对语义表达的贡献度。
考虑到名词与动词对句子语义表达最为重要,其次是形容词与副词,作为一种可实施方式,词性权重采用公式(2)所示进行人为设置,其中h表示不同词性的权重:
Figure BDA0003598318340000061
具体地,针对名词和/或动词,对应的词性权重为α;针对形容词和/或副词,对应的词性权重为β;除名词、动词、形容词和副词之外的其他词性单词,对应的词性权重为γ;其中,1>α>β>γ>0。
关于基于分词结果构建主题模型这一方面:现有的主题建模方法在自然语言处理的多个领域取得了很大的成功,然而对于短文本来说,有限的句子长度并不能提供足够的信息来帮助模型发现语义及句法带来的潜在信息,由此严重影响文档主题分布的生产,导致生成主题精度较低,从而影响短文本分类精度。基于此,为了能够更好地从句子层面进行关键词特征扩展,除了可以采用现有的主题建模方式得到待分类中文新闻标题的主题向量之外,本发明实施例还提出了一种新的主题模型构建方式(称为TR-LDA模型),如图3所示,具体为:
步骤A1:获取中文新闻标题数据集,所述数据集中包括多个中文新闻标题;
步骤A2:计算每个中文新闻标题的文本向量,并比较任意两个所述文本向量之间的相似度,将相似度值大于预设阈值的中文新闻标题进行聚合得到长伪文本;
步骤A3:利用所述长伪文本构成训练集以训练LDA模型;
具体地,发明人发现仅根据单条文本本身直接对新闻标题进行主题建模的结果并不够准确,同时相似的文档在句法结构和语义信息上都具有相似的模式。基于此,本发明实施例为了更好地实现主题建模,在训练LDA模型之前,先通过步骤A1至步骤A3构建好了训练集,即:通过词向量对每一个新闻标题计算其文本向量,然后计算两个新闻标题对应的两个文本向量Wp和Wq之间的相似度,由此计算得到所有新闻标题之间的相似度,最终将相似度较高的所有新闻标题聚合为长伪文本,以此缓解数据稀疏问题;同时学习新闻标题的分布式矢量表示可以捕获语义信息,克服了词袋模型无法体现词语重要性关系的不足。
作为一种可实施方式,本发明实施例中,在计算两个文本向量Wp和Wq之间的相似度时,采用如下公式:
Figure BDA0003598318340000071
步骤A4:利用训练好的LDA模型得到所述待分类中文新闻标题的主题-词矩阵;
步骤A5:对所述主题-词矩阵进行向量化表示,并计算每个主题下任意两个单词之间的相似度并作为两个单词之间词关系的权重;
具体地,利用Word2Vec模型对所述长伪文本构成的训练集进行学习,得到所述长伪文本的词向量包,然后根据该词向量包对所述主题-词矩阵进行向量化表示。
作为一种可实施方式,在计算两个单词之间的相似度时,仍采用上述相似度计算公式,只需将文本向量Wp和Wq替换为两个单词对应的词向量即可。
步骤A6:针对每个主题,过滤掉权重值较低的词关系,并将其余的单词进行两两连接以形成一条边;
步骤A7:针对每个主题,采用TextRank算法进行迭代,提取得到每个主题下的关键词;
具体地,TextRank算法如公式(4)所示:
Figure BDA0003598318340000072
其中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句的贡献程度,Wji表示两个句子的相似度,WS(Vj)表示上次迭代出的句子j的权重,d为阻尼系数,本实施例中,其取值为0.85。
步骤A8:基于每个主题下的关键词,计算每个主题对应的主题向量权重。
本发明实施例中,具体采用公式(5)计算每个主题对应的主题向量权重PLDA
Figure BDA0003598318340000073
其中,Ci是关键词的概率值,ω是关键词的词性权重,T表示关键词个数。
S103:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;
具体地,将相似度最大的主题向量与新闻标题向量进行连接生成相特征向量的过程如图4所示。
S104:利用卷积神经网络对所述特征向量进行特征提取并分类。
具体地,在进行向量连接之后,本实施例使用经典的卷积神经网络模型进行特征提取并分类,如图5所示,具体包括以下步骤:
步骤B1:使用一个卷积层对所述特征向量进行卷积操作;所述卷积层具有一维卷积核和多通道;
步骤B2:在步骤B1输出的每个特征图上进行随时间推移的最大池化操作,得到每个特征图的最大值,然后将最大值连接到步骤B1中的特征向量中;
步骤B3:将步骤B2得到的特征向量馈送到全连接层进行分类,并使用softmax输出分类结果;其中,所述全连接层使用dropout策略防止过拟合现象,同时还对权重向量的l2范数进行了约束。
本发明实施例提出的基于主题词特征扩展的中文新闻标题分类方法,充分利用现有数据,以类别为基准考虑文本所携带的特征信息,并对主题建模生成的结果进行严格筛选来保证扩展主题词的准确性。首先,提出将使用率最高的三种分词方法(jieba、PKU、THU)复合使用,并将分词结果进行合并来减少汉语分词的错误及不一致等问题;然后提出侧重于类间数据及不同词性携带文本特征的差异性的TIF-POS权重算法,以此对分词结果进行加权处理;此外,还提出TR-LDA模型将预处理后的相似短文本合并成长伪文本进行主题建模,对生成主题词进行相似度排序调整后得到扩展主题。最后计算经TIF-POS算法加权后的短文本向量与经TR-LDA模型计算出的主题向量间的余弦相似度,将结果最高的进行特征扩展生成相应向量矩阵后作为卷积神经网络的输入进行softmax分类。
为了验证本发明方法的有效性,本发明还提供有下述实验数据。
数据集:实验数据来源于搜狗实验室提供的新闻语料库,发明人共抽取200000篇新闻标题,分为财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐十大类,每个领域有20000篇,文本长度在20到30之间。按照8:1:1的比例,将数据分为训练集、验证集和测试集。训练集、验证集和测试集不会相互重叠。对于分类结果,使用准确度(ACC)和F1分数作为评估指标。其中准确度是正确分类结果的百分比,F1匹配分数是精确性和召回率的调和平均值。
实验参数:基于Gibbs抽样方法对LDA主题模型进行训练,参数设置如下:主题K设置为10,超参数a=0.01,b=0.01,关键词个数num=20;使用Word2Vec工具中的Skip-gram模型对数据集上的字向量进行训练;使用CNN对特征扩展后文本进行分类,参数设置如下:卷积核的大小为2xdim、3xdim、4xdim,卷积核的数量为256个,批处理大小为128个,学习率为0.001,为了防止出现过拟合现象,在训练过程中dropout设置为0.5。
实验环境:操作系统:Ubuntu Linux release 16.04.7LTS;CPU:Intel(R)Xeon(R)Silver CPU@2.20GHz;GPU:Quadro P4000;软件版本:Python 3.7;Pytorch 1.1.0;Numpy1.16.2;SciPy 1.3.1;Networkx 2.4;Scikit-learn 0.21.3。
实验结果:首先对比了分词方法的不同对分类结果产生的影响,所使用的四种分词方法包括JIEBA分词方法、北大PKU分词方法、清华THU分词方法以及本发明提出的HEU分词方法。HEU分词方法将前三种分词方法叠加使用之后可以降低文本的稀疏性,同时减少了因为分词错误而导致的歧义现象。如图6所示,从分类精确度和F1值两个方面,可以发现融合后的方法优于单一使用的分词方法,因此在后续实验中使用HEU分词方法作为实验分词方法。
接着将本发明模型与两种类型的基线进行比较:没有预先训练的基本深度神经网络模型和在大规模语料库上预先训练的深度神经模型。其中基本深度神经网络模型主要包括TextCNN、TextRNN、TextRNN_Att、TextRCNN、FastText、DPCNN、Transformer。其中TextCNN中的多个卷积是为了提取多种特征,而最大池化将提取到最重要的信息保留;TextRNN中的LSTM能更好的捕捉长距离语义关系,但是由于其递归结构不能并行计算因而速度较慢。TextRNN_Att中的attention机制计算过程,其实就是对LSTM每刻的隐层进行加权平均;TextRCNN中使用的并非常规RNN,同时双向LSTM每一时刻的隐层值都可以表示当前词的前向和后向语义信息,将隐藏值与嵌入值拼接来表示一个词后用最大池化层来筛选出有用的特征信息;DPCNN的区域嵌入是将TextCNN去掉池化层后将卷积层叠加,相当于在N-Gram上再做N-Gram,越往后的层每个位置融合的信息越多,最后一层提取的就是整个序列的语义信息。对于预训练模型,我们使用了模型改进前的常规LDA及TF-IDF预先训练来作为对比实验。
对于不同epoch下分类精确度的对比结果如图7所示。其中图的横坐标为不同模型训练epoch的个数,纵坐标为模型的准确性。根据结果显示,本发明方法的精确度高于其他任一模型结果,同时也在第六个epoch开始最早达到最优结果并趋于稳定。由此可以看出,本发明的中文新闻标题分类方法在精确性及稳定性方面都优于其他分类方法
所有模型实验结果的精确度及F1值如表1所示。从第一部分的结果中可以发现,本发明模型在该数据集上的性能优于七种基本深度神经网络模型。此外,七种基本深度神经网络中FastText效果表现最好,由于FastText可以自己训练词向量因此在没有预训练的情况下优于其他方法,在保持训练速度和测试速度的情况下提高精度,而现在使用率较高的Transformer却表现最差。从第二部分可以发现,常规的TF-IDF及LDA预先训练后的结果都比无预训练的结果要差,这是因为常规的方法并没有针对于短文本的稀疏性及简短性等特点,因而造成了关键信息的丢失或错配现象,导致结果不够理想。这也说明将强化术语词概念及更加贴合的主题有利于短文本的分类结果。结果表明,基于主题词特征扩展的方法是提升新闻标题领域分类精确度的有效途径。
表1不同分类方法的准确性和F1比较
Figure BDA0003598318340000101
针对传统新闻标题分类方法由于其文本长度较短且词语间关联度低强等而导致分类效果不佳的问题,本文提出了一种基于关键词特征扩展的中文新闻标题分类方法。为了提高关键词的质量,在文本预处理过程中,使用HEU分词方法来减少分词过程中可能出现的错误、歧义及不一致问题;同时,针对不同领域知识强化新闻标题中术语词的概念,并根据语义相似度选取更贴合的主题词进行扩展,从而引入高质量扩展词。实验结果表明,该方法在中文新闻标题分类任务中是可行的,分类效果显著提高。该方法在进行关键词扩展时,由于涉及大量词向量距离计算,导致研究时间增加。在后续的研究中将考虑时间复杂度问题,提高新闻标题的分类效率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.基于主题词特征扩展的中文新闻标题分类方法,其特征在于,包括:
步骤1:采用多种分词算法对待分类中文新闻标题分别进行分词预处理,得到关于所述中文新闻标题在每种分词算法下的分词结果,合并所有的分词结果得到若干个单词;
步骤2:计算每个单词的权重以得到所述待分类中文新闻标题的加权后标题向量;并基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重;
步骤3:计算所述加权后标题向量和每个所述主题向量之间的相似度,将相似度最大的主题向量与所述加权后标题向量进行向量拼接,得到特征向量;
步骤4:利用卷积神经网络对所述特征向量进行特征提取并分类。
2.根据权利要求1所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,步骤2中,所述计算每个单词的权重,具体包括:计算每个单词的类别区分程度和词性权重。
3.根据权利要求2所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,根据公式(1)计算每个单词的类别区分程度IDF:
Figure FDA0003598318330000011
其中,Pt表示单词在当前类别出现的频率,Po单词在其他类别出现的频率。
4.根据权利要求2所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,所述计算每个单词的词性权重,具体包括:
针对名词和/或动词,对应的词性权重为α;针对形容词和/或副词,对应的词性权重为β;除名词、动词、形容词和副词之外的其他词性单词,对应的词性权重为γ;其中,1>α>β>γ>0。
5.根据权利要求1所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,步骤2中,所述基于所述分词结果构建所述待分类中文新闻标题的主题向量并计算主题向量权重,具体包括:
获取中文新闻标题数据集,所述数据集中包括多个中文新闻标题;
计算每个中文新闻标题的文本向量,并比较任意两个所述文本向量之间的相似度,将相似度值大于预设阈值的中文新闻标题进行聚合得到长伪文本;
利用所述长伪文本构成训练集以训练LDA模型;
利用训练好的LDA模型得到所述待分类中文新闻标题的主题-词矩阵;
对所述主题-词矩阵进行向量化表示,并计算每个主题下任意两个单词之间的相似度并作为两个单词之间词关系的权重;
针对每个主题,过滤掉权重值较低的词关系,并将其余的单词进行两两连接以形成一条边;
针对每个主题,采用TextRank算法进行迭代,提取得到每个主题下的关键词;
基于每个主题下的关键词,计算每个主题对应的主题向量权重。
6.根据权利要求1或5所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,所述相似度的计算公式如公式(3)所示:
Figure FDA0003598318330000021
其中,S(p,q)表示向量Wp和向量Wq之间的相似度。
7.根据权利要求5所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,采用公式(5)计算每个主题对应的主题向量权重PLDA
Figure FDA0003598318330000022
其中,Ci是关键词的概率值,ω是关键词的词性权重,T表示关键词个数。
8.根据权利要求1所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,步骤4具体包括:
步骤4.1:使用一个卷积层对所述特征向量进行卷积操作;所述卷积层具有一维卷积核和多通道;
步骤4.2:在步骤4.1输出的每个特征图上进行随时间推移的最大池化操作,得到每个特征图的最大值,然后将最大值连接到步骤4.1中的特征向量中;
步骤4.3:将步骤4.2得到的特征向量馈送到全连接层进行分类,并使用softmax输出分类结果;其中,所述全连接层使用dropout策略防止过拟合现象。
9.根据权利要求1所述的基于主题词特征扩展的中文新闻标题分类方法,其特征在于,所述分词算法至少包括jieba分词算法、PKU分词算法和THU分词算法。
CN202210394208.0A 2022-04-15 2022-04-15 基于主题词特征扩展的中文新闻标题分类方法 Pending CN114969324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210394208.0A CN114969324A (zh) 2022-04-15 2022-04-15 基于主题词特征扩展的中文新闻标题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210394208.0A CN114969324A (zh) 2022-04-15 2022-04-15 基于主题词特征扩展的中文新闻标题分类方法

Publications (1)

Publication Number Publication Date
CN114969324A true CN114969324A (zh) 2022-08-30

Family

ID=82978331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210394208.0A Pending CN114969324A (zh) 2022-04-15 2022-04-15 基于主题词特征扩展的中文新闻标题分类方法

Country Status (1)

Country Link
CN (1) CN114969324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743585A (zh) * 2024-02-20 2024-03-22 广东海洋大学 一种新闻文本分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743585A (zh) * 2024-02-20 2024-03-22 广东海洋大学 一种新闻文本分类方法
CN117743585B (zh) * 2024-02-20 2024-04-26 广东海洋大学 一种新闻文本分类方法

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Du et al. Text classification research with attention-based recurrent neural networks
CN106372061B (zh) 基于语义的短文本相似度计算方法
WO2019228203A1 (zh) 一种短文本分类方法及系统
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN108228541A (zh) 生成文档摘要的方法和装置
CN114428850B (zh) 一种文本检索匹配方法和系统
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
Thielmann et al. Coherence based document clustering
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
Yafoz et al. Analyzing machine learning algorithms for sentiments in arabic text
Austin et al. Community topic: topic model inference by consecutive word community discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination