CN109271514A - 短文本分类模型的生成方法、分类方法、装置及存储介质 - Google Patents

短文本分类模型的生成方法、分类方法、装置及存储介质 Download PDF

Info

Publication number
CN109271514A
CN109271514A CN201811071528.2A CN201811071528A CN109271514A CN 109271514 A CN109271514 A CN 109271514A CN 201811071528 A CN201811071528 A CN 201811071528A CN 109271514 A CN109271514 A CN 109271514A
Authority
CN
China
Prior art keywords
keyword
short text
word
words
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811071528.2A
Other languages
English (en)
Other versions
CN109271514B (zh
Inventor
蒋运承
李超
马文俊
刘宇东
詹捷宇
毛舜
郑航
黄光健
韦丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201811071528.2A priority Critical patent/CN109271514B/zh
Publication of CN109271514A publication Critical patent/CN109271514A/zh
Application granted granted Critical
Publication of CN109271514B publication Critical patent/CN109271514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种短文本分类模型的生成方法、分类方法、装置及存储介质,包括:获取短文本训练集;获得每篇短文本的词集合;获得每个关键词的语义相关的词集合;计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合内,获得每篇短文本的关键词扩展集合;根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。通过关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了快捷准确地对短文本进行自动分类。

Description

短文本分类模型的生成方法、分类方法、装置及存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种短文本分类模型的生成方法、分类方法、装置及存储介质。
背景技术
随着互联网技术的快速发展,网络成为了海量信息的载体,用户创建的短文本也成为了互联网数据的重要来源,其中,用户创建的短文本包括对论坛、留言及回复、咨询、建议及意见反馈、手机短信、网络小纸条、微博、QQ、微信等的聊天或评论信息,这些短文本成为了信息交流和舆论传播的重要手段。
短文本的基数非常庞大,且每天都高速增长,数据中包含了人们对社会各种现象的观点和看法,话题涉及广泛,包括政治、经济、娱乐、生活、体育等各个领域。短文本在很多方面都有重要应用,例如跟踪社会热点信息,预测舆论趋势,发现社会热点问题,帮助政府部门把握社会动态,再比如利用商品的售后评论帮助用户快速分析产品的特点。然而,如何将短文本实现自动分类是一项极具挑战性而又迫切需要解决的问题。
发明内容
基于此,本发明的目的在于,提供一种短文本分类模型的生成方法,其具有可以准确快捷地对短文本进行自动分类的优点。
一种短文本分类模型的生成方法,包括如下步骤:
获取短文本训练集;所述短文本训练集中至少包括一个短文本;
对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;
根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
根据所述相关度和相似度,获得每个关键词的语义扩展的词;
将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合内,获得每篇短文本的关键词扩展集合;
根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,使构建的短文本分类模型可以准确快捷地对短文本进行自动分类。
进一步地,所述对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合之后,还包括步骤:统计每篇短文本的词集合中每个词的词频数量,并删除每篇短文本的词集合中出现次数少于第一设定阈值的词;和/或,删除每篇短文本的词集合中的停用词,以加快短文本处理速度,提升短文本的分类效果。
进一步地,所述根据所述词频-逆文档频率值,获得每篇短文本的关键词集合的步骤,包括:将每篇短文本的词集合中各词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为每篇短文本的关键词集合,以挑选出信息丰富的关键词,在保证短文本的丰富的语义的前提下,加快短文本处理速度。
进一步地,所述根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将每篇短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合,以降低计算复杂度,提高分类的准确度
进一步地,所述根据所述相关度和相似度,获得每个关键词的扩展的语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词。
本发明还提供一种短文本分类模型的生成装置,包括:
训练集获取模块,用于获取短文本训练集;所述短文本训练集中至少包括一个短文本;
训练集分词模块,用于对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
训练集的关键词获取模块,用于获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值,获得每篇短文本的关键词集合;
训练集的语义相关词集合获取模块,用于根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
训练集的相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
训练集的语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
训练集关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;
分类模型生成模块,用于根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,使构建的短文本分类模型可以准确快捷地对短文本进行自动分类。
本发明还提供一种使用如上述任一所述的短文本分类模型的生成方法得到的短文本分类模型进行短文本分类的方法,包括如下步骤:
获取目标短文本;
对目标短文本进行分词处理,获得目标短文本的词集合;
获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值,获得目标短文本的关键词集合;
根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
根据所述相关度和相似度,获得每个关键词的语义扩展的词;
将每个关键词的语义扩展的词添加到目标短文本的关键词集合中,获得目标短文本的关键词扩展集合;
根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了对短文本进行自动分类,而且分类处理速度快捷、分类结果准确。
本发明还提供一种使用上述任一所述的短文本分类模型的生成方法得到的短文本分类模型进行短文本分类的装置,包括:
获取模块,用于获取目标短文本;
分词模块,用于对目标短文本进行分词处理,获得目标短文本的词集合;
关键词获取模块,用于获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值,获得目标短文本的关键词集合;
语义相关词集合获取模块,用于根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到目标短文本的关键词集合中,获得目标短文本的关键词扩展集合;
分类模块,用于根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述的短文本分类模型的生成方法的步骤,和/或,实现如上述所述的短文本分类方法的步骤。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的短文本分类模型的生成方法的步骤,和/或,实现如上述所述的短文本分类方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例1中短文本分类模型的生成方法的流程图;
图2为本发明实施例2中短文本分类方法的流程图。
具体实施方式
实施例1
图1为本发明实施例1中短文本分类模型的生成方法的流程图,所述短文本分类模型的生成方法包括如下步骤:
步骤S11:获取短文本训练集;所述短文本训练集中至少包括一个短文本。
所述短文本为长度较短的文本,它是相对长文档或长文本而言的,所述短文本可以是一个小的段落、几句话、一句话甚至一个短语。其中,所述短文本包括但不限于论坛、留言及回复、咨询、建议及意见反馈、手机短信、网络小纸条、微博、QQ、微信、twitter等的聊天或评论信息。
步骤S12:对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合。
所述分词处理为将连续的字序列按照一定的规范重新组合成词序列的处理过程,例如,对于中文分词就是将一个汉字序列切分成一个个单独的词。在一个实施例中,采用结巴分词的方式对目标短文本进行分词处理。
步骤S13:获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合。
所述词频-逆文档频率值(Term Frequency-Inverse Document Frequency,简称“TF-IDF”)为词的词频和逆文档频率的乘积值。
步骤S14:根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合。
步骤S15:将每个关键词和语义相关的词集合中的每个词向量化表示,计算每个关键词和语义相关的词集合中的每个词的相关度和相似度。
所述向量化为把以自然语言形式的符号信息转化为以向量形式的数字信息,可以把非结构化的文本表示成计算机可识别的向量形式,从而将对文本的处理转化成为向量间运算,从而实现机器的学习和处理,例如将“好”表示为[0 0 0 0 0 0 0 1 0 0…]。
步骤S16:根据所述相关度和相似度,获得每个关键词的语义扩展的词;
步骤S17:将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,得到每篇短文本的关键词扩展集合。
步骤S18:根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,使构建的短文本分类模型可以准确快捷地对短文本进行自动分类。
在一个实施例中,为加快短文本处理速度,提升短文本的分类效果,在步骤S2中,所述对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合之后,还包括步骤:统计每篇短文本的词集合中每个词的词频数量,并删除每篇短文本的词集合中出现次数少于第一设定阈值的分词;和/或,删除每篇短文本的词集合中的停用词。其中,所述停用词为数据集中出现次数多但没有实际意义的词,如“啊”、“吧”、“的”、“了”等停用词,具体可通过哈工大停用词词表去除停用词。
在一个实施例中,为了挑选出信息丰富的关键词,在保证短文本的丰富的语义的前提下,加快短文本处理速度,在步骤S3中,所述根据所述词频-逆文档频率值,获得每篇短文本的关键词集合的步骤,包括:将每篇短文本的词集合中各词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为每篇短文本的关键词集合。具体的,可计算出每篇短文本的词集合中每个词的TF-IDF值,并用一个字典函数存储,将每个词和与之对应的TF-IDF值形成一个键值对,对字典中的TF-IDF值进行降序排序,选取排序在第二设定阈值前的词作为短文本的关键词集合。在一个更优实施例中,所述第二设定阈值n2的取值为5,若短文本的关键词集合中的分词数量小于n2=5,则把所有词作为短文本的关键词集合。
在一个实施例中,为了降低计算复杂度,提高分类的准确度,在步骤S4中,所述根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将每篇短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合。具体的,将短文本的关键词集合中的每个关键词分别输入到维基百科后,在维基百科页面中把内部链接作为抽取语义相关最佳的语义资源,例如“文本挖掘”的解释页面中包括“文字探勘”、“数据挖掘”、“文字分析”、“数据库”、“结构化数据”、“文本分类”、“文本聚类”、“学科”、“相关性”等,这些词则为与“文字挖掘”语义相关的候选的词。但是,在候选的词中仍然存在着一些概念与特征概念并不相关,如上述例子中“学科”、“相关性”等词与“文本挖掘”的关联就不是很明显,对于这些弱相关分词人们可以通过思维理解能力去进行判断,但是机器很难自动做出强弱相关度判断,因此,在一个实施例中,将在所述关键词的页面出链和页面入链都包括的词,作为所述关键词对应的语义相关的词集合,例如,如果关键词A的页面出链和入链都包含词B,则称词A、B具有双向链接关系,这两个词在解释文本中相互引用,则他们的相关程度比较高,此时获得的关键词对应的语义相关的词集合也会更加准确。
在一个实施例的步骤S5中,所述将每个关键词和与所述关键词的语义相关的词集合向量化时,可以通过CBOW模型、或Skip-gram模型、或其他任何能将词进行向量化的模型、工具或者方式。
在一个实施例的步骤S5中,假设有一个关键词ci,和ci语义相关的词有n个,用集合Ei={eil,ei2,…,eij,…ein}表示。假设ci和eij的相关度为rij,则ci和Ei的语义相关度序列用Ri={ri1,ri2,…,rij,…,rin}表示。rij的计算方法为:
式中,A表示维基百科中包含关键词ci的所有链接页面的集合,B表示维基百科中包含特征词eij的所有链接页面的集合,W是维基百科中所有页面的集合,符号“||”表示取集合的数量。由于单个概念的链接数量远小于维基百科所有页面的总数量,所以rij的值在[0,1]区间内。
同样的,在一个实施例的步骤S5中,假设ci和eij的相似度为sij,则ci和Ei的语义相似度序列用Si={si1,si2,…,sij,…,sin}表示。sij的计算方法为:
式中,分别表示关键词ci和特征词eij的向量化表示,“||2”表示向量的2-范数运算。
在一个实施例的步骤S6中,根据所述相关度和相似度,获得每个关键词的扩展语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词。
计算关键词ci和特征词eij的相关度与相似度公式为:
g=α×rij+(1-α)×sij
式中rij∈Ri,sij∈Si。α和(1-α)分别表示相关度与相似度的权重。当g≥β时,则把待扩展词添加到原始短文本中。在一个实施例中α=0.5,β=0.6。
在一个实施例中,在步骤S8中,采用的分类模型是支持向量机(Support VectorModel,简称“SVM”)分类模型,通过将扩展的语义词集合输入到支持向量机分类模型中,并对支持向量机分类模型中的参数进行优化,进而获得短文本分类模型。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,使构建的短文本分类模型可以准确快捷地对短文本进行自动分类。
本发明还提供一种用于实现上述任一短文本分类模型的生成方法的短文本分类模型的生成装置,包括:
训练集获取模块,用于获取短文本训练集;所述短文本训练集中至少包括一个短文本;
训练集分词模块,用于对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
训练集的关键词获取模块,用于获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;
训练集的语义相关词集合获取模块,用于根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
训练集的相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
训练集的语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
训练集关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;
分类模型生成模块,用于根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,使构建的短文本分类模型可以准确快捷地对短文本进行自动分类。
实施例2
请参阅图2,其为本发明实施例2中短文本分类方法的流程图。本发明还提供一种短文本分类的方法,包括如下步骤:
步骤S21:获取目标短文本;
步骤S22:对目标短文本进行分词处理,获得目标短文本的词集合;
步骤S23:获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得目标短文本的关键词集合;
步骤S24:根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
步骤S25:将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
步骤S26:根据所述相关度和相似度,获得每个关键词的语义扩展的词;
步骤S27:将每个关键词的语义扩展的词添加到目标短文本的关键词集合中,获得目标短文本的关键词扩展集合;
步骤S28:根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了对短文本进行自动分类,而且分类处理速度快捷、分类结果准确。
在一个实施例中,为加快短文本处理速度,提升短文本的分类效果,在步骤S22中,所述对目标短文本进行分词处理,获得目标短文本的词集合之后,还包括步骤:统计目标短文本的词集合中每个词的词频数量,并删除目标短文本的词集合中出现次数少于第一设定阈值的分词;和/或,删除目标短文本的词集合中的停用词。其中,所述停用词为数据集中出现次数多但没有实际意义的词,如“啊”、“吧”、“的”、“了”等停用词,具体可通过哈工大停用词词表去除停用词。
在一个实施例中,为了挑选出信息丰富的关键词,在保证短文本的丰富的语义的前提下,加快短文本处理速度,在步骤S23中,所述根据所述词频-逆文档频率值,获得目标短文本的关键词集合的步骤,包括:将目标短文本的词集合中每个词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为目标短文本的关键词集合。具体的,可计算出目标短文本的词集合中每个词的TF-IDF值,并用一个字典函数存储,将每个词和与之对应的TF-IDF值形成一个键值对,对字典中的TF-IDF值进行降序排序,选取排序在第二设定阈值n2前的词作为短文本的关键词集合。在一个更优实施例中,所述第二设定阈值n2的取值为5,若短文本的关键词集合中的分词数量小于n2=5,则把所有词作为短文本的关键词集合。
在一个实施例中,为了降低计算复杂度,提高分类的准确度,在步骤S24中,所述根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将目标短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合。具体的,将短文本的关键词集合中的每个关键词分别输入到维基百科后,在维基百科页面中把内部链接作为抽取语义相关最佳的语义资源,例如“文本挖掘”的解释页面中包括“文字探勘”、“数据挖掘”、“文字分析”、“数据库”、“结构化数据”、“文本分类”、“文本聚类”、“学科”、“相关性”等,这些词则为与“文字挖掘”语义相关的候选的词。但是,在候选的词中仍然存在着一些概念与特征概念并不相关,如上述例子中“学科”、“相关性”等词与“文本挖掘”的关联就不是很明显,对于这些弱相关分词人们可以通过思维理解能力去进行判断,但是机器很难自动做出强弱相关度判断,因此,在一个实施例中,将在所述关键词的页面出链和页面入链都包括的词,作为所述关键词对应的语义相关的词集合,例如,如果关键词A的页面出链和入链都包含词B,则称词A、B具有双向链接关系,这两个词在解释文本中相互引用,则他们的相关程度比较高,此时获得的关键词对应的语义相关的词集合也会更加准确。
在一个实施例的步骤S25中,所述将每个关键词和与所述关键词的语义相关的词集合向量化时,可以通过CBOW模型、或Skip-gram模型、或其他任何能将词进行向量化的模型、工具或者方式。
在一个实施例的步骤S25中,假设有一个关键词ci,和ci语义相关的词有n个,用集合Ei={ei1,ei2,…,eij,…ein,}表示。假设ci和eij的相关度为rij,则ci和Ei的语义相关度序列用Ri={ri1,ri2,…,rij,…,rin}表示。rij的计算方法为:
式中,A表示维基百科中包含关键词ci的所有链接页面的集合,B表示维基百科中包含特征词eij的所有链接页面的集合,W是维基百科中所有页面的集合,符号“||”表示取集合的数量。由于单个概念的链接数量远小于维基百科所有页面的总数量,所以rij的值在[0,1]区间内。
同样的,在一个实施例的步骤S25中,假设ci和eij的相似度为sij,则ci和Ei的语义相似度序列用Si={si1,si2,…,sij,…,sin}表示。sij的计算方法为:
式中,分别表示关键词ci和特征词eij的向量化表示,“||2”表示向量的2-范数运算。
在一个实施例的步骤S26中,根据所述相关度和相似度,获得每个关键词的扩展语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词。
计算关键词ci和特征词eij的相关度与相似度公式为:
g=α×rij+(1-α)×sij
式中rij∈Ri,sij∈Si。α和(1-α)分别表示相关度与相似度的权重。当g≥β时,则把待扩展词添加到原始短文本中。在一个实施例中α=0.5,β=0.6。
在一个实施例中,在步骤S28中,通过短文本分类模型输出属于各类别的概率,可以得到分类结果的可信度量化数值,根据每个所属类别的量化值,将目标短文本分类到概率最大的类别中,通过采用多个单类别的分类模型,在一定程度上有效减少了多分类模型的运算复杂度。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了对短文本进行自动分类,而且分类处理速度快捷、分类结果准确。
本发明还提供一种短文本分类的装置,包括:
获取模块,用于获取目标短文本;
分词模块,用于对目标短文本进行分词处理,获得目标短文本的词集合;
关键词获取模块,用于获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得目标短文本的关键词集合;
语义相关词集合获取模块,用于根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到目标短文本的关键词集合中,获得目标短文本的关键词扩展集合;
分类模块,用于根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
通过获取关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,筛选获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了对短文本进行自动分类,而且分类处理速度快捷、分类结果准确。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如实施例1任一所述的短文本分类模型的生成方法的步骤,和/或,实现如实施例2任一所述的短文本分类方法的步骤。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时如实施例1任一所述的短文本分类模型的生成方法的步骤,和/或,实现如实施例2任一所述的短文本分类方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种短文本分类模型的生成方法,其特征在于,包括如下步骤:
获取短文本训练集;所述短文本训练集中至少包括一个短文本;
对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;
根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
根据所述相关度和相似度,获得每个关键词的语义扩展的词;
将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;
根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
2.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述对对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合之后,还包括步骤:统计每篇短文本的词集合中每个词的词频数量,并删除每篇短文本的词集合中出现次数少于第一设定阈值的词;和/或,删除每篇短文本的词集合中的停用词。
3.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据所述词频-逆文档频率值,获得每篇短文本的关键词集合的步骤,包括:将每篇短文本的词集合中各词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为每篇短文本的关键词集合。
4.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将每篇短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合。
5.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据所述相关度和相似度,获得每个关键词的扩展的语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词。
6.一种短文本分类模型的生成装置,其特征在于,包括:
训练集获取模块,用于获取短文本训练集;所述短文本训练集中至少包括一个短文本;
训练集分词模块,用于对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
训练集的关键词获取模块,用于获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;
训练集的语义相关词集合获取模块,用于根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
训练集的相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
训练集的语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
训练集关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;
分类模型生成模块,用于根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
7.一种使用如权利要求1-5中任一所述的短文本分类模型的生成方法得到的短文本分类模型进行短文本分类的方法,其特征在于,包括如下步骤:
获取目标短文本;
对目标短文本进行分词处理,获得目标短文本的词集合;
获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值,获得目标短文本的关键词集合;
根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
根据所述相关度和相似度,获得每个关键词的语义扩展的词;
将每个关键词的语义扩展的词添加到目标短文本的关键词集合内,获得目标短文本的关键词扩展集合;
根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
8.一种使用如权利要求1-5中任一所述的短文本分类模型的生成方法得到的短文本分类模型进行短文本分类的装置,其特征在于,包括:
获取模块,用于获取目标短文本;
分词模块,用于对目标短文本进行分词处理,获得目标短文本的词集合;
关键词获取模块,用于获取目标短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值,获得目标短文本的关键词集合;
语义相关词集合获取模块,用于根据目标短文本的关键词集合,获得每个关键词的语义相关的词集合;
相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
语义扩展词获取模块,用于根据所述相关度和相似度,获得每个关键词的语义扩展的词;
关键词集合扩展获取模块,用于将每个关键词的语义扩展的词添加到目标短文本的关键词集合内,获得目标短文本的关键词扩展集合;
分类模块,用于根据目标短文本的关键词扩展集合和短文本分类模型,对目标短文本进行分类。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的短文本分类模型的生成方法的步骤,和/或,实现如权利要求7所述的短文本分类方法的步骤。
10.一种计算机设备,其特征在于,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的短文本分类模型的生成方法的步骤,和/或,实现如权利要求7所述的短文本分类方法的步骤。
CN201811071528.2A 2018-09-14 2018-09-14 短文本分类模型的生成方法、分类方法、装置及存储介质 Active CN109271514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811071528.2A CN109271514B (zh) 2018-09-14 2018-09-14 短文本分类模型的生成方法、分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811071528.2A CN109271514B (zh) 2018-09-14 2018-09-14 短文本分类模型的生成方法、分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109271514A true CN109271514A (zh) 2019-01-25
CN109271514B CN109271514B (zh) 2022-03-15

Family

ID=65188672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811071528.2A Active CN109271514B (zh) 2018-09-14 2018-09-14 短文本分类模型的生成方法、分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109271514B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110097096A (zh) * 2019-04-16 2019-08-06 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN111078884A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备
CN114595311A (zh) * 2022-03-24 2022-06-07 中国银行股份有限公司 审计问题文本数据处理方法及装置
CN114912448A (zh) * 2022-07-15 2022-08-16 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097096B (zh) * 2019-04-16 2023-04-25 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN110097096A (zh) * 2019-04-16 2019-08-06 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN111125305A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 热门话题确定方法、装置、存储介质及电子设备
CN111078884A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备
CN114595311A (zh) * 2022-03-24 2022-06-07 中国银行股份有限公司 审计问题文本数据处理方法及装置
CN114912448B (zh) * 2022-07-15 2022-12-09 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质
CN114912448A (zh) * 2022-07-15 2022-08-16 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109271514B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
Rathi et al. Sentiment analysis of tweets using machine learning approach
Moldagulova et al. Using KNN algorithm for classification of textual documents
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
Khan et al. US Based COVID-19 tweets sentiment analysis using textblob and supervised machine learning algorithms
Venugopalan et al. Exploring sentiment analysis on twitter data
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
US20150074112A1 (en) Multimedia Question Answering System and Method
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
Babapour et al. Web pages classification: An effective approach based on text mining techniques
Rizaldy et al. Performance improvement of Support Vector Machine (SVM) With information gain on categorization of Indonesian news documents
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Campbell et al. Content+ context networks for user classification in twitter
Mercan et al. Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM
Al Qadi et al. A scalable shallow learning approach for tagging arabic news articles
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Annam et al. Entropy based informative content density approach for efficient web content extraction
Li et al. A comparison study of clustering algorithms for microblog posts
Camastra et al. Machine learning-based web documents categorization by semantic graphs
Liu et al. Oasis: online analytic system for incivility detection and sentiment classification
Alshahrani et al. Patc: Parallel arabic text classifier
Nayak et al. A Machine Learning Model to Classify Indian Taxi System in Tourism Industry
Rao et al. Prediction and Analysis of Sentiments on Twitter Data using Machine Learning Approach
Mathur et al. Sentiment Analysis Framework of Social Media Text by Feature Extraction and Machine Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant