CN110399483A - 一种主题分类方法、装置、电子设备及可读存储介质 - Google Patents

一种主题分类方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110399483A
CN110399483A CN201910507841.4A CN201910507841A CN110399483A CN 110399483 A CN110399483 A CN 110399483A CN 201910507841 A CN201910507841 A CN 201910507841A CN 110399483 A CN110399483 A CN 110399483A
Authority
CN
China
Prior art keywords
word
keywords
keyword
text information
lists
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910507841.4A
Other languages
English (en)
Inventor
赵忠信
史忠伟
张鹏
张阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201910507841.4A priority Critical patent/CN110399483A/zh
Publication of CN110399483A publication Critical patent/CN110399483A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种主题分类方法、装置、电子设备及可读存储介质,对于大规模流式的社交媒体数据,通过分词和词性标注,计算每个单词的权重,确定权重满足选择条件的单词为关键词,建立第一关键词列表。并与已知主题数据的第二关键词列表进行匹配,通过计算语义相似性,得到多个最大相似性值,并计算平均值,将平均值作为文本信息与主题数据的相似性得分,在相似性得分满足阈值条件时,将文本信息添加到主题中。本发明提供的方法,在进行主题检测时,充分考虑每个词的词性,以及词语、语句之间的相似性问题,实现新主题的发现和已知主题的自动归类,使得文本信息的主题分类更加准确。

Description

一种主题分类方法、装置、电子设备及可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种主题分类方法、装置、电子设备及可读存储介质。
背景技术
近年来,随着现代网络技术的迅猛发展,新闻媒体和社交媒体每天发布着大量的信息,人们需要在大量的信息中有效地对其内容进行组织、整理、挖掘和分析,以准确识别出其中包含的主题信息,因此,主题分类技术应运而生。主题分类技术是自然处理与信息检索领域的实用性非常高的技术,以新闻媒体、社交媒体的非结构化的文本信息作为研究对象,完成实时数据流中文本信息的新主题识别和已知主题的自动归类。
目前,为实现新主题识别和已知主题的归类而采用的主题分类技术是基于概率主题模型而展开,其基本结构为潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型。利用LDA模型进行主题分类时,需引入隐含主题的概念,从语义的角度建立隐含主题与单词的映射关系,再根据文本信息中不同隐含主题下单词的概率分布情况,估计文本信息内的隐含主题的分布,实现文本信息的新主题识别和已知主题的归类。
但该类方法大多只是从文本信息本身的属性出发,以单词为基本特征,基于单词的共现统计,进行主题概率计算,每个单词都被看作是一个单一的实体,各单词、词性、语句之间、语义层面的联系考虑较少,导致文本信息的主题分类不准确。
发明内容
本发明提供了一种主题分类方法、装置、电子设备及可读存储介质,以解决采用现有的主题分类方法导致文本信息主题分类不准确的问题。
第一方面,本发明提供了一种主题分类方法,包括以下步骤:
对社交媒体短文本的文本信息进行分词;
对分词后所得的单词进行词性标注处理;
根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;
建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;
计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;
计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;
在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
进一步地,还包括:
在所述相似性得分不满足阈值条件时,建立与所述文本信息对应的新主题分类。
进一步地,还包括:
在所述新主题分类中,根据归类到所述新主题分类的主题信息,初始化关键词列表;
根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分;
将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
进一步地,所述根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重,包括:
根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重;
计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在所述文本信息中的权重。
进一步地,所述建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词,包括:
将每个所述词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词;
根据多个关键词建立第一关键词列表。
进一步地,所述计算第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,包括:
根据语料库建立关键词的共现矩阵;
利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量;
根据所述词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值;
根据所述第一关键词列表中的多个关键词,得到多个最大相似性值。
第二方面,本发明实施例提供的一种主题分类装置,包括:
分词模块,用于对社交媒体短文本的文本信息进行分词;
词性标注模块,用于对分词后所得的单词进行词性标注处理;
权重计算模块,用于根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;
关键词列表建立模块,用于建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;
语义相似性计算模块,用于计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;
平均值计算模块,用于计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;
主题分类模块,用于在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
进一步地,还包括:
新主题建立模块,用于在所述相似性得分不满足阈值条件时,建立与所述文本信息对应的新主题分类。
进一步地,还包括:
初始化模块,用于在所述新主题分类中,根据归类到所述新主题分类的主题信息,初始化关键词列表;
初始化后的权重计算模块,用于根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分;
添加新主题分类模块,用于将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
进一步地,所述权重计算模块,包括:
词频权重计算单元,用于根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重;
权重计算单元,用于计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在所述文本信息中的权重。
进一步地,所述关键词列表建立模块,包括:
关键词确定单元,用于将每个所述词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词;
关键词列表建立单元,用于根据多个关键词建立第一关键词列表。
进一步地,所述语义相似性计算模块,包括:
共现矩阵建立单元,用于根据语料库建立关键词的共现矩阵;
词向量确定单元,用于利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量;
语义相似性计算单元,用于根据所述词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值;
最大相似性值确定单元,用于根据所述第一关键词列表中的多个关键词,得到多个最大相似性值。
第三方面,本发明实施例提供的一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的主题分类方法。
第四方面,本发明实施例提供的一种可读存储介质,所述可读存储介质中存储有计算机程序,当主题分类装置的至少一个处理器执行所述计算机程序时,主题分类装置执行第一方面所述的主题分类方法。
由以上技术方案可知,本发明实施例提供了一种主题分类方法、装置、电子设备及可读存储介质,对于大规模流式的社交媒体数据,通过分词和词性标注,计算每个单词的权重,确定权重满足选择条件的单词为关键词,建立第一关键词列表。并与已知主题数据的第二关键词列表进行匹配,通过计算语义相似性,得到多个最大相似性值,并计算平均值,将平均值作为文本信息与主题数据的相似性得分,在相似性得分满足阈值条件时,将文本信息添加到主题中。本发明提供的方法,在进行主题检测时,充分考虑每个词的词性,以及词语、语句之间的相似性问题,实现新主题的发现和已知主题的自动归类,使得文本信息的主题分类更加准确。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的主题分类方法的流程图;
图2为本发明实施例提供的确定每个单词在文本信息中的权重的方法流程图;
图3为本发明实施例提供的建立第一关键词列表的方法流程图;
图4为本发明实施例提供的确定多个最大相似性值的方法流程图;
图5为本发明另一实施例提供的主题分类方法的流程图;
图6为本发明实施例提供的主题分类装置的结构框图;
图7为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
图1为本发明实施例提供的主题分类方法的流程图。
本发明实施例提供的一种主题分类方法,用于帮助人们应对日益严重的互联网信息爆炸问题,以新闻媒体、社交媒体的非结构化的文本作为研究对象,完成实时数据流中文本信息的新主题识别和已知主题的自动归类。本实施例提供的方法,对大规模流式的社交媒体数据,通过计算嵌入语义空间的相似性,应用Single Pass算法实现新主题的发现和已知主题的自动归类,构建端到端的信息筛选通道,实现新话题的自动检测与追踪,一方面提高主题发现的效率和范围,提高分类准确性;另一方面,有效地降低人力成本。
具体地,如图1所示,本发明实施例提供的一种主题分类方法,该方法的执行主体为安装有分类软件的终端,如台式电脑、笔记本电脑、移动终端等。该方法包括以下步骤:
S1、对社交媒体短文本的文本信息进行分词。
获取需要进行待分类的社交媒体短文本,并提取文本信息,该文本信息可为一句话,或为内容较少的一段话。
对该文本信息进行分词处理,分词处理可根据一句话中每个词语的词性进行划分,例如,文本信息为“我来到北京清华大学”,经过分词处理后的结果为“我/来到/北京/清华大学”。
S2、对分词后所得的单词进行词性标注处理。
由于现有技术提供的方法,通过计算主题概率来进行主题分类,但在计算概率时只是将每个单词作为一个单一的实体,并未考虑单词的词性问题,导致分类结果并不准确。因此,本实施例提出在进行主题分类时,需要考虑单词的词性问题,以提高主题分类的准确率。
在对文本信息进行分词处理后,为分词后的单词进行词性标注,例如,“我”为名词,“来到”为动词,“北京”为形容词,“清华大学”为名词。
S3、根据每个单词的词性,计算每个词性标注后的单词在文本信息中的权重。
在确定每个单词的词性后,确定每个单词在文本信息中出现的频率,本实施例中以计算每个词性标注后的单词在文本信息中的权重来表示。
本实施例提供的方法在计算每个单词在文本信息中的权重时,考虑每个单词的词性问题,不同的词性产生的权重也会不同,因此,以词性来计算权重,可使计算结果更加准确,进而可使分类结果更准确。
具体地,如图2所示,根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重,包括:
S31、根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重。
先计算每个单词在文本信息中的出现频率,如果某个单词频繁出现,则对应的词频权重越高。
逆文档频率的数值大小与一个单词的常见程度成反比,其计算方法是语料库的文档总数除以语料库中包含该单词的文档数量,再将得到的商取对数。单词出现的位置是指单词在一句话中出现的位置,句首的单词的重要性大于句尾的单词的重要性,值的大小与单词出现的位置大小成反比关系。而出现在标题中的单词比出现在内容中的单词重要性要高。
词频权重是指单词在文本信息中出现的次数对应的权重,出现的次数越多,词频权重越高,出现的次数越少,词频权重越低。
S32、计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在文本信息中的权重。
在计算每个单词在文本信息中的权重时,本实施例提供的方法需考虑词性的问题,每种词性对应的加权系数不同,例如,名词的加权系数是2,动词的加权系数是1.5,形容词的加权系数是1。
因此,将每个词性标注后的单词的词频权重与对应的词性加权系数进行乘积计算,以最终确定每个词性标注后的单词在文本信息中的权重。
可见,本实施例提供的方法,在计算每个单词的权重中,充分考虑每个单词的词性问题,进而使得每个单词的权重计算结果更加准确,以便后续进行主题分类时,提高准确率。
S4、建立包括所有关键词的第一关键词列表,关键词是指权重满足选择条件的单词;
将每个单词的权重按从大到小进行排序,将满足选择条件的单词确定为该文本信息的关键词,并将确定出的所有关键词建立第一关键词列表。
选择条件是指选择标准,根据应用情况,选择标准是固定的值,例如,选取权重位列前10的单词作为关键词,来表达文本信息的语义。
具体地,如图3所示,建立包括所有关键词的第一关键词列表,关键词是指权重满足选择条件的单词,包括:
S41、将每个词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词。
S42、根据多个关键词建立第一关键词列表。
由于文本信息中会存在多个单词,有些单词会重复出现,有些单词只出现一次,有的单词出现在句首,有的单词出现在句尾,有的单词出现在主题中,有的单词比较常见,有的单词不常见,因此,在利用根据上述条件确定的每个单词的权重来确定文本信息的关键词时会更准确,即在确定文本信息的关键词时优先考虑权重较高对应的单词。
将所有单词的权重按从大到小排序,设定选择条件值为10,那么权重位列前10的单词即为关键词;若设定选择条件值为15,那么权重位列前15的单词为关键词。
选择条件值可根据实际情况而定,词性的加权系数也可根据具体的应用效果进行调优,本实施例不做具体限定。
在选取出多个可表征文本信息语义的关键词之后,将这些关键词建立第一关键词列表,以便后续进行主题归类用。
S5、计算第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,主题数据是指预先存储的数据聚类,数据聚类中包括多个语义相似的关键词。
本实施例提供的方法,是将文本信息进行分类,一种是归入语义相似的聚类中,另一种是文本信息自行一类。因此,为使分类结果更加准确,本实施例将文本信息与已经产生聚类效果的数据进行对比,若文本信息与已聚类的数据产生的相似性较大,那么可将文本信息归入已聚类的数据中,若文本信息与已聚类的数据产生的相似性较小,那么将文本信息自行成一类。
因此,已聚类的数据即为主题数据,其是一种数据聚类,且该数据聚类中的关键词的语义相似性较大,也就是说,能够产生聚类的单词,其代表的语义均相似。主题数据中包括多个语义相似的关键词,将这些关键词建立第二关键词列表。
在确定是将文本信息归入已聚类的数据中,还是自成一类,本实施例中,将文本信息对应的第一关键词列表与根据主题数据建立的第二关键词列表进行匹配,分别计算第一关键词列表中的每一个关键词与第二关键词列表中的每一个关键词的语义相似性。
例如,第一关键词列表为(a1、b1、c1、d1),第二关键词列表为(D1、D2、D3、D4),首先计算关键词a1分别与关键词D1、D2、D3、D4的语义相似性,产生四个相似性值,确定出关键词a1对应的一个最大相似性值λ1;再计算关键词b1分别与关键词D1、D2、D3、D4的语义相似性,产生四个相似性值,确定出关键词b1对应的一个最大相似性值λ2;再计算关键词c1分别与关键词D1、D2、D3、D4的语义相似性,产生四个相似性值,确定出关键词c1对应的一个最大相似性值λ3;最后计算关键词d1分别与关键词D1、D2、D3、D4的语义相似性,产生四个相似性值,确定出关键词d1对应的一个最大相似性值λ4
根据第一关键词列表中的每个关键词计算得到最大相似性值,最终得到多个最大相似性值。
具体地,如图4所示,本实施例中,计算第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,包括:
S51、根据语料库建立关键词的共现矩阵。
S52、利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量。
在计算两个关键词的语义相似性时,首先根据大规模语料库经过分词后构建关键词的共现矩阵,确定关键词在其他句子中出现的信息,在大范围的语料库中确定关键词的出现频率,可更加准确地确定每个关键词的词向量。其中,大规模语料库如维基百科。
在对关键词的共现矩阵进行训练时,训练模型可选用GloVe模型,该模型用于进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。
本实施例中,应用GloVe模型训练共现矩阵得到词向量,用于计算单词之间的相似性,即确定每个关键词在嵌入空间内的语义相似性,嵌入空间即为向量空间。
词向量是指将单词向量化,即将单词用一个低维的嵌入空间的向量来表示,采用GloVe等基于神经概率语言模型的算法可以体现两个单词语法和语义上的相似性。
S53、根据词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值。
S54、根据第一关键词列表中的多个关键词,得到多个最大相似性值。
在确定出每个关键词的词向量后,根据词向量来计算两个关键词之间的语义相似性,分别确定出第一关键词列表中每个关键词对应的最大相似性值,第一关键词列表中存在多少个关键词,就会产生多少个最大相似性值。
以词向量最为语义相似性的计算依据,使得语义相似性的计算结果更加准确,有利于后序进行主题分类。
S6、计算文本信息与主题数据的相似性得分,相似性得分是指多个最大相似性值的平均值。
文本信息对应多个最大相似性值,该最大相似性值由第一关键词列表与第二关键词列表进行匹配所得,为更加准确地表征文本信息与主题数据的相似性得分,本实施例,将产生的多个最大相似性值进行求平均值处理,将平均值作为文本信息与主题数据的相似性得分。
平均值更能体现文本信息与主题数据的整体相似性,进而使得文本信息与主题数据的相似性判断结果更为准确。
S7、在相似性得分满足阈值条件时,将文本信息归类到主题数据中。
在确定出文本信息与主题数据的相似性得分后,判断该相似性得分是否满足阈值条件,只有在相似性得分满足阈值条件时,才说明文本信息与主题数据相似,如果相似性得分不满足阈值条件,则说明文本信息与主题数据不相似。
由于相似性得分的数据范围在0和1之间,因此,阈值条件可设定为0.85,若相似性得分大于或等于0.85时,说明文本信息与主题数据的语义相似;若相似性得分小于0.85,则说明文本信息与主题数据的语义不相似。
因此,在相似性得分满足阈值条件时,文本信息与主题数据的语义相似,因此,将该文本信息归类到主题数据中,并更新主题数据。
另外,本实施例提供的主题分类方法,还包括:在相似性得分不满足阈值条件时,建立与文本信息对应的新主题分类。
在相似性得分不满足阈值条件时,说明文本信息与主题数据的语义不相似,也就是说文本信息与已产生聚类的数据并不属于同一类,此时,需将文本信息自成一类,即将文本信息建立成新主题分类。
在形成新主题分类之后,若后续还有新的文本信息需归入这一类,那么,本实施例提供的主题分类方法,如图5所示,还包括:
S301、在新主题分类中,根据归类到新主题分类的主题信息,初始化关键词列表。
根据新主题分类中的主题信息,对该新主题分类对应的关键词列表进行初始化处理,以确定该新主题分类的语义。
S302、根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分。
针对后续添加的新文本信息,迭代修改该新主题分类中关键词列表的权重,计算出待归类文本信息与主题信息的相似性得分,以选出能够表达该新主题分类的语义的关键词。
待归类文本信息与主题信息的相似性得分是指第一关键词列表中的关键词与第二关键词列表中的关键词的相似性得分的加权和,而相似性得分是由训练模型,如GloVe模型,输出的词向量的内积计算得出;加权的权重和是由词性、词频、逆文档频率、词的位置等综合多个因素计算得出。
S303、将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
在计算出待归类文本信息与主题信息的相似性得分后,判断待归类文本信息对应的相似性得分是否大于选择条件值,若相似性得分大于或等于选择条件值,说明待归类文本信息与主题信息的语义相似性较大,因此,可将待归类文本信息添加到新主题分类中;若相似性得分小于选择条件值,说明待归类文本信息与主题信息的语义相似性较小,此时,无法将待归类文本信息添加到新主题分类中,而是将待归类文本自成一类。
从上述实施例可以看出,本发明实施例提供了一种主题分类方法,对于大规模流式的社交媒体数据,通过分词和词性标注,计算每个单词的权重,确定权重满足选择条件的单词为关键词,建立第一关键词列表。并与已知主题数据的第二关键词列表进行匹配,通过计算语义相似性,得到多个最大相似性值,并计算平均值,将平均值作为文本信息与主题数据的相似性得分,在相似性得分满足阈值条件时,将文本信息添加到主题中。本发明提供的方法,在进行主题检测时,充分考虑每个词的词性,以及词语、语句之间的相似性问题,实现新主题的发现和已知主题的自动归类,使得文本信息的主题分类更加准确。
如图6所示,本发明实施例提供的一种主题分类装置,用于执行如图1所示的主题分类方法的相关步骤,该装置包括:分词模块10,用于对社交媒体短文本的文本信息进行分词;词性标注模块20,用于对分词后所得的单词进行词性标注处理;权重计算模块30,用于根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;关键词列表建立模块40,用于建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;语义相似性计算模块50,用于计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;平均值计算模块60,用于计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;主题分类模块70,用于在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
进一步地,还包括:新主题建立模块,用于在所述相似性得分不满足阈值条件时,建立与所述文本信息对应的新主题分类。
进一步地,还包括:初始化模块,用于在所述新主题分类中,根据归类到所述新主题分类的主题信息,初始化关键词列表;初始化后的权重计算模块,用于根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分;添加新主题分类模块,用于将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
进一步地,所述权重计算模块30,包括:词频权重计算单元,用于根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重;权重计算单元,用于计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在所述文本信息中的权重。
进一步地,所述关键词列表建立模块40,包括:关键词确定单元,用于将每个所述词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词;关键词列表建立单元,用于根据多个关键词建立第一关键词列表。
进一步地,所述语义相似性计算模块50,包括:共现矩阵建立单元,用于根据语料库建立关键词的共现矩阵;词向量确定单元,用于利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量;语义相似性计算单元,用于根据所述词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值;最大相似性值确定单元,用于根据所述第一关键词列表中的多个关键词,得到多个最大相似性值。
图7为本发明实施例提供的电子设备的硬件结构示意图。如图7所示,本发明实施例提供的一种电子设备,包括:存储器601,用于存储程序指令;处理器602,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的主题分类方法。
本实施例中,处理器602和存储器601可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本发明实施例提供的一种可读存储介质,所述可读存储介质中存储有计算机程序,当主题分类装置的至少一个处理器执行所述计算机程序时,主题分类装置执行上述实施例所述的主题分类方法。
所述的可读存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于主题分类装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (14)

1.一种主题分类方法,其特征在于,包括以下步骤:
对社交媒体短文本的文本信息进行分词;
对分词后所得的单词进行词性标注处理;
根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;
建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;
计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;
计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;
在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述相似性得分不满足阈值条件时,建立与所述文本信息对应的新主题分类。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述新主题分类中,根据归类到所述新主题分类的主题信息,初始化关键词列表;
根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分;
将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
4.根据权利要求1所述的方法,其特征在于,所述根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重,包括:
根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重;
计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在所述文本信息中的权重。
5.根据权利要求1所述的方法,其特征在于,所述建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词,包括:
将每个所述词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词;
根据多个关键词建立第一关键词列表。
6.根据权利要求1所述的方法,其特征在于,所述计算第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,包括:
根据语料库建立关键词的共现矩阵;
利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量;
根据所述词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值;
根据所述第一关键词列表中的多个关键词,得到多个最大相似性值。
7.一种主题分类装置,其特征在于,包括:
分词模块,用于对社交媒体短文本的文本信息进行分词;
词性标注模块,用于对分词后所得的单词进行词性标注处理;
权重计算模块,用于根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;
关键词列表建立模块,用于建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;
语义相似性计算模块,用于计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;
平均值计算模块,用于计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;
主题分类模块,用于在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
8.根据权利要求7所述的装置,其特征在于,还包括:
新主题建立模块,用于在所述相似性得分不满足阈值条件时,建立与所述文本信息对应的新主题分类。
9.根据权利要求8所述的装置,其特征在于,还包括:
初始化模块,用于在所述新主题分类中,根据归类到所述新主题分类的主题信息,初始化关键词列表;
初始化后的权重计算模块,用于根据待归类文本信息与主题信息的语义相似性,计算待归类文本信息对应的相似性得分;
添加新主题分类模块,用于将相似性得分满足选择条件值的待归类文本信息添加到新主题分类中。
10.根据权利要求7所述的装置,其特征在于,所述权重计算模块,包括:
词频权重计算单元,用于根据每个词性标注后的单词在文本信息中的出现频率、逆文档频率和出现的位置,确定每个词性标注后的单词的词频权重;
权重计算单元,用于计算每个词性标注后的单词的词频权重和每种词性的加权系数的乘积,确定每个词性标注后的单词在所述文本信息中的权重。
11.根据权利要求7所述的装置,其特征在于,所述关键词列表建立模块,包括:
关键词确定单元,用于将每个所述词性标注后的单词在文本信息中的权重按从大到小排序,确定权重位列选择条件值前的单词为关键词;
关键词列表建立单元,用于根据多个关键词建立第一关键词列表。
12.根据权利要求7所述的装置,其特征在于,所述语义相似性计算模块,包括:
共现矩阵建立单元,用于根据语料库建立关键词的共现矩阵;
词向量确定单元,用于利用训练模型对所述关键词的共现矩阵进行训练,得到每个关键词的词向量;
语义相似性计算单元,用于根据所述词向量,计算第一关键词列表中的每个关键词与第二关键词列表中的每个关键词的语义相似性,确定第一关键词列表中的每个关键词对应的最大相似性值;
最大相似性值确定单元,用于根据所述第一关键词列表中的多个关键词,得到多个最大相似性值。
13.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1~6任一项所述的主题分类方法。
14.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当主题分类装置的至少一个处理器执行所述计算机程序时,主题分类装置执行权利要求1~6任一项所述的主题分类方法。
CN201910507841.4A 2019-06-12 2019-06-12 一种主题分类方法、装置、电子设备及可读存储介质 Pending CN110399483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507841.4A CN110399483A (zh) 2019-06-12 2019-06-12 一种主题分类方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507841.4A CN110399483A (zh) 2019-06-12 2019-06-12 一种主题分类方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110399483A true CN110399483A (zh) 2019-11-01

Family

ID=68324128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507841.4A Pending CN110399483A (zh) 2019-06-12 2019-06-12 一种主题分类方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110399483A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111552851A (zh) * 2020-04-24 2020-08-18 浙江每日互动网络科技股份有限公司 类型确定方法及装置、设备和计算机可读存储介质
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN111966674A (zh) * 2020-08-25 2020-11-20 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
CN112256843A (zh) * 2020-12-22 2021-01-22 华东交通大学 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王洁,王丽清: "多特征关键词提取算法研究", 《计算机系统应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111552851A (zh) * 2020-04-24 2020-08-18 浙江每日互动网络科技股份有限公司 类型确定方法及装置、设备和计算机可读存储介质
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN111966674A (zh) * 2020-08-25 2020-11-20 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
CN111966674B (zh) * 2020-08-25 2024-03-15 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
CN112256843A (zh) * 2020-12-22 2021-01-22 华东交通大学 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Similar Documents

Publication Publication Date Title
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
JP5379138B2 (ja) 領域辞書の作成
US20230177360A1 (en) Surfacing unique facts for entities
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN111475729A (zh) 搜索内容推荐方法及装置
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN108170666A (zh) 一种基于tf-idf关键词提取的改进方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN107885717B (zh) 一种关键词提取方法及装置
CN102081602A (zh) 确定未登录词的类别的方法和设备
Alami et al. Automatic texts summarization: Current state of the art
Wu et al. BTM and GloVe similarity linear fusion-based short text clustering algorithm for microblog hot topic discovery
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
Metïn et al. Stop word detection as a binary classification problem
CN111259156A (zh) 一种面向时间序列的热点聚类方法
CN107908649B (zh) 一种文本分类的控制方法
Háva et al. Supervised two-step feature extraction for structured representation of text data
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
Wang et al. A comparison of two text representations for sentiment analysis
CN116167369A (zh) 一种文本关键词提取方法及装置
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination