CN112036485A - 主题分类的方法、装置和计算机设备 - Google Patents

主题分类的方法、装置和计算机设备 Download PDF

Info

Publication number
CN112036485A
CN112036485A CN202010897829.1A CN202010897829A CN112036485A CN 112036485 A CN112036485 A CN 112036485A CN 202010897829 A CN202010897829 A CN 202010897829A CN 112036485 A CN112036485 A CN 112036485A
Authority
CN
China
Prior art keywords
word
topic
words
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010897829.1A
Other languages
English (en)
Other versions
CN112036485B (zh
Inventor
蒋宏达
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010897829.1A priority Critical patent/CN112036485B/zh
Publication of CN112036485A publication Critical patent/CN112036485A/zh
Priority to PCT/CN2021/096982 priority patent/WO2022041898A1/zh
Application granted granted Critical
Publication of CN112036485B publication Critical patent/CN112036485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及大数据技术,揭示了主题分类的方法,包括:获取信息库中各文章分别对应的词袋模型,词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,词袋模型中包括主题词和各主题词分别对应的出现频率;将各文章分别对应的词袋模型,一一对应作为各文章的主题,并将各词袋模型输入至LDA主题模型;判断LDA主题模型根据预设主题数量,对各文章的主题进行主题分类的迭代训练过程是否收敛;若是,则获取LDA主题模型训练收敛时,输出的各文章分别对应的主题分类的分类信息。通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。

Description

主题分类的方法、装置和计算机设备
技术领域
本申请涉及大数据领域,特别是涉及到主题分类的方法、装置和计算机设备。
背景技术
现有各新闻媒体推送的热点新闻,信息数据量大且信息类型杂乱,新闻标题的命名更为了赋予吸引力而怪相重生,若要从纵多的新闻信息量中进行主题归类,需要获取到能代表新闻信息主要表达内容的主题,才能精准分类。常规的LDA的主题模型,可通过大量的文本训练,得到每篇文章的主题分布以及每个主题的词分布,然后通过将同一主题的文章聚合在一起,同时根据该主题的词分布再归纳出这一类型的文章的主题。但通过训练得到的文章的主题分布和词分布,噪声比较大,而且新闻信息中常会出现新兴词汇等,严重影响新闻信息主题分类的精准度。
发明内容
本申请的主要目的为提供数据处理方法,旨在解决现有数据扩充方式不能解决数据多样性的技术问题。
本申请提出一种主题分类的方法,包括:
获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
优选地,所述获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:
通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
将所述核心词排序,作为所述指定文章的词袋模型;
根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
优选地,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,所述删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:
判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;
若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;
判断所述预留词排序中,是否存在所述第二分词表中对应的分词;
若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
优选地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
获取所述预留词排序中名词词性对应的各名词分词;
计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;
将所述关联度低于预设阈值的指定名词,发送至人工处理终端;
将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
优选地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;
若是,则将所述异类词发送至人工处理终端;
将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
优选地,所述判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤之前,包括:
根据
Figure BDA0002658945470000031
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure BDA0002658945470000032
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;
将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;
确定所述模型粘合度曲线的拐点;
将所述拐点对应的主题数量,作为所述预设主题数量。
本申请还提供了一种主题分类的装置,包括:
第一获取模块,用于获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
输入模块,用于将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断模块,用于判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
第二获取模块,用于若收敛,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
优选地,第一获取模块,包括:
分词单元,用于通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计单元,用于统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除单元,用于删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
作为单元,用于将所述核心词排序,作为所述指定文章的词袋模型;
获取单元,用于根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。
附图说明
图1本申请一实施例的主题分类的方法流程示意图;
图2本申请一实施例的主题分类的装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的主题分类的方法,包括:
S1:获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
S2:将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
S3:判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
S4:若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
本申请实施例的信息库包括各媒体运营商的新闻信息库,包括但不限于新浪、网易等媒体平台的新闻数据信息库。本申请实施例中,各文章包括新闻信息对应的文本,为实现同一类型的新闻信息的聚类,通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。上述高频出现的无内容价值的词语,比如,包括“原因、告诉、有人、相关等等”。本申请通过词性筛选,保留表征文章主题内容的名词、动词等,并去除与内容无关的停用词后,文章剩余的词汇作为关键词或主题词,并组成主题词组合,并将关键词以及关键词的出现频次组成该文章的词袋模型。比如,一篇文章是“现阶段我国在预防新冠疫情方面取得重大突破”,通过停用词的词表以及分词工具,可以统计该篇文章的词带模型为{‘现阶段’:1,‘我国’:1,‘预防’:1,‘新冠疫情’:1,’突破’:1},至于“在“,“方面”这种分词会根据词性筛选过滤掉,因为这类词与文章的核心内容关系不大,放在词带模型中会带来数据分布的稀疏性,影响主题分类的精准度。本申请中根据预设主题数量的多少,主题分类情况不同。比如同样对于1000篇文章的主题分类,主题数量为20时与主题数量为100时,对应的分类不同。主题数量为20时,即将1000篇文章的主题分类分成20个类别,主题数量为100即将1000篇文章的主题分类分成100个类别,所以要确定待分类的文章属于哪个主题类别,需要先确定主题数量。LDA主题模型通过采样的方式,生成文章的主题,包括主题词组合。主题生成过程是一个迭代过程,比如,确定当前训练过程要生成20个主题,那么通过迭代的方式进行训练,直到LDA主题模型不再优化或者找到了当前主题数量下的最优解时,就停止迭代训练。至于确定多少主题数量,判断标准就是Coherence指标,这又是一个迭代过程,相当于每次迭代,LDA主题模型需要重新训练一遍,以最终确定对于本次的数据集,应该生成多少主题数量比较合适,比如从10至100个主题数量进行遍历迭代。
在加入去停用词和词性筛选的过程之后,LDA主题模型的训练速度变快,且能更快地进入收敛阶段。加入停用词和词性筛选之后,降低由于部分无关分词或者在大部分文章中出现频次比较少的词所带来的词带模型的稀疏性,以便LDA主题模型在统计、采样过程中相对快一些,也能在一定程度上优化LDA主题模型的分类效果。比如去除一些人名、英文符号、数字等优化LDA主题模型的分类效果。
进一步地,所述获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤S1,包括:
S11:通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
S12:统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
S13:删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
S14:将所述核心词排序,作为所述指定文章的词袋模型;
S15:根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
本申请根据Jieba分词工具进行词性标注并统计出现频率,按照由高到低的分词频次形成分词排序。本申请的Jieba分词工具除了分词,同时统计出每个分词的词性。本申请的停用词包括两类,一类通过指定词性直接确定的停用词,另一类是通过停用词的词表确定的停用词。本申请通过去掉指定词性的分词,以及删除掉停用词的词表中包括的停用词,进行降噪处理,形成词袋模型,上述两种去停用词降噪的执行次序不作限定。上述指定词性包括但不限于:“d:副词,dg:副语词,e:叹词,u:助词,w:标点符号,x:非语素词,y:语气词,z:状态词,m:数词,q:量词,p:介词,c:连词,t:时间词”。
进一步地,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,所述删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤S13,包括:
S131:判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;
S132:若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;
S133:判断所述预留词排序中,是否存在所述第二分词表中对应的分词;
S134:若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
本申请以通过先去掉指定词性的分词,再删除掉停用词的词表中包括的分词,进行降噪的方式形成词袋模型为例详细说明。本申请的停用词的词表,指用户预构造停用词对应的第二分词表。本申请中的指定词性的分词占比,要大于用户预构造停用词对应的第二分词表,且一些高频出现的分词,很大程度上为指定词性的分词,比如高频出现的助词“的”等,通过先去掉指定词性的分词,达到快速降噪的效果,节约计算资源。上述预留词指从分词排序中剔除掉指定词性对应的分词后剩余的分词,上述预留词形成的排序成为预留词排序,上述预留词排序中保持了分词排序中的排序规律,即按照由高到低的分词频次进行排序。
进一步地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤S131之前,包括:
S1311:获取所述预留词排序中名词词性对应的各名词分词;
S1312:计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;
S1333:将所述关联度低于预设阈值的指定名词,发送至人工处理终端;
S1334:将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
本申请在进行分词之前,汇总用户预构造停用词对应的第二分词表,通过增加第二分词表,解决Jieba分词无法分出的停用词,导致无法精准生成主题词的情况。本申请通过将待评价的指定名词,与句子中指定名词之外剩余的名词分词之间的关联度,判断与文章主题的相关性,并将关联度低于阈值的指定名词,发送到人工处理终端进行复核。上述关联度可通过计算分词之间的向量距离得到。比如,一些不能体现内容领域或主题内容的名词“成功、成就、未来”等等,可通过关联度从文章中筛选出来,并发送人工处理终端进行复核,若复核为内容无关词,则存储于第二分词表。本申请的停用词词表还可通过人工查看已训练好的主题模型产生的分类结果进行反向筛选,对结果中出现的一些影响分类效果的词汇进行总结,并加入到自建的停用词词库中去。上述反向筛选是说,在不知道需要过滤哪些词性的分词前,通过过滤标点符号这种词性,但其他的词性比如数词、量词等并不过滤,通过分析模型效果之后才知道,像这类词性的分词会影响模型的分类效果,因为这些分词如果作为主题词后,并不能体现主题的内容,因为大部分情况下,能代表主题内容的多为名词或名词性短语,通过反向筛选引入停用词,可以更有针对性地去除文本噪声。
进一步地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤S131之前,包括:
S1301:判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;
S1302:若是,则将所述异类词发送至人工处理终端;
S1303:将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
本申请的异类词,指Jieba分词词表之外的新兴词汇,比如新冠疫情、新冠肺炎疫情等。对于新兴词汇,无法通过Jieba分词词表进行分词,只能依靠人为对异类词进行隔断分词,并确定隔断后的分词词性,并添加至Jieba分词词表,以便后续进行分词。比如异类词“新冠疫情”之间无需隔断,整个异类词为一个名词词汇,在比如“新冠肺炎疫情”,可隔断为两个分词,即“新冠肺炎”和“疫情”。本申请的大部分新兴词汇,多为影响主题内容的名词性词汇,比如新冠肺炎、5G、云计算、区块链等等。
进一步地,所述判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤S3之前,包括:
S31:根据
Figure BDA0002658945470000081
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure BDA0002658945470000082
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;
S32:将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;
S33:确定所述模型粘合度曲线的拐点;
S34:将所述拐点对应的主题数量,作为所述预设主题数量。
LDA主题模型本质是一个含有隐变量的生成模型,通过采样统计的方式求得近似结果,一般含有隐变量的生成模型不适用数值分析的方式求得最优解。LDA主题模型依据Coherence指标来选择合适的模型主题数量,以解决模型主题数量过多或者过少导致的模型分类效果变差等问题。比如,假设有1000篇文章,如果LDA主题模型最后生成了10个主题,那也就是说1000篇文章,LDA主题模型最后只归了10个分类出来,分类粒度不够细,也就是说每个主题的主题词之间共现的概率比较小,过于宽泛,可以认为LDA主题模型只是选取了一些代表性的分词作为主题词。那如果LDA主题模型最后归纳出了200个主题,分类太细导致最后发现某个主题下的主题词在某些文章中会一起出现,且在该文章中共现的概率较高,但是在整个1000篇文章中,共现的概率还是比较小,也就是说主题词之间过度粘合,泛化性不够,因此这也会带来模型效果变差。本申请在选取主题数量的时候,通过选择Coherence曲线的拐点作为最优的主题数量。LDA主题模型评价指标中,ε存在的意义是防止分子出现零的情况,因为可能存在某两个分词在整个数据库中是不存在共现情况的,ε是一个较小的常数。C即是最后的Coherence指标,它体现的是主题的连贯性,如果说某个主题下的主题词关联度越高,则主题的连贯性越好。
举个例子:假设某个主题词组合是{疫情,新冠肺炎,发烧},那么该主题的Coherence指标如下:
Figure BDA0002658945470000091
上述1/3是表示{疫情,新冠肺炎,发烧}这个主题词组合里面的主题词,两两组合有3种组合方式,因为该指标是考察两个主题词在同一篇文章中的共现率,因此可以简单的认为PMI就是计算两个主题词在一篇文章中的共现率,如果某一个主题有N个分词,那么两两组合的排列组合结果为Cn2,即有N(N-1)/2种两两组合情况,其倒数就是Coherence指标。若将上述主题中的某个主题词如“发烧”变成了“体育”,那么“体育”一词,由于和其它分词共同出现的概率均比较低,故该主题的连贯性就比较差。
参照图2,本申请一实施例的主题分类的装置,包括:
第一获取模块1,用于获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
输入模块2,用于将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断模块3,用于判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
第二获取模块4,用于若收敛,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
本申请实施例的信息库包括各媒体运营商的新闻信息库,包括但不限于新浪、网易等媒体平台的新闻数据信息库。本申请实施例中,各文章包括新闻信息对应的文本,为实现同一类型的新闻信息的聚类,通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。上述高频出现的无内容价值的词语,比如,包括“原因、告诉、有人、相关等等”。本申请通过词性筛选,保留表征文章主题内容的名词、动词等,并去除与内容无关的停用词后,文章剩余的词汇作为关键词或主题词,并组成主题词组合,并将关键词以及关键词的出现频次组成该文章的词袋模型。比如,一篇文章是“现阶段我国在预防新冠疫情方面取得重大突破”,通过停用词的词表以及分词工具,可以统计该篇文章的词带模型为{‘现阶段’:1,‘我国’:1,‘预防’:1,‘新冠疫情’:1,’突破’:1},至于“在“,“方面”这种分词会根据词性筛选过滤掉,因为这类词与文章的核心内容关系不大,放在词带模型中会带来数据分布的稀疏性,影响主题分类的精准度。本申请中根据预设主题数量的多少,主题分类情况不同。比如同样对于1000篇文章的主题分类,主题数量为20时与主题数量为100时,对应的分类不同。主题数量为20时,即将1000篇文章的主题分类分成20个类别,主题数量为100即将1000篇文章的主题分类分成100个类别,所以要确定待分类的文章属于哪个主题类别,需要先确定主题数量。LDA主题模型通过采样的方式,生成文章的主题,包括主题词组合。主题生成过程是一个迭代过程,比如,确定当前训练过程要生成20个主题,那么通过迭代的方式进行训练,直到LDA主题模型不再优化或者找到了当前主题数量下的最优解时,就停止迭代训练。至于确定多少主题数量,判断标准就是Coherence指标,这又是一个迭代过程,相当于每次迭代,LDA主题模型需要重新训练一遍,以最终确定对于本次的数据集,应该生成多少主题数量比较合适,比如从10至100个主题数量进行遍历迭代。
在加入去停用词和词性筛选的过程之后,LDA主题模型的训练速度变快,且能更快地进入收敛阶段。加入停用词和词性筛选之后,降低由于部分无关分词或者在大部分文章中出现频次比较少的词所带来的词带模型的稀疏性,以便LDA主题模型在统计、采样过程中相对快一些,也能在一定程度上优化LDA主题模型的分类效果。比如去除一些人名、英文符号、数字等优化LDA主题模型的分类效果。
进一步地,第一获取模块1,包括:
分词单元,用于通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计单元,用于统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除单元,用于删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
作为单元,用于将所述核心词排序,作为所述指定文章的词袋模型;
获取单元,用于根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
本申请根据Jieba分词工具进行词性标注并统计出现频率,按照由高到低的分词频次形成分词排序。本申请的Jieba分词工具除了分词,同时统计出每个分词的词性。本申请的停用词包括两类,一类通过指定词性直接确定的停用词,另一类是通过停用词的词表确定的停用词。本申请通过去掉指定词性的分词,以及删除掉停用词的词表中包括的停用词,进行降噪处理,形成词袋模型,上述两种去停用词降噪的执行次序不作限定。上述指定词性包括但不限于:“d:副词,dg:副语词,e:叹词,u:助词,w:标点符号,x:非语素词,y:语气词,z:状态词,m:数词,q:量词,p:介词,c:连词,t:时间词”。
进一步地,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,删除单元,包括:
第一判断子单元,用于判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;
第一剔除子单元,用于若存在所述第一分词表中指定词性对应的分词,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;
第二判断子单元,用于判断所述预留词排序中,是否存在所述第二分词表中对应的分词;
第二剔除子单元,用于若存在所述第二分词表中对应的分词,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
本申请以通过先去掉指定词性的分词,再删除掉停用词的词表中包括的分词,进行降噪的方式形成词袋模型为例详细说明。本申请的停用词的词表,指用户预构造停用词对应的第二分词表。本申请中的指定词性的分词占比,要大于用户预构造停用词对应的第二分词表,且一些高频出现的分词,很大程度上为指定词性的分词,比如高频出现的助词“的”等,通过先去掉指定词性的分词,达到快速降噪的效果,节约计算资源。上述预留词指从分词排序中剔除掉指定词性对应的分词后剩余的分词,上述预留词形成的排序成为预留词排序,上述预留词排序中保持了分词排序中的排序规律,即按照由高到低的分词频次进行排序。
进一步地,删除单元,包括:
获取子单元,用于获取所述预留词排序中名词词性对应的各名词分词;
计算子单元,用于计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;
第一发送子单元,用于将所述关联度低于预设阈值的指定名词,发送至人工处理终端;
存储子单元,用于将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
本申请在进行分词之前,汇总用户预构造停用词对应的第二分词表,通过增加第二分词表,解决Jieba分词无法分出的停用词,导致无法精准生成主题词的情况。本申请通过将待评价的指定名词,与句子中指定名词之外剩余的名词分词之间的关联度,判断与文章主题的相关性,并将关联度低于阈值的指定名词,发送到人工处理终端进行复核。上述关联度可通过计算分词之间的向量距离得到。比如,一些不能体现内容领域或主题内容的名词“成功、成就、未来”等等,可通过关联度从文章中筛选出来,并发送人工处理终端进行复核,若复核为内容无关词,则存储于第二分词表。本申请的停用词词表还可通过人工查看已训练好的主题模型产生的分类结果进行反向筛选,对结果中出现的一些影响分类效果的词汇进行总结,并加入到自建的停用词词库中去。上述反向筛选是说,在不知道需要过滤哪些词性的分词前,通过过滤标点符号这种词性,但其他的词性比如数词、量词等并不过滤,通过分析模型效果之后才知道,像这类词性的分词会影响模型的分类效果,因为这些分词如果作为主题词后,并不能体现主题的内容,因为大部分情况下,能代表主题内容的多为名词或名词性短语,通过反向筛选引入停用词,可以更有针对性地去除文本噪声。
进一步地,删除单元,包括:
第三判断子单元,用于判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;
第二发送子单元,用于若存在Jieba分词词表之外的异类词,则将所述异类词发送至人工处理终端;
添加子单元,用于将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
本申请的异类词,指Jieba分词词表之外的新兴词汇,比如新冠疫情、新冠肺炎疫情等。对于新兴词汇,无法通过Jieba分词词表进行分词,只能依靠人为对异类词进行隔断分词,并确定隔断后的分词词性,并添加至Jieba分词词表,以便后续进行分词。比如异类词“新冠疫情”之间无需隔断,整个异类词为一个名词词汇,在比如“新冠肺炎疫情”,可隔断为两个分词,即“新冠肺炎”和“疫情”。本申请的大部分新兴词汇,多为影响主题内容的名词性词汇,比如新冠肺炎、5G、云计算、区块链等等。
进一步地,本申请另一实施例的主题分类的装置,包括:
第三获取模块,用于根据
Figure BDA0002658945470000141
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure BDA0002658945470000142
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;
拟合模块,用于将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;
确定模块,用于确定所述模型粘合度曲线的拐点;
作为模块,用于将所述拐点对应的主题数量,作为所述预设主题数量。
LDA主题模型本质是一个含有隐变量的生成模型,通过采样统计的方式求得近似结果,一般含有隐变量的生成模型不适用数值分析的方式求得最优解。LDA主题模型依据Coherence指标来选择合适的模型主题数量,以解决模型主题数量过多或者过少导致的模型分类效果变差等问题。比如,假设有1000篇文章,如果LDA主题模型最后生成了10个主题,那也就是说1000篇文章,LDA主题模型最后只归了10个分类出来,分类粒度不够细,也就是说每个主题的主题词之间共现的概率比较小,过于宽泛,可以认为LDA主题模型只是选取了一些代表性的分词作为主题词。那如果LDA主题模型最后归纳出了200个主题,分类太细导致最后发现某个主题下的主题词在某些文章中会一起出现,且在该文章中共现的概率较高,但是在整个1000篇文章中,共现的概率还是比较小,也就是说主题词之间过度粘合,泛化性不够,因此这也会带来模型效果变差。本申请在选取主题数量的时候,通过选择Coherence曲线的拐点作为最优的主题数量。LDA主题模型评价指标中,ε存在的意义是防止分子出现零的情况,因为可能存在某两个分词在整个数据库中是不存在共现情况的,ε是一个较小的常数。C即是最后的Coherence指标,它体现的是主题的连贯性,如果说某个主题下的主题词关联度越高,则主题的连贯性越好。
举个例子:假设某个主题词组合是{疫情,新冠肺炎,发烧},那么该主题的Coherence指标如下:
Figure BDA0002658945470000151
上述1/3是表示{疫情,新冠肺炎,发烧}这个主题词组合里面的主题词,两两组合有3种组合方式,因为该指标是考察两个主题词在同一篇文章中的共现率,因此可以简单的认为PMI就是计算两个主题词在一篇文章中的共现率,如果某一个主题有N个分词,那么两两组合的排列组合结果为Cn2,即有N(N-1)/2种两两组合情况,其倒数就是Coherence指标。若将上述主题中的某个主题词如“发烧”变成了“体育”,那么“体育”一词,由于和其它分词共同出现的概率均比较低,故该主题的连贯性就比较差。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储主题分类的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现主题分类的方法。
上述处理器执行上述主题分类的方法,包括:获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
上述计算机设备,通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。
在一个实施例中,上述处理器获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;将所述核心词排序,作为所述指定文章的词袋模型;根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
在一个实施例中,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,上述处理器删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;判断所述预留词排序中,是否存在所述第二分词表中对应的分词;若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
在一个实施例中,上述处理器判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:获取所述预留词排序中名词词性对应的各名词分词;计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;将所述关联度低于预设阈值的指定名词,发送至人工处理终端;将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
在一个实施例中,上述处理器判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;若是,则将所述异类词发送至人工处理终端;将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
在一个实施例中,上述处理器判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤之前,包括:根据
Figure BDA0002658945470000171
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure BDA0002658945470000172
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;确定所述模型粘合度曲线的拐点;将所述拐点对应的主题数量,作为所述预设主题数量。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现主题分类的方法,包括:获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
上述计算机可读存储介质,通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。
在一个实施例中,上述处理器获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;将所述核心词排序,作为所述指定文章的词袋模型;根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
在一个实施例中,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,上述处理器删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;判断所述预留词排序中,是否存在所述第二分词表中对应的分词;若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
在一个实施例中,上述处理器判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:获取所述预留词排序中名词词性对应的各名词分词;计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;将所述关联度低于预设阈值的指定名词,发送至人工处理终端;将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
在一个实施例中,上述处理器判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;若是,则将所述异类词发送至人工处理终端;将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
在一个实施例中,上述处理器判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤之前,包括:根据
Figure BDA0002658945470000181
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure BDA0002658945470000182
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;确定所述模型粘合度曲线的拐点;将所述拐点对应的主题数量,作为所述预设主题数量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种主题分类的方法,其特征在于,包括:
获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
2.根据权利要求1所述的主题分类的方法,其特征在于,所述获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:
通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
将所述核心词排序,作为所述指定文章的词袋模型;
根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
3.根据权利要求2所述的主题分类的方法,其特征在于,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,所述删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:
判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;
若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;
判断所述预留词排序中,是否存在所述第二分词表中对应的分词;
若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。
4.根据权利要求3所述的主题分类的方法,其特征在于,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
获取所述预留词排序中名词词性对应的各名词分词;
计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;
将所述关联度低于预设阈值的指定名词,发送至人工处理终端;
将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。
5.根据权利要求3所述的主题分类的方法,其特征在于,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;
若是,则将所述异类词发送至人工处理终端;
将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。
6.根据权利要求1所述的主题分类的方法,其特征在于,所述判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤之前,包括:
根据
Figure FDA0002658945460000031
获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,
Figure FDA0002658945460000032
ε为非零常数,PMI(ωij)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;
将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;
确定所述模型粘合度曲线的拐点;
将所述拐点对应的主题数量,作为所述预设主题数量。
7.一种主题分类的装置,其特征在于,包括:
第一获取模块,用于获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
输入模块,用于将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断模块,用于判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
第二获取模块,用于若收敛,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。
8.根据权利要求7所述的主题分类的装置,其特征在于,第一获取模块,包括:
分词单元,用于通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计单元,用于统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除单元,用于删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
作为单元,用于将所述核心词排序,作为所述指定文章的词袋模型;
获取单元,用于根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010897829.1A 2020-08-31 2020-08-31 主题分类的方法、装置和计算机设备 Active CN112036485B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010897829.1A CN112036485B (zh) 2020-08-31 2020-08-31 主题分类的方法、装置和计算机设备
PCT/CN2021/096982 WO2022041898A1 (zh) 2020-08-31 2021-05-28 主题分类的方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010897829.1A CN112036485B (zh) 2020-08-31 2020-08-31 主题分类的方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112036485A true CN112036485A (zh) 2020-12-04
CN112036485B CN112036485B (zh) 2023-10-24

Family

ID=73587486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010897829.1A Active CN112036485B (zh) 2020-08-31 2020-08-31 主题分类的方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN112036485B (zh)
WO (1) WO2022041898A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017320A (zh) * 2022-08-08 2022-09-06 杭州实在智能科技有限公司 结合词袋模型和深度学习模型的电商文本聚类方法及系统
CN117876102A (zh) * 2024-03-08 2024-04-12 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 联邦学习支持的隐私计算不动产金融风险的方法及平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
CA3052174A1 (en) * 2018-08-15 2020-02-15 Royal Bank Of Canada System and method for call centre management
US20200257762A1 (en) * 2019-02-08 2020-08-13 Royal Caribbean Cruises Ltd. Text classification and sentimentization with visualization

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101968309B1 (ko) * 2017-09-05 2019-04-11 서울시립대학교 산학협력단 문서 분류 시스템 및 그 방법
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110457674B (zh) * 2019-06-25 2021-05-14 西安电子科技大学 一种主题指导的文本预测方法
CN112036485B (zh) * 2020-08-31 2023-10-24 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CA3052174A1 (en) * 2018-08-15 2020-02-15 Royal Bank Of Canada System and method for call centre management
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
US20200257762A1 (en) * 2019-02-08 2020-08-13 Royal Caribbean Cruises Ltd. Text classification and sentimentization with visualization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁扬 等: "基于LDA主题模型的维吾尔语无监督词义消歧", 厦门大学学报(自然科学版), no. 02, pages 198 - 205 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置
CN115713085B (zh) * 2022-10-31 2023-11-07 北京市农林科学院 文献主题内容分析方法及装置

Also Published As

Publication number Publication date
WO2022041898A1 (zh) 2022-03-03
CN112036485B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN112036485A (zh) 主题分类的方法、装置和计算机设备
CN110874531B (zh) 一种话题分析方法、装置和存储介质
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN108090047B (zh) 一种文本相似度的确定方法及设备
CN106156204B (zh) 文本标签的提取方法和装置
CN112131863B (zh) 一种评论观点主题抽取方法、电子设备及存储介质
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
CN108829799A (zh) 基于改进lda主题模型的文本相似度计算方法及系统
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN113407679B (zh) 文本主题挖掘方法、装置、电子设备及存储介质
WO2022110454A1 (zh) 文本自动化生成方法、装置、电子设备及存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN110162753A (zh) 用于生成文本模板的方法、装置、设备和计算机可读介质
CN109062895B (zh) 一种智能语义处理方法
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110569351A (zh) 一种约束性用户偏好的网络媒体新闻分类方法
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN113239193A (zh) 一种文本挖掘方法及系统
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN108021546A (zh) 一种短文本特征扩展方法、装置及服务器
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN109522928A (zh) 文本的主题情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant