CN114491062B - 一种融合知识图谱和主题模型的短文本分类方法 - Google Patents
一种融合知识图谱和主题模型的短文本分类方法 Download PDFInfo
- Publication number
- CN114491062B CN114491062B CN202111646536.7A CN202111646536A CN114491062B CN 114491062 B CN114491062 B CN 114491062B CN 202111646536 A CN202111646536 A CN 202111646536A CN 114491062 B CN114491062 B CN 114491062B
- Authority
- CN
- China
- Prior art keywords
- text
- nodes
- topic
- keyword
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 27
- 238000013145 classification model Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013016 damping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 3
- 238000012706 support-vector machine Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012850 discrimination method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种融合知识图谱和主题模型的短文本分类方法,属于自然语言处理领域,通过对知识图谱和主题模型技术的融合,利用知识图谱获取外部知识,进行特征扩展,在不改变原文本语义的同时,能够有效地扩充短文本的特征内容;使用扩展后的文本数据训练主题模型,挖掘文本之间的语义关联并将其作为扩展特征,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于知识图谱和主题模型的短文本分类方法。
背景技术
随着互联网的快速发展,在网络新闻、社交媒体、即时通讯等领域,产生了大量的短文本数据,如何有效地从短文本数据中挖掘有价值的信息是当前一个重点研究课题。
文本分类的应用十分广泛,包括信息推荐、自动问答、搜索引擎、邮件过滤等。在过去的几十年中,国内外的研究人员提出并改进了一些机器学习和深度学习算法,并将其应用在文本分类领域,这些解决方法包括:使用向量空间模型对文本进行特征表示,然后使用分类器进行文本分类;或者使用卷积神经网络等深度学习方法对文本进行特征抽取,从而进行分类。但是,对于短文本的分类问题,这些方法取得的效果还不够理想。相比于长文本,短文本具有篇幅短小、主题明确性弱等特点,经过去除停用词等预处理之后,通常只剩下几个或十几个蕴含实际意义的词语,很难构建高质量的用于分类的特征。直接将针对长文本分类的方法应用在短文本分类问题上会产生特征稀疏问题,难以实现准确的分类。另外,文本中的多义词现象常常给文本分类带来很大的噪声。
发明内容
针对以上关于短文本分类方面存在的弊端,本发明提出了一种融合了知识图谱和主题模型的短文本分类方法,能够对短文本进行准确分类。
为解决上述技术问题,本发明采用以下技术方案:
一种融合知识图谱和主题模型的短文本分类方法,包括以下步骤:
将已有标签的短文本数据作为训练数据,进行文本的预处理;
将所述预处理后的文本进行关键词抽取,根据抽取得到的候选关键词构建候选关键词图,所述候选关键词图由节点、节点之间的边和边权重构成,所述节点即候选关键词;
采用共现关系构造任意两个节点之间的边,当节点对应的词汇在一预设长度窗口中共现时,则两个节点之间存在边,初始化各个节点的权重,再迭代计算各节点的权重,直到收敛,再按照各个节点权重的降序进行排序,选择出关键词;
将所述关键词映射到知识图谱中的实体上,得到候选实体集;
基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体,作为目标实体;
将所述目标实体作为关键词的背景知识,添加到所述短文本之后对所述短文本进行扩展,得到扩展内容,并作为基于知识图谱扩展的训练数据集;
根据所述基于知识图谱扩展的训练数据集训练出主题模型,利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数,得到各个主题的词分布和各个文档的主题分布,计算出每个文档的主题概率向量;
将所述扩展内容进行向量化得到扩展内容的文本向量,并将所述主题概率向量与所述扩展内容的文本向量拼接在一起,作为分类模型的输入;
将所述分类模型的输入作为训练数据集,输入到一短文本分类模型中进行训练,训练出短文本分类模型,利用所述训练出的短文本分类模型对待测的短文本进行分类,输出分类结果。
优选地,所述预处理包括对去除特殊符号,去除停用词和分词。
优选地,采用TextRank算法将所述预处理后的文本进行关键词抽取。
优选地,所述候选关键词图G=(V,E,W),其中节点集V={V1,V2,…,Vn},Vn∈S是候选关键词,E={(Vi,Vj)|Vi∈V^Vj∈V^wij∈W^wij≠0}是各个节点i和j之间的边的集合,W={wij|1≤i,j≤n}中的wij是节点i和j之间边的权重。
优选地,计算各节点的权重的公式为:
其中,vi,vj,vk是节点,wij是节点i和j之间边的权重;WS()是节点权重;d为阻尼系数,表示图中某一节点指向其他节点的概率;in(vi)表示指向节点vi的节点集合;out(vj)表示vj指向的节点集合。
优选地,将所述关键词映射到知识图谱中的实体的映射关系为其中k为所述关键词,e为所述知识图谱中的某一实体。
优选地,所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为:
遍历得到关键词所对应实体的描述文本集合,对所有的描述文本进行预处理,所述预处理包括分词和移除停用词;
对原短文本的上下文信息设置一个滑动窗口,从所述原短文本的词集合中获取关键词前后的词,并作为所述关键词的上下文集合;
使用word2vec将所述关键词的上下文集合中的词转换为词向量Vc;
将所述描述文本集合中的每个预处理后的描述文本转换为词向量Vd;
按照以下公式计算Vc和Vd的相似度:
优选地,所述主题模型采用LDA主题模型,采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布,根据这两个分布得到每个文档的主题概率向量。
优选地,所述短文本分类模型采用SVM模型。
本发明的优点在于对知识图谱和主题模型技术的融合,利用知识图谱获取外部知识,进行特征扩展,在不改变原文本语义的同时,能够有效地扩充短文本的特征内容;使用扩展后的文本数据训练主题模型,挖掘文本之间的语义关联并将其作为扩展特征,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。本发明方法相较于仅使用知识图谱或者仅使用主题模型取得了更好的技术效果,解决了短文本很难构建高质量的用于分类的特征的问题,利用知识图谱基于文本的原语义进行内容扩充,对扩充实体进行消歧处理。同时解决了一词多义问题,引入主题模型来挖掘文本之间的语义关联,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。
附图说明
图1是本发明实施例提供的一种融合知识图谱和主题模型的短文本分类方法流程图。
图2为本发明的实验中文本长度的统计图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明实施例提供一种融合知识图谱和主题模型的短文本分类方法,包括以下步骤:
1.短文本预处理
将已有标签的短文本数据作为训练集,待分类的短文本数据作为测试集,对文本进行去除特殊符号、去除停用词、分词等预处理。
短文本的分词:使用jieba分词工具,将短文本初步划分为一个词语的集合。
去除停用词:自定义停用词表,删除词语集合中无意义的词语,如“的”“了”以及标点符号。
最终得到词语集合S={w1,w2,…,wn}
2.短文本扩展
2.1基于TextRank算法的关键词抽取
对上步处理好的文本进行关键词的抽取,本发明实施例采用TextRank算法进行实现。TextRank算法是基于图的排序算法,利用文本的词集合建立图模型,通过计算词的权重得到关键词集合,能够实现对单一文档的关键词抽取。
首先,构建候选关键词图G=(V,E,W),其中,节点集V={V1,V2,…,Vn},Vn∈S,即文档集合中的候选关键词;E={(Vi,Vj)|Vi∈V^Vj∈V^wij∈W^wij≠0},是各个节点之间的边的集合;W={wij|1≤i,j≤n},wij是i节点与j节点之间边的权重。
然后,采用共现关系构造任意两个节点之间的边,当节点对应的词汇在长度为K的窗口中共现时,两个节点之间存在边,初始化各个节点的权重,然后迭代计算各节点的权重,直到收敛。节点vi的权重计算公式为:
其中,d为阻尼系数,表示图中某一节点指向其他节点的概率,设置为0.85;in(vi)表示指向节点vi的节点集合;out(vj)表示vj指向的节点集合;
权重收敛后,按照各个节点权重的降序进行排序,选择出关键词。
2.2关键词的实体映射
上一步已经将短文本的关键词抽取出来,接下来需要将关键词映射到知识图谱中的实体上,来获取实体的描述信息,从而对原文本进行扩展。
关键词的实体映射就是实现下面的映射关系:其中k为关键词,e为知识图谱中某一实体。
通过在知识图谱中进行查询,可以获得候选实体列表,例如,使用“地球”进行查询,可以得到以下候选实体列表:
·地球(太阳系八大行星之一);
·地球(杂志名称);
·地球(宇恒所演唱歌曲);
·地球(吕雯演唱歌曲);
·地球(同名著作)
·地球(动漫《天使与龙的轮舞》虚构地球)
·地球(y.戈蒂埃等著作)
·地球(2007年德国、英国、美国合拍纪录片)
由于自然语言具有一词多义的现象,一个关键词可能会映射到多个知识图谱中的实体。在实验中,需要选取一个最符合原文本语义的实体作为扩展内容,否则会引入大量噪声,影响分类准确性,因此需要进行实体消歧。
2.3实体消歧
从上述候选实体列表中,选取一个最符合原文语义的实体,作为背景知识。具体步骤如下:
对于某一条短文本texti,它的关键词集为:keywords(texti)={ki1,ki2,…,kin},对关键词kij进行实体映射,通过在知识图谱中查询,可得到texti的某一个关键词kij的候选实体集为:entities(kij)={eij1,eij2,…,eijn},在知识图谱中,每个实体都有一段文本形式的描述信息,用来解释该实体的含义。通过遍历得到关键词kij对应的所有实体的描述文本集合:descriptions(kij)={dij1,dij2,…,dijn},对所有的描述文本进行分词、移除停用词等预处理。
然后,获取原短文本的上下文信息,设置一个长度为l的滑动窗口,从原短文本的词集合中获取关键词kij前后的l个词,作为关键词kij的上下文集合context(kij)={kij-l,kij-l+1,…,kij,…,kij+l}
最后,使用短文本上下文信息context和descriptions来计算文本相似度,选取相似度最高的作为目标实体。
计算相似度的方法如下:
首先,使用word2vec将关键词的上下文context转换为n维的词向量Vc
然后,遍历descriptions集合,将每个分词后的描述文本转换为n维的词向量Vd
按照下列公式分别计算Vc和Vd的相似度,选取相似度最大的实体最为目标实体。
选择与关键词上下文相似度最高的实体作为目标实体。计算出短文本每个关键词的目标实体,得到的背景知识可作为短文本的扩展,用于后续主题模型和分类器模型的训练。
2.4短文本扩展
在关键词映射到对应实体后,将实体的背景知识作为扩展内容添加到短文本之后,得到扩展内容即短文本+关键词+背景知识。格式如以下表格:
短文本 | 关键词1 | 背景知识1 | 关键词2 | 背景知识2 | … | 关键词n | 背景知识n |
在后续的使用中,一来将扩展内容作为主题模型构建的输入,二来将扩展内容进行文本的预处理(如分词)等操作,进行向量化得到文本向量,用于与后续得到的主题概率向量进行拼接,作为分类模型的输入。
3.主题模型的构建
在判断文本的相似性时,根据共现单词的数量进行度量等传统方法忽视了文本间语义的内在关联,在遇到语义相近的文本之间仅有少量的共现词语时,容易产生错误的分类,LDA主题模型能够很好地解决这个问题。LDA主题模型是一个三层的贝叶斯概率生成模型,能够将每段文本表示为主题的混合分布,同时将每个主题表示为词上的概率分布,从而利用概率分布进行文本分类。
使用经过基于知识图谱扩展的训练数据集作为输入,训练出主题模型。使用Gibbs采样算法即下列公式计算文本的主题概率分布:和主题的词项概率分布: 其中/>表示文本di中属于主题s的词数,/>表示词wl属于主题s的次数,α为主题概率分布的超参数,β为词项概率分布的超参数,T为主题数量,N为文本的词数。最后得到每个文档的主题概率向量Td={t1,t2,...,tm},其中t为向量中的一个元素,m为主题的数量。
将主题概率向量与扩展后的文本向量拼接在一起,最终作为分类模型的输入。
4.分类模型的构建
SVM是一种常见的判别方法,属于一种有监督模型。SVM在机器学习领域中常用于分类、回归分析以及模式识别等。在特征数量远大于样本数量或特征数量非常多时,SVM模型往往是线性可分的,在训练文本足够的情况下,VSM模型向量化的文档具有很多的特征数量,因此选用SVM模型作为短文本分类模型。
将上面处理好的训练数据集作为SVM分类模型的输入,进行训练,得到SVM分类器。然后输入测试数据,最终输出预测的分类结果。
实验测试
实验数据:本实验采用新浪新闻标题为实验数据,该数据集包括财经、教育、科技、体育、游戏等三十二个类别。整个数据集共47952条数据,其中每个类别的数据约有1500条,如下表所示。
表1
图2所示为文本长度的统计情况,纵轴表示某条文本包含的字符数量,横轴表示文本数量。平均每条文本有18.23个字,长度在10到30之间的短文本共计44698条,占比93.2%。同时文本长度小于2的数据包含的都是无意义信息,需要进行删除。
为验证本发明方法的有效性,将特征增强后的短文本应用到短文本分类任务中。本实验采用SVM多分类模型,SVM是一种常见的判别方法,属于一种有监督模型。SVM在机器学习领域中常用于分类、回归分析以及模式识别等。在特征数量远大于样本数量或特征数量非常多时,SVM模型往往是线性可分的,在训练文本足够的情况下,向量化的文本具有很多的特征数量,因此选用SVM模型作为短文本分类模型。
本实验设置了下列四个对比实验:
(1)SVM,系基准方法,仅使用本发明实施例提供的方法中的第1部分,并对短文本向量化,使用SVM模型分类。对数据集进行常规的预处理(去除停用词、去除特殊符号、文本分词)后,使用TF-IDF算法将文本转化为特征向量,使用SVM多分类模型进行训练和验证。
(2)KG+SVM,系在上述(1)的基础上,增加本发明实施例提供的方法中的第2部分,KG代表基于知识图谱的短文本特征扩展。对数据集进行常规的预处理后,使用知识图谱对原始文本数据进行特征扩展,使用SVM多分类模型进行训练和验证。
(3)LDA+SVM,系在上述(1)的基础上,增加本发明实施例提供的方法的第3部分,LDA表示主题模型。对数据集进行常规的预处理后,使用LDA主题模型挖掘语义信息对原始文本数据进行扩展,使用SVM多分类模型进行训练和验证。
(4)KG+LDA+SVM,系在上述(1)的基础上,增加本发明实施例提供的方法的第2,3部分。对数据集进行常规的预处理后,使用知识图谱对原始文本数据进行特征扩展,使用LDA主题模型挖掘语义信息对原始文本数据进行语义扩展,使用SVM多分类模型进行训练和验证。
本实验属于多分类问题,采用精确率、召回率、F1分数来评估在各个分类上的分类结果。在分类结果有四种情况:
(1)TP(True Positive)表示预测结果为正类实际结果为正类。
(2)FP(False Positive)表示预测结果为正类实际结果为负类。
(3)TN(True Negative)表示预测结果为负类实际结果为负类。
(4)FN(False Negative)表示预测结果为负类实际结果为正类。
本实验采用以下评价指标:
(1)分类准确度(Precision):
(2)分类召回率(Recall):
(3)F1分数:
实验数据见以下表2:
表2
实验结果如表2所示,其准确率、召回率、F1分数均为32个类别上的均值,可以看出本文提出的方法KG+LDA+SVM实现了短文本的特征增强,并在短文本分类任务中取得很好的提升。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
Claims (10)
1.一种融合知识图谱和主题模型的短文本分类方法,其特征在于,包括以下步骤:
将已有标签的短文本数据作为训练数据,进行文本的预处理;
将所述预处理后的文本进行关键词抽取,根据抽取得到的候选关键词构建候选关键词图,所述候选关键词图由节点、节点之间的边和边权重构成,所述节点即候选关键词;
采用共现关系构造任意两个节点之间的边,当节点对应的词汇在一预设长度窗口中共现时,则两个节点之间存在边,初始化各个节点的权重,再迭代计算各节点的权重,直到收敛,再按照各个节点权重的降序进行排序,选择出关键词;
将所述关键词映射到知识图谱中的实体上,得到候选实体集;
基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体,作为目标实体;
将所述目标实体作为关键词的背景知识,添加到所述短文本之后对所述短文本进行扩展,得到扩展内容,并作为基于知识图谱扩展的训练数据集;
根据所述基于知识图谱扩展的训练数据集训练出主题模型,利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数,得到各个主题的词分布和各个文档的主题分布,计算出每个文档的主题概率向量;
将所述扩展内容进行向量化得到扩展内容的文本向量,并将所述主题概率向量与所述扩展内容的文本向量拼接在一起,作为分类模型的输入;
将所述分类模型的输入作为训练数据集,输入到一短文本分类模型中进行训练,训练出短文本分类模型,利用所述训练出的短文本分类模型对待测的短文本进行分类,输出分类结果。
2.如权利要求1所述的方法,其特征在于,所述预处理包括对去除特殊符号,去除停用词和分词。
3.如权利要求1所述的方法,其特征在于,采用TextRank算法将所述预处理后的文本进行关键词抽取。
4.如权利要求1所述的方法,其特征在于,所述候选关键词图G=(V,E,W),其中节点集V={V1,V2,…,Vn},Vn∈S是候选关键词,E={(Vi,Vj)|Vi∈V∧Vj∈V∧wij∈W∧wij≠0}是各个节点i和j之间的边的集合,W={wij|1≤i,j≤n}中的wij是节点i和j之间边的权重。
5.如权利要求1所述的方法,其特征在于,计算各节点的权重的公式为:
其中,vi,vj,vk是节点,wij是节点i和j之间边的权重;WS()是节点权重;d为阻尼系数,表示图中某一节点指向其他节点的概率;in(vi)表示指向节点vi的节点集合;out(vj)表示vj指向的节点集合。
6.如权利要求1所述的方法,其特征在于,将所述关键词映射到知识图谱中的实体的映射关系为f:其中k为所述关键词,e为所述知识图谱中的某一实体。
7.如权利要求1所述的方法,其特征在于,所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为:
遍历得到关键词所对应实体的描述文本集合,对所有的描述文本进行预处理,所述预处理包括分词和移除停用词;
对原短文本的上下文信息设置一个滑动窗口,从所述原短文本的词集合中获取关键词前后的词,并作为所述关键词的上下文集合;
使用word2vec将所述关键词的上下文集合中的词转换为词向量Vc;
将所述描述文本集合中的每个预处理后的描述文本转换为词向量Vd;
按照以下公式计算Vc和Vd的相似度:
8.如权利要求1所述的方法,其特征在于,所述主题模型采用LDA主题模型。
9.如权利要求1或8所述的方法,其特征在于,所述主题模型采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布,根据这两个分布得到每个文档的主题概率向量。
10.如权利要求1所述的方法,其特征在于,所述短文本分类模型采用SVM模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646536.7A CN114491062B (zh) | 2021-12-30 | 2021-12-30 | 一种融合知识图谱和主题模型的短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646536.7A CN114491062B (zh) | 2021-12-30 | 2021-12-30 | 一种融合知识图谱和主题模型的短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114491062A CN114491062A (zh) | 2022-05-13 |
CN114491062B true CN114491062B (zh) | 2024-05-03 |
Family
ID=81507620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111646536.7A Active CN114491062B (zh) | 2021-12-30 | 2021-12-30 | 一种融合知识图谱和主题模型的短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491062B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840677B (zh) * | 2022-07-04 | 2022-10-11 | 南京华飞数据技术有限公司 | 面向多粒度需求的短文本分类与智能分析方法 |
CN116108162B (zh) * | 2023-03-02 | 2024-03-08 | 广东工业大学 | 一种基于语义增强的复杂文本推荐方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-12-30 CN CN202111646536.7A patent/CN114491062B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
WO2020082560A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于知识图谱扩展的短文本分类方法;丁连红;孙斌;张宏伟;;情报工程;20181015(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114491062A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN115168580A (zh) | 一种基于关键词提取与注意力机制的文本分类方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Dhar et al. | Bengali news headline categorization using optimized machine learning pipeline | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
CN116881451A (zh) | 基于机器学习的文本分类方法 | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 | |
Mekala et al. | A survey on authorship attribution approaches | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |