CN114564582A - 一种短文本分类方法、装置、设备及存储介质 - Google Patents
一种短文本分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114564582A CN114564582A CN202210182732.1A CN202210182732A CN114564582A CN 114564582 A CN114564582 A CN 114564582A CN 202210182732 A CN202210182732 A CN 202210182732A CN 114564582 A CN114564582 A CN 114564582A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- algorithm
- idf
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 238000007635 classification algorithm Methods 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种短文本分类方法、装置、设备及存储介质。该方法包括:通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;对所述目标短文本进行文本预处理,得到处理后文本;利用TF‑IDF算法和贝叶斯分类算法计算所述处理后文本的TF‑IDF加权贝叶斯后验概率,并根据所述TF‑IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。通过结合智能问答系统,教师批改学生论文时只需将学生的论文题目录入系统,可批量对学生论文进行归类,节省了教师的时间和精力,并且,采用TF‑IDF算法和贝叶斯分类算法结合的方式计算处理后文本对应的具有TF‑IDF加权的贝叶斯后验概率,提高了分类结果的精确度。
Description
技术领域
本发明涉及文本分类领域,特别涉及一种短文本分类方法、装置、设备及存储介质。
背景技术
目前,文本分类是文本处理中的一个重要模块,应用十分广泛,包括新闻分类、垃圾过滤、情感分类等,关于文本分类的算法也有很多,例如TF-IDF(term frequency–inverse document frequency)算法、word2vec均值算法、贝叶斯分类模型、卷积神经网络算法、支持向量机模型、朴素贝叶斯分类算法、textCNN(CNN,Convolutional NeuralNetwork,卷积神经网络)算法、以及深度学习中的长短期记忆网络(Long Short-TermMemory,LSTM)算法等。但是,问题分类的准确性基于自然语言处理技术中文本分类算法的分类精度,文本分类是在预先定义的主题或类别体系下,将每一个文本分类为其相关主题或类别的过程,当前有多种文本分类算法,但是不同的分类算法应用在不同的场景中,产生的分类效果各有不同,对于特定领域的特定需求,缺乏针对性的分类算法,可能出现分类精度不高的情况,因此,如何提高文本分类精度以及文本分类应用的高效性是目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种短文本分类方法、装置、设备及介质,能够提高分类结果的精确度。其具体方案如下:
第一方面,本申请公开了一种短文本分类方法,包括:
通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;
对所述目标短文本进行文本预处理,得到处理后文本;
利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
可选的,所述对所述目标短文本进行文本预处理,得到处理后文本,包括:
对所述目标短文本进行中文分词以得到多个词条;
利用预先创建的停用词表与所述词条进行对比,从所述多个词条中筛选出停用词并删除,以得到处理后文本。
可选的,所述对所述目标短文本进行中文分词以得到多个词条,包括:
利用目标匹配算法对所述目标短文本进行中文分词以得到多个词条;所述目标匹配算法为正向最大匹配算法、逆向最大匹配算法或双向匹配算法。
可选的,所述确定出所述待分类论文的分类结果之后,还包括:
根据得到的多个所述待分类论文的分类结果,计算短文本分类的准确率、召回率和F测度;
根据计算得到的所述准确率、召回率和F测度,按照预设评分规则对所述短文本分类的准确度进行评分。
可选的,所述利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果,包括:
利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重;
利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,以得到所述处理后文本对应于不同论文类别的TF-IDF加权贝叶斯后验概率;
根据所有所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
可选的,所述利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重,包括:
利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重,计算公式如下:
其中,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);bi为所述A中的特征词,i∈(1,n);TF(A,bi)为词频;IDF(A,bi)为逆文档频率;N(bi)为特征词bi在A中出现的次数;为A中所有特征词的数量;M为语料库中论文题目总数;M(bi)为包含特征词bi的论文题目数量。
可选的,所述利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,包括:
利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,计算公式如下:
其中,C为论文类别,表示为C(c1,c2,...,cj);P(cj)为类别cj的先验概率;∏为乘积符号;ai∈A,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);TFIDF(A,bi)为特征词bi的特征权重;bi为所述A中的特征词,i∈(1,n)。
第二方面,本申请公开了一种短文本分类装置,包括:
目标短文本获取模块,用于通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;
预处理模块,用于对所述目标短文本进行文本预处理,得到处理后文本;
分类模块,用于利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的短文本分类方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现前述的短文本分类方法。
本申请中,通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;对所述目标短文本进行文本预处理,得到处理后文本;利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。可见,通过智能问答系统实时获取需要进行分类的待分类论文的论文题目,然后经过文本预处理后得到处理后文本,再基于TF-IDF算法和贝叶斯分类算法计算出处理后文本的TF-IDF加权贝叶斯后验概率,最后根据该TF-IDF加权贝叶斯后验概率确定出待分类论文的分类结果,通过结合智能问答系统,教师批改学生论文时只需将学生的论文题目录入系统,即可批量对学生论文进行归类,节省了教师的时间和精力,并且,采用TF-IDF算法和贝叶斯分类算法结合的方式计算处理后文本对应的具有TF-IDF加权的贝叶斯后验概率,提高了分类结果的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种短文本分类方法流程图;
图2为本申请提供的一种短文本分类装置结构示意图;
图3为本申请提供的一种电子设备结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,关于文本分类的算法也有很多,例如TF-IDF算法、word2vec均值算法、贝叶斯分类模型、卷积神经网络算法、支持向量机模型、朴素贝叶斯分类算法、textCNN算法、以及深度学习中的长短期记忆网络算法等。但是,问题分类的准确性基于自然语言处理技术中文本分类算法的分类精度,文本分类是在预先定义的主题或类别体系下,将每一个文本分类为其相关主题或类别的过程,当前有多种文本分类算法,但是不同的分类算法应用在不同的场景中,产生的分类效果各有不同,对于特定领域的特定需求,缺乏针对性的分类算法,可能出现分类精度不高的情况。为克服上述技术问题,本申请提出一种短文本分类方法,能够提高短文本分类分类结果的精确度。
本申请实施例公开了一种短文本分类方法,参见图1所示,该方法可以包括以下步骤:
步骤S11:通过智能问答系统获取待分类论文的论文题目,以得到目标短文本。
本实施例中,首选通过智能问答系统获取待分类论文的论文题目,并将上述论文题目作为目标短文本,上述待分类论文可以为多个,本实施例中针对特定领域,即教师批改学生论文,为教师提供一个有力的智能问答系统工具,以便更加便捷的获取待分类论文的论文题目。
步骤S12:对所述目标短文本进行文本预处理,得到处理后文本。
本实施例中,获取到上述目标短文本后,对上述目标短文本进行文本预处理,得到处理后文本,上述文本预处理包括中文分词和停用词删除。
本实施例中,所述对所述目标短文本进行文本预处理,得到处理后文本,可以包括:对所述目标短文本进行中文分词以得到多个词条;利用预先创建的停用词表与所述词条进行对比,从所述多个词条中筛选出停用词并删除,以得到处理后文本。中文分词(Chinese Word Segmentation)即将一串中文汉字序列切分成一个一个独立的词语,分词就是按照一定的规则将连续的汉字序列重新组合成词序列的过程。停用词是指在中文文本中存在的一些对文本内容区别意义不大但出现频率很高的词,具体可以通过创建一个停用词表来完成停用词的删除,停用词表中涵盖了几乎所有的停用词,对每一个词条,查询其是否位于停用词表中,如果存在则将其从词条串中删除。
本实施例中,所述对所述目标短文本进行中文分词以得到多个词条,可以包括:利用目标匹配算法对所述目标短文本进行中文分词以得到多个词条;所述目标匹配算法为正向最大匹配算法、逆向最大匹配算法或双向匹配算法。即具体可以采用正向最大匹配算法、逆向最大匹配算法或双向匹配算法对目标短文本进行中文分词以得到多个词条,优选的,可以采用双向匹配算法,双向匹配算法对文本进行从左到右和从右到左两次匹配,具有更好的分词效果。
步骤S13:利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
本实施例中,文本预处理后,利用TF-IDF算法和贝叶斯分类算法计算处理后文本的TF-IDF加权贝叶斯后验概率,并根据该TF-IDF加权贝叶斯后验概率确定出待分类论文的分类结果,可以理解的是,文本分类就是将待分类文本分成预先定义好的类别,具体的,本实施例中在得到上述处理后文本后,通过文本表示及特征选择得到处理后文本对应的文本向量,利用预先基于TF-IDF算法和贝叶斯分类算法构造的分类器,根据文本的特征对上述文本向量进行分类。即本实施例中首先进行了文本预处理,完成了中文分词及停用词剔除,在此基础上进行了文本向量表示、特征提取,通过训练文本集,完成分类器构造,然后对待分类样本进行分类,并对分类结果进行评价,总体提高了分类结果的精确度。
本实施例中,所述利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果,可以包括:利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重;利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,以得到所述处理后文本对应于不同论文类别的TF-IDF加权贝叶斯后验概率;根据所有所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。即本实施例中,利用TF-IDF算法计算处理后文本中每个特征词的特征权重,然后在贝叶斯算法基础上结合会上述特征权重,计算处理后文本对应于不同论文类别的概率,以得到处理后文本对应于不同论文类别的TF-IDF加权贝叶斯后验概率。
本实施例中,所述利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重,可以包括:利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重,计算公式如下:
其中,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);bi为所述A中的特征词,i∈(1,n);TF(A,bi)为词频;IDF(A,bi)为逆文档频率;N(bi)为特征词bi在A中出现的次数;为A中所有特征词的数量;M为语料库中论文题目总数;M(bi)为包含特征词bi的论文题目数量。
本实施例中,所述利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,可以包括:利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,计算公式如下:
其中,C为论文类别,表示为C(c1,c2,...,cj);P(cj)为类别cj的先验概率;∏为乘积符号;ai∈A,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);TFIDF(A,bi)为特征词bi的特征权重;bi为所述A中的特征词,i∈(1,n)。
可以理解的是,本实施例提出了一种基于TF-IDF加权的传统贝叶斯分类器算法。贝叶斯文本分类模型是一种典型的基于统计方法的分类模型,它利用先验信息和样本数据信息来确定事件的后验概率,贝叶斯文本分类的目的是将表示为向量的待分类文本A(a1,a2,...,an)归类到与其最相关的预先定义的类别C(c1,c2,...,cj)中去;其中A(a1,a2,...,an)是待分类文本At的特征向量,求解向量A(a1,a2,…,an)属于给定类别C(c1,c2,…,cj)的概率值P(p1,p2,...,pj),其中pj表示A(a1,a2,...,an)属于类别cj的概率。贝叶斯公式如下:
则求解max(p1,p2,...,pj)的结果所对应即为待分类文本X所属的类别,所以根据上述公式,文本分类的问题可以描述为求解下述方程的最大值:
上式中,P((a1,a2,...,an)|cj)表示若待分类文本属于类别cj,则类别cj包含待分类文本(a1,a2,...,an)的概率值;P(cj)表示类别cj的先验概率,即训练文本集中,文本属于类别cj的概率;P(c1,c2,...,cj)是指待分类文本X属于所有给定类别的联合概率。因为对于给定的类别,分母P(c1,c2,...,cj)是确定不变的,所以在求解上式的后验概率时,只需求解分子的最大值,即
根据贝叶斯假设,文本特征向量属a1,a2,...,an是独立分布的,所以上式的联合概率分布等价于各属性特征概率分布的乘积,即上式变为
贝叶斯分类算法没有考虑到分类时,同一特征词在不同类别中的特征权重不一样,在独立性假设下,认为同一特征词的权重相同,这样会降低分类的准确性,所以需要对同一特征词计算在不同类别中的权重大小,以提高分类精度。因此,本实施例在贝叶斯分类算法基础上,结合TF-IDF算法赋予特征词不同的权重值。TF-IDF词频-逆向文件频率,是一种统计方法,用来评估一字词在一个文件集中的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比下降。对于待分类文本A(a1,a2,...,an)中的特征词bi,特征向量的权重公式TF-IDF如下,也就是数据集中待分类文本A(a1,a2,...,an)中的特征词bi的特征权重:
进而,利用贝叶斯分类算法结合上述特征权重得到TF-IDF加权贝叶斯后验概率计算公式:
由此一来,针对特定的问答系统场景,即教师批改学生论文,利用智能问答系统工具获取论文题目,针对短文本提出TF-IDF加权的贝叶斯分类算法对录入的学生论文题目进行归类,从而提高批改作业效率,节省有效时间,且提高了文本分类的精确度,进而提高了分类的准确性。为用户提供了定制化的智能问答工具,实现了论文文本分类,避免了人工分类的重复性,提高了工作效率,并且将改进的文本分类应用到了特定领域以及特定的智能问答工具,满足了教师的特定需求。
本实施例中,所述确定出所述待分类论文的分类结果之后,还可以包括:根据得到的多个所述待分类论文的分类结果,计算短文本分类的准确率、召回率和F测度;根据计算得到的所述准确率、召回率和F测度,按照预设评分规则对所述短文本分类的准确度进行评分。即对已分类的文本可以进行一下分类结果准确度评价:
1)准确率,是指分类结果中的某类别判断正确的文本数量占据该类别样本总量的比例,衡量的是智能问答工具中分类的查准率,公式如下:
其中,x表示样本属于类别cj,且同时被分类器正确分类到类别cj的样本数量,y表示样本不属于类别cj,但被分类器分到类别cj的样本数量。
2)召回率,是指原来某个类别的文本的分类结果中有多少被预测为正确的比例,即分类器正确分类的样本数量占该类实际样本的比例,是针对原来样本而言的,衡量的是智能问答工具中分类的查全率。公式如下:
其中z表示样本属于类别cj,但被分类器分到其他类别的样本数量。
3)F测度,是准确率和召回率的加权调和平均,公式如下
F1可用来对本智能问答工具中的分类器进行综合评价,最大为1,最小为0,F1越接近1,表示分类器的分类精度越高。可见,本实施例中通过文本分类评价方法,实现了对分类准确度的综合评价,进而便于提高分类精度。
由上可见,本实施例中通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;对所述目标短文本进行文本预处理,得到处理后文本;利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。可见,通过智能问答系统实时获取需要进行分类的待分类论文的论文题目,然后经过文本预处理后得到处理后文本,再基于TF-IDF算法和贝叶斯分类算法计算出处理后文本的TF-IDF加权贝叶斯后验概率,最后根据该TF-IDF加权贝叶斯后验概率确定出待分类论文的分类结果,通过结合智能问答系统,教师批改学生论文时只需将学生的论文题目录入系统,即可批量对学生论文进行归类,节省了教师的时间和精力,并且,采用TF-IDF算法和贝叶斯分类算法结合的方式计算处理后文本对应的具有TF-IDF加权的贝叶斯后验概率,提高了分类结果的精确度。
相应的,本申请实施例还公开了一种短文本分类装置,参见图2所示,该装置包括:
目标短文本获取模块11,用于通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;
预处理模块12,用于对所述目标短文本进行文本预处理,得到处理后文本;
分类模块13,用于利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
由上可见,本实施例中通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;对所述目标短文本进行文本预处理,得到处理后文本;利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。可见,通过智能问答系统实时获取需要进行分类的待分类论文的论文题目,然后经过文本预处理后得到处理后文本,再基于TF-IDF算法和贝叶斯分类算法计算出处理后文本的TF-IDF加权贝叶斯后验概率,最后根据该TF-IDF加权贝叶斯后验概率确定出待分类论文的分类结果,通过结合智能问答系统,教师批改学生论文时只需将学生的论文题目录入系统,即可批量对学生论文进行归类,节省了教师的时间和精力,并且,采用TF-IDF算法和贝叶斯分类算法结合的方式计算处理后文本对应的具有TF-IDF加权的贝叶斯后验概率,提高了分类结果的精确度。
在一些具体实施例中,所述预处理模块12具体可以包括:
分词单元,用于对所述目标短文本进行中文分词以得到多个词条;
停用词删除单元,用于利用预先创建的停用词表与所述词条进行对比,从所述多个词条中筛选出停用词并删除,以得到处理后文本。
在一些具体实施例中,所述分词单元具体可以用于利用目标匹配算法对所述目标短文本进行中文分词以得到多个词条;所述目标匹配算法为正向最大匹配算法、逆向最大匹配算法或双向匹配算法。
在一些具体实施例中,所述短文本分类装置具体可以包括:
计算单元,用于根据得到的多个所述待分类论文的分类结果,计算短文本分类的准确率、召回率和F测度;
评分单元,用于根据计算得到的所述准确率、召回率和F测度,按照预设评分规则对所述短文本分类的准确度进行评分。
在一些具体实施例中,所述分类模块13具体可以包括:
特征权重计算单元,用于利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重;
概率计算单元,用于利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,以得到所述处理后文本对应于不同论文类别的TF-IDF加权贝叶斯后验概率;
分类结果确定单元,用于根据所有所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
在一些具体实施例中,所述特征权重计算单元具体可以用于利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重,计算公式如下:
其中,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);bi为所述A中的特征词,i∈(1,n);TF(A,bi)为词频;IDF(A,bi)为逆文档频率;N(bi)为特征词bi在A中出现的次数;为A中所有特征词的数量;M为语料库中论文题目总数;M(bi)为包含特征词bi的论文题目数量。
在一些具体实施例中,所述概率计算单元具体可以用于利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,计算公式如下:
其中,C为论文类别,表示为C(c1,c2,...,cj);P(cj)为类别cj的先验概率;∏为乘积符号;ai∈A,A为所述处理后文本的特征向量,表示为A(a1,a2,...,an);TFIDF(A,bi)为特征词bi的特征权重;bi为所述A中的特征词,i∈(1,n)。
进一步的,本申请实施例还公开了一种电子设备,参见图3所示,图中的内容不能被认为是对本申请的使用范围的任何限制。
图3为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的短文本分类方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及包括目标短文本在内的数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的短文本分类方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述任一实施例公开的短文本分类方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种短文本分类方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种短文本分类方法,其特征在于,包括:
通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;
对所述目标短文本进行文本预处理,得到处理后文本;
利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
2.根据权利要求1所述的短文本分类方法,其特征在于,所述对所述目标短文本进行文本预处理,得到处理后文本,包括:
对所述目标短文本进行中文分词以得到多个词条;
利用预先创建的停用词表与所述词条进行对比,从所述多个词条中筛选出停用词并删除,以得到处理后文本。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述对所述目标短文本进行中文分词以得到多个词条,包括:
利用目标匹配算法对所述目标短文本进行中文分词以得到多个词条;所述目标匹配算法为正向最大匹配算法、逆向最大匹配算法或双向匹配算法。
4.根据权利要求1所述的短文本分类方法,其特征在于,所述确定出所述待分类论文的分类结果之后,还包括:
根据得到的多个所述待分类论文的分类结果,计算短文本分类的准确率、召回率和F测度;
根据计算得到的所述准确率、召回率和F测度,按照预设评分规则对所述短文本分类的准确度进行评分。
5.根据权利要求1至4任一项所述的短文本分类方法,其特征在于,所述利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果,包括:
利用TF-IDF算法计算所述处理后文本中每个特征词的特征权重;
利用贝叶斯分类算法结合所述特征权重计算所述处理后文本对应于不同论文类别的概率,以得到所述处理后文本对应于不同论文类别的TF-IDF加权贝叶斯后验概率;
根据所有所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
8.一种短文本分类装置,其特征在于,包括:
目标短文本获取模块,用于通过智能问答系统获取待分类论文的论文题目,以得到目标短文本;
预处理模块,用于对所述目标短文本进行文本预处理,得到处理后文本;
分类模块,用于利用TF-IDF算法和贝叶斯分类算法计算所述处理后文本的TF-IDF加权贝叶斯后验概率,并根据所述TF-IDF加权贝叶斯后验概率确定出所述待分类论文的分类结果。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的短文本分类方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的短文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210182732.1A CN114564582A (zh) | 2022-02-25 | 2022-02-25 | 一种短文本分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210182732.1A CN114564582A (zh) | 2022-02-25 | 2022-02-25 | 一种短文本分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564582A true CN114564582A (zh) | 2022-05-31 |
Family
ID=81715926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210182732.1A Pending CN114564582A (zh) | 2022-02-25 | 2022-02-25 | 一种短文本分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564582A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292487A (zh) * | 2022-07-22 | 2022-11-04 | 杭州易有料科技有限公司 | 基于朴素贝叶斯的文本分类方法、装置、设备和介质 |
CN115687629A (zh) * | 2023-01-03 | 2023-02-03 | 深圳竹云科技股份有限公司 | 文本生成方法、装置、计算机设备、存储介质 |
-
2022
- 2022-02-25 CN CN202210182732.1A patent/CN114564582A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292487A (zh) * | 2022-07-22 | 2022-11-04 | 杭州易有料科技有限公司 | 基于朴素贝叶斯的文本分类方法、装置、设备和介质 |
CN115687629A (zh) * | 2023-01-03 | 2023-02-03 | 深圳竹云科技股份有限公司 | 文本生成方法、装置、计算机设备、存储介质 |
CN115687629B (zh) * | 2023-01-03 | 2023-04-04 | 深圳竹云科技股份有限公司 | 文本生成方法、装置、计算机设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10942962B2 (en) | Systems and methods for categorizing and moderating user-generated content in an online environment | |
Rennie et al. | Tackling the poor assumptions of naive bayes text classifiers | |
CN111177374B (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN107562717B (zh) | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
US9224155B2 (en) | Systems and methods for managing publication of online advertisements | |
CN114564582A (zh) | 一种短文本分类方法、装置、设备及存储介质 | |
CN111611374A (zh) | 语料扩充方法、装置、电子设备及存储介质 | |
CN113553806B (zh) | 文本数据增强方法、装置、设备和介质 | |
CN109766547B (zh) | 一种句子相似度计算方法 | |
CN116306317A (zh) | 一种基于人工智能的aigc自动建模系统 | |
CN107092679B (zh) | 一种特征词向量获得方法、文本分类方法及装置 | |
CN111400495A (zh) | 一种基于模板特征的视频弹幕消费意图识别方法 | |
CN104216880A (zh) | 基于互联网的术语定义辨析方法 | |
CN115391539A (zh) | 语料数据的处理方法、装置及电子设备 | |
CN103744830A (zh) | 基于语义分析的excel文档中身份信息的识别方法 | |
CN114896398A (zh) | 一种基于特征选择的文本分类系统及方法 | |
CN108595564B (zh) | 媒体友好度评估方法、装置及计算机可读存储介质 | |
Wrzalik et al. | Balanced word clusters for interpretable document representation | |
CN113821669A (zh) | 搜索方法、装置、电子设备和存储介质 | |
Bruce | A Bayesian Approach to Semi-Supervised Learning. | |
CN110941963A (zh) | 一种基于句子情感属性的文本属性生成观点摘要方法与系统 | |
Lee et al. | A comparative study on statistical machine learning algorithms and thresholding strategies for automatic text categorization | |
CN108647335A (zh) | 网络舆情分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |