CN109325123A - 基于补集特征的贝叶斯文档分类方法、装置、设备及介质 - Google Patents

基于补集特征的贝叶斯文档分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN109325123A
CN109325123A CN201811146775.4A CN201811146775A CN109325123A CN 109325123 A CN109325123 A CN 109325123A CN 201811146775 A CN201811146775 A CN 201811146775A CN 109325123 A CN109325123 A CN 109325123A
Authority
CN
China
Prior art keywords
document
sorted
feature words
classification
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811146775.4A
Other languages
English (en)
Other versions
CN109325123B (zh
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811146775.4A priority Critical patent/CN109325123B/zh
Publication of CN109325123A publication Critical patent/CN109325123A/zh
Application granted granted Critical
Publication of CN109325123B publication Critical patent/CN109325123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于补集特征的贝叶斯文档分类方法、装置、设备及介质,所述方法包括:对待分类文档进行分词处理,并确定所述待分类文档的特征词;基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;根据所述最大似然概率确定所述待分类文档的归属类别。通过采用上述技术方案,有效解决了由于样本类别数量不均衡导致的文档分类结果不准确的问题,提高了文档分类的准确度。

Description

基于补集特征的贝叶斯文档分类方法、装置、设备及介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于补集特征的贝叶斯文档分类方法、装置、设备及介质。
背景技术
随着互联网信息的发展,文档分类的速度和精度显得越来越重要。文档分类极大的解决了网上信息杂乱无章的问题,且通过文档分类能够使用户快速且准确定位到自己所需要的信息。文档分类是通过一种分类模型或者函数,利用大量带有标记的训练样本,将待分类文档映射到指定的样本类别。
在现有的文档分类方法中普遍存在一种现象:由于各样本类别的训练样本不均衡导致分类时分类结果会偏向训练样本数量较多的样本类别。例如当某个样本类别的训练样本数量比其它样本类别的训练样本数量多出很多时,在模型训练的时候,会对训练样本数量较多的样本类别的特征进行较多的学习,而对于训练样本数量较少的样本类别的特征学习的则较少,因此,当对一个新的文档进行分类的时候,分类结果会偏向训练样本数量较多的样本类别,导致对待分类文档进行错误分类,分类的准确度不高。
发明内容
本发明实施例提供一种基于补集特征的贝叶斯文档分类方法、装置、设备及介质,所述分类方法有效解决了由于样本类别数量不均衡导致的文档分类结果不准确的问题,提高了文档分类的准确度。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种基于补集特征的贝叶斯文档分类方法,所述方法包括:
对待分类文档进行分词处理,并确定所述待分类文档的特征词;
基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
根据所述最大似然概率确定所述待分类文档的归属类别。
进一步的,所述基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重,包括:
按照如下公式计算所述待分类文档中每个特征词的权重:
其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,表示特征词wij在待分类文档i中出现的次数,表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,表示文档语料中包含特征词wij的文档总数,表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。
进一步的,所述根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率,包括:
按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:
其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,k表示文档语料中文档的序号,表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,表示特征词wij在除类别C之外的其他类别的文档中的权重和,表示除类别C之外的其他类别的文档中所有特征词的权重和。
进一步的,所述根据所述最大似然概率确定所述待分类文档的归属类别,包括:
根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;
将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。
进一步的,所述根据所述最大似然概率确定所述待分类文档归属各类别的归属概率,包括:
按照如下公式确定所述待分类文档归属各类别的归属概率:
其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,N表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。
进一步的,按照如下公式确定所述归属概率中的最小值:
P(C|i)min=min{P(C|i)|C∈CO}
其中,CO表示文档语料中所有类别构成的集合。
进一步的,所述对待分类文档进行分词处理,并确定所述待分类文档的特征词,包括:
利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。
第二方面,本发明实施例提供了一种基于补集特征的贝叶斯文档分类装置,所述装置包括:
分词模块,用于对待分类文档进行分词处理,并确定所述待分类文档的特征词;
权重计算模块,用于基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
最大似然概率计算模块,用于根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
类别确定模块,用于根据所述最大似然概率确定所述待分类文档的归属类别。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于补集特征的贝叶斯文档分类方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的基于补集特征的贝叶斯文档分类方法。
本发明实施例提供的一种基于补集特征的贝叶斯文档分类方法,通过对待分类文档进行分词处理,并确定所述待分类文档的特征词;基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;根据所述最大似然概率确定所述待分类文档的归属类别的技术手段,有效解决了由于样本类别数量不均衡导致的文档分类结果不准确的问题,提高了文档分类的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于补集特征的贝叶斯文档分类方法流程示意图;
图2为本发明实施例二提供的一种基于补集特征的贝叶斯文档分类装置结构示意图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一提供的一种基于补集特征的贝叶斯文档分类方法流程示意图。本实施例公开的基于补集特征的贝叶斯文档分类方法是对现有的贝叶斯文档分类算法进行的改进,旨在解决由于训练样本类别不均衡导致分类结果错误的问题。所述基于补集特征的贝叶斯文档分类方法可以由基于补集特征的贝叶斯文档分类装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在终端中,例如服务器等。具体参见图1所示,该方法包括如下步骤:
110、对待分类文档进行分词处理,并确定所述待分类文档的特征词。
具体的,利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。
所述停用词是指在信息检索中,为了节省存储空间和提高检索效率,在处理自然语言文本之前或之后自动过滤掉某些字或词,这些被过滤掉的字或词称为停用词。对于一个给定的目标,任何一类的词语都可以被选作停用词,即停用词是基于给定目标,给定领域由人工输入的,非自动化生成的,人工输入的停用词会形成一个停用词表。通常,那些不能表示实际含义的词被当作停用词,例如:“的”、“把”以及“吗”等。为了提高分词的准确度,针对特定领域通常需预先整理一份包含特定领域词的语料库,在对该特定领域的文档进行分词时,基于所述语料库对语料库中的各分词进行统计,根据统计结果确定最佳的分词方式。例如,在直播间领域,基于预先整理的包含特定领域词的语料库对待分类文档“d1=小姐姐人美声甜,可爱呀”进行分词处理,并去除停用词得到“d1=小姐姐人美声甜可爱”,即待分类文档d1的特征词包括:“小姐姐”、“人美声甜”和“可爱”。再例如对待分类文档“d2=主播枪法如神,车技可以”进行分词处理,并去除停用词得到“d2=主播枪法如神车技”,即待分类文档d2的特征词包括:“主播”、“枪法如神”和“车技”。
120、基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重。
其中,所述预先标注好的类别称为样本类别,所述样本类别具体可以指新闻、体育、娱乐以及财经等,在直播领域,所述样本类别还可以指颜值、游戏等。每个类别下都包括一定数量的样本文档,例如样本类别“颜值”包括一定数量的与“颜值”相关的样本文档,所述样本类别以及对应的样本文档组成所述文档语料。通过对待分类文档与文档语料中已知类别的样本文档基于一定规则进行相似性判断,最终将待分类文档分类至对应的类别中。
示例性的,所述基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重,包括:
按照如下公式计算所述待分类文档中每个特征词的权重:
其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,表示特征词wij在待分类文档i中出现的次数,表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,表示文档语料中包含特征词wij的文档总数,表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。
130、根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率。
示例性的,按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:
其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,wordkj可通过上述公式(1)求得,k表示文档语料中文档的序号,表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,表示特征词wij在除类别C之外的其他类别的文档中的权重和,表示除类别C之外的其他类别的文档中所有特征词的权重和。
上述公式(2)通过利用特征词wij在除类别C之外其他类别文档中的权重和,以及除类别C之外其他类别文档中所有特征词的权重和,表征特征词wij在当前类别C的补集中的特征,通过上述公式(2)可求得特征词wij在除当前类别C以外的其他类别中出现次数的最大似然概率估计,即特征词wij在当前类别C的补集中出现次数的最大似然概率,若特征词wij在除当前类别C以外的其他类别中出现次数的最大似然概率越大,则特征词wij归属当前类别C的概率越小,若特征词wij在除当前类别C以外的其他类别中出现次数的最大似然概率越小,则特征词wij归属当前类别C的概率越大,通过反例的思想,补集的特征得到特征词wij的归属类别,最终根据待分类文档中每个特征词的归属类别确定所述待分类文档的归属类别。
140、根据所述最大似然概率确定所述待分类文档的归属类别。
进一步的,所述根据所述最大似然概率确定所述待分类文档的归属类别,包括:
根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;
将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。
具体的,按照如下公式确定所述待分类文档归属各类别的归属概率:
其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,N表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,可通过上述公式(2)计算得到,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。
上述公式(3)延用公式(2)中特征词补集特征的思想,若待分类文档i归属除类别C之外其他类别的概率越大,则表示待分类分档i归属当前类别C的概率越小,若待分类文档i归属除类别C之外其他类别的概率越小,则表示待分类分档i归属当前类别C的概率越大,因此,所述待分类文档i的归属类别为上述公式(3)所述的归属概率中的最小值对应的类别,上述公式(3)所述的归属概率中的最小值可表示为:P(C|i)min=min{P(C|i)|C∈CO},其中,CO表示文档语料中所有类别构成的集合。
举例说明上述基于补集特征的贝叶斯文档分类方法的分类过程:
假设预先标注好类别的文档语料中有两个类别:分别是“游戏”类别和“颜值”类别,现有两个待分类文档分别为:第一待分类文档d1=小姐姐人美声甜,可爱呀,第二待分类文档d2=主播枪法如神,车技可以;第一待分类文档d1以及第二待分类文档d2经过分词处理以及去除停用词后分别得到:第一待分类文档d1=小姐姐人美声甜可爱;第二待分类文档d2=主播枪法如神车技;假设根据上述公式(1)求得每个特征词的权重为:word(小姐姐)=0.55,word(人美声甜)=0.45,word(可爱)=0.65,word(主播)=0.5,word(枪法如神)=0.74,word(车技)=0.35;假设根据上述公式(2)得到每个特征词属于各类别的最大似然概率分别为:P(小姐姐|颜值)=0.1,P(小姐姐|游戏)=0.67,p(人美声甜|颜值)=0.15,P(人美声甜|游戏)=0.65,p(可爱|颜值)=0.2,P(可爱|游戏)=0.5,P(主播|颜值)=0.5,P(主播|游戏)=0.5,P(枪法如神|颜值)=0.65,p(枪法如神|游戏)=0.2,P(车技|颜值)=0.75,P(车技|游戏)=0.3。需要说明的是,P(小姐姐|颜值)=0.1表示特征词“小姐姐”属于除类别“颜值”之外其他类别的最大似然概率,并非表示特征词“小姐姐”属于类别“颜值”的最大似然概率,而是属于当前类别“颜值”的补集(在该举例中,当前类别“颜值”的补集为类别“游戏”)的最大似然概率。每个特征词属于各类别的最大似然概率的含义参照上述解释,不再一一赘述。
假设“游戏”类别下的文档语料有10篇,“颜值”类别下的文档语料有5篇,则类别C在文档语料中出现的概率P(C)为:P(游戏)=10/(10+1+5)=0.625,P(颜值)=5/(10+1+5)=0.312;进一步根据上述公式(3)可以求得第一待分类文档d1和第二待分类文档d2归属各类别的概率:第一待分类文档d1归属除类别“游戏”之外其他类别(在该举例中除类别“游戏”之外其他类别指类别“颜值”)的归属概率为:
P(游戏|小姐姐人美声甜可爱)
=P(小姐姐|游戏)*P(人美声甜|游戏)*P(可爱|游戏)*p(游戏)
=0.67*0.65*0.5*0.625=0.136
第一待分类文档d1归属除类别“颜值”之外其他类别文档(在该举例中除类别“颜值”之外其他类别指类别“游戏”)的归属概率为:
P(颜值|小姐姐人美声甜可爱)
=P(小姐姐|颜值)*P(人美声甜|颜值)*P(可爱|颜值)*p(颜值)
=0.1*0.15*0.2*0.312=0.00093
若待分类文档归属除当前类别之外其他类别的概率越小,则表示待分类分档归属当前类别的概率越大,因此,待分类文档归属于归属概率中的最小值对应的类别,由于P(颜值|小姐姐人美声甜可爱)<P(游戏|小姐姐人美声甜可爱),因此,第一待分类文档d1的归属类别为“颜值”类别。
同理,第二待分类文档d2归属除类别“游戏”之外其他类别(在该举例中除类别“游戏”之外其他类别指类别“颜值”)的归属概率为:
P(游戏|主播枪法如神,车技可以)
=P(主播|游戏)*P(枪法如神|游戏)*P(车技|游戏)*p(游戏)
=0.5*0.2*0.3*0.625=0.0188
第二待分类文档d2归属除类别“颜值”之外其他类别文档(在该举例中除类别“颜值”之外其他类别指类别“游戏”)的归属概率为:
P(颜值|主播枪法如神,车技可以)
=P(主播|颜值)*P(枪法如神|颜值)*P(车技|颜值)*p(颜值)
=0.5*0.65*0.75*0.312=0.076
由于P(游戏|主播枪法如神,车技可以)<P(颜值|主播枪法如神,车技可以),因此,第二待分类文档d2的归属类别为“游戏”类别。
本实施例提供的一种基于补集特征的贝叶斯文档分类方法,基于反例的思想,通过利用特征词在当前类别的补集中的特征表示特征词在当前类别的特征,对现有贝叶斯文档分类方法进行了改进,有效解决了由于样本类别数量不均衡导致的文档分类结果不准确的问题。
实施例二
图2为本发明实施例二提供的一种基于补集特征的贝叶斯文档分类装置结构示意图。参见图2所示,所述装置包括:分词模块210、权重计算模块220、最大似然概率计算模块230和类别确定模块240;
其中,分词模块210,用于对待分类文档进行分词处理,并确定所述待分类文档的特征词;
权重计算模块220,用于基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
最大似然概率计算模块230,用于根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
类别确定模块240,用于根据所述最大似然概率确定所述待分类文档的归属类别。
进一步的,权重计算模块220具体用于:
按照如下公式计算所述待分类文档中每个特征词的权重:
其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,表示特征词wij在待分类文档i中出现的次数,表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,表示文档语料中包含特征词wij的文档总数,表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。
进一步的,最大似然概率计算模块230具体用于:
按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:
其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,k表示文档语料中文档的序号,表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,表示特征词wij在除类别C之外其他类别的文档中的权重和,表示除类别C之外其他类别的文档中所有特征词的权重和。
进一步的,类别确定模块240包括:
归属概率确定单元,用于根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;
归属类别确定单元,用于将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。
进一步的,所述归属概率确定单元具体用于:按照如下公式确定所述待分类文档归属各类别的归属概率:
其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,N表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。
进一步的,所述归属类别确定单元具体用于:按照如下公式确定所述归属概率中的最小值:
P(C|i)min=min{P(C|i)|C∈CO}
其中,CO表示文档语料中所有类别构成的集合。
进一步的,分词模块210具体用于:利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。
本实施例提供的一种基于补集特征的贝叶斯文档分类装置,基于反例的思想,通过利用特征词在当前类别的补集中的特征表示特征词在当前类别的特征,对现有贝叶斯文档分类方法进行了改进,有效解决了由于样本类别数量不均衡导致的文档分类结果不准确的问题。
实施例三
图3为本发明实施例三提供的一种电子设备的结构示意图。如图3所示,该电子设备包括:处理器670、存储器671及存储在存储器671上并可在处理器670上运行的计算机程序;其中,处理器670的数量可以是一个或多个,图3中以一个处理器670为例;处理器670执行所述计算机程序时实现如上述实施例一中所述的基于补集特征的贝叶斯文档分类方法。如图3所示,所述电子设备还可以包括输入装置672和输出装置673。处理器670、存储器671、输入装置672和输出装置673可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器671作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中基于补集特征的贝叶斯文档分类装置/模块(例如,基于补集特征的贝叶斯文档分类装置中的分词模块210、权重计算模块220、最大似然概率计算模块230和类别确定模块240等)。处理器670通过运行存储在存储器671中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的基于补集特征的贝叶斯文档分类方法。
存储器671可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器671可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器671可进一步包括相对于处理器670远程设置的存储器,这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置672可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置673可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于补集特征的贝叶斯文档分类方法,该方法包括:
对待分类文档进行分词处理,并确定所述待分类文档的特征词;
基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
根据所述最大似然概率确定所述待分类文档的归属类别。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文档分类相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,存储介质,或者网络设备等)执行本发明各个实施例所述的。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于补集特征的贝叶斯文档分类方法,其特征在于,包括:
对待分类文档进行分词处理,并确定所述待分类文档的特征词;
基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
根据所述最大似然概率确定所述待分类文档的归属类别。
2.根据权利要求1所述的方法,其特征在于,所述基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重,包括:
按照如下公式计算所述待分类文档中每个特征词的权重:
其中,wordij表示待分类文档i中特征词j的权重,wij表示待分类文档i中的特征词j,wkj表示文档语料中第k篇文档中的特征词j,表示特征词wij在待分类文档i中出现的次数,表示特征词wkj在第k篇文档中出现的次数,N表示文档语料中文档的总数,表示文档语料中包含特征词wij的文档总数,表示文档语料中包含特征词wkj的文档总数,所述文档语料中包含至少两个类别,每个类别下包含至少一个文档。
3.根据权利要求2所述的方法,其特征在于,所述根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率,包括:
按照如下公式计算所述待分类文档中每个特征词属于各类别的最大似然概率:
其中,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,dk表示文档语料的第k篇文档,wordkj表示特征词wij在文档dk中的权重,k表示文档语料中文档的序号,表示文档语料中包含特征词wij的文档总数,NC表示文档语料中包含的类别总数,wordkq表示文档语料的第k篇文档中第q个特征词的权重,q表示单篇文档中特征词的序号,Nq表示文档语料的第k篇文档中特征词的总数,N表示文档语料中文档的总数,表示特征词wij在除类别C之外其他类别的文档中的权重和,表示除类别C之外其他类别的文档中所有特征词的权重和。
4.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档的归属类别,包括:
根据所述最大似然概率确定所述待分类文档归属各类别的归属概率;
将所述归属概率中的最小值对应的类别确定为所述待分类文档的归属类别。
5.根据权利要求3所述的方法,其特征在于,所述根据所述最大似然概率确定所述待分类文档归属各类别的归属概率,包括:
按照如下公式确定所述待分类文档归属各类别的归属概率:
其中,P(C|i)表示待分类文档i归属除类别C之外其他类别的归属概率,p(C)表示类别C在文档语料中出现的概率,N表示文档语料中文档的总数,NC表示属于类别C的文档总数,wij表示待分类文档i中的特征词j,p(wij|C)表示特征词wij属于除类别C之外其他类别的最大似然概率,m表示待分类文档i中特征词的总数,p(wij)表示特征词wij在文档语料中出现的概率。
6.根据权利要求5所述的方法,其特征在于,按照如下公式确定所述归属概率中的最小值:
P(C|i)min=min{P(C|i)|C∈CO}
其中,CO表示文档语料中所有类别构成的集合。
7.根据权利要求1所述的方法,其特征在于,所述对待分类文档进行分词处理,并确定所述待分类文档的特征词,包括:
利用python中的jieba分词工具对待分类文档进行分词处理,并去除停用词,得到所述待分类文档的特征词。
8.一种基于补集特征的贝叶斯文档分类装置,其特征在于,所述装置包括:
分词模块,用于对待分类文档进行分词处理,并确定所述待分类文档的特征词;
权重计算模块,用于基于预先标注好类别的文档语料计算所述待分类文档中每个特征词的权重;
最大似然概率计算模块,用于根据所述权重基于待分类文档的补集特征计算所述待分类文档中每个特征词属于各类别的最大似然概率;
类别确定模块,用于根据所述最大似然概率确定所述待分类文档的归属类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的基于补集特征的贝叶斯文档分类方法。
CN201811146775.4A 2018-09-29 2018-09-29 基于补集特征的贝叶斯文档分类方法、装置、设备及介质 Active CN109325123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811146775.4A CN109325123B (zh) 2018-09-29 2018-09-29 基于补集特征的贝叶斯文档分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811146775.4A CN109325123B (zh) 2018-09-29 2018-09-29 基于补集特征的贝叶斯文档分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109325123A true CN109325123A (zh) 2019-02-12
CN109325123B CN109325123B (zh) 2020-10-16

Family

ID=65266218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811146775.4A Active CN109325123B (zh) 2018-09-29 2018-09-29 基于补集特征的贝叶斯文档分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109325123B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
US20090193325A1 (en) * 2008-01-29 2009-07-30 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for processing documents
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090193325A1 (en) * 2008-01-29 2009-07-30 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for processing documents
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜选: "基于加权补集的朴素贝叶斯文本分类算法研究", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN109325123B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
JP5608817B2 (ja) 指定特性値を使用するターゲット単語の認識
CN110019658B (zh) 检索项的生成方法及相关装置
CN106407280B (zh) 查询目标匹配方法及装置
CN106599269B (zh) 关键词提取方法及装置
CN107885745B (zh) 一种歌曲推荐方法及装置
CN110210028B (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN106528532A (zh) 文本纠错方法、装置及终端
CN106599155A (zh) 一种网页分类方法及系统
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN111125543B (zh) 书籍推荐排序模型的训练方法、计算设备及存储介质
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN111274428B (zh) 一种关键词的提取方法及装置、电子设备、存储介质
WO2014048479A1 (en) A system and method for the automatic creation or augmentation of an electronically rendered publication document
CN110909120A (zh) 简历搜索/投递方法、装置、系统及电子设备
CN104850537A (zh) 对文本内容进行筛选的方法及装置
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN112560545A (zh) 一种识别表格方向的方法、装置及电子设备
CN107807920A (zh) 基于大数据的情绪词典的构建方法、装置及服务器
CN114281983B (zh) 分层结构的文本分类方法、系统、电子设备和存储介质
CN112632277B (zh) 一种目标内容对象的资源处理方法和装置
CN107908649B (zh) 一种文本分类的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant