CN107391772A - 一种基于朴素贝叶斯的文本分类方法 - Google Patents

一种基于朴素贝叶斯的文本分类方法 Download PDF

Info

Publication number
CN107391772A
CN107391772A CN201710832802.2A CN201710832802A CN107391772A CN 107391772 A CN107391772 A CN 107391772A CN 201710832802 A CN201710832802 A CN 201710832802A CN 107391772 A CN107391772 A CN 107391772A
Authority
CN
China
Prior art keywords
mrow
msub
text
training text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710832802.2A
Other languages
English (en)
Other versions
CN107391772B (zh
Inventor
简海英
吕磊
邓丕
杨谦
王海
袁志刚
陈焕章
吴红
张庆
高峰
刘悠
张威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Sichuan Electric Power Co Ltd
Priority to CN201710832802.2A priority Critical patent/CN107391772B/zh
Publication of CN107391772A publication Critical patent/CN107391772A/zh
Application granted granted Critical
Publication of CN107391772B publication Critical patent/CN107391772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于朴素贝叶斯的文本分类方法,包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;得到P(w1,…,wn)在训练文本集Di中出现的概率集Q(w1,…,wn);将Q(w1,…,wn)中属性相乘得到P(w1,…,wn)在训练文本集Di中出现的先验概率P(w|Di);步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,…,wn)在训练文本集Di中的后验概率P(Di|w),步骤4:重复步骤2、3,计算出所有后验概率;步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,…,wn)所属类别,本方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。

Description

一种基于朴素贝叶斯的文本分类方法
技术领域
本发明涉及铁路接触网检测领域,具体地,涉及一种基于朴素贝叶斯的文本分类方法。
背景技术
电力客服部门每天都要面对大量用户的诉求信息。传统模式下,接线员将用户的诉求信息通过主观判断进行分类,之后交付给相应部门进行处理。这种方式需要人工逐条查看确认,信息化、智能化严重不足。
电力用户诉求文本分类方面的内容非常丰富,这些内容常见于信息检索、机器学习、知识挖掘与发现、模式识别、智能电网、电力科学与应用等各种国际会议及相关的期刊或杂志。比较有代表性的综述文章有Sebastiani的“Machine Learning in AutomatedText Categorization"和Aas的“Text Categorization:A Survey"。目前最常使用的文本分类算法有:kNN分类算法、朴素贝叶斯分类算法、支持向量机、神经网络等。其中,朴素贝叶斯算法由于其良好的执行速率和低复杂度而成为最为流行的数据挖掘算法之一。然而,朴素贝叶斯算法有一个严重的缺点:假设各属性之间相互独立。但是在电力行业的用户诉求文本中,各属性之间往往存在依赖关系。因此,传统的朴素贝叶斯算法并不能在电力行业的客户诉求信息分类问题中取得理想效果。
发明内容
本发明提供了一种基于朴素贝叶斯的文本分类方法,解决了现有的文本分类算法效果不理想的技术问题,本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
本发明提出的基于朴素贝叶斯的文本分类方法可以解决现有技术中缺点,能够用于对海量用户诉求进行实时的自动舆情分析、舆情汇总,并识别其中的关键舆情信息,及时反馈到相关人员建立应急响应,为正确舆论导向及收集用户意见提供直接支持的一套信息化平台。
为实现上述发明目前,本申请提供了一种基于朴素贝叶斯的文本分类方法,所述方法包括:
步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;
步骤2:通过对P(w1,...,wn)属性w1,...,wn在训练文本集Di中进行查找,计算出P(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性除以训练文本集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di),P(w1,...,wn)为:待分类文本,wn为:文本P(w1,...,wn中的属性,yn为:属性wn在训练文本集Di中出现的次数;
步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),P(x|Di)为:…;
步骤4:重复步骤2、3,计算出所有后验概率;
步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别。
进一步的,对待分类文本中出现的每一个单词si进行权重wi设置,具体包括:
决策树中没有出现的特征权重设为1;
将最小深度为d的特征权重设为λ是用户给定的正整数;
待分类文本中出现的每一个单词si均定义了它的权重wi
其中,di为si的最小深度,wi没有出现在决策树中时wi等于1,wi出现在决策树中时,wi等于
进一步的,所述方法具体包括:
输入:训练文本库D、测试文本d;
建立一个未修剪二叉树,使用规定的增益比公式作为分割准则,增益比公式(2)如下:
其中,C为待分割数据,H(wi)为:wi的信息熵;IG(C,wi)为C与wi的基尼不纯度;
遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m);
通过公式(1)对计算每个词si的权重wi(i=1,2,3,...,m);
通过公式(3)计算测试文档d的P(c);
先验概率:
其中,j为公式中的计数字母,n为属性个数,m为决策树中词的总数,cj为文档d的第j个属性;
根据上式(3),将条件概率公式修改为:
通过公式(4)计算测试文档d的P(si|c);
通过公式(5)预测测试文档的类值c(d):
S306:返回d的类值c(d)。本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
传统的朴素贝叶斯算法基于一个基本假设:属性之间相互独立。如果这一假设不能达成,则分类器的查全率和查准率将远低于预期。而在电力行业的用户诉求信息中,属性之间关联性强,因此传统朴素贝叶斯算法并不适用。本发明克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,提出一种新颖的基于朴素贝叶斯算法的文本分类方法。新方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。本方法继承了电力文本特征加权方法的简单性。并且本方法将决策树中没有出现的电力文本特征权重设为1(而不是0),使得不重要的特征也可以为电力用户文本分类做出贡献。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是本申请中基于朴素贝叶斯的文本分类方法的流程示意图;
图2为本发明数据设置权重的子流程图。
具体实施方式
本发明提供了一种基于朴素贝叶斯的文本分类方法,解决了现有的文本分类算法效果不理想的技术问题,本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参考图1-图2,本发明的目的是通过以下技术方案来实现电力用户文本分类的,我们将设置电力用户文本内容权重分为以下几个步骤:
S101:树中没有出现的电力文本特征权重设为1。
S102:将最小深度为d的电力文本特征权重设为(λ是用户给定的正整数)。
这样,电力用户文本中出现的每一个单词si均定义了它的权重wi
其中,di为si的最小深度,wi没有出现在决策树中时wi等于1,wi出现在决策树中时,wi等于
朴素贝叶斯分类器算法假定各待分类电力用户文本特征向量相互独立。相互独立表明所有特征向量之间的表述没有关联,有利于运算。朴素贝叶斯分类器算法包括以下步骤:
S201:将待分类电力用户文本利用分词工具形成特征向量,之后将特征向量与常用停用词进行比较,去掉电力用户文档中无意义的词语。
S202:通过对P(w1,...,wn)属性w1,...,wn在电力用户训练文本集Di中进行查找,计算出P(w1,...,wn)在电力用户训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性分别除以电力用户训练文本集Di总文本数和电力用户训练文本集中经过剔除无用词去除文本预处理之后关键字的总数量,得到P(w1,...,wn)在电力用户训练文本集Di中出现的概率集Q(w1,...,wn)。把Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在电力用户训练文本集Di中出现的先验概率P(w|Di)。
S203:电力用户训练文本集Di中的文件数量除以整个电力用户训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在电力用户训练文本集Di中的后验概率P(Di|w)。
S204:重复步骤2、3,计算出所有后验概率。
S205:在步骤4的结果中比较出最大的后验概率P(Di),Di类就是P(w1,...,wn)所属类别。
根据权利1所述的要求的新的基于朴素贝叶斯算法的文本分类方法包括以下步骤:
S301:输入:电力用户训练文本库D、电力用户测试文本d;
S302:建立一个未修剪二叉树(每个词的价值分为零和非零)使用规定的增益比公式作为分割准则,增益比公式如下:
S303:遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m)
S304:通过公式对计算每个词si的权重wi(i=1,2,3,...,m)
S305:通过以下公式计算电力用户测试文档d的P(c);
先验概率:
通过以下公式计算电力用户测试文档d的P(si|c);
根据上式,可以将条件概率公式修改为:
通过以下公式预测电力用户测试文档的类值c(d)
S306:返回d的类值c(d)。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种基于朴素贝叶斯的文本分类方法,其特征在于,所述方法包括:
步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;
步骤2:通过对P(w1,...,wn)属性w1,...,wn在训练文本集Di中进行查找,计算出P(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性除以训练文本集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di),P(w1,...,wn)为:待分类文本,wn为:文本P(w1,...,wn中的属性,yn为:属性wn在训练文本集Di中出现的次数;
步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),P(x|Di)为:Di发生时x发生的概率;
步骤4:重复步骤2、3,计算出所有后验概率;
步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别。
2.根据权利要求1所述的基于朴素贝叶斯的文本分类方法,其特征在于,对待分类文本中出现的每一个单词si进行权重wi设置,具体包括:
决策树中没有出现的特征权重设为1;
将最小深度为d的特征权重设为λ是用户给定的正整数;
待分类文本中出现的每一个单词si均定义了它的权重wi
<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mfrac> <mrow> <mn>1</mn> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> <msqrt> <msub> <mi>d</mi> <mi>i</mi> </msub> </msqrt> </mfrac> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,di为si的最小深度,wi没有出现在决策树中时wi等于1,wi出现在决策树中时,wi等于
3.根据权利要求2所述的基于朴素贝叶斯的文本分类方法,其特征在于,所述方法具体包括:
输入:训练文本库D、测试文本d;
建立一个未修剪二叉树,使用规定的增益比公式作为分割准则,增益比公式(2)如下:
<mrow> <mi>I</mi> <mi>C</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,C为待分割数据,H(wi)为:wi的信息熵;IG(C,wi)为C与wi的基尼不纯度;
遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m);
通过公式(1)对计算每个词si的权重wi(i=1,2,3,...,m);
通过公式(3)计算测试文档d的P(c);
先验概率:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,j为公式中的计数字母,n为属性个数,m为决策树中词的总数,cj为文档d的第j个属性;
根据上式(3),将条件概率公式修改为:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>m</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
通过公式(4)计算测试文档d的P(si|c);
通过公式(5)预测测试文档的类值c(d):
<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>&amp;lsqb;</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
S306:返回d的类值c(d)。
CN201710832802.2A 2017-09-15 2017-09-15 一种基于朴素贝叶斯的文本分类方法 Active CN107391772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710832802.2A CN107391772B (zh) 2017-09-15 2017-09-15 一种基于朴素贝叶斯的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710832802.2A CN107391772B (zh) 2017-09-15 2017-09-15 一种基于朴素贝叶斯的文本分类方法

Publications (2)

Publication Number Publication Date
CN107391772A true CN107391772A (zh) 2017-11-24
CN107391772B CN107391772B (zh) 2020-12-01

Family

ID=60350082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710832802.2A Active CN107391772B (zh) 2017-09-15 2017-09-15 一种基于朴素贝叶斯的文本分类方法

Country Status (1)

Country Link
CN (1) CN107391772B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN108647702A (zh) * 2018-04-13 2018-10-12 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109446393A (zh) * 2018-09-12 2019-03-08 北京邮电大学 一种网络社区话题分类方法及装置
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110442709A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于朴素贝叶斯模型的文本分类方法
CN110737700A (zh) * 2019-10-16 2020-01-31 百卓网络科技有限公司 一种基于贝叶斯算法的进销存用户分类方法及系统
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、系统及存储介质
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN113900924A (zh) * 2021-09-06 2022-01-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统
CN114598597A (zh) * 2022-02-24 2022-06-07 烽台科技(北京)有限公司 多源日志解析方法、装置、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142997A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 基于逆向词频的贝叶斯文本分类器
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142997A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 基于逆向词频的贝叶斯文本分类器
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN108647702A (zh) * 2018-04-13 2018-10-12 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN108647702B (zh) * 2018-04-13 2021-06-01 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法
CN109446393B (zh) * 2018-09-12 2020-06-30 北京邮电大学 一种网络社区话题分类方法及装置
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109446393A (zh) * 2018-09-12 2019-03-08 北京邮电大学 一种网络社区话题分类方法及装置
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
WO2020253506A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110442709A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于朴素贝叶斯模型的文本分类方法
CN110737700A (zh) * 2019-10-16 2020-01-31 百卓网络科技有限公司 一种基于贝叶斯算法的进销存用户分类方法及系统
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、系统及存储介质
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN113900924A (zh) * 2021-09-06 2022-01-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统
CN113900924B (zh) * 2021-09-06 2023-04-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统
CN114598597A (zh) * 2022-02-24 2022-06-07 烽台科技(北京)有限公司 多源日志解析方法、装置、计算机设备及介质
CN114598597B (zh) * 2022-02-24 2023-12-01 烽台科技(北京)有限公司 多源日志解析方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN107391772B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN107391772A (zh) 一种基于朴素贝叶斯的文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Weiss Mining with rarity: a unifying framework
Hilderman et al. Knowledge discovery and measures of interest
CN102789498B (zh) 基于集成学习的中文评论文本的情感分类方法与系统
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN104598586B (zh) 大规模文本分类的方法
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
CN103309953A (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN108874916A (zh) 一种层叠组合协同过滤推荐方法
CN106326458A (zh) 一种基于文本分类的城市管理案件分类方法
CN102426585A (zh) 一种基于贝叶斯网络的网页自动分类方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
Owoeye et al. Classification of extremist text on the web using sentiment analysis approach
Pujahari et al. An approach to content based recommender systems using decision list based classification with k-DNF rule set
TW201011575A (en) Recommendation apparatus and method of integrating rough sets and multiple-characteristic exploration
Esmaeili et al. Feature selection as an improving step for decision tree construction
CN105184323A (zh) 特征选择方法及系统
CN109635254A (zh) 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant