CN109299255A - 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 - Google Patents

基于朴素贝叶斯的案件文本分类方法、系统和存储介质 Download PDF

Info

Publication number
CN109299255A
CN109299255A CN201811061541.XA CN201811061541A CN109299255A CN 109299255 A CN109299255 A CN 109299255A CN 201811061541 A CN201811061541 A CN 201811061541A CN 109299255 A CN109299255 A CN 109299255A
Authority
CN
China
Prior art keywords
text
classification
feature words
words
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811061541.XA
Other languages
English (en)
Inventor
屈丽平
朱凌峰
胡裕丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Shuihuida Data Co Ltd
Original Assignee
Dongguan Shuihuida Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Shuihuida Data Co Ltd filed Critical Dongguan Shuihuida Data Co Ltd
Priority to CN201811061541.XA priority Critical patent/CN109299255A/zh
Publication of CN109299255A publication Critical patent/CN109299255A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质,该方法包括以下步骤:基于朴素贝叶斯算法构建分类器;获取训练样本对分类器进行训练;获取待分类文本;对待分类文本进行预处理,得到待分类文本的文本向量;将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;以后验概率最高的类别作为分类结果输出。本发明充分考虑了不同类别之间样本数量的差异性,将各个类别的先验概率以及每个特征词属于各个类别的先验概率作为分类器的计算因子,使得本发明对案件文本分类具有更好的分类效果。本发明可以广泛应用于数据挖掘领域。

Description

基于朴素贝叶斯的案件文本分类方法、系统和存储介质
技术领域
本发明涉及数据挖掘领域,尤其是一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质。
背景技术
文本分类方法是一种有监督的分类方法,它用一个已标好类别的文本数据集来训练分类器,然后用训练好的分类器对未标识类别的文本进行分类,常用的分类算法有朴素贝叶斯方法、K-近邻方法、支持向量机方法等,其中,朴素贝叶斯分类方法是目前公认的一种简单有效的分类方法,并且它在文本分类领域表现出令人满意的性能。但是公安的案件文本具有类别分布不均衡的特点,即训练集各个类别所包含的文本数目差异较大的特点,故本发明提出了改进的朴素贝叶斯方法进行案件文本分类。
发明内容
为了解决上述技术问题,本发明提出了一种针对案件文本的基于朴素贝叶斯的案件文本分类方法、系统和存储介质。
本发明所采取的第一种技术方案是:
一种基于朴素贝叶斯的案件文本分类方法,包括以下步骤:
基于朴素贝叶斯算法构建分类器;
获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;
获取待分类文本;
对待分类文本进行预处理,得到待分类文本的文本向量;
将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;
以后验概率最高的类别作为分类结果输出。
进一步,所述后验概率的计算公式为:
其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本文件d进行分词处理后特征词集合中的元素。
进一步,所述p(wi|Cj)的计算公式为:
其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。
进一步,所述对待分类文本进行预处理,得到待分类文本的文本向量,其具体包括:
对待分类文本进行分词处理,得到特征词集合;
用卡方检验在特征词集合中进行特征词选择;
根据特征词选择的结果,构建文本向量。
进一步,所述用卡方检验在特征词集合中进行特征词选择,其具体包括:
计算特征词集合中每个特征词的卡方统计量;
选取卡方统计量最高的前k个特征词作为特征词选择的结果;
其中,k为设定的正整数。
进一步,所述卡方统计量的计算公式为:
其中,χ2(wi,Cj)表示特征词wi对于类别Cj的卡方统计量;N表示所有的文本数量;A表示包含特征词wi且属于类别Cj的文本数量;B表示包含特征词wi且不属于类别Cj的文本数量;C表示不包含特征词wi且属于类别Cj的文本数量;D表示不包含特征词wi且不属于类别Cj的文本数量。
进一步,所述根据特征词选择的结果,构建文本向量,其具体包括:
将特征词选择的结果中的每一个特征词作为向量空间中的一个维度;
计算每一个维度对应的特征词的权重值,得到文本向量;
所述权重值的计算公式为:
IDF=log(D1/Dt);
其中,IDF表示特征词的权重值;D1表示文本总数;Dt表示包含该特征词的文本数量。
本发明所采取的第二种技术方案是:
一种基于朴素贝叶斯的案件文本分类系统,包括:
构建模块,用于基于朴素贝叶斯算法构建分类器;
训练模块,用于获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;
获取模块,用于获取待分类文本;
数据处理模块,用于对待分类文本进行预处理,得到待分类文本的文本向量;
分类模块,用于将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;并以后验概率最高的类别作为分类结果输出。
本发明所采取的第三种技术方案是:
一种基于朴素贝叶斯的案件文本分类系统,包括
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种基于朴素贝叶斯的文本分类方法。
本发明所采取的第四种技术方案是:
一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现一种基于朴素贝叶斯的文本分类方法。
本发明的有益效果是:本发明基于朴素贝叶斯算法构建分类器,并且对分类器进行了改进,在训练过程中,先计算各个类别的先验概率以及每个特征词属于各个类别的先验概率,然后根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;本发明的分类器充分考虑了不同类别之间样本数量的差异性,将各个类别的先验概率以及每个特征词属于各个类别的先验概率作为分类器的计算因子,使得本发明对案件文本分类具有更好的分类效果。
附图说明
图1为本发明一种基于朴素贝叶斯的案件文本分类方法的流程图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
参照图1,一种基于朴素贝叶斯的案件文本分类方法,包括以下步骤:
S101、基于朴素贝叶斯算法构建分类器。
S102、获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率。训练样本可以是经过处理的训练样本,也可以是未经处理的训练样本,若采用未经处理的训练样本,则需要通过步骤S104对训练样本也进行预处理。
S103、获取待分类文本。待分类文本是原文,未经处理,因此在步骤S104需要对其进行处理。
S104、对待分类文本进行预处理,得到待分类文本的文本向量。本步骤主要对待分类文本的特征词进行提取,由于提出的特征词比较多,需要对特征词集合进行降维,筛选出比较重要的特征词。
S105、将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率。
S106、以后验概率最高的类别作为分类结果输出。
作为优选的实施例,所述后验概率的计算公式为:
其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本文件d进行分词处理后特征词集合中的元素。本实施例的计算方式充分考虑了案件文本不同类别的样本数量的差异性,将分类的先验概率作为计算因子,能够对案件文本起到更好的分类效果。
作为优选的实施例,所述p(wi|Cj)的计算公式为:
其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。设置加权系数B的主要作用是为了避免在运算过程中,出现p(wi|Cj)为零的情况,导致程序崩溃。
所述加权系数B可以采用以下函数得到,其中,dk表示文本文件d进行分词处理、卡方检验提取特征词后的结果,即文本向量。
作为优选的实施例,所述步骤S104,具体包括:
S1041、对待分类文本进行分词处理,得到特征词集合。本步骤包括中文分词和去除停用词。本步骤可以采用中科院的ICTCLAS分词系统实现,ICTCLAS分词系统充分利用了词典匹配、统计分析这两种分词方法的优点,既能发挥词典匹配法分词速度快、效率高的特点,又能利用统计分析法结合上下文识别新词、消除歧义的优点。该分词系统具有词性标注功能。在本实施例中,还根据公安领域特征对加入公安专业词汇。由于公安领域的很多词汇如“故意伤害”、“使用假证”、“非法持有假币”等词在案件文本中出现频繁,具有语义特征,但是分词组件却无法精确切分出这些词。因此,可对该分词进行改进,建立针对公安领域的专业词汇的词库。将自定义词库的词加载到分词组件中去,有效地改进分词的效果。
去除停用词一般是指去除文本中出现频率很高,但实际意义又不大的词,如常见的“的”、“在”、“和”、“接着”、“了”、“还是”和“或者”等,还有一些是使用过于频繁的单词,如“我”、“就”、“啊”和“吧”等等,以及各种的标点符号,避免分词后有过多的干扰。去除这些词可以降低特征词的维度,同时可以提高文本挖掘效果。
此外,根据词性剔除对案件中无用的词;一个案件文本主要包含以下信息作案时间、作案地点、涉案人、作案手段、作案工具、损失物品和损失金额等。根据分词的词性标注信息,剔除与案件属性无关的词性,如拟声词、副词、介词和连词等。
S1042、用卡方检验在特征词集合中进行特征词选择。
案件文本具有文本短小,包含大量案件细节信息的特征。除此之外,案件文本类别具有在一定区域内的不同时期,某一案件类别所包含的文本数占该时期总文本数的比例基本接近、各类别文本数目分布比例不均衡等特点。
文本预处理后以特征词集合的形式存在,此时特征词集合中的特征词数量非常的多,需要对特征词集合进行降维处理,即特征词选择。本实施例采用卡方检验进行特征词选择。所述卡方检验为:假设特征词wi和类别Cj之间符合一阶自由度的卡方分布,特征词wi对于类别Cj的卡方统计量χ2越高,则特征词wi和类别Cj的相关性就越强,类别区分度越大;反之,其类别区分度就越小。因此采用卡方检验,能够对案件文本提取的特征词集合进行有效的降维,提升降维处理的有效性。
S1043、根据特征词选择的结果,构建文本向量。
作为优选的实施例,所述步骤S1042包括:
S10421、计算特征词集合中每个特征词的卡方统计量;
S10422、选取卡方统计量最高的前k个特征词作为特征词选择的结果;
其中,k为设定的正整数。
作为优选的实施例,所述卡方统计量的计算公式为:
其中,χ2(wi,Cj)表示特征词wi对于类别Cj的卡方统计量;N表示所有的文本数量;A表示包含特征词wi且属于类别Cj的文本数量;B表示包含特征词wi且不属于类别Cj的文本数量;C表示不包含特征词wi且属于类别Cj的文本数量;D表示不包含特征词wi且不属于类别Cj的文本数量。
作为优选的实施例,所述步骤S1043具体包括:
S10431、将特征词选择的结果中的每一个特征词作为向量空间中的一个维度;
S10432、计算每一个维度对应的特征词的权重值,得到文本向量;
所述权重值的计算公式为:
IDF=log(D1/Dt);
其中,IDF表示特征词的权重值;D1表示文本总数;Dt表示包含该特征词的文本数量。
在海量公安案件情报信息中,除了规范化程度很强的数据库数据外,还有大量的案件叙述性文本描述,例如:案件卷宗、案件口供、审讯笔录、报警内容或简要案情等,采用本发明构建的一种基于朴素贝叶斯的文本分类方法,对大量的案件叙述性文本进行标签分类,实现非结构的案件文本情报信息的分析挖掘,迅速有效地从案件文本信息中发现有价值的情报信息,有效提升公安案件刑侦、精确防控和精确打击能力。
本实施例公开了一种与图1中方法对应的基于朴素贝叶斯的案件文本分类系统,包括:
构建模块,用于基于朴素贝叶斯算法构建分类器;
训练模块,用于获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;
获取模块,用于获取待分类文本;
数据处理模块,用于对待分类文本进行预处理,得到待分类文本的文本向量;
分类模块,用于将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;并以后验概率最高的类别作为分类结果输出。
本实施例公开了一种基于朴素贝叶斯的案件文本分类系统,包括
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种与图1中方法对应的基于朴素贝叶斯的文本分类方法。
本实施例公开了一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现一种与图1中方法对应的基于朴素贝叶斯的文本分类方法。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于朴素贝叶斯的案件文本分类方法,其特征在于:包括以下步骤:
基于朴素贝叶斯算法构建分类器;
获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;
获取待分类文本;
对待分类文本进行预处理,得到待分类文本的文本向量;
将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;
以后验概率最高的类别作为分类结果输出。
2.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述后验概率的计算公式为:
其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本d进行分词处理后特征词集合中的元素。
3.根据权利要求2所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述p(wi|Cj)的计算公式为:
其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。
4.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述对待分类文本进行预处理,得到待分类文本的文本向量,其具体包括:
对待分类文本进行分词处理,得到特征词集合;
用卡方检验在特征词集合中进行特征词选择;
根据特征词选择的结果,构建文本向量。
5.根据权利要求4所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述用卡方检验在特征词集合中进行特征词选择,其具体包括:
计算特征词集合中每个特征词的卡方统计量;
选取卡方统计量最高的前k个特征词作为特征词选择的结果;
其中,k为设定的正整数。
6.根据权利要求5所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述卡方统计量的计算公式为:
其中,χ2(wi,Cj)表示特征词wi对于类别Cj的卡方统计量;N表示所有的文本数量;A表示包含特征词wi且属于类别Cj的文本数量;B表示包含特征词wi且不属于类别Cj的文本数量;C表示不包含特征词wi且属于类别Cj的文本数量;D表示不包含特征词wi且不属于类别Cj的文本数量。
7.根据权利要求4所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述根据特征词选择的结果,构建文本向量,其具体包括:
将特征词选择的结果中的每一个特征词作为向量空间中的一个维度;
计算每一个维度对应的特征词的权重值,得到文本向量;
所述权重值的计算公式为:
IDF=log(D1/Dt);
其中,IDF表示特征词的权重值;D1表示文本总数;Dt表示包含该特征词的文本数量。
8.一种基于朴素贝叶斯的案件文本分类系统,其特征在于:包括:
构建模块,用于基于朴素贝叶斯算法构建分类器;
训练模块,用于获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;
获取模块,用于获取待分类文本;
数据处理模块,用于对待分类文本进行预处理,得到待分类文本的文本向量;
分类模块,用于将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;并以后验概率最高的类别作为分类结果输出。
9.一种基于朴素贝叶斯的案件文本分类系统,其特征在于:包括
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-7任一项所述的一种基于朴素贝叶斯的文本分类方法。
10.一种存储介质,所述存储介质上存储有程序,其特征在于:所述程序被处理器执行时实现如权利要求1-7任一项所述的一种基于朴素贝叶斯的文本分类方法。
CN201811061541.XA 2018-09-12 2018-09-12 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 Pending CN109299255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811061541.XA CN109299255A (zh) 2018-09-12 2018-09-12 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811061541.XA CN109299255A (zh) 2018-09-12 2018-09-12 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN109299255A true CN109299255A (zh) 2019-02-01

Family

ID=65166553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811061541.XA Pending CN109299255A (zh) 2018-09-12 2018-09-12 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN109299255A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009796A (zh) * 2019-04-11 2019-07-12 北京邮电大学 发票类别识别方法、装置、电子设备及可读存储介质
CN110442709A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于朴素贝叶斯模型的文本分类方法
CN110489758A (zh) * 2019-09-10 2019-11-22 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
CN110851607A (zh) * 2019-11-19 2020-02-28 中国银行股份有限公司 资讯分类模型的训练方法及装置
CN111522953A (zh) * 2020-04-24 2020-08-11 广州大学 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质
CN111597329A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 一种基于多语种的情感分类方法及系统
CN111597331A (zh) * 2019-12-29 2020-08-28 东南大学 一种基于贝叶斯网络的裁判文书分类方法
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、系统及存储介质
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN112394984A (zh) * 2020-10-29 2021-02-23 北京软安科技有限公司 一种固件代码分析方法及装置
CN112559748A (zh) * 2020-12-18 2021-03-26 厦门市法度信息科技有限公司 一种笔录数据案由分类方法、终端设备及存储介质
CN113157915A (zh) * 2021-03-08 2021-07-23 武汉工程大学 一种基于集群环境的朴素贝叶斯文本分类方法
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN113900924A (zh) * 2021-09-06 2022-01-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
梁宏胜 等: ""一种改进的朴素贝叶斯文本分类方法"", 《河北大学学报(自然科学版)》 *
范明 等: "《数据挖掘概念与技术》", 31 May 2016, 《机械工业出版社》 *
陈叶旺 等: ""一种改进的朴素贝叶斯文本分类方法"", 《华侨大学学报(自然科学版)》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597329B (zh) * 2019-02-19 2023-09-19 新方正控股发展有限责任公司 一种基于多语种的情感分类方法及系统
CN111597329A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 一种基于多语种的情感分类方法及系统
CN110009796A (zh) * 2019-04-11 2019-07-12 北京邮电大学 发票类别识别方法、装置、电子设备及可读存储介质
CN110442709A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于朴素贝叶斯模型的文本分类方法
CN110489758A (zh) * 2019-09-10 2019-11-22 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
CN110489758B (zh) * 2019-09-10 2023-04-18 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
CN110851607A (zh) * 2019-11-19 2020-02-28 中国银行股份有限公司 资讯分类模型的训练方法及装置
CN111597331A (zh) * 2019-12-29 2020-08-28 东南大学 一种基于贝叶斯网络的裁判文书分类方法
CN111597331B (zh) * 2019-12-29 2023-05-02 东南大学 一种基于贝叶斯网络的裁判文书分类方法
CN111522953A (zh) * 2020-04-24 2020-08-11 广州大学 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质
CN111522953B (zh) * 2020-04-24 2023-04-07 广州大学 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112069392B (zh) * 2020-07-28 2021-08-27 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、系统及存储介质
CN112394984A (zh) * 2020-10-29 2021-02-23 北京软安科技有限公司 一种固件代码分析方法及装置
CN112394984B (zh) * 2020-10-29 2022-09-30 北京智联安行科技有限公司 一种固件代码分析方法及装置
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN112559748A (zh) * 2020-12-18 2021-03-26 厦门市法度信息科技有限公司 一种笔录数据案由分类方法、终端设备及存储介质
CN113157915A (zh) * 2021-03-08 2021-07-23 武汉工程大学 一种基于集群环境的朴素贝叶斯文本分类方法
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN113900924A (zh) * 2021-09-06 2022-01-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统
CN113900924B (zh) * 2021-09-06 2023-04-07 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统

Similar Documents

Publication Publication Date Title
CN109299255A (zh) 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
US20220138423A1 (en) Deep learning based text classification
WO2020140372A1 (zh) 一种基于识别模型的意图识别方法、识别设备及介质
Schapire et al. BoosTexter: A boosting-based system for text categorization
US7827133B2 (en) Method and arrangement for SIM algorithm automatic charset detection
US8315465B1 (en) Effective feature classification in images
Asim et al. Benchmarking performance of machine and deep learning-based methodologies for Urdu text document classification
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
Freitag Trained named entity recognition using distributional clusters
US20110213736A1 (en) Method and arrangement for automatic charset detection
CN109408636A (zh) 文本分类方法及装置
Bhattacharjee et al. Term specific tf-idf boosting for detection of rumours in social networks
Ekbal et al. Classifier ensemble selection using genetic algorithm for named entity recognition
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
CN115473726A (zh) 一种识别域名的方法及装置
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
Holla et al. An Improved Fake News Detection Model Using Hybrid Time Frequency-Inverse Document Frequency for Feature Extraction and AdaBoost Ensemble Model as a Classifier
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
Ambai et al. SPADE: scalar product accelerator by integer decomposition for object detection
Bhoj et al. LSTM powered identification of clickbait content on entertainment and news websites
CN111159410A (zh) 一种文本情感分类方法、系统、装置及存储介质
Ahmed et al. Hateful Meme Prediction Model Using Multimodal Deep Learning
Maki et al. Using an artificial neural network to improve email security
Wang et al. Text multi-classification based on word embedding and multi-grained cascade forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201

RJ01 Rejection of invention patent application after publication