CN112215002A - 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 - Google Patents
一种基于改进朴素贝叶斯的电力系统文本数据分类方法 Download PDFInfo
- Publication number
- CN112215002A CN112215002A CN202011203845.2A CN202011203845A CN112215002A CN 112215002 A CN112215002 A CN 112215002A CN 202011203845 A CN202011203845 A CN 202011203845A CN 112215002 A CN112215002 A CN 112215002A
- Authority
- CN
- China
- Prior art keywords
- text
- class
- classification
- feature
- power system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 108090000765 processed proteins & peptides Proteins 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007659 chevron notched beam method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进朴素贝叶斯的电力系统文本数据分类方法,该方法首先获取电力违章操作文本及对应类别,然后对文本数据进行预处理得到特征字典并生成特征向量,再根据特征向量构建分类模型,最后利用分类模型预测待分类文本。本发明可以直接应用于电力系统的原始文本数据,快速、准确的将不同类型的文本分类区分开来;具有步骤简单,时延小,可靠性高等特点;对于不同部门的不同类型的电力文本数据,都可以进行及时有效的检测。
Description
技术领域
本发明属于电力系统文本分类的领域,尤其涉及一种基于改进朴素贝叶斯的电力系统文本数据分类方法。
背景技术
为确保电力系统安全运行,供电部门每年都要进行安全大检查,记录违规行为。电力文本数据具有的数据体量大、类型丰富、信息密度低、更新速度快的特征。然而,手工分析这些数据将耗费大量的人力成本。因此,对文本数据进行预处理,如文本分类具有重要的现实意义。
文本分类是将一组输入文本划分为两个或多个类,其中每个文本可以属于一个或多个类。采用基于机器学习的方法,对标注文本进行自动分类训练,具有较高的分析能力。目前,主要的机器学习方法包括传统朴素贝叶斯(ConventionalBayes,CNB),决策树(Decision Tree,DT),K近邻(K-nearest neighbor,KNN)和支持向量机(Support VectorMachine,SVM)。
目前,关于英语文本分类的研究很多。相对而言,中文文本分类由于起步晚、难度大,仍处于起步阶段。中文文本分类的难点在于文本的预处理和分类器的改进,与英文文本相比,中文文本没有如英文单词之间的空格以区分两个单词,分词难度较大,如“南京市长江大桥”可以被分为“南京市/长江大桥”或“南京/市长/江大桥”,不同分词方法将引起歧义。此外,文本作为一种非结构数据,本身存在诸多难点需要克服。文本作为语言的一种表示形式以及种类多样,不同语种的语法不同,无统一且机器可理解的形式与规则。从语言学的角度看,文本本身存在诸多语言学现象,使得理解过程中容易出现歧义和模糊,为机器理解增添难度。因此,如何提高文本分类的准确性是中文文本分类的关键。
在文本分类中,文本通常被表示为计算机输入的特征向量。该方法易于实现,对文本内容的表达能力强,但文本的矢量化会带来高维的问题,随着文本数量的增加而加剧,高维问题主要是由于特征空间中的特征项过多,高维度的运算一方面会增加分类计算的复杂度,另一方面会影响分类精度。这一问题通常通过去掉部分停用词(如数字,介词等)和采用更具代表性的词作为特征词来解决。
传统上,TF-IDF(term frequency–inverse document frequency)算法是一种基于统计的计算方法,全称是词频-逆文档频率,通常用于评估文档集中单词对文档的重要性。
为了解决上述问题,本发明采用JIEBA分词法对中文文本进行分词处理,并改进了传统的TF-IDF算法,结合改进朴素贝叶斯算法(ImprovingBayes,INB),提出了一种基于改进词频-逆文档频率(Improving Term Frequency-Inverse Document Frequency,ITF-IDF)的朴素贝叶斯分类方法。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于改进朴素贝叶斯的电力系统文本数据分类方法。本发明准确度高、可靠性高,且直接作用于电力系统原始文本数据。
本发明的目的是通过以下技术方案来实现的:一种基于改进朴素贝叶斯的电力系统文本数据分类方法,包括以下步骤:
(1)获取电力违章操作文本数据,标记对应的违章操作类别;
(2)根据文本类型特征进行数据预处理:利用结巴分词工具将步骤(1)获取的文本进行分词,再去除停用词得到特征字典;
(3)将步骤(1)获取的文本分别与步骤(2)得到的特征字典进行比较生成d维特征向量;所述d维特征向量的长度为特征字典中的特征词汇个数d,元素为文本中各特征词汇出现次数;
(4)构建分类模型,输入为步骤(3)生成的d维特征向量,模型如下:
其中,A表示文本,ci为文本A的分类标签,P(ci|A)是文本A的分类标签为ci的概率;P(ci)是ci类标签的概率分布;aj是文本A中出现的第j个特征词汇,j=1~k,k是该文本中特征词汇个数;P(aj|ci)表示分类标签为ci的文本中单词aj出现的概率;wij为权重:
其中,ITFij表示特征词汇aj在ci类文本中出现次数与除了aj的所有特征单词在文本中出现次数的比例,IIDFij表示ci类文本中包含特征词汇的文本数与不包含特征词汇的文本总数的比率:
其中,K是调整因子,mci是ci类文本的数目,nzj是第z个ci类文本中aj出现的次数,const是常量;Numd(j,i)是包含aj的ci类文本的数量。
(5)将待分类电力系统文本数据输入步骤(4)构建的分类模型,计算出文本属于不同分类ci的概率集合P(C|A),集合中的最大值对应的类别标签ci是模型预测的违章操作类别;其中,C为ci的集合,P(C|A)为P(ci|A)的集合。
进一步地,所述违章操作类别包括人员行为违章、工器具违章、安全活动违章、监管违章和两票违章。
本发明的有益效果是:
(1)本发明相对于传统的文本分类方法例如朴素贝叶斯、逻辑回归、支持向量机等,其准确率较高,因此本发明具有实用性好的特点。
(2)在实际应用中,本发明对于训练好的模型,从文本输入到给出分类结果只需要几毫秒,因此本发明具有时效性强的特点。
(3)本发明对于不同的文本数据类型,都可以通过同样的模型结构,利用改进朴素贝叶斯的方法得出分类结果,因此本发明较为灵活;对于电力系统不同部门的文本数据,本发明都能有效的进行分类。
(4)传统的文本分类方法例如支持向量机,在二分类问题上比较有效,但是对于多分类问题,表现不如改进朴素贝叶斯;本发明对于电力系统文本多分类问题仍旧适用,并且具有较高的准确率;因此,本发明提出的基于改进朴素贝叶斯的电力系统文本分类方法可靠性高。
附图说明
图1为电力公司违章数据分布示意图;
图2为不同分类方法LR,SVM,CNB,INB于电力文本数据的分类效果图。
具体实施方式
一种基于ITF-IDF权重和改进朴素贝叶斯的电力系统文本数据分类方法,能够以较高的准确率和较快的分类速度将电力系统中的违章数据进行分类,包括以下步骤:
(1)输入电力违章操作文本数据,将其分为训练数据和验证数据,标记对应的违章操作分类;其中,将80%随机抽取为训练数据,其余20%为测试验证数据。
(2)根据文本类型特征进行数据预处理:对于训练数据,先利用JIEBA结巴分词工具将文本进行分词,再通过去除停用词技术去除停用词得到特征字典。
(3)将训练数据和测试数据分别与特征字典进行比较,生成d维特征向量,将各文本数据以d维特征向量的形式作为分类模型的输入;所述d维特征向量的长度为特征字典词汇数d,元素为文本中对应词汇出现次数。
(4)根据训练数据及对应的违章操作分类,采用基于改进词频-逆文档频率ITF-IDF的改进朴素贝叶斯算法得到分类模型:
其中,wij是ITF-IDF的权重;ITFij表示特征词汇aj在ci类文本中出现次数与除了aj的所有特征单词在文本中出现次数的比例,IIDFij表示ci类文本中包含特征词汇的文本数与不包含特征词汇的文本总数的比率;ci是测试数据对应的标签,A是测试文本数据,P(ci|A)是文档A为标签ci的概率;P(ci)是标签ci的概率分布,即训练数据中标签ci出现的概率;k是测试文本数据的特征数目;aj是文档A中的某个特征单词,P(aj|ci)是标签ci中包含单词aj的概率,即训练数据中分类标签为ci的文本中单词aj出现的概率;nzj是文档z中aj出现的次数,根据步骤(3)生成的d维特征向量得到;mci是ci类文档的数目,const是等于1的常量,防止ITFij=0;K是为了防止ITFij<<1导致分类器精度降低的调整因子;Numd(j,i)是包含aj的ci类文档的数量,sumNumd(i)是ci类文档的总数;M是防止IIDFij<0的常数。
(5)将测试数据输入步骤(4)得到的分类模型,计算出文档属于ci的概率;然后根据贝尔斯决策理论(Bayes Decision Theory),P(ci|A)的最大值对应着ci是A所属的文档类别。
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例基于一种结合ITF-IDF权重的改进朴素贝叶斯电力系统文本分类算法,包括以下步骤:
(1)输入由中国南方电网清远供电局提供的电力违章操作文本数据,具体的电力违章操作分类包括人员行为违章、工器具违章、安全活动违章、监管违章、两票违章,每类的数量如图1所示;随机抽取80%为训练数据,其余20%为测试验证数据。
(2)对于训练数据,先利用JIEBA分词将文本进行分词,再通过除去部分停用词得到特征字典。
(3)将训练数据和测试数据分别与特征字典进行比较,生成(0,1)的特征向量。
(4)采用基于ITF-IDF的改进朴素贝叶斯算法得到分类模型。
TFij算法是计算单词i在文档j中出现的频率,基本思想是一个单词在文档中出现的次数越多,表达文档的能力就越强。
其中,k是文档中单词顺序,nkj是文档中的总单词个数;nij是文档j中单词i出现的次数。
IDFi算法是计算一个单词i在文档集中出现的文档数量。
其中,log()表示以10为底取对数;|D|是文档集中的文档总数,|Di|是包含单词i的文档数。
TF-IDF算法由TF和IDF两部分组成,TF-IDF是用来衡量文档集中某个词的重要性的,对分类不是很具体。为此,本发明提出了改进的ITF-IDF算法来提高分类器的性能。
ITFij由aj在ci类文档中出现的次数和除aj以外的所有功能项的数目表示,这意味着ci在所属标签类文本中出现的次数越多,就越代表j类文档,计算公式为:
其中,K是调整因子,mci是ci类文本的数目,nzj是文本z中aj出现的次数,const是等于1的常量。
IIDFij是ci类文档中包含aj的文档数与不包含aj的文档总数的比率,这意味着越高的IIDF,aj的分布越不均匀,计算公式为:
其中,Numd(j,i)是包含aj的ci类文本的数量,mci是ci类文本的总数,M是常数。
将朴素贝叶斯的公式(1)结合ITF-IDF,进一步改进为公式(2):
其中,wij是ITF-IDF的权重;根据公式(1)和(2),分别计算出文档属于ci的概率;然后根据贝叶斯决策理论,P(ci|A)的最大值对应着ci是A所属的文档类别。
(5)将测试数据A输入至模型,根据上述公式可以计算出文档属于ci的概率,且P(ci|A)的最大值对应的ci是A所属的类别文档。
表1和图2显示了各种分类方法对电力系统违章数据的分类效果。其中,Acc用于描述在输入测试数据中被正确分类的概率。F1用于综合反映整体的准确指标。两项指标的数值越高,表示该方法的效果越好。CNB表示传统贝叶斯分类器;INB表示改进朴素贝叶斯分类器。
表1:传统贝叶斯分类与本发明的改进朴素贝叶斯分类器效果比较
结果表明,本发明方法比传统的朴素贝叶斯方法具有更好的性能,验证了该方法的有效性。在不损失一般性的前提下,我们还将该方法与逻辑回归(LR)、支持向量机(SVM)进行了比较。不同方法的预测准确率如图2所示,本发明所提方法的准确率分别提高了3.96%(CNB),7.9%(SVM),9%(LR)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种基于改进朴素贝叶斯的电力系统文本数据分类方法,其特征在于,包括以下步骤:
(1)获取电力违章操作文本数据,标记对应的违章操作类别。
(2)根据文本类型特征进行数据预处理:利用结巴分词工具将步骤(1)获取的文本进行分词,再去除停用词得到特征字典。
(3)将步骤(1)获取的文本分别与步骤(2)得到的特征字典进行比较生成d维特征向量;所述d维特征向量的长度为特征字典中的特征词汇个数d,元素为文本中各特征词汇出现次数。
(4)构建分类模型,输入为步骤(3)生成的d维特征向量,模型如下:
其中,A表示文本,ci为文本A的分类标签,P(ci|A)是文本A的分类标签为ci的概率;P(ci)是ci类标签的概率分布;aj是文本A中出现的第j个特征词汇,j=1~k,k是该文本中特征词汇个数;P(aj|ci)表示分类标签为ci的文本中单词aj出现的概率;wij为权重:
其中,ITFij表示特征词汇aj在ci类文本中出现次数与除了aj的所有特征单词在文本中出现次数的比例,IIDFij表示ci类文本中包含特征词汇的文本数与不包含特征词汇的文本总数的比率:
其中,K是调整因子,mci是ci类文本的数目,nzj是第z个ci类文本中aj出现的次数,const是常量;Numd(j,i)是包含aj的ci类文本的数量。
(5)将待分类电力系统文本数据输入步骤(4)构建的分类模型,计算出文本属于不同分类ci的概率集合P(C|A),集合中的最大值对应的类别标签ci是模型预测的违章操作类别;其中,C为ci的集合,P(C|A)为P(ci|A)的集合。
2.如权利要求1所述基于改进朴素贝叶斯的电力系统文本数据分类方法,其特征在于,所述违章操作类别包括人员行为违章、工器具违章、安全活动违章、监管违章和两票违章等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203845.2A CN112215002A (zh) | 2020-11-02 | 2020-11-02 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203845.2A CN112215002A (zh) | 2020-11-02 | 2020-11-02 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112215002A true CN112215002A (zh) | 2021-01-12 |
Family
ID=74057938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203845.2A Pending CN112215002A (zh) | 2020-11-02 | 2020-11-02 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215002A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934852A (zh) * | 2021-12-16 | 2022-01-14 | 中国矿业大学(北京) | 一种煤矿违章信息文本自动分类方法和系统 |
CN114330252A (zh) * | 2021-12-30 | 2022-04-12 | 浪潮(北京)电子信息产业有限公司 | 一种文本打标签方法、装置及相关设备 |
CN114598597A (zh) * | 2022-02-24 | 2022-06-07 | 烽台科技(北京)有限公司 | 多源日志解析方法、装置、计算机设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107273752A (zh) * | 2017-06-26 | 2017-10-20 | 北京理工大学 | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 |
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN107908649A (zh) * | 2017-10-11 | 2018-04-13 | 北京智慧星光信息技术有限公司 | 一种文本分类的控制方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
CN109902173A (zh) * | 2019-01-31 | 2019-06-18 | 青岛科技大学 | 一种中文文本分类方法 |
-
2020
- 2020-11-02 CN CN202011203845.2A patent/CN112215002A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107273752A (zh) * | 2017-06-26 | 2017-10-20 | 北京理工大学 | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 |
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN107908649A (zh) * | 2017-10-11 | 2018-04-13 | 北京智慧星光信息技术有限公司 | 一种文本分类的控制方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
CN109902173A (zh) * | 2019-01-31 | 2019-06-18 | 青岛科技大学 | 一种中文文本分类方法 |
Non-Patent Citations (1)
Title |
---|
G.LIANG ET AL.: "Classification for Text Data from the Power System Based on Improving Na¨ıve Bayes", 《2020 12TH IEEE PES ASIA-PACIFIC POWER AND ENERGY ENGINEERING CONFERENCE (APPEEC)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934852A (zh) * | 2021-12-16 | 2022-01-14 | 中国矿业大学(北京) | 一种煤矿违章信息文本自动分类方法和系统 |
CN114330252A (zh) * | 2021-12-30 | 2022-04-12 | 浪潮(北京)电子信息产业有限公司 | 一种文本打标签方法、装置及相关设备 |
CN114598597A (zh) * | 2022-02-24 | 2022-06-07 | 烽台科技(北京)有限公司 | 多源日志解析方法、装置、计算机设备及介质 |
CN114598597B (zh) * | 2022-02-24 | 2023-12-01 | 烽台科技(北京)有限公司 | 多源日志解析方法、装置、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
Diab | Optimizing stochastic gradient descent in text classification based on fine-tuning hyper-parameters approach. a case study on automatic classification of global terrorist attacks | |
CN112215002A (zh) | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
CN107562919B (zh) | 一种基于信息检索的多索引集成软件构件检索方法及系统 | |
Kumar et al. | Legal document summarization using latent dirichlet allocation | |
Ding et al. | Research on text information mining technology of substation inspection based on improved Jieba | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN116720504A (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN107577738A (zh) | 一种通过svm文本挖掘处理数据的fmeca方法 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN115544213B (zh) | 获取文本中的信息的方法、设备和存储介质 | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
Derczynski et al. | Temporal signals help label temporal relations | |
Chen et al. | A set space model for feature calculus | |
CN114372145B (zh) | 一种基于知识图谱平台的运维资源动态分配的调度方法 | |
RU2546555C1 (ru) | Способ автоматической классификации формализованных документов в системе электронного документооборота | |
Sun | Research on product attribute extraction and classification method for online review | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
Pasala et al. | An analytics-driven approach to identify duplicate bug records in large data repositories | |
Luo et al. | A study of multi-label event types recognition on Chinese financial texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210112 |
|
WD01 | Invention patent application deemed withdrawn after publication |