CN107391772B - 一种基于朴素贝叶斯的文本分类方法 - Google Patents
一种基于朴素贝叶斯的文本分类方法 Download PDFInfo
- Publication number
- CN107391772B CN107391772B CN201710832802.2A CN201710832802A CN107391772B CN 107391772 B CN107391772 B CN 107391772B CN 201710832802 A CN201710832802 A CN 201710832802A CN 107391772 B CN107391772 B CN 107391772B
- Authority
- CN
- China
- Prior art keywords
- text
- probability
- formula
- classified
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000003066 decision tree Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000006555 catalytic reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于朴素贝叶斯的文本分类方法,包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di);步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),步骤4:重复步骤2、3,计算出所有后验概率;步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别,本方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
Description
技术领域
本发明涉及铁路接触网检测领域,具体地,涉及一种基于朴素贝叶斯的文本分类方法。
背景技术
电力客服部门每天都要面对大量用户的诉求信息。传统模式下,接线员将用户的诉求信息通过主观判断进行分类,之后交付给相应部门进行处理。这种方式需要人工逐条查看确认,信息化、智能化严重不足。
电力用户诉求文本分类方面的内容非常丰富,这些内容常见于信息检索、机器学习、知识挖掘与发现、模式识别、智能电网、电力科学与应用等各种国际会议及相关的期刊或杂志。比较有代表性的综述文章有Sebastiani的“Machine Learning in AutomatedText Categorization"和Aas的“Text Categorization:A Survey"。目前最常使用的文本分类算法有:kNN分类算法、朴素贝叶斯分类算法、支持向量机、神经网络等。其中,朴素贝叶斯算法由于其良好的执行速率和低复杂度而成为最为流行的数据挖掘算法之一。然而,朴素贝叶斯算法有一个严重的缺点:假设各属性之间相互独立。但是在电力行业的用户诉求文本中,各属性之间往往存在依赖关系。因此,传统的朴素贝叶斯算法并不能在电力行业的客户诉求信息分类问题中取得理想效果。
发明内容
本发明提供了一种基于朴素贝叶斯的文本分类方法,解决了现有的文本分类算法效果不理想的技术问题,本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
本发明提出的基于朴素贝叶斯的文本分类方法可以解决现有技术中缺点,能够用于对海量用户诉求进行实时的自动舆情分析、舆情汇总,并识别其中的关键舆情信息,及时反馈到相关人员建立应急响应,为正确舆论导向及收集用户意见提供直接支持的一套信息化平台。
为实现上述发明目前,本申请提供了一种基于朴素贝叶斯的文本分类方法,所述方法包括:
步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;
步骤2:通过对P(w1,...,wn)属性w1,...,wn在训练文本集Di中进行查找,计算出P(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性除以训练文本集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di),P(w1,...,wn)为:待分类文本,wn为:文本P(w1,...,wn中的属性,yn为:属性wn在训练文本集Di中出现的次数;
步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),P(x|Di)为:…;
步骤4:重复步骤2、3,计算出所有后验概率;
步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别。
进一步的,对待分类文本中出现的每一个单词si进行权重wi设置,具体包括:
决策树中没有出现的特征权重设为1;
待分类文本中出现的每一个单词si均定义了它的权重wi:
进一步的,所述方法具体包括:
输入:训练文本库D、测试文本d;
建立一个未修剪二叉树,使用规定的增益比公式作为分割准则,增益比公式(2)如下:
其中,C为待分割数据,H(wi)为:wi的信息熵;IG(C,wi)为C与wi的基尼不纯度;
遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m);
通过公式(1)对计算每个词si的权重wi(i=1,2,3,...,m);
通过公式(3)计算测试文档d的P(c);
先验概率:
其中,j为公式中的计数字母,n为属性个数,m为决策树中词的总数,cj为文档d的第j个属性;
通过公式(4)计算测试文档d的P(si|c);
通过公式(5)预测测试文档的类值c(d):
S306:返回d的类值c(d)。本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
传统的朴素贝叶斯算法基于一个基本假设:属性之间相互独立。如果这一假设不能达成,则分类器的查全率和查准率将远低于预期。而在电力行业的用户诉求信息中,属性之间关联性强,因此传统朴素贝叶斯算法并不适用。本发明克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,提出一种新颖的基于朴素贝叶斯算法的文本分类方法。新方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。本方法继承了电力文本特征加权方法的简单性。并且本方法将决策树中没有出现的电力文本特征权重设为1(而不是0),使得不重要的特征也可以为电力用户文本分类做出贡献。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是本申请中基于朴素贝叶斯的文本分类方法的流程示意图;
图2为本发明数据设置权重的子流程图。
具体实施方式
本发明提供了一种基于朴素贝叶斯的文本分类方法,解决了现有的文本分类算法效果不理想的技术问题,本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参考图1-图2,本发明的目的是通过以下技术方案来实现电力用户文本分类的,我们将设置电力用户文本内容权重分为以下几个步骤:
S101:树中没有出现的电力文本特征权重设为1。
这样,电力用户文本中出现的每一个单词si均定义了它的权重wi
朴素贝叶斯分类器算法假定各待分类电力用户文本特征向量相互独立。相互独立表明所有特征向量之间的表述没有关联,有利于运算。朴素贝叶斯分类器算法包括以下步骤:
S201:将待分类电力用户文本利用分词工具形成特征向量,之后将特征向量与常用停用词进行比较,去掉电力用户文档中无意义的词语。
S202:通过对P(w1,...,wn)属性w1,...,wn在电力用户训练文本集Di中进行查找,计算出P(w1,...,wn)在电力用户训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性分别除以电力用户训练文本集Di总文本数和电力用户训练文本集中经过剔除无用词去除文本预处理之后关键字的总数量,得到P(w1,...,wn)在电力用户训练文本集Di中出现的概率集Q(w1,...,wn)。把Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在电力用户训练文本集Di中出现的先验概率P(w|Di)。
S203:电力用户训练文本集Di中的文件数量除以整个电力用户训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在电力用户训练文本集Di中的后验概率P(Di|w)。
S204:重复步骤2、3,计算出所有后验概率。
S205:在步骤4的结果中比较出最大的后验概率P(Di),Di类就是P(w1,...,wn)所属类别。
根据权利1所述的要求的新的基于朴素贝叶斯算法的文本分类方法包括以下步骤:
S301:输入:电力用户训练文本库D、电力用户测试文本d;
S302:建立一个未修剪二叉树(每个词的价值分为零和非零)使用规定的增益比公式作为分割准则,增益比公式如下:
S303:遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m)
S304:通过公式对计算每个词si的权重wi(i=1,2,3,...,m)
S305:通过以下公式计算电力用户测试文档d的P(c);
先验概率:
通过以下公式计算电力用户测试文档d的P(si|c);
根据上式,可以将条件概率公式修改为:
通过以下公式预测电力用户测试文档的类值c(d)
S306:返回d的类值c(d)。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种基于朴素贝叶斯的文本分类方法,其特征在于,所述方法包括:
步骤1:将待分类电力用户诉求文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类电力用户诉求文本中无意义的词语;对待分类电力用户诉求文本中出现的每一个单词si进行权重wi设置;
步骤2:通过对P(w1,...,wn)属性w1,...,wn在训练文本集Di中进行查找,计算出P(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性除以训练文本集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di),P(w1,...,wn)为:待分类电力用户诉求文本,wn为:文本P(w1,...,wn) 中的属性,yn为:属性wn在训练文本集Di中出现的次数;
步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),P(x|Di)为:Di发生时x发生的概率;
步骤4:重复步骤2、3,计算出所有后验概率;
步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别;
其中,对待分类电力用户诉求文本中出现的每一个单词si进行权重wi设置,具体包括:
决策树中没有出现的特征权重设为1;
待分类电力用户诉求文本中出现的每一个单词si均定义了它的权重wi:
2.根据权利要求1所述的基于朴素贝叶斯的文本分类方法,其特征在于,所述方法具体包括:
输入:训练文本库D、测试文本d;
建立一个未修剪二叉树,使用规定的增益比公式作为分割准则,增益比公式(2)如下:
其中,C为待分割数据,H(wi)为:wi的信息熵;IG(C,wi)为C与wi的基尼不纯度;
遍历决策树,并记录每个词si的最小深度di(i=1,2,3,...,m);
通过公式(1)对计算每个词si的权重wi(i=1,2,3,...,m);
通过公式(3)计算测试文档d的P(c);
先验概率:
其中,j为公式中的计数字母,n为属性个数,m为决策树中词的总数,cj为文档d的第j个属性;
通过公式(4)计算测试文档d的P(si|c);
通过公式(5)预测测试文档的类值c(d):
S306:返回d的类值c(d)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710832802.2A CN107391772B (zh) | 2017-09-15 | 2017-09-15 | 一种基于朴素贝叶斯的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710832802.2A CN107391772B (zh) | 2017-09-15 | 2017-09-15 | 一种基于朴素贝叶斯的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391772A CN107391772A (zh) | 2017-11-24 |
CN107391772B true CN107391772B (zh) | 2020-12-01 |
Family
ID=60350082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710832802.2A Active CN107391772B (zh) | 2017-09-15 | 2017-09-15 | 一种基于朴素贝叶斯的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391772B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052556A (zh) * | 2017-11-29 | 2018-05-18 | 成都东方盛行电子有限责任公司 | 一种基于大数据的分类方法 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和系统 |
CN108647702B (zh) * | 2018-04-13 | 2021-06-01 | 湖南大学 | 一种基于迁移学习的大规模食材图像分类方法 |
CN108427775A (zh) * | 2018-06-04 | 2018-08-21 | 成都市大匠通科技有限公司 | 一种基于多项贝叶斯的工程造价清单分类方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
CN109446393B (zh) * | 2018-09-12 | 2020-06-30 | 北京邮电大学 | 一种网络社区话题分类方法及装置 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN110442709A (zh) * | 2019-06-24 | 2019-11-12 | 厦门美域中央信息科技有限公司 | 一种基于朴素贝叶斯模型的文本分类方法 |
CN110737700A (zh) * | 2019-10-16 | 2020-01-31 | 百卓网络科技有限公司 | 一种基于贝叶斯算法的进销存用户分类方法及系统 |
CN112084308A (zh) * | 2020-09-16 | 2020-12-15 | 中国信息通信研究院 | 用于文本类型数据识别的方法、系统及存储介质 |
CN112215002A (zh) * | 2020-11-02 | 2021-01-12 | 浙江大学 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
CN113900924B (zh) * | 2021-09-06 | 2023-04-07 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统 |
CN114598597B (zh) * | 2022-02-24 | 2023-12-01 | 烽台科技(北京)有限公司 | 多源日志解析方法、装置、计算机设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142997A (zh) * | 2014-08-01 | 2014-11-12 | 浪潮电子信息产业股份有限公司 | 基于逆向词频的贝叶斯文本分类器 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
-
2017
- 2017-09-15 CN CN201710832802.2A patent/CN107391772B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142997A (zh) * | 2014-08-01 | 2014-11-12 | 浪潮电子信息产业股份有限公司 | 基于逆向词频的贝叶斯文本分类器 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107391772A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391772B (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN108363810B (zh) | 一种文本分类方法及装置 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN110990567A (zh) | 一种增强领域特征的电力审计文本分类方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN110765266B (zh) | 一种裁判文书相似争议焦点合并方法及系统 | |
CN111339247B (zh) | 一种微博子话题用户评论情感倾向性分析方法 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN110287292A (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
CN104008177B (zh) | 面向图像语义标注的规则库结构优化与生成方法及系统 | |
Hussain et al. | Design and analysis of news category predictor | |
CN114491033A (zh) | 一种基于词向量和主题模型的用户兴趣模型构建的方法 | |
TWI452477B (zh) | 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法 | |
CN112380342A (zh) | 一种电力文档主题提取方法及设备 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN116881451A (zh) | 基于机器学习的文本分类方法 | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN112784040B (zh) | 基于语料库的垂直行业文本分类方法 | |
CN113657106A (zh) | 基于归一化词频权重的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |