CN110287321A - 一种基于改进特征选择的电力文本分类方法 - Google Patents
一种基于改进特征选择的电力文本分类方法 Download PDFInfo
- Publication number
- CN110287321A CN110287321A CN201910561443.0A CN201910561443A CN110287321A CN 110287321 A CN110287321 A CN 110287321A CN 201910561443 A CN201910561443 A CN 201910561443A CN 110287321 A CN110287321 A CN 110287321A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- keyword
- electric power
- feature selecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006872 improvement Effects 0.000 title description 4
- 238000010276 construction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 230000003466 anti-cipated effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于改进特征选择的电力文本分类方法是一种为了解决电力领域文本分类问题过程中其文本专业性过强,传统文本分类中使用的特征选择方法难以寻找到电力文本关键词或关键词不够准确的机制。它主要由数据分类预处理器、数据特征处理器、数据分类器、数据分类操作核心等部分组成。本专利使用tf‑idf算法进行一次特征选择后得到的关键词,利用word2vec算法找寻与特征选择中选中关键词词意最相近的一些词语,通过再次利用特征选择算法对这些词语进行二次特征选择,如果这些词语达到了设计的阈值,则将它们也作为文本的关键词使用。
Description
技术领域
本发明是一种基于改进特征选择的电力文本分类方法,主要用于电力领域中的文本分类,属于电力系统数据处理领域。
背景技术
从数据结构来看,电网中的数据主要分为两类。第一类是结构化数据,包括电网运行数据、气象数据和状态监测数据等,随着智能电网的建设,大量的智能电表及其配套监测设备投入使用,种类繁多的电力数据被及时的采集。这些数据资料贯穿电力生产的各个环节,它们相互联系、相辅相成,共同构成电力数据。第二类是非/半结构化数据,主要文本、声音、图像、视频等形式存储在数据库中。按照大多数信息化企业的数据管理经验,结构化数据约占数据总量的20%,它们能被关系型数据库处理,但其余80%的半结构化和非结构化数据则很难用关系型数据库表达。非/半结构化数据挖掘一直是信息学科的热点与难点。
现有的一些针对电网方向的数据挖掘都是针对电网中结构化数据的所做研究和应用,而电网中非结构化数据中的文本方向的研究却基本鲜有研究,迄今为止,有关电网中文文本处理的研究报告几乎为零。而电网企业在设备运维管理过程中,会以中文形式记录设备的敌障、缺陷、检修、消缺等信息。这些信息会以文本形式保存在信息管理系统中,不仅反映电力设备个体健康状态的既往史,还蕴藏着丰富的同类设备可靠性信息的技术。中文文本分类一直来被认为是一项重要而困难的技术,尤其当它应用于各专业领域时,需要与专业领域知识密切结合,则更为困难。在机械领域,有学者利用大量的历史设备诊断报告,运用自然语言处理技术对文本进行初始化处理,在实时诊断中将其与设备状态描述文本对比,寻找出最相似的情况,从而提供诊断建议。在电力领域,同样有国外的学者针对纽约电网提出运用机器学习的方法挖掘海量的历史缺陷数据,从而提供电力设备故障预测和预防性维修的依据。
电网数据文本分类主要考虑两个方面的问题:(1)如何解决电网数据文本中其文字具有很强的专业性,导致其分类效果不佳的问题。(2)如何利用解决传统文本中的特征选取方法来解决电力系统文本中特征冗余的问题。
发明内容
本发明的目的就是提供一种基于改进特征选择的电力文本分类方法,来解决电力系统文本分类的问题,本机制是一种策略性方法,通过使用本方法可以使得电力系统文本分类更具有针对性,提升分类的效果。
一种基于改进特征选择的电力文本分类方法,所述电力文本分类方法,使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心;所述电力文本分类方法的执行过程主要包含以下步骤:
步骤1:利用电力领域相关文档建立一个电力领域词典;
步骤2:对待处理文本进行预处理,根据停用词表删除其中的一些不影响文本大意的词语;
步骤3:对步骤2中进行过预处理过的文本利用电力领域词典进行分词;
步骤4:对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词;
步骤5:先对步骤4中得到的关键词与电力领域词典进行对比,留下重复最多的数个关键词;
步骤6:利用word2vec算法对文本进行词向量语义分析,找寻和步骤5中得到的关键词词意最近的一组词;
步骤7:再次利用tf-idf算法,对步骤6中得到的一组词进行计算,如果其结果达到先设计的阈值,则将其也作为关键词;
步骤8:利用文本分类器对训练集进行训练,得出训练好的文本分类器;
步骤9:使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类;
步骤10:结束。
进一步地,所述词典构造器,构造一个电力领域词典,这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合,在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。
进一步地,所述数据分类预处理器,根据电力领域词典和停用词表,对待分类的测试文本进行文本的预处理,去除掉文本的一些无意义的词语与数字符号等。
进一步地,所述停用词表,指那些在文本中经常出现的词汇,例如英文中的‘a’,‘the’等,中文中的‘的’,‘啊’,还有一些数字和符号,这些词汇被收集到一个称为停用词表的集合中。
进一步地,由于电力领域的特殊性,其文本中必然含有大量的数字和符号,本方法中建立一个数据统计知识规则库,是否将某数字或符号填入停用词表设置一个阈值,通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。
进一步地,所述数据特征处理器,对进行预处理过后的文本需要进行文本分词的处理,所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词,再通过利用word2vec算法计算与关键词词意相近的词,再次使用tf-idf算法对这些相近的词进行计算,找到同样能代表文本的关键词。
进一步地,所述数据分类操作核心包括了在数据进行特征选取后,数据分类时所需的所有具体操作。
进一步地,所述步骤3和步骤7中的tf-idf算法,具体地,设其中a为该词在文章中出现的次数,b文章的总词数,c为语料库的文档总数,e为包含该词的文档数,分母加1是为了避免分母为0的情况出现,计算该词tf×idf的值,选择计算结果最大的一些词语作为关键词。
进一步地,所述步骤4中,使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语,所述word2vec是一个将单词转换成向量形式,计算出向量空间上的相似度,来表示文本语义上的相似度的一个算法;本方法使用word2vec算法中的skip-grim模型,该模型是用一个词语作为输入,来预测它周围的上下文;这个模型的实质就是求两个词语的相似度ux Tvc,vc代表目标词语的词向量,ux代表除目标词语外第x个词语的词向量,其中vc=Wwc,W表示目标词语的矩阵,W是一个d×V的矩阵,其中V代表所有词语的数量,d代表该目标词语的维数,wc表示目标词语的one-hot向量。
本发明提供的一种基于改进特征选择的电力文本分类方法,解决了电力系统文本分类的问题,主要用于对电力领域文本分类过程中文本的特征选择处理,通过本发明中的模型,可以更加准确的找到能代表电力领域文本的特征向量和文本中能代表文本类别的关键词组。本机制是一种策略性方法,通过使用本方法可以使得电力系统文本分类更具有针对性,提升分类的效果。
附图说明
图1是本发明所述文本分类方法的系统结构图。
图2是本发明所述的文本分类方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
一种基于改进特征选择的电力文本分类方法,所述电力文本分类方法,使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心。
所述词典构造器,构造一个电力领域词典,这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合,在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。
所述数据分类预处理器,根据电力领域词典和停用词表,对待分类的测试文本进行文本的预处理,去除掉文本的一些无意义的词语与数字符号等。
所述停用词表,指那些在文本中经常出现的词汇,例如英文中的‘a’,‘the’等,中文中的‘的’,‘啊’,还有一些数字和符号,这些词汇被收集到一个称为停用词表的集合中。
由于电力领域的特殊性,其文本中必然含有大量的数字和符号,本方法中建立一个数据统计知识规则库,是否将某数字或符号填入停用词表设置一个阈值,通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。
所述数据特征处理器,对进行预处理过后的文本需要进行文本分词的处理,所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词,再通过利用word2vec算法计算与关键词词意相近的词,再次使用tf-idf算法对这些相近的词进行计算,找到同样能代表文本的关键词。
所述数据分类操作核心包括了在数据进行特征选取后,数据分类时所需的所有具体操作。
所述电力文本分类方法的执行过程主要包含以下步骤:
步骤1:利用电力领域相关文档建立一个电力领域词典。
步骤2:对待处理文本进行预处理,根据停用词表删除其中的一些不影响文本大意的词语。
步骤3:对步骤2中进行过预处理过的文本利用电力领域词典进行分词。
步骤4:对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词。
步骤5:先对步骤4中得到的关键词与电力领域词典进行对比,留下重复最多的数个关键词。
步骤6:利用word2vec算法对文本进行词向量语义分析,找寻和步骤5中得到的关键词词意最近的一组词。
步骤7:再次利用tf-idf算法,对步骤6中得到的一组词进行计算,如果其结果达到先设计的阈值,则将其也作为关键词。
步骤8:利用文本分类器对训练集进行训练,得出训练好的文本分类器。
步骤9:使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类。
步骤10:结束。
所述步骤3和步骤7中的tf-idf算法,具体地,设其中a为该词在文章中出现的次数,b文章的总词数,c为语料库的文档总数,e为包含该词的文档数,分母加1是为了避免分母为0的情况出现,计算该词tf×idf的值,选择计算结果最大的一些词语作为关键词。
所述步骤4中,使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语,所述word2vec是一个将单词转换成向量形式,计算出向量空间上的相似度,来表示文本语义上的相似度的一个算法;本方法使用word2vec算法中的skip-grim模型,该模型是用一个词语作为输入,来预测它周围的上下文;这个模型的实质就是求两个词语的相似度ux Tvc,vc代表目标词语的词向量,ux代表除目标词语外第x个词语的词向量,其中vc=Wwc,W表示目标词语的矩阵,W是一个d×V的矩阵,其中V代表所有词语的数量,d代表该目标词语的维数,wc表示目标词语的one-hot向量。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (9)
1.一种基于改进特征选择的电力文本分类方法,其特征在于:
所述电力文本分类方法,使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心;
所述电力文本分类方法的执行过程主要包含以下步骤:
步骤1:利用电力领域相关文档建立一个电力领域词典;
步骤2:对待处理文本进行预处理,根据停用词表删除其中的一些不影响文本大意的词语;
步骤3:对步骤2中进行过预处理过的文本利用电力领域词典进行分词;
步骤4:对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词;
步骤5:先对步骤4中得到的关键词与电力领域词典进行对比,留下重复最多的数个关键词;
步骤6:利用word2vec算法对文本进行词向量语义分析,找寻和步骤5中得到的关键词词意最近的一组词;
步骤7:再次利用tf-idf算法,对步骤6中得到的一组词进行计算,如果其结果达到先设计的阈值,则将其也作为关键词;
步骤8:利用文本分类器对训练集进行训练,得出训练好的文本分类器;
步骤9:使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类;
步骤10:结束。
2.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述词典构造器,构造一个电力领域词典,这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合,在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。
3.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据分类预处理器,根据电力领域词典和停用词表,对待分类的测试文本进行文本的预处理,去除掉文本的一些无意义的词语与数字符号等。
4.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述停用词表,指那些在文本中经常出现的词汇,例如英文中的‘a’,‘the’等,中文中的‘的’,‘啊’,还有一些数字和符号,这些词汇被收集到一个称为停用词表的集合中。
5.根据权利要求4所述的一种基于改进特征选择的电力文本分类方法,其特征在于:由于电力领域的特殊性,其文本中必然含有大量的数字和符号,本方法中建立一个数据统计知识规则库,是否将某数字或符号填入停用词表设置一个阈值,通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。
6.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据特征处理器,对进行预处理过后的文本需要进行文本分词的处理,所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词,再通过利用word2vec算法计算与关键词词意相近的词,再次使用tf-idf算法对这些相近的词进行计算,找到同样能代表文本的关键词。
7.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据分类操作核心包括了在数据进行特征选取后,数据分类时所需的所有具体操作。
8.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述步骤3和步骤7中的tf-idf算法,具体地,设其中a为该词在文章中出现的次数,b文章的总词数,c为语料库的文档总数,e为包含该词的文档数,分母加1是为了避免分母为0的情况出现,计算该词tf×idf的值,选择计算结果最大的一些词语作为关键词。
9.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述步骤4中,使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语,所述word2vec是一个将单词转换成向量形式,计算出向量空间上的相似度,来表示文本语义上的相似度的一个算法;本方法使用word2vec算法中的skip-grim模型,该模型是用一个词语作为输入,来预测它周围的上下文;这个模型的实质就是求两个词语的相似度ux Tvc,vc代表目标词语的词向量,ux代表除目标词语外第x个词语的词向量,其中vc=Wwc,W表示目标词语的矩阵,W是一个d×V的矩阵,其中V代表所有词语的数量,d代表该目标词语的维数,wc表示目标词语的one-hot向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561443.0A CN110287321A (zh) | 2019-06-26 | 2019-06-26 | 一种基于改进特征选择的电力文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561443.0A CN110287321A (zh) | 2019-06-26 | 2019-06-26 | 一种基于改进特征选择的电力文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287321A true CN110287321A (zh) | 2019-09-27 |
Family
ID=68006268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910561443.0A Pending CN110287321A (zh) | 2019-06-26 | 2019-06-26 | 一种基于改进特征选择的电力文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287321A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN110990567A (zh) * | 2019-11-25 | 2020-04-10 | 国家电网有限公司 | 一种增强领域特征的电力审计文本分类方法 |
CN112364169A (zh) * | 2021-01-13 | 2021-02-12 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885749A (zh) * | 2016-09-30 | 2018-04-06 | 南京理工大学 | 本体语义扩展与协同过滤加权融合的工艺知识检索方法 |
CN108021679A (zh) * | 2017-12-07 | 2018-05-11 | 国网山东省电力公司电力科学研究院 | 一种并行化的电力设备缺陷文本分类方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
-
2019
- 2019-06-26 CN CN201910561443.0A patent/CN110287321A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885749A (zh) * | 2016-09-30 | 2018-04-06 | 南京理工大学 | 本体语义扩展与协同过滤加权融合的工艺知识检索方法 |
CN108021679A (zh) * | 2017-12-07 | 2018-05-11 | 国网山东省电力公司电力科学研究院 | 一种并行化的电力设备缺陷文本分类方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN110990567A (zh) * | 2019-11-25 | 2020-04-10 | 国家电网有限公司 | 一种增强领域特征的电力审计文本分类方法 |
CN112364169A (zh) * | 2021-01-13 | 2021-02-12 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN112364169B (zh) * | 2021-01-13 | 2022-03-04 | 北京云真信科技有限公司 | 基于nlp的wifi识别方法、电子设备和介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287321A (zh) | 一种基于改进特征选择的电力文本分类方法 | |
CN108121829A (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
Shokripour et al. | Automatic bug assignment using information extraction methods | |
Mandal et al. | Overview of the FIRE 2017 IRLeD Track: Information Retrieval from Legal Documents. | |
Wu et al. | Efficient near-duplicate detection for q&a forum | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
Jayaram et al. | A review: Information extraction techniques from research papers | |
Rakian et al. | A Persian fuzzy plagiarism detection approach | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
Sara-Meshkizadeh et al. | Webpage classification based on compound of using HTML features & URL features and features of sibling pages | |
Trisna et al. | Single document keywords extraction in Bahasa Indonesia using phrase chunking | |
Asmawati et al. | Sentiment analysis of text memes: A comparison among supervised machine learning methods | |
Li et al. | bi-hptm: An effective semantic matchmaking model for web service discovery | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
Pal et al. | Word sense disambiguation in Bengali: An unsupervised approach | |
Althobaiti et al. | A semi-supervised learning approach to arabic named entity recognition | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
Kharisma et al. | Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis | |
Hürriyetoǧlu et al. | Relevancer: Finding and labeling relevant information in tweet collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |
|
RJ01 | Rejection of invention patent application after publication |