CN108363694A - 关键词提取方法及装置 - Google Patents

关键词提取方法及装置 Download PDF

Info

Publication number
CN108363694A
CN108363694A CN201810155685.5A CN201810155685A CN108363694A CN 108363694 A CN108363694 A CN 108363694A CN 201810155685 A CN201810155685 A CN 201810155685A CN 108363694 A CN108363694 A CN 108363694A
Authority
CN
China
Prior art keywords
word
keyword
language
chinese
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810155685.5A
Other languages
English (en)
Other versions
CN108363694B (zh
Inventor
楣垮嘲
鹿峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wotou Network Technology Co Ltd
Original Assignee
Beijing Wotou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wotou Network Technology Co Ltd filed Critical Beijing Wotou Network Technology Co Ltd
Priority to CN201810155685.5A priority Critical patent/CN108363694B/zh
Publication of CN108363694A publication Critical patent/CN108363694A/zh
Application granted granted Critical
Publication of CN108363694B publication Critical patent/CN108363694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种关键词提取方法及装置,该方法包括:步骤S1:获取中文语料库和外文语料库;步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;步骤S3:对该若干个词语进行分类,形成中文词汇组和外文词汇组;步骤S4:计算该中文词汇组中每一个词语在该待提取关键词的文章中的tf值以及在该中文语料库中的idf值,计算该外文词汇组中每一个词语在该待提取关键词的文章中的tf值以及在该外文语料库中的idf值,对于该若干个词语中每一个词语,根据其tf值以及idf值计算其权重;步骤S5:对该若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。本发明可以提高关键词提取的准确度。

Description

关键词提取方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种关键词提取方法及装置。
背景技术
tf-idf(term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
tf-idf算法是创建在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,tf-idf法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度idf的概念,以tf和idf的乘积作为特征空间坐标系的取值测度,并用它完成对权值tf的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上idf是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。idf的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以tf-idf法的精度并不是很高,如针对专业领域,采用tf-idf法会有如下情况出现:
(1)当以普通语料做词库时,某个专业词汇经常出现,令tf-idf值偏高,实际上该词汇在该领域经常出现,并无关键信息;
(2)当以专业语料做词库时,某些常用词的idf会偏高,使最终结果较差;
(3)专业领域文章中,外文的词汇一般会是专业词汇,会出现tf值和idf都高的情况,如果不额外处理,会使最终结果大部分是外文词汇;
(4)关键词和生僻词需要分开计算;
(5)而且生僻词的算法容易将分词引擎分词错误的词汇找出。
发明内容
本发明的目的在于提供一种关键词提取方法及装置,可以提高关键词提取的准确度。
为实现上述目的,本发明的技术方案提供了一种关键词提取方法,包括:
步骤S1:获取中文语料库和外文语料库;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
进一步地,步骤S1包括:
收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
进一步地,步骤S2包括:
依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
进一步地,在步骤S4中,采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高。
进一步地,步骤S5包括:
设置用于过滤预设过滤词语的过滤器;
按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
为实现上述目的,本发明的技术方案还提供了一种关键词提取装置,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
进一步地,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
进一步地,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
进一步地,所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高。
进一步地,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
本发明提供的关键词提取方法,通过将从待提取关键词的文章获取的词语进行分类,形成中文词汇组和英文词汇组,中文词汇组中的词语采用中文语料库确定权值,外文词汇组中的词语采用相应的外文语料库确定权值,从而可以提高关键词提取的准确度,此外还能够实现同时提取关键词和生僻词,关键词和生僻词不需要分开计算,并且避免在提取生僻词时将分词引擎分词错误的词汇找出。
附图说明
图1是本发明实施方式提供的一种关键词提取方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种关键词提取方法的流程图,该方法包括步骤S1-S5:
步骤S1:获取中文语料库和外文语料库,该步骤可以包括步骤S11-S12;
步骤S11:收集多个中文语料和多个外文语料(例如,可以为英文语料);
其中,每一个语料可以为一篇文章,收集的多个中文语料由新闻类型语料和专业类型语料组成,且新闻类型语料的比例大于专业类型语料的比例,其比例数值可以根据具体情况确定,新闻类型语料包括不同种类的新闻类型语料(种类越多越佳),例如可以包括娱乐新闻类型、国际新闻类型、财经新闻类型等,专业类型语料的专业领域与待提取关键词的文章的专业领域相同;
收集的多个外文语料为由专业类型语料组成,其专业领域与待提取关键词的文章的专业领域相同;
步骤S11:对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库;
例如,对于每一个语料,可先进行分词(如使用pullword在线分词引擎),分词后对语料进行清洗处理,以去除标点符号、日期、纯数字等无用词汇;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
例如,可以依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语,具体地,可以先使用pullword在线分词引擎进行分词,分词后进行清洗,以去除标点符号、日期、纯数字等无用词汇;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
例如,可进行中英文分类,形成中文词汇组和英文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
例如,可以采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1。
其中,对于上述方式,K为预设的生僻词系数,其值可调,可根据所需进行设置,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高。
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词,例如,该步骤可以包括步骤S51-S52:
步骤S51:设置用于过滤预设过滤词语的过滤器;
过滤器可通过正规则表达式匹配和/或停用词库的方式进行过滤,例如,通过正规则表达式匹配方式,可以将中文词汇组和外文词汇组中的人名、机构名、期刊名等非关键词的命名实体进行过滤,停用词库中可以包含汉语常用8000词语;
步骤S52:按照权重从大到小对所述若干个词语(即中文词汇组和英文词汇组合并)进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
本发明实施方式提供的关键词提取方法,通过将从待提取关键词的文章获取的词语进行分类,形成中文词汇组和英文词汇组,中文词汇组中的词语采用中文语料库确定权值,外文词汇组中的词语采用相应的外文语料库确定权值,从而可以提高关键词提取的准确度。
在现有技术中,关键词和生僻词需要分开计算,且生僻词的算法容易将分词引擎分词错误的词汇找出,而本发明可以通过调整K的值调整关键词中生僻词的比例,当K的值越大时,所选出的关键词中生僻词的比例越高,能够实现同时提取关键词和生僻词,关键词和生僻词不需要分开计算,还可以避免在提取生僻词时将分词引擎分词错误的词汇找出。
此外,本发明实施方式还提供了一种关键词提取装置,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
其中,在本发明实施方式中,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
其中,在本发明实施方式中,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
其中,在本发明实施方式中,所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高。
其中,在本发明实施方式中,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
步骤S1:获取中文语料库和外文语料库;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,步骤S1包括:
收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
3.根据权利要求1所述的关键词提取方法,其特征在于,步骤S2包括:
依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
4.根据权利要求1所述的关键词提取方法,其特征在于,在步骤S4中,采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高。
5.根据权利要求1所述的关键词提取方法,其特征在于,步骤S5包括:
设置用于过滤预设过滤词语的过滤器;
按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
6.一种关键词提取装置,其特征在于,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
7.根据权利要求6所述的关键词提取装置,其特征在于,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
8.根据权利要求6所述的关键词提取装置,其特征在于,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
9.根据权利要求6所述的关键词提取装置,其特征在于,所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高。
10.根据权利要求6所述的关键词提取装置,其特征在于,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
CN201810155685.5A 2018-02-23 2018-02-23 关键词提取方法及装置 Active CN108363694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155685.5A CN108363694B (zh) 2018-02-23 2018-02-23 关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155685.5A CN108363694B (zh) 2018-02-23 2018-02-23 关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN108363694A true CN108363694A (zh) 2018-08-03
CN108363694B CN108363694B (zh) 2021-08-24

Family

ID=63002315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155685.5A Active CN108363694B (zh) 2018-02-23 2018-02-23 关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN108363694B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492225A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 一种小语种国家的舆情信息文本处理方法
CN109710944A (zh) * 2018-12-29 2019-05-03 新华网股份有限公司 热词提取方法、装置、电子设备及计算机可读存储介质
CN111368539A (zh) * 2020-03-02 2020-07-03 贵州电网有限责任公司 一种热点分析建模方法
CN111651553A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 一种在保险指南文章内查看文中保险产品的方法
CN114492401A (zh) * 2022-01-24 2022-05-13 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130058840A (ko) * 2011-11-28 2013-06-05 윤창훈 외국어 학습방법
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN106021288A (zh) * 2016-04-27 2016-10-12 南京慕测信息科技有限公司 一种基于自然语言分析的随堂测试答案快速自动分类方法
CN107193883A (zh) * 2017-04-27 2017-09-22 北京拓尔思信息技术股份有限公司 一种数据处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130058840A (ko) * 2011-11-28 2013-06-05 윤창훈 외국어 학습방법
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN106021288A (zh) * 2016-04-27 2016-10-12 南京慕测信息科技有限公司 一种基于自然语言分析的随堂测试答案快速自动分类方法
CN107193883A (zh) * 2017-04-27 2017-09-22 北京拓尔思信息技术股份有限公司 一种数据处理方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492225A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 一种小语种国家的舆情信息文本处理方法
CN109710944A (zh) * 2018-12-29 2019-05-03 新华网股份有限公司 热词提取方法、装置、电子设备及计算机可读存储介质
CN111368539A (zh) * 2020-03-02 2020-07-03 贵州电网有限责任公司 一种热点分析建模方法
CN111651553A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 一种在保险指南文章内查看文中保险产品的方法
CN114492401A (zh) * 2022-01-24 2022-05-13 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法
CN114492401B (zh) * 2022-01-24 2022-11-15 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法

Also Published As

Publication number Publication date
CN108363694B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN108363694A (zh) 关键词提取方法及装置
US7409404B2 (en) Creating taxonomies and training data for document categorization
CN106599054B (zh) 一种题目分类及推送的方法及系统
TWI518528B (zh) Method, apparatus and system for identifying target words
CN109960756B (zh) 新闻事件信息归纳方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN104598532A (zh) 一种信息处理方法及装置
EP0996927A1 (en) Text classification system and method
CN104967558B (zh) 一种垃圾邮件的检测方法及装置
CN109062895B (zh) 一种智能语义处理方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Sarkar A hybrid approach to extract keyphrases from medical documents
Elhassan et al. Arabic text classification on full word
Akour et al. MQVC: Measuring quranic verses similarity and sura classification using N-gram
Koirala et al. A Nepali Rule Based Stemmer and its performance on different NLP applications
Fodil et al. Theme classification of Arabic text: A statistical approach
Ayadi et al. A Survey of Arabic Text Representation and Classification Methods.
CN104166712B (zh) 科技文献检索方法及系统
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Bassil A survey on information retrieval, text categorization, and web crawling
Coenen et al. Statistical identification of key phrases for text classification
CN111753547A (zh) 一种用于敏感数据泄露检测的关键词提取方法及系统
Jayaweera et al. Dynamic stopword removal for sinhala language
Hattab et al. Arabic content classification system using statistical Bayes classifier with words detection and correction
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant