CN111401056A - 一种从多类文本中提取关键词的方法 - Google Patents
一种从多类文本中提取关键词的方法 Download PDFInfo
- Publication number
- CN111401056A CN111401056A CN202010266133.9A CN202010266133A CN111401056A CN 111401056 A CN111401056 A CN 111401056A CN 202010266133 A CN202010266133 A CN 202010266133A CN 111401056 A CN111401056 A CN 111401056A
- Authority
- CN
- China
- Prior art keywords
- keywords
- text
- category
- keyword
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等,利用关键词提取器提取每个类别下所有文档的关键词,在自然语言处理领域,关键词的提取比较重要,它的应用不限于文本的摘要或者信息的检索或者文本的分类或者文本相似的比较等;本发明是从多个类文本中提取关键词的方法,该过程不依赖昂贵的多次迭代计算,增加软件的运行效率,更加不需要额外的有监督学习的标注工作,还可以应用于初筛关键词的基础上再次精确提取。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种从多类文本中提取关键词的方法。
背景技术
关键词该概括了文本主要内容,能帮助人们或者机器学习算法的下游任务能快速获取文本主要信息;另外,提取关键词在信息技术领域也存在广泛地应用,例如,信息检索等;目前,除了形式规范的科技文档提供了关键词外,大部分文档都没有配有关键词;传统依靠人工去阅读文本,然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求;因此,如何自动并且准确的提取关键词是当前急需解决的一个问题;目前自动提取关键词的方法很多,大致分为统计学方法和机器学习方法两大类;
1)基于统计方法,主要计算词与上下文环境的词出现次数来实现,在自然语言处理界比较典型的有TF-IDF、textRank、Rake等;这类方法的效果比较突出,但是缺少语义层的与文本主题关联,作为关键词初筛比较推荐;
2)机器学习方法中,又分无监督学习(聚类)和有监督学习,但都依赖大量的计算资源;其中无监督方法,依赖于文本向量化(文本转换为数字过程)的准确性,再词基础上用K-means、DBSCAN、BIRCH等,当文本向量维度大时,还需要额外降低维度计算,有监督方法准确率高,但是缺点很明显,需要标注大量数据;国内外的论文中,效果比较好的方法是引入CRF获取关键词;
本发明,可以自动提取类关键词,该过程不依赖大量的计算资源,也不需要标注数据,又可以对初筛的关键词进一步精确提取。
发明内容
本发明的目的在于提供一种从多类文本中提取关键词的方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;
其中在上述步骤一中,将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等;
其中在上述步骤二中,利用关键词提取器提取每个类别下所有文档的关键词,关键词提取器可以利用上述机器学习方法实现,也可以利用上述统计学方法实现,此步骤不为本发明重点介绍内容,此次发明暂使用textrank与tfidf等多模型融合实现的关键词提取器,每个类别的候选关键词集合用s1,s2,s3...表示
其中在上述步骤三中,此时通过关键词提取器内部的set(key1,key2...)集合中的add()方法将每个文档的候选关键词进行合并,然后通过set()集合的编程算法对候选关键词进行去重操作,将重复的候选关键词进行删除,此时剔除的词一般都为文本集中停用词,而停用词是在自然语言处理中为无作用词,而且会消耗过多的内存占用,特别在机器学习模型中表现为冗余,当单独分析一类文本时,停用词还会引入很多干扰信息,某个类的关键词,只应该出现在该类的文本中;具体类别的文本中的关键词,只应该出现在该类的文本中;反之,如果某类文本的关键词,又出现在其他类的文本中,则该词跟多个主题相关联,这种情况是相矛盾的;要精准的找出每个类别文本中,与该类强相关的词,就不应该出现在其他类的文章,保证每个词只出现一次,这样生成的集合为全文档的候选关键词集合,用S表示;
其中在上述步骤四中,通过关键词提取器将每个类别中候选关键词集s与全文档候选关键词集S进行求差集,此差集即为该类的精准关键词,这样就完成了对关键词的精度筛选。
根据上述技术方案,所述步骤一中,将相同类型的文档放到一个文件中去。
根据上述技术方案,所述步骤二中,分别从每个类的全部文档集合中提取类别的候选关键词。
6.根据上述技术方案,所述步骤三中,合并各个类别的所有关键词,成为全集合文本的候选关键词。
根据上述技术方案,所述步骤四中,利用类别的候选关键词与全集合文本的候选关键词求差集,此差集为精确提取类关键词。
与现有技术相比,本发明所达到的有益效果是:该一种从多类文本中提取关键词的方法可以自动的从大量文本中提取关键词,节省阅读时间,而且还不需要额外的计算资源,不依赖昂贵的多次迭代计算,增加软件的运行效率,更加不需要额外的有监督学习的标注工作,提高工作效率,还可以应用于初筛关键词的基础上再次精确提取,增加方法的使用效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的工艺流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;
其中在上述步骤一中,将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等,步骤一中,将相同类型的文档放到一个文件中去;
其中在上述步骤二中,利用关键词提取器提取每个类别下所有文档的关键词,关键词提取器可以利用上述机器学习方法实现,也可以利用上述统计学方法实现,此步骤不为本发明重点介绍内容,此次发明暂使用textrank与tfidf等多模型融合实现的关键词提取器,每个类别的候选关键词集合用s1,s2,s3...表示,步骤二中,分别从每个类的全部文档集合中提取类别的候选关键词;
其中在上述步骤三中,此时通过关键词提取器内部的set(key1,key2...)集合中的add()方法将每个文档的候选关键词进行合并,然后通过set()集合的编程算法对候选关键词进行去重操作,将重复的候选关键词进行删除,此时剔除的词一般都为文本集中停用词,而停用词是在自然语言处理中为无作用词,而且会消耗过多的内存占用,特别在机器学习模型中表现为冗余,当单独分析一类文本时,停用词还会引入很多干扰信息;具体类别的文本中的关键词,只应该出现在该类的文本中;反之,如果某类文本的关键词,又出现在其他类的文本中,则该词跟多个主题相关联,这种情况是相矛盾的;要精准的找出每个类别文本中,与该类强相关的词,就不应该出现在其他类的文章,保证每个词只出现一次,这样生成的集合为全文档的候选关键词集合,用S表示,步骤三中,合并所有关键词,成为全集合文本的候选关键词;
其中在上述步骤四中,通过关键词提取器将每个类别中候选关键词集s与全文档候选关键词集S进行求差集,此差集即为该类的精准关键词,这样就完成了对关键词的精度筛选,步骤四中,利用类别的候选关键词与全集合文本的候选关键词求差集,此差集为精确提取类关键词;
本发明具有很好的提取效果,现列举具体提取关键词案例予以说明:
综上所述,该发明可以自动的从大量文本中提取关键词,节省阅读时间,而且还不需要额外的计算资源,不依赖昂贵的多次迭代计算,增加软件的运行效率,更加不需要额外的有监督学习的标注工作,提高工作效率,还可以应用于初筛关键词的基础上再次精确提取,增加方法的使用效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;其特征在于:
其中在上述步骤一中,将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等;
其中在上述步骤二中,利用关键词提取器提取每个类别下所有文档的关键词,关键词提取器可以利用上述机器学习方法实现,也可以利用上述统计学方法实现,此步骤不为本发明重点介绍内容,此次发明暂使用textrank与tfidf等多模型融合实现的关键词提取器,每个类别的候选关键词集合用s1,s2,s3...表示;
其中在上述步骤三中,此时通过关键词提取器内部的set(key1,key2...)集合中的add()方法将每个文档的候选关键词进行合并,然后通过set()集合的编程算法对候选关键词进行去重操作,将重复的候选关键词进行删除,此时剔除的词一般都为文本集中停用词,而停用词是在自然语言处理中为无作用词,而且会消耗过多的内存占用,特别在机器学习模型中表现为冗余,当单独分析一类文本时,停用词还会引入很多干扰信息;具体类别的文本中的关键词,只应该出现在该类的文本中;反之,如果某类文本的关键词,又出现在其他类的文本中,则该词跟多个主题相关联,这种情况是相矛盾的;要精准的找出每个类别文本中,与该类强相关的词,就不应该出现在其他类的文章,保证每个词只出现一次,这样生成的集合为全文档的候选关键词集合,用S表示;
其中在上述步骤四中,通过关键词提取器将每个类别中候选关键词集s与全文档候选关键词集S进行求差集,此差集即为该类的精准关键词,这样就完成了对关键词的精度筛选。
2.根据权利要求1所述的一种从多类文本中提取关键词的方法,其特征在于:所述步骤一中,将相同类型的文档放到一个文件中去。
3.根据权利要求1所述的一种从多类文本中提取关键词的方法,其特征在于:所述步骤二中,分别从每个类的全部文档集合中提取类别的候选关键词。
4.根据权利要求1所述的一种从多类文本中提取关键词的方法,其特征在于:所述步骤三中,合并各个类别的所有关键词,成为全集合文本的候选关键词。
5.根据权利要求1所述的一种从多类文本中提取关键词的方法,其特征在于:所述步骤四中,利用类别的候选关键词与全集合文本的候选关键词求差集,此差集为精确提取类关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266133.9A CN111401056A (zh) | 2020-04-07 | 2020-04-07 | 一种从多类文本中提取关键词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266133.9A CN111401056A (zh) | 2020-04-07 | 2020-04-07 | 一种从多类文本中提取关键词的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401056A true CN111401056A (zh) | 2020-07-10 |
Family
ID=71435001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010266133.9A Pending CN111401056A (zh) | 2020-04-07 | 2020-04-07 | 一种从多类文本中提取关键词的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401056A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326239A (zh) * | 2021-06-24 | 2021-08-31 | 长江存储科技有限责任公司 | 文件管理方法、装置、设备及计算机可读存储介质 |
US11842160B2 (en) | 2021-07-14 | 2023-12-12 | International Business Machines Corporation | Keyword extraction with frequency—inverse document frequency method for word embedding |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150199438A1 (en) * | 2014-01-15 | 2015-07-16 | Roman Talyansky | Methods, apparatus, systems and computer readable media for use in keyword extraction |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
-
2020
- 2020-04-07 CN CN202010266133.9A patent/CN111401056A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150199438A1 (en) * | 2014-01-15 | 2015-07-16 | Roman Talyansky | Methods, apparatus, systems and computer readable media for use in keyword extraction |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
Non-Patent Citations (2)
Title |
---|
SIFATULLAH SIDDIQI ET AL: "Keyword extraction from single documents using mean word intermediate distance", 《INTERNATIONAL JOURNAL OF ADVANCED COMPUTER RESEARCH》 * |
刘通: "基于复杂网络的文本关键词提取算法研究", 《计算机应用研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326239A (zh) * | 2021-06-24 | 2021-08-31 | 长江存储科技有限责任公司 | 文件管理方法、装置、设备及计算机可读存储介质 |
US11842160B2 (en) | 2021-07-14 | 2023-12-12 | International Business Machines Corporation | Keyword extraction with frequency—inverse document frequency method for word embedding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN106407182A (zh) | 一种用于企业电子公文文档自动摘要的方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
Perez-Tellez et al. | On the difficulty of clustering microblog texts for online reputation management | |
Sahni et al. | Topic modeling on online news extraction | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
Hoshiai et al. | A Semantic Category Matching Approach to Ontology Alignment. | |
CN112507687A (zh) | 一种基于二次排序的工单检索方法 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113962210A (zh) | 基于nlp技术的报告智能编制方法 | |
CN100378713C (zh) | 为对象分类的自动确定显著特点的方法和装置 | |
CN109255122B (zh) | 一种对论文引用关系分类标记的方法 | |
Martín-del-Campo-Rodríguez et al. | Unsupervised authorship attribution using feature selection and weighted cosine similarity | |
Papagiannopoulou et al. | Unsupervised keyphrase extraction from scientific publications | |
CN113900995A (zh) | 一种税务智能搜索文件的方法 | |
Lesher et al. | A web-based system for autonomous text corpus generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200710 |