CN112905771A - 基于词性和位置的特征关键词提取方法 - Google Patents
基于词性和位置的特征关键词提取方法 Download PDFInfo
- Publication number
- CN112905771A CN112905771A CN202110184849.9A CN202110184849A CN112905771A CN 112905771 A CN112905771 A CN 112905771A CN 202110184849 A CN202110184849 A CN 202110184849A CN 112905771 A CN112905771 A CN 112905771A
- Authority
- CN
- China
- Prior art keywords
- words
- text
- speech
- word
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于词性和位置的特征关键词提取方法,包括以下步骤:第一步,文本预处理,得到候选关键词;第二步,去除特定词性的候选关键词,考虑词性和词位置计算加权词频;第三步,计算文本中候选关键词的增量逆文档频率;第四步,计算文本中候选关键词的权重;第五步,按照权重从大到小对文本候选关键词进行排序,并选择权重最大的x个词作为文本的关键词。基于词在文本中出现的位置、词性的因素来优先选择关键词,提高了关键词提取的正确率。
Description
技术领域
本发明涉及一种文本特征关键词提取方法,是基于词性和位置的特征关键词提取方法。
背景技术
在文本挖掘领域,TF-IDF是一种特征提取或者特征降维的方法。TF-IDF的主要思想是某个词在一篇文档中出现的概率越大,即词频TF越高,而在其他文档中很少出现,则说明这个词具有很高的辨识度,对关键词特征的重要性也越高。但是TF-IDF方法经常挑选中词频很高但是实际意义却很小的词作为关键词,例如“经常”、“重要”等经常在文章中出现的词,但是没有体现文章的主题思想。
另一个问题是,TF-IDF方法中文章中每个词的逆文档频率IDF是一个常数值。但是在实时网络话题检测中,由于采集的文章或数据来自于网络,因此采集的数据集是动态变化,这样固定的IDF集合不能很好表示动态变化数据集中词的逆文档频率。此外,词是否是停用词、词在文章中出现的位置、词性对词的特征权重以及是否是关键词都有影响,但是传统TF方法计算词频不考虑上述因素对词权值的影响。已有的研究也没有将词在文章中的位置和词性两因素一起考虑,这导致很多不能反映文章主题信息的词被误认为关键词。
发明内容
由于TF-IDF算法提取关键词特征有上述不足之处,因此我们提出了基于词性和位置的特征关键词提取方法,以下详细介绍此方法的细节:
步骤一,对文本进行预处理,包括分词,去除文本中的停用词和和标点符号;如果文本是英语,进行英文大小写转换,词形还原;
步骤二,去除特定词性的词,去除不适合作为文本关键词的词性的词;考虑词位置和词性计算词频,计算每个候选词的加权词频的方法为
其中nt,d表示词t在文档d中的次数,∑knk,d表示文档d中所有词次数的总和,T表示由标题部分的词组成的集合,C表示由正文部分的词组成的集合,α表示词出现在标题中的权重增加值,0<α<1,β是词性的权重增加值,0<β<1,α和β的值由人工设定;
步骤三,计算文本中关键候选词的增量逆文档频率,统计当前时间数据集中文档总数Nc,及当前时间段数据集中包含词t的文档数量n(t,c),计算随文本集动态更改的逆向文件频率的方法为
Nc表示当前时间段数据集中文档总数,n(t,c)表示当前时间段数据集中包含词t的文档数量,由于每个时间段数据集中数量是变化的,因此Nc、n(t,c)是随着时间动态改变的;
步骤四,计算文本中关键词候选词的权重,计算文本中关键候选词权重的方法为
其中k是文档d中的所有参与计算的候选词,D是当前时段数据集;
步骤五,将步骤四计算的所有关键词候选词按照权重从大到小排序,选择权重最大的x个词作为文本的特征关键词。
跟现有发明相比,本发明的上述技术方案的有益效果如下:
1、该方法适用于动态变化的数据集,很好表示动态变化数据集中词的逆文档频率;
2、去掉停用词,并关注词在文本中出现的位置、词性的因素来判断一个词是不是文本的关键词,可避免很多与文本主题无关的词误认为是关键词的情况,提高关键词提取的正确率。
附图说明
图1是基于词性和位置的特征关键词提取方法的工作流程图
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述:
如图1所示,为该方法的流程图,输入数据为实时文本集,输出为文本的关键词,即经过位置和词性加权计算的排序后关键词,具体实施过程中的步骤如下:
步骤一,对文本进行预处理;
步骤1-1:对文本进行分词,并去除文本中的停用词和和标点符号;
步骤1-2:如果文本是英语,转到1-3步骤;如果是中文则转到步骤二;
步骤1-3:进行英文大小写转换,进行词形还原;
步骤二,去除特定词性的词,考虑词位置和词性计算词频;
步骤2-1:去除不适合作为文本关键词的词性的词,关键词候选词中副词,数字,量词,连词,定冠语,介词,比较级形容词,情态助词,人称代词,前限定词不适用作为文本关键词,去除这些词性的词;
步骤2-2:考虑词位置和词性计算加权词频,计算每个候选词的加权词频的方法为
其中nt,d表示词t在文档d中的次数,∑knk,d表示文档d中所有词次数的总和,T表示由标题部分的词组成的集合,C表示由正文部分的词组成的集合,α表示词出现在标题中的权重增加值,0<α<1;β是词性的权重增加值,0<β<1,α和β的值可以人工设定,一般设β<α,根据经验可以设置α=0.2,β=0.1;
步骤三,计算文本中关键候选词的增量逆文档频率;
步骤3-1:统计当前时间数据集中文档总数Nc,及当前时间段数据集中包含词t的文档数量n(t,c);
步骤3-2:计算随文本集动态更改的逆向文件频率的方法为
Nc表示当前时间段数据集中文档总数,n(t,c)表示当前时间段数据集中包含词t的文档数量,由于每个时间段数据集中数量是变化的,因此Nc、n(t,c)是随着时间动态改变的;
步骤四,计算文本中关键词候选词的权重;
步骤4-1:计算文本中每个关键候选词的权重,计算方法为
其中k是文档d中的所有参与计算的候选词,D是当前时段数据集;
步骤五,选择权重最大的x个词作为文本的特征关键词;
步骤5-1:将所有关键词候选词按照步骤4-1计算的权重从大到小排序;
步骤5-2:选择权重最大的x个词作为文本的特征关键词,x根据需要人工设定。
Claims (4)
1.基于词性和位置的特征关键词提取方法,其特征在于提取特征关键词有下列处理步骤:
步骤一,对文本进行预处理,包括分词,去除文本中的停用词和和标点符号;如果文本是英语,进行英文大小写转换,词形还原;
步骤二,去除特定词性的词,去除不适合作为文本关键词的词性的词;考虑词位置和词性计算词频,计算每个候选词的加权词频的方法为
其中nt,d表示词t在文档d中的次数,∑knk,d表示文档d中所有词次数的总和,T表示由标题部分的词组成的集合,C表示由正文部分的词组成的集合,α表示词出现在标题中的权重增加值,0<α<1,β是词性的权重增加值,0<β<1,α和β的值由人工设定;
步骤三,计算文本中关键候选词的增量逆文档频率,统计当前时间数据集中文档总数Nc,及当前时间段数据集中包含词t的文档数量n(t,c),计算随文本集动态更改的逆向文件频率的方法为
Nc表示当前时间段数据集中文档总数,n(t,c)表示当前时间段数据集中包含词t的文档数量,由于每个时间段数据集中数量是变化的,因此Nc、n(t,c)是随着时间动态改变的;
步骤四,计算文本中关键词候选词的权重,计算文本中关键候选词权重的方法为
其中k是文档d中的所有参与计算的候选词,D是当前时段数据集;
步骤五,将步骤四计算的所有关键词候选词按照权重从大到小排序,选择权重最大的x个词作为文本的特征关键词。
2.根据权利要求1所述的基于词性和位置的特征关键词提取方法,其特征在于:根据步骤二的处理方式去除关键词候选词中一些不适合作为文本关键词的词性的词,例如副词,数字,量词,连词,定冠语,介词,比较级形容词,情态助词,人称代词,前限定词。
3.根据权利要求1所述的基于词性和位置的特征关键词提取方法,其特征在于:根据步骤二的处理方式计算出每个候选关键词的加权词频。
4.根据权利要求1所述的基于词性和位置的特征关键词提取方法,其特征在于:根据步骤四的处理方式计算文本中关键词候选词的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184849.9A CN112905771A (zh) | 2021-02-10 | 2021-02-10 | 基于词性和位置的特征关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184849.9A CN112905771A (zh) | 2021-02-10 | 2021-02-10 | 基于词性和位置的特征关键词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905771A true CN112905771A (zh) | 2021-06-04 |
Family
ID=76123555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110184849.9A Pending CN112905771A (zh) | 2021-02-10 | 2021-02-10 | 基于词性和位置的特征关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145476A (zh) * | 2017-05-23 | 2017-09-08 | 福建师范大学 | 一种基于改进tf‑idf关键词提取算法 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
WO2019103224A1 (ko) * | 2017-11-22 | 2019-05-31 | (주)와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
-
2021
- 2021-02-10 CN CN202110184849.9A patent/CN112905771A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN107145476A (zh) * | 2017-05-23 | 2017-09-08 | 福建师范大学 | 一种基于改进tf‑idf关键词提取算法 |
WO2019103224A1 (ko) * | 2017-11-22 | 2019-05-31 | (주)와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111143549A (zh) | 一种基于主题的舆情情感演化的方法 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN110866102A (zh) | 检索处理方法 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN111429184A (zh) | 一种基于文本信息的用户画像抽取方法 | |
CN113515939B (zh) | 一种勘察报告文本关键信息提取系统和提取方法 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN112905771A (zh) | 基于词性和位置的特征关键词提取方法 | |
CN112069307B (zh) | 一种法律法条引用信息抽取系统 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN110489759B (zh) | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 | |
CN112231476A (zh) | 一种改进的图神经网络科技文献大数据分类方法 | |
CN109871889B (zh) | 突发事件下大众心理评估方法 | |
CN112182332A (zh) | 一种基于爬虫采集的情感分类方法及系统 | |
CN110705277A (zh) | 一种基于循环神经网络的中文词义消岐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210604 |
|
WD01 | Invention patent application deemed withdrawn after publication |