CN108132930A - 特征词提取方法及装置 - Google Patents
特征词提取方法及装置 Download PDFInfo
- Publication number
- CN108132930A CN108132930A CN201711446082.2A CN201711446082A CN108132930A CN 108132930 A CN108132930 A CN 108132930A CN 201711446082 A CN201711446082 A CN 201711446082A CN 108132930 A CN108132930 A CN 108132930A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- words
- candidate
- candidate feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种特征词提取方法及装置,该特征词提取方法包括:利用TF‑IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;根据文本中的同义词生成同义词集合,并根据词语权重对同义词集合中的同义词进行合并加权;根据合并加权后的权重值生成候选特征词集合以选取特征词。上述技术方案基于TF‑IDF方法,实现了一种优化的文本的特征词提取方法,并具有较好的分析效果。
Description
技术领域
本发明涉及数据处理技术领域,具体来说,涉及一种特征词提取方法及装置。
背景技术
新闻特征词提取是从新闻稿件中提取能代表新闻主旨的词汇,特征词可以很好的概况新闻的主要内容和特征,降低文本处理的复杂度,并可被进一步用于新闻聚类等后续文本处理。最常用的技术之一是TF-IDF(Term Frequency-Inverse Document Frequency),它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF-IDF的精度并不是很高,主要表现在:未考虑词语之间的关联关系。该方法以特征独立为理论基础,在计算词语权重时没有考虑词语之间的关联关系,不能将那些与其他词具有关联关系的词语区别对待,实际上这些词语更能代表文本内容,应该具有更高的权重。
发明内容
针对相关技术中存在的问题,本发明提出一种特征词提取方法及装置,能够在词语关联关系方面进行改进。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种特征词提取方法,包括:
利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;
根据文本中的同义词生成同义词集合,并根据词语权重对同义词集合中的同义词进行合并加权;
根据合并加权后的权重值生成候选特征词集合以选取特征词。
根据本发明的实施例,在生成候选特征词集合之后,还包括:判断候选特征词是否在关联词词库中;若候选特征词在关联词词库中,则判断候选特征词的关联词中是否存在非候选特征词;若候选特征词的关联词中存在非候选特征词,则根据候选特征词和非候选特征词的关联度对权重值进行调整。
根据本发明的实施例,其中,若候选特征词不在关联词词库中,则不对权重值进行调整;若候选特征词的关联词中不存在非候选特征词,则不对权重值进行调整。
根据本发明的实施例,在对权重值进行调整之后还包括选取特征词,选取特征词具体包括:对调整后的权重值由高至低进行排序,并将调整后的权重值大于设定阈值的候选特征词作为文本的特征词。
根据本发明的实施例,根据合并加权后的权重值生成候选特征词集合,具体包括:将权重值大于设定阈值的词语作为候选特征词,并将候选特征词的集合作为特征候选词集合。
根据本发明的另一方面,提供了一种特征词提取装置,包括:权重计算模块,利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;合并模块,用于根据文本中的同义词生成同义词集合,并根据词语权重对同义词集合中的同义词进行合并加权;选取模块,用于根据合并加权后的权重值生成候选特征词集合以选取特征词。
在一个实施例中,特征词提取装置还可包括:判断模块,用于判断候选特征词是否在关联词词库中;若候选特征词在关联词词库中,则判断候选特征词的关联词中是否存在非候选特征词;权重调整模块,用于在候选特征词的关联词中存在非候选特征词时,根据候选特征词和非候选特征词的关联度对权重值进行调整。
在一个实施例中,其中,判断模块若判断候选特征词不在关联词词库中,则权重调整模块不对权重值进行调整;判断模块若判断候选特征词的关联词中不存在非候选特征词,则权重调整模块不对权重值进行调整。
在一个实施例中,特征词提取装置还可包括:特征词确定模块,用于对调整后的权重值由高至低进行排序,并将调整后的权重值大于设定阈值的候选特征词作为文本的特征词。
在一个实施例中,选取模块包括:选取子模块,用于将权重值大于设定阈值的词语作为候选特征词,并将候选特征词的集合作为特征候选词集合。
本发明的上述技术方案,基于TF-IDF方法,设计并实现了一种优化的文本的特征词提取方法,具有较好的分析效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的新闻稿件特征词提取的主流程;
图2是根据本发明实施例的特征词提取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
新闻稿件特征词提取方法的主流程如图1所示,是基于第三方词库和分词工具以及特征词提取算法,来实现对新闻稿件特征词的提取。
其中新闻稿件特征词提取目的是提取出能较好代表新闻稿件内容的特征项。目前文本特征词提取的方法主要可以该概括为基于语义分析的方法和基于统计的方法,其中基于统计的方法中应用较广的是基于TF-IDF(Term Frequency-Inverse DocumentFrequency)的方法。
TF-IDF方法将TF和IDF结合起来,以一篇文本中某词语出现的频率和文本集合中包含词语的文本数量作为评价指标来衡量该词语对文本内容的代表程度。其中TF是指词语在某篇文本中出现的频率,频率越大,则表示该词语对这篇文本的表示贡献越大,表示对文本中某一次与局部重要性的度量。IDF为倒排序文本频率,表示某一词语在整个文本集中的分布情况,文本集合中含有该词语的文本数量越少,则该词语越能区分文本的不同类别,IDF能够通过提高文本集中少见词语的重要性来增加文本分类的区分度。
TF-IDF方法利用基于词频的TF-IDF方法的特征词提取存在一定的不足,在一定程度上影响文本特征词提取的精度,在本发明提供的特征词提取方法主要在词语关联关系方面进行了改进。
如图2所示,根据本发明的实施例提供了一种特征词提取方法200,大体上包括以下步骤:
步骤S210,利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重。这里的文本可以是新闻稿件,也可以是其他需要进行特征词提取的文档,以下示例性的以文本为新闻稿件来进行说明。
步骤S220,根据新闻稿件中的同义词生成同义词集合,并根据词语权重对同义词集合中的同义词进行合并加权。
步骤S230,根据合并加权后的权重值生成候选特征词集合以选取特征词。
本发明的上述技术方案,基于TF-IDF方法,设计并实现了一种优化的文本的特征词提取方法200,具有较好的分析效果。
具体的,继续结合图2所示。可在步骤S205处对新闻稿件进行预处理来得到新闻稿件的词语集合。步骤S205具体包括:调用第三方分词工具,对新闻稿件进行分词;结合未登录词词库、弃用词词库对分词结果进行去噪处理;得到新闻稿件的词语集合。
在步骤S210处计算词语权重,利用TF-IDF方法对处理后的词语集合中的词语进行权重计算,并按照权重值从高到低进行排序。
在步骤S220处进行同义词合并,具体包括:根据同义词词库的数据,将新闻稿件中出现的同义词作为一个集合,在TF-IDF方法计算的词语权重的基础上对同义词及其相关词进行权重调整,通过相似度对同义词集合中的同义词进行了合并加权。
在步骤S230处进行候选特征词提取,可具体包括:将权重值大于设定阈值的词语作为候选特征词,并将所有候选特征词的集合作为特征候选词集合。
在图2所示的实施例中,本发明的特征词提取方法200还包括进行候选特征词权重调整的步骤S240。
具体的在步骤S240处,判断候选特征词是否在关联词词库中;若候选特征词在关联词词库中,则判断候选特征词的关联词中是否存在非候选特征词;若候选特征词的关联词中存在非候选特征词,则根据候选特征词和非候选特征词的关联度对权重值进行调整。
另外在步骤S240中,若候选特征词不在关联词词库中,则不对权重值进行调整;若候选特征词的关联词中不存在非候选特征词,则不对权重值进行调整。
在本实施例中,在步骤S240之后还可包括选取特征词(或可称为特征词确定)的步骤S250,在步骤S250处,对调整后的权重值由高至低进行排序,并将调整后的权重值大于设定阈值的候选特征词作为新闻稿件的特征词。
综上所述,本发明的特征词提取方法弥补了传统TF-IDF方法的不足,综合考虑了词语权重的计算和调整模式,对新闻稿件的特征词提取具有较好的效果。可广泛应用与新闻稿件的内容处理,并为后续文本相似度与文本聚类提供良好的理论基础。
根据本发明的实施例,还提供了一种特征词提取装置,包括:权重计算模块,利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;合并模块,用于根据文本中的同义词生成同义词集合,并根据词语权重对同义词集合中的同义词进行合并加权;选取模块,用于根据合并加权后的权重值生成候选特征词集合以选取特征词。
在一个实施例中,特征词提取装置还可包括:判断模块,用于判断候选特征词是否在关联词词库中;若候选特征词在关联词词库中,则判断候选特征词的关联词中是否存在非候选特征词;权重调整模块,用于在候选特征词的关联词中存在非候选特征词时,根据候选特征词和非候选特征词的关联度对权重值进行调整。
在一个实施例中,其中,判断模块若判断候选特征词不在关联词词库中,则权重调整模块不对权重值进行调整;判断模块若判断候选特征词的关联词中不存在非候选特征词,则权重调整模块不对权重值进行调整。
在一个实施例中,特征词提取装置还可包括:特征词确定模块,用于对调整后的权重值由高至低进行排序,并将调整后的权重值大于设定阈值的候选特征词作为文本的特征词。
在一个实施例中,选取模块包括:选取子模块,用于将权重值大于设定阈值的词语作为候选特征词,并将候选特征词的集合作为特征候选词集合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种特征词提取方法,其特征在于,包括:
利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;
根据文本中的同义词生成同义词集合,并根据所述词语权重对所述同义词集合中的同义词进行合并加权;
根据合并加权后的权重值生成候选特征词集合以选取特征词。
2.根据权利要求1所述的特征词提取方法,其特征在于,在生成候选特征词集合之后,还包括:
判断候选特征词是否在关联词词库中;
若所述候选特征词在所述关联词词库中,则判断所述候选特征词的关联词中是否存在非候选特征词;
若所述候选特征词的关联词中存在非候选特征词,则根据所述候选特征词和所述非候选特征词的关联度对所述权重值进行调整。
3.根据权利要求2所述的特征词提取方法,其特征在于,其中,
若所述候选特征词不在所述关联词词库中,则不对所述权重值进行调整;
若所述候选特征词的关联词中不存在非候选特征词,则不对所述权重值进行调整。
4.根据权利要求2所述的特征词提取方法,其特征在于,在对所述权重值进行调整之后还包括选取特征词,选取特征词具体包括:
对调整后的权重值由高至低进行排序,并将调整后的所述权重值大于设定阈值的候选特征词作为文本的所述特征词。
5.根据权利要求1所述的特征词提取方法,其特征在于,根据合并加权后的权重值生成候选特征词集合,具体包括:
将所述权重值大于设定阈值的词语作为候选特征词,并将所述候选特征词的集合作为特征候选词集合。
6.一种特征词提取装置,其特征在于,包括:
权重计算模块,利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重;
合并模块,用于根据文本中的同义词生成同义词集合,并根据所述词语权重对所述同义词集合中的同义词进行合并加权;
选取模块,用于根据合并加权后的权重值生成候选特征词集合以选取特征词。
7.根据权利要求6所述的特征词提取装置,其特征在于,还包括:
判断模块,用于判断候选特征词是否在关联词词库中;若所述候选特征词在所述关联词词库中,则判断所述候选特征词的关联词中是否存在非候选特征词;
权重调整模块,用于在所述候选特征词的关联词中存在非候选特征词时,根据所述候选特征词和所述非候选特征词的关联度对所述权重值进行调整。
8.根据权利要求7所述的特征词提取装置,其特征在于,其中,
所述判断模块若判断所述候选特征词不在所述关联词词库中,则所述权重调整模块不对所述权重值进行调整;
所述判断模块若判断所述候选特征词的关联词中不存在非候选特征词,则所述权重调整模块不对所述权重值进行调整。
9.根据权利要求7所述的特征词提取装置,其特征在于,还包括:
特征词确定模块,用于对调整后的权重值由高至低进行排序,并将调整后的所述权重值大于设定阈值的候选特征词作为文本的特征词。
10.根据权利要求6所述的特征词提取装置,其特征在于,所述选取模块包括:
选取子模块,用于将所述权重值大于设定阈值的词语作为候选特征词,并将所述候选特征词的集合作为特征候选词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711446082.2A CN108132930A (zh) | 2017-12-27 | 2017-12-27 | 特征词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711446082.2A CN108132930A (zh) | 2017-12-27 | 2017-12-27 | 特征词提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108132930A true CN108132930A (zh) | 2018-06-08 |
Family
ID=62393371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711446082.2A Pending CN108132930A (zh) | 2017-12-27 | 2017-12-27 | 特征词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108132930A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062898A (zh) * | 2018-07-27 | 2018-12-21 | 汉能移动能源控股集团有限公司 | 特征词去重方法、装置、设备及其存储介质 |
CN109101485A (zh) * | 2018-07-09 | 2018-12-28 | 重庆邂智科技有限公司 | 一种信息处理方法、装置、电子设备及计算机存储介质 |
CN113807090A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289982B2 (en) * | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN107102983A (zh) * | 2017-04-20 | 2017-08-29 | 北京工业大学 | 一种基于网络知识源的中文概念的词向量表示方法 |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
-
2017
- 2017-12-27 CN CN201711446082.2A patent/CN108132930A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289982B2 (en) * | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN107102983A (zh) * | 2017-04-20 | 2017-08-29 | 北京工业大学 | 一种基于网络知识源的中文概念的词向量表示方法 |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
Non-Patent Citations (2)
Title |
---|
徐建民 等: "基于量化同义词关系的改进特征词提取方法", 《河北大学学报》 * |
王金花: "一种利用本体关联度改进的TF-IDF特征词提取方法", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101485A (zh) * | 2018-07-09 | 2018-12-28 | 重庆邂智科技有限公司 | 一种信息处理方法、装置、电子设备及计算机存储介质 |
CN109062898A (zh) * | 2018-07-27 | 2018-12-21 | 汉能移动能源控股集团有限公司 | 特征词去重方法、装置、设备及其存储介质 |
CN113807090A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于词义加权tf-idf疾病表征词提取方法 |
CN113807090B (zh) * | 2021-08-10 | 2024-04-30 | 三峡大学 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Christian et al. | Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF) | |
Babar et al. | Improving performance of text summarization | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
Savoy | Estimating the probability of an authorship attribution | |
JP3781005B2 (ja) | 文書抽出装置及び文書抽出プログラム並びに文書抽出方法 | |
CN102567308A (zh) | 一种信息处理特征提取方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN108363694B (zh) | 关键词提取方法及装置 | |
KR102296931B1 (ko) | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 | |
CN107704500B (zh) | 一种基于语义分析与多重余弦定理的新闻分类方法 | |
CN108132930A (zh) | 特征词提取方法及装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Tandel et al. | Multi-document text summarization-a survey | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Hofmann et al. | Predicting the growth of morphological families from social and linguistic factors | |
Li | A classification retrieval approach for English legal texts | |
Li et al. | Personalized text snippet extraction using statistical language models | |
Ahmed | Dynamic similarity threshold in authorship verification: evidence from classical arabic | |
Coenen et al. | Statistical identification of key phrases for text classification | |
CN109325096B (zh) | 一种基于知识资源分类的知识资源搜索系统 | |
KR20180059112A (ko) | 콘텐츠 분류 장치 및 방법 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180608 |