CN113420550B - 提取关键词的方法及装置 - Google Patents
提取关键词的方法及装置 Download PDFInfo
- Publication number
- CN113420550B CN113420550B CN202110745446.7A CN202110745446A CN113420550B CN 113420550 B CN113420550 B CN 113420550B CN 202110745446 A CN202110745446 A CN 202110745446A CN 113420550 B CN113420550 B CN 113420550B
- Authority
- CN
- China
- Prior art keywords
- document
- frequency
- word
- subset
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title description 17
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000009826 distribution Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种提取关键词的方法及装置。本申请提出的技术方案中,通过获取第一文档的N个词汇中每个词汇的第一文档频率和N个词汇中每个词汇的第二文档频率,再根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,最后根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。该技术方案中,考虑了词汇在类间分布情况和类内分布情况,实现了对关键词更加准确的提取。
Description
技术领域
本申请涉及数据挖掘领域,尤其涉及一种提取关键词的方法及装置。
背景技术
随着互联网的蓬勃发展,各领域可以查询到的信息资源非常丰富,如何快速高效地从众多信息数据中得到想要的数据就成为了众多领域的需求,因此搜索引擎的使用变得愈发广泛,而更为有效的特征提取方法也就成为了这些信息检索技术的支撑。
目前,词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)是一种经典的特征提取方法,一般用以评估一个或一些关键词对于一个文件集或语料库的重要程度。TF-IDF方法提出了两种主要特征提取思想:词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,但是该方法考虑的条件单一,提取的关键词并不十分精确。
发明内容
本申请实施例提供一种提取关键词的方法及装置,用以解决现有技术中提取的关键词考虑的条件单一,提取结果不准确的问题。
第一方面,本申请实施例提供一种提取关键词的方法,所述方法包括:获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率;获取所述N个词汇中每个词汇的第二文档频率,所述每个词汇的第二文档频率用于指示所述第一文档子集中包含所述每个词汇的文档在所述第一文档子集中的频率;根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,其中,所述第一文档频率越大,所述每个词汇在所述第一文档中的重要程度越小,所述第二文档频率越大,所述每个词汇在所述第一文档中的重要程度越大;根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。
本方法中,通过计算N个词汇中每个词汇的第一文档频率和第二文档频率来确定每个词汇在第一文档中的重要程度,考虑的层面更多,获取到词汇在文档中的重要程度更准确,进而提取到的关键词更精准。
结合第一方面,在第一种可能的实现方式中,所述方法还包括:获取所述N个词汇中每个词汇在所述第一文档子集中的类内分布DC情况;其中,所述根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,包括:根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。
本实现方式中,在第一方面的方法的基础上,又考虑了每个词汇在第一文档子集中的类内分布DC情况,词汇在第一文档子集中的类内分布越均匀,则DC的值越大,另外,DC分布情况能够表征一个类的特性的关键词应该在类内的各文档中均匀出现,而不是只在类内某些文档中大幅出现,考虑DC的分布情况后,提取的关键词更加精准。
结合第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:获取第一文档中的N个词汇中每个词汇在所述第一文档中的词频TF;其中,所述根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度,包括:根据所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。
本实现方式中,结合了词频TF来判断每个词汇在第一文档中的重要程度,提取的关键词更准确。
结合第二种可能的实现方式,在第三种可能的实现方式中,所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率、所述每个词汇在所述第一文档子集中的类内分布DC情况与所述每个词汇在所述第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,/>表示所述第一文档频率的倒数,λ表示所述第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,/>表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,/>表示所述每个词汇的TF值的平均值。
第二方面,本申请实施例提供一种提取关键词的装置,所述装置包括:获取模块,用于获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率,并获取所述N个词汇中每个词汇的第二文档频率,所述每个词汇的第二文档频率用于指示所述第一文档子集中包含所述每个词汇的文档在所述第一文档子集中的频率;确定模块,用于根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,其中,所述第一文档频率越大,所述每个词汇在所述第一文档中的重要程度越小,所述第二文档频率越大,所述每个词汇在所述第一文档中的重要程度越大,并根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。
结合第二方面,在第一种可能的实现方式中,所述获取模块还用于获取所述N个词汇中每个词汇在所述第一文档子集中的类内分布DC情况;其中,所述根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,包括:所述确定模块,还用于根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。
结合第一种可能的实现方式,在第二种可能的实现方式中,所述获取模块,用于获取第一文档中的N个词汇中每个词汇在所述第一文档中的词频TF;其中,所述根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度,包括:所述确定模块,用于根据所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。
结合第二种可能的实现方式,在第三种可能的实现方式中,所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率、所述每个词汇在所述第一文档子集中的类内分布DC情况与所述每个词汇在所述第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,/>表示所述第一文档频率的倒数,λ表示所述第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,/>表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,/>表示所述每个词汇的TF值的平均值。
第三方面,本申请提供一种提取关键词的装置,包括存储器和处理器,所述存储器用于存储程序指令;所述处理器用于调用所述存储器中的程序指令执行如第一方面或其中任意一种可能的实现方式所述的方法。
第四方面,本申请提供一种计算机可读介质,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行如第一方面或其中任意一种可能的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品中包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机实现如第一方面或其中任意一种可能的实现方式所述的方法。
本申请实施例提供一种提取关键词的方法及装置,该方法中,通过获取第一文档的N个词汇中每个词汇的第一文档频率和N个词汇中每个词汇的第二文档频率,再根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,最后根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。该技术方案中,考虑了词汇在类间分布情况和类内分布情况,实现了对关键词更加准确的提取。
附图说明
图1为本申请实施例提供的提取关键词的方法实施例一的流程示意图;
图2为本申请实施例提供的提取关键词的方法实施例二的流程示意图;
图3为本申请实施例提供的提取关键词的装置的结构示意图;
图4为本申请实施例提供的装置的结构示意图。
具体实施方式
为于理解,首先对本申请所涉及到的相关术语进行说明。
1、语料库
语料库指经科学取样和加工的大规模电子文本库,是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
语料库有以下特征:语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在根据本实施例的启示下作做出的所有其他实施例,都属于本申请保护的范围。
随着搜索引擎的使用变得愈发广泛,更为有效的特征提取算法也就成为了信息检索技术的支撑。特征提取算法即通过某一种算法,在不需要人为对数据内容进行理解的情况下,自动获取到这些数据的特征(关键词),通过这种算法,我们可以对大量的数据的特征进行提取,而在我们需要检索信息的时候,只要通过对特征进行比对就可以获取到我们想要的数据内容。也可以通过特征对数据进行分类、排序等等操作。一个好的特征提取算法应该是尽可能最大程度满足提取到可以归纳表达它所代表的数据集的内容的关键词。
例如,一篇文章是讲解如何烹饪土豆,那么“土豆”、“烹饪”这些词应该最能代表这篇文章的特征来归纳内容,如果特征提取算法提取到的特征是“锅子”、“菜刀”,甚至是“拖鞋”,可能这些就不那么适合作为关键词或特征了。因此一个算法是否能够准确地提取特征就显得尤为重要。
目前,词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)是一种经典的特征提取算法,常常被用来评估关键词在一份语料库或文档集中的重要性。主要思想就是,一个词在一篇文本中出现的频率越高,则其对于该文本来说重要性越高;一个词在一篇文本所属的文件集或语料库中出现的频率越高,则其对于该文本来说重要性越低,如此以来就可以使在目标文档中大量出现的,而在其它文档中很少出现的词作为可以表征目标文档的关键词,从而被赋予高的重要性。
TF-IDF的算法原理如下所示:
词频(term frequency,TF):一个词在一篇文章中出现的频率即为该词对于这篇文章的词频,TF的值等于该词在文本中出现的次数除以该文本中的所有词数,公式为:
TFij=nij/∑knkj
其中TFij表示词i在文档j中的TF值,nij表示词i在文档j中出现的次数,∑knkj表示文档j中每个词出现的次数之和。
显然,TF部分的意义就在于求出一个关键词在一篇文档中的所有词中出现的频率,其蕴含的理论假设是:如果一个词对表达一篇文档的主要思想来说是重要的,那么它应该会在该文档中频繁出现。显然,这种假设有着致命的缺陷,那就是有些常用词会频繁地出现在文档之中,但是这些词对于表达一篇文档的主题思想来说却是无关紧要的。因此有IDF部分来弥补这个不足。
逆向文件频率(inverse document frequency,IDF):一个词在一个文件集中的文件中出现的频率的逆被称作IDF,IDF的值为文件集中的文件总数除以包含关键词的文件数,然后对结果取对数。公式为:
IDFi=log(|D|/{j:ti∈dj})
其中IDFi表示词语i在文档集中的IDF值,|D|表示文档集中所包含的文档总数,{j:ti∈dj}表示文档集中包含词语i的文档数。
加入IDF部分的主要目的在于弥补仅仅依靠TF部分来为词语赋予权值的不足。IDF部分的结果与词语在各文档中存在的广度成反比,蕴含的理论假设是:在大部分文档都出现的词不应该作为可以表征某篇文档的关键词,因此IDF可以将在各文档中都出现的常用词赋予较小的权值。
TF-IDF:一个词的TF-IDF的值是该词对于所属文本的TF值和该词对于所属文件集的IDF值的乘积。公式如下:
TF-IDFij=TFij*IDFi
其中的TF-IDFij表示词i在文档j中的TF-IDF值,TFij表示词i在文档j中的TF值,IDFi表示词i在文档集中的IDF值。
然而,这种方法考虑层面较为单一,仅仅只从词语的出现频率就判断一个关键词的权重,这样可能会导致权重结果有一定误差。例如,一篇文本中的一小部分因为内容需要,频繁出现某无关于文本核心思想的词,而这个词汇对于其他语料来说也是不常用的,那么这个词可能就会被当做该文本的关键词而被赋予较高的权重,而这个关键词我们在进行搜索的时候就会将这些不那么有关的词放在搜索的前列,然而这些文本与将要搜索的核心并无太大关系。导致这种结果的原因在于TF-IDF没有考虑关键词的分布情况,仅仅只从出现频率层面来考虑了问题。
有鉴于此,本申请提出一种提取关键词的方法,在现有技术的基础上,将逆文档频(IDF)改成文档频率散度(document frequency and dispersion,DFD),即类内频率(frequency in category,FC)和类内分布(distribution in category,DC),从而提高针对关键词提取的考虑层面,增大关键词提取的精准度。
下面通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的提取关键词的方法实施例一的流程示意图。如图1所示,该提取关键词的方法包括如下步骤:
S110、获取第一文档的N个词汇中每个词汇的第一文档频率。
其中,第一文档为第一文档子集中的一个文档,第一文档子集为文档集的M个文档子集中的一个文档子集,M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,每个词汇的第一文档频率用于指示文档集中包含每个词汇的文档在文档集中的频率。
示例性的,针对第一文档的N个词汇中每个词汇,获取文档集中包含该词汇的文档在文档集中的频率,为第一文档频率。
可选的,以第一文档的N个词汇为例,N(ti,Ci)表示第一文档子集Ci中包含词汇ti的文档数,所述M个文档子集中除第一文档子集Ci以外的文档子集中包含词汇ti的文档数,N(C)表示所述文档集中的所有文档数。
进一步地,第一文档频率为文档集中包含每个词汇的文档的数量与文档集中所有文档的数量的比值,也即
S120、获取N个词汇中每个词汇的第二文档频率。
其中,每个词汇的第二文档频率用于指示第一文档子集中包含每个词汇的文档在第一文档子集中的频率。
示例性的,在同一类文档中,也即,在包含每个词汇的文档在同一类文档(即第一文档子集)中,计算出第一文档子集中包含每个词汇的文档在第一文档子集中的频率,记为第二文档频率,用λ表示。
可选的,第二文档频率λ的公式为其中,N(Ci)表示第一文档子集中的文档总数。
S130、根据N个词汇中每个词汇的第一文档频率和第二文档频率,确定每个词汇在第一文档中的重要程度。
其中,第一文档频率越大,每个词汇在第一文档中的重要程度越小,第二文档频率越大,每个词汇在第一文档中的重要程度越大。
示例性的,可以将每个词汇的第一文档频率作倒数处理,所得结果越大,则每个词汇在第一文档中的重要程度越大,进一步地,根据每个词汇的第二文档频率和第一文档频率,可以得到类内频率FC。
其中,若一个词汇在同一类文档中出现的频率较高,则会被赋予较高的权值,也即该词汇在第一文档中的重要程度为FC。
可选的,FC的计算公式可以是
可以理解的是,一个词在某个类中的文档中出现频率比该词在其他的类中出现频率明显相对较大,这样的词在类间分布不甚均匀,应该作为该类的关键词而被赋予较大的权值;而类间分布较为均匀的词不太能够表征某一个类,所以应该被赋予较低的权值,权值的大小也称作重要程度。
S140、根据N个词汇中每个词汇在第一文档中的重要程度,从N个词汇中确定第一文档的关键词。
示例性的,根据上述计算结果得到每个词汇在第一文档中的重要程度,对上述各个词汇在第一文档中的重要程度进行比较,确定出重要程度较高的至少一个词汇,即为第一文档的关键词。
本申请实施例的提取关键词的方法中,通过获取第一文档的N个词汇中每个词汇的第一文档频率和N个词汇中每个词汇的第二文档频率,再根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,最后根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。该实施例中,考虑了词汇的类间分布,实现了对关键词更加准确的提取。
在图1所示实施例的基础上,图2为本申请实施例提供的提取关键词的方法实施例二的流程示意图。如图2所示,上述步骤S130还可以包括如下步骤:
S210、获取N个词汇中每个词汇在第一文档子集中的类内分布DC情况。
DC表达的是一个词汇在一个类中各个文档中的分布情况。此处,DC的分布情况表示N个词汇中每个词汇在第一文档子集中的各文档中的分布情况。类内分布越均匀,则DC值越大。理论假设是:能够表征一个类的特性的关键词应该在类内的各文档中均匀出现,而不是只在类内某些文档中大幅出现。
示例性的,以词汇ti在第一文档子集Ci中的DC分布情况为例,DC满足以下关系:
其中,N(Ci)表示第一文档子集Ci中的文档总数,TF(tij)表示词汇ti在第一文档j中的TF值,表示词汇ti在第一文档子集Ci中各文档中的TF值的平均值。减号右边的分子部分显然是第一文档子集Ci中词汇ti的TF值在第一文档子集Ci中各文档间的方差,而分母部分则是为了使减号右边整体的绝对值小于1。因为类内各文档的关键词分布越平均,算出的方差值会越小,因此取负号,又因为减号右边部分的绝对值小于1,所以用1减去减号右边的整体,使结果的范围在0至1之间,最后的结果就是DC的值。也就是说,关键词在一个类内部分布越均匀,DC值会越大。
其中,根据N个词汇中每个词汇的第一文档频率和第二文档频率,确定每个词汇在第一文档中的重要程度,包括:
根据N个词汇中每个词汇的第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度。
作为一种可选的实施方式,在前面根据N个词汇中每个词汇的第一文档频率、第二文档频率确定每个词汇在第一文档中的重要程度的基础上,又考虑了每个词汇在第一文档子集中的DC情况,也即考虑了词汇的类内分布情况,例如,N个词汇中每个词汇在在第一文档子集中的各文档中的分布越均匀,则DC的值越大,整体计算得到的该词汇的重要程度就越高。
可以理解的是,在某个类中出现频率相似的两个词,若一个词在该类内的文档间分布均匀,另一个在该类内的文档间分布不均匀,则类内分布均匀的词应该更能表征该类内的文档的共性,所以应该被赋予较高的权值;而类内分布不均匀的词,可能只是在某一两篇文档中大幅出现导致其在该类中出现频率较高,并不适合用以表征该类,因此应该被赋予较低的权值。
S220、获取第一文档中的N个词汇中每个词汇在第一文档中的词频TF。
示例性的,以其中一个词汇为例,该词汇在整个文档中出现的频率即为该词汇对于该文档的TF,也即TF的值为该词在文档中出现的次数除以该文档中的所有词数。具体算法参考前面现有技术中的方法,此处不再赘述。
其中,根据N个词汇中每个词汇的第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度,包括:根据N个词汇中每个词汇的TF、第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度。
作为一种可选的实施方式,在前面考虑了DC的分布情况的基础上,又考虑了N个词汇中每个词汇在第一文档中的词频TF,TF的意义就在于求出一个关键词在一篇文档中的所有词中出现的频率,出现频率越高,TF的值越大,相对来说,计算得到的词汇在文档中的重要程度越高。
该方式中,对于判断词汇在文档中的重要程度又多考虑了一个方面,提取到的关键词会更精准。
其中,N个词汇中每个词汇的TF、第一文档频率、第二文档频率、每个词汇在所述第一文档子集中的类内分布DC情况与每个词汇在所述第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示每个词汇在第一文档中的重要程度,表示N个词汇中每个词汇的TF,nij表示N个词汇中每个词汇在第一文档中出现的次数,∑knkj表示第一文档中每个词汇出现的次数之和,/>表示第一文档频率的倒数,λ表示第二文档频率,N(C)表示文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含每个词汇的文档数,N(Ci)表示第一文档子集中的文档总数,/>表示每个词汇在第一文档子集中的类内分布DC情况,TF(tij)表示每个词汇的TF值,表示每个词汇的TF值的平均值。
作为一种可选的实施方式,在该关系式中,最终TF-DFD的大小指示N个词汇中每个词汇的重要程度,TF-DFD数值越大,说明该词汇在文档中的重要程度越高,可以作为该文档的关键词提取出来。
可选的,TF-DFD认为一个词如果在许多不同的类中的分布并不均匀,则表示这个词对于该表征的类来说是较为独特的,因此作为关键词的权重更大。而多个词在同一个类中,分布更加均匀的词应该对于这个类来说才是更加有表征意义的,因为越是关键词的词,就应该越是贯穿整个类,在各处均出现。
本申请的方法中,通过考虑了词汇的类间分布和类内分布情况,得到的关于词汇在文档中的重要程度情况更准确,进一步的,提取的关键词更加精准。
在上述提取关键词的方法实施例的基础上,图3为本申请实施例提供的提取关键词的装置的结构示意图。图3所示的装置300可以用于执行图1和图2所示实施例中的各个流程。
如图3所示,装置300包括:获取模块301和确定模块302。例如,获取模块301可以用于执行S110、S120、S210和S220,确定各模块302可以用于执行S130和S140。
具体地,获取模块301,用于获取第一文档的N个词汇中每个词汇的第一文档频率,第一文档为第一文档子集中的一个文档,第一文档子集为文档集的M个文档子集中的一个文档子集,M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,每个词汇的第一文档频率用于指示文档集中包含每个词汇的文档在文档集中的频率,并获取N个词汇中每个词汇的第二文档频率,每个词汇的第二文档频率用于指示第一文档子集中包含每个词汇的文档在第一文档子集中的频率。
确定模块302,用于根据N个词汇中每个词汇的第一文档频率和第二文档频率,确定每个词汇在第一文档中的重要程度,其中,第一文档频率越大,每个词汇在第一文档中的重要程度越小,第二文档频率越大,每个词汇在第一文档中的重要程度越大,并根据N个词汇中每个词汇在第一文档中的重要程度,从N个词汇中确定第一文档的关键词。
在一种可能的实现方式中,获取模块301还用于获取N个词汇中每个词汇在第一文档子集中的类内分布DC情况;其中,根据N个词汇中每个词汇的第一文档频率和第二文档频率,确定每个词汇在第一文档中的重要程度,包括:
确定模块302,还用于根据N个词汇中每个词汇的第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度。
在一种可能的实现方式中,获取模块301,用于获取第一文档中的N个词汇中每个词汇在第一文档中的词频TF;其中,根据N个词汇中每个词汇的第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度,包括:
确定模块302,用于根据N个词汇中每个词汇的TF、第一文档频率、第二文档频率和每个词汇在第一文档子集中的DC情况,确定每个词汇在第一文档中的重要程度。
在一种可能的实现方式中,N个词汇中每个词汇的TF、第一文档频率、第二文档频率、每个词汇在第一文档子集中的类内分布DC情况与每个词汇在第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,/>表示第一文档频率的倒数,λ表示第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,/>表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,/>表示所述每个词汇的TF值的平均值。
本申请实施例提供的提取关键词的装置,可用于执行上述实施例中提取关键词的方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
图4为本申请实施例提供的装置的结构示意图。图4所示的装置400可以用于执行前述任意一个实施例所述的关键词提取的方法。
如图4所示,本实施例的装置400包括:存储器401、处理器402、通信接口403以及总线404。其中,存储器401、处理器402、通信接口403通过总线404实现彼此之间的通信连接。
存储器401可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器401可以存储程序,当存储器401中存储的程序被处理器402执行时,处理器402用于执行图1至图2所示的方法的各个步骤。
处理器402可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的方法。
处理器402还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例的规划自动驾驶车辆的方法的各个步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器402还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成本申请测温装置包括的单元所需执行的功能,例如,可以执行图1至图2所示实施例的各个步骤/功能。
通信接口403可以使用但不限于收发器一类的收发装置,来实现装置400与其他设备或通信网络之间的通信。
总线404可以包括在装置400各个部件(例如,存储器401、处理器402、通信接口403)之间传送信息的通路。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。本申请实施例提供的装置400,可用于执行上述实施例中计算机设备涉及的提取关键词的方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中关键词提取方法的技术方案。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例中关键词提取方法的技术方案。
上述的计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种提取关键词的方法,其特征在于,所述方法包括:
获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率;
获取所述N个词汇中每个词汇的第二文档频率,所述每个词汇的第二文档频率用于指示所述第一文档子集中包含所述每个词汇的文档在所述第一文档子集中的频率;
根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,其中,所述第一文档频率越大,所述每个词汇在所述第一文档中的重要程度越小,所述第二文档频率越大,所述每个词汇在所述第一文档中的重要程度越大;
根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词;
所述方法还包括:
获取所述N个词汇中每个词汇在所述第一文档子集中的类内分布DC情况;
获取第一文档中的N个词汇中每个词汇在所述第一文档中的词频TF;
根据所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度;
所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率、所述每个词汇在所述第一文档子集中的类内分布DC情况与所述每个词汇在所述第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,/>表示所述第一文档频率的倒数,λ表示所述第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,/>表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,/>表示所述每个词汇的TF值的平均值。
2.一种提取关键词的装置,其特征在于,所述装置包括:
获取模块,用于获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率,并获取所述N个词汇中每个词汇的第二文档频率,所述每个词汇的第二文档频率用于指示所述第一文档子集中包含所述每个词汇的文档在所述第一文档子集中的频率;
确定模块,用于根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,其中,所述第一文档频率越大,所述每个词汇在所述第一文档中的重要程度越小,所述第二文档频率越大,所述每个词汇在所述第一文档中的重要程度越大,并根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词;
所述获取模块还用于获取所述N个词汇中每个词汇在所述第一文档子集中的类内分布DC情况;获取第一文档中的N个词汇中每个词汇在所述第一文档中的词频TF;
所述确定模块,具体用于根据所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度;
所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率、所述每个词汇在所述第一文档子集中的类内分布DC情况与所述每个词汇在所述第一文档中的重要程度之间满足如下关系式:
其中,i,j,k为正整数,TF-DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,/>表示所述第一文档频率的倒数,λ表示所述第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,/>表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,/>表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,/>表示所述每个词汇的TF值的平均值。
3.一种提取关键词的装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1所述的方法。
4.一种计算机可读介质,其特征在于,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行如权利要求1所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745446.7A CN113420550B (zh) | 2021-06-30 | 2021-06-30 | 提取关键词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745446.7A CN113420550B (zh) | 2021-06-30 | 2021-06-30 | 提取关键词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420550A CN113420550A (zh) | 2021-09-21 |
CN113420550B true CN113420550B (zh) | 2024-03-01 |
Family
ID=77719971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745446.7A Active CN113420550B (zh) | 2021-06-30 | 2021-06-30 | 提取关键词的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420550B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006085374A (ja) * | 2004-09-15 | 2006-03-30 | Keio Gijuku | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN105069102A (zh) * | 2015-08-03 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN109508452A (zh) * | 2017-09-14 | 2019-03-22 | 韩真 | 一种表征文档特征的词频结构算子及其算子的计算方法 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
-
2021
- 2021-06-30 CN CN202110745446.7A patent/CN113420550B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006085374A (ja) * | 2004-09-15 | 2006-03-30 | Keio Gijuku | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN105069102A (zh) * | 2015-08-03 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
WO2017020451A1 (zh) * | 2015-08-03 | 2017-02-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN109508452A (zh) * | 2017-09-14 | 2019-03-22 | 韩真 | 一种表征文档特征的词频结构算子及其算子的计算方法 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113420550A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US10229200B2 (en) | Linking data elements based on similarity data values and semantic annotations | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN110334356B (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
Karisani et al. | A query term re-weighting approach using document similarity | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
US20130339369A1 (en) | Search Method and Apparatus | |
US10810245B2 (en) | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations | |
CN110609952B (zh) | 数据采集方法、系统和计算机设备 | |
US20180285742A1 (en) | Learning method, learning apparatus, and storage medium | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN113420550B (zh) | 提取关键词的方法及装置 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN110019783B (zh) | 属性词聚类方法及装置 | |
CN110675205B (zh) | 基于应用的竞品分析方法、装置及存储介质 | |
CN116127068A (zh) | 一种文本分类方法、装置、设备以及存储介质 | |
CN112818221B (zh) | 实体的热度确定方法、装置、电子设备及存储介质 | |
CN111539208B (zh) | 语句处理方法和装置、以及电子设备和可读存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114218259A (zh) | 基于大数据SaaS的多维科创信息搜索方法及系统 | |
US20180225291A1 (en) | Identifying Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |