CN111078884A - 一种关键词提取方法、装置及介质 - Google Patents
一种关键词提取方法、装置及介质 Download PDFInfo
- Publication number
- CN111078884A CN111078884A CN201911285835.5A CN201911285835A CN111078884A CN 111078884 A CN111078884 A CN 111078884A CN 201911285835 A CN201911285835 A CN 201911285835A CN 111078884 A CN111078884 A CN 111078884A
- Authority
- CN
- China
- Prior art keywords
- term
- word
- association
- original document
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 89
- 230000009467 reduction Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 9
- 230000036961 partial effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 16
- 230000015654 memory Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了一种关键词提取方法、装置及介质,属于数据处理领域。此方法包括:接收原始文档,从原始文档提取候选词,将提取出的候选词构成第一词语集合;获取第一词语集合中每个第一词语与原始文档的第一关联度,根据第一关联度确定第二词语集合;针对第二词语集合中的每个第二词语,在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词构成第三词语集合;确定第二词语集合和第三词语集合的并集,获取并集中每个候选关键词与原始文档的第二关联度,根据第二关联度从并集中选择至少一个候选关键词构成原始文档的关键词集合。本文可减少计算复杂度,提升计算速度;解决现有方法中优先选择高频词的问题;有效丰富关键词的表达方式。
Description
技术领域
本文涉及数据处理技术领域,尤其涉及一种关键词提取方法、装置及介质。
背景技术
随着互联网文本数据的爆炸式增长,相关业务中经常需要提取能概括文章核心观点的关键词,以实现精准推荐、重点标注等功能。
此类业务在执行时具有标准主观性强,而且难以获取可用标注语料,从而导致传统方法的准确度不高,并且十分耗费计算时间。
相关技术中,关键词提取包括两种方法,方法一为关键词抽取(针对文内已出现的词),方法二为关键词生成(针对文内未出现的词)。
方法一中的关键词抽取有多种实现方式,具体包括:基于统计的方式,基于图的方式,和基于序列标注的方式。其中,基于统计的方式高度依赖于专家对统计特征的设计,而基于图的方式中时间复杂度一般较高(一般在O(n2)以上),此两种方式有一个共同的缺陷即:不能保证筛选出来的关键词与文本存在语义的关联关系,并且倾向于将频繁词作为关键词。基于序列标注的方式是有监督的方法,依赖于标注语料并且只适用于训练语料领域的任务。
方式法二中的关键词也包括多种实现方式,具体包括:基于翻译对齐的方式,和基于序列到序列(即seq2seq)的方式。此两种方式均依赖于大量标注语料,计算复杂度高,并且只适用于训练语料的领域。
目前,关键词提取的方式具有以下缺点:
1、准确率和覆盖率低,基于统计特征和图随机游走的方法不能保证提取的关键词与文章存在语义关联关系,特别是在文章存在多个话题的情况下;
2、基于图或有监督的方法计算复杂度高,在长文章上尤为明显;
3、提取关键词时更倾向于提取高频常见词汇,而高频词汇不一定适合概括文章语义;
4、不能与知识/标签图谱等外部领域知识体系相结合,以产生文本之外的关键词,从而限制了语义概括能力。
发明内容
为克服相关技术中存在的问题,本文提供一种关键词提取方法、装置及介质。
根据本文实施例的第一方面,提供了一种关键词提取方法,包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
在另一实施方式中,所述从原始文档中提取候选词,包括:
根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
其中,所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
在另一实施方式中,所述方法还包括:
从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
使用向量生成模型计算所述降噪文档的文档特征向量;
从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量,根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。
在另一实施方式中,所述获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;并且所述获取所述并集中每个候选关键词与所述原始文档的第二关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。
在另一实施方式中,根据以下公式计算每个第一词语与所述原始文档的第一关联度或每个候选关键词与所述原始文档的第二关联度:
其中,x表示所述第一词语集合中的任一第一词语的词语特征向量或所述并集中的任一候选关键词的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与所述原始文档的第一关联度或所述并集中的任一候选关键词与所述原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是所述文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。
在另一实施方式中,所述根据所述第一关联度确定第二词语集合,包括:
选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。
在另一实施方式中,所述针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,包括:
所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
在另一实施方式中,所述根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合,包括:
将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
通过以下至少一种方式从所述并集中选择所述至少一个候选关键词:
选择所述第二关联度大于第二预设关联值的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
根据本文实施例的第二方面,提供了一种关键词提取装置,包括:
接收模块,用于接收原始文档;
第一提取模块,用于从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
第一获取模块,用于获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度;
第一确定模块,用于根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
第一查询模块,用于针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
第二确定模块,用于确定所述第二词语集合和所述第三词语集合的并集;
第二获取模块,用于获取所述并集中每个候选关键词与所述原始文档的第二关联度;
第一选择模块,用于根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
在另一实施方式中,所述第一提取模块,包括:
第二提取模块,用于根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
在另一实施方式中,所述装置还包括:
第一构成模块,用于从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
第一计算模块,用于使用向量生成模型计算所述降噪文档的文档特征向量;
聚类模块,用于从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量;根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。
在另一实施方式中,所述第一获取模块,包括:
第二计算模块,用于根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;
所述第二获取模块,包括:
第三计算模块,用于根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。
在另一实施方式中,所述第二计算模块,还用于根据以下公式计算每个第一词语与所述原始文档的第一关联度:以及所述第三计算模块,还用于根据以下公式计算计算每个候选关键词与所述原始文档的第二关联度:
其中,x表示所述第一词语集合中的任一第一词语的词语特征向量或所述并集中的任一候选关键词的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与所述原始文档的第一关联度或所述并集中的任一候选关键词与所述原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是所述文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。
在另一实施方式中,所述第一确定模块,包括:
第二构成模块,用于选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,
第三构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,
第四构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。
在另一实施方式中,所述第一查询模块,包括:
第二查询模块,用于在所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
第三查询模块,用于所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
在另一实施方式中,所述第一选择模块,包括:
加权模块,用于将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
所述第一选择模块还包括:
第二选择模块,用于选择所述第二关联度大于第二预设关联值的候选关键词;
或者,
第三选择模块,用于选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,
第四选择模块,用于选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
根据本文实施例的第三方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种关键词提取方法,所述方法包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
本文的实施例提供的技术方案可以包括以下有益效果:本文在仅需要使用现有的词语关联拓扑或者人工构建词语关联拓扑的情况下,从原始文档中的候选词以及词语关联拓扑中的符合与候选词关联条件的节点词中,选择原始文档的关键词。本方法的计算复杂度为O(n),相比与现有方法中O(n2)的复杂度,可以明显提升计算速度。本方法通过引入词语关联拓扑,可以不受候选词词频的影响,从而解决了现有方法中优先选择高频词的问题。本方法通过词语关联拓扑达到有效利用外部知识的效果,提供可以表达出原始文档的本意并且属于原始文档内容之外的词语,从而丰富关键词的表达方式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本文。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本文的实施例,并与说明书一起用于解释本文的原理。
图1是根据一示例性实施例示出的一种关键词提取方法的流程图;
图2是根据一示例性实施例示出的一种词语关联拓扑的示意图;
图3是根据一示例性实施例示出的一种关键词提取方法的流程图;
图4是根据一示例性实施例示出的一种关键词提取装置的结构图;
图5是根据一示例性实施例示出的一种关键词提取装置的结构图;
图6是根据一示例性实施例示出的一种关键词提取装置的结构图;
图7是根据一示例性实施例示出的一种关键词提取装置的结构图;
图8是根据一示例性实施例示出的一种关键词提取装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。
本公开实施例中提供了一种关键词提取方法。参照图1,图1是根据一示例性实施例示出的一种关键词提取方法的流程图。如图1所示,此方法包括:
步骤S10,接收原始文档;
步骤S11,从原始文档中提取候选词,将提取出的候选词构成第一词语集合;
步骤S12,获取第一词语集合中每个第一词语与原始文档的第一关联度;
步骤S13,根据第一关联度确定第二词语集合,第二词语集合为第一词语集合的子集;
步骤S14,针对第二词语集合中的每个第二词语,在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
步骤S15,确定第二词语集合和第三词语集合的并集;
步骤S16,获取并集中每个候选关键词与原始文档的第二关联度;
步骤S17,根据第二关联度从所述并集中选择至少一个候选关键词构成原始文档的关键词集合。
本方法可以运行于移动终端(例如手机),也可以运行于网络侧设备(例如服务器、处理中心等)。
在另一实施例中,图1所示的方法还包括步骤S18:输出原始文档的关键词集合。其中的输出包括以下中的至少一种:将原始文档的关键词集合从一移动终端发送至另一移动终端,将原始文档的关键词集合从网络侧设备发送至移动终端,将原始文档的关键词集合从移动终端发送至网络侧设备,在显示装置上显示原始文档的关键词集合、在播放装置上播放原始文档的关键词集合。
其中,步骤S14中的词语关联拓扑包括多个节点,每个节点对应于一个词语,节点间的连接方式表示相应词语之间的关联关系。此词语关联拓扑是无向拓扑或者是有向拓扑,两个相邻节点(即直连节点)之间的连接关系可以是无权重的连接关系,即相邻节点之间的连接距离均为预设距离(例如1);两个相邻节点(即直连节点)之间的连接关系也可以是具有权重的连接关系,例如相邻节点之间的连接权重是0.8时,相邻节点之间的连接距离是预设距离(例如1)与此连接权重(0.8)的乘积即0.8。图2是一个示例用的较简单的无向的词语关联拓扑的结构图。如图2所示,图中相邻节点的连接关系可以是无权重的连接关系,也可以是有权重的连接关系。
本方法在仅需要使用现有的词语关联拓扑或者人工构建词语关联拓扑的情况下,从原始文档中的候选词以及词语关联拓扑中的符合与候选词关联条件的节点词中,选择原始文档的关键词。本方法的计算复杂度为O(n),相比与现有方法中O(n2)的复杂度,可以明显提升计算速度。本方法通过引入词语关联拓扑,可以不受候选词词频的影响,从而解决了现有方法中优先选择高频词的问题。本方法通过词语关联拓扑达到有效利用外部知识的效果,提供可以表达出原始文档的本意并且属于原始文档内容之外的词语,从而丰富关键词的表达方式。
例如:原始文档是一篇介绍长短期记忆网络(Long Short-Term Memory,简称LSTM)的文档,全篇专注于LSTM的具体探讨技术,并没有出现“神经网络”、“人工智能”等词汇,但是使用本方法最终选择出的关键词包括“神经网络”、“人工智能”等存在于词语关联拓扑中的词汇,这些词汇虽然没有出现在原始文档中,但可以在从不同层面上体现原始文档的主旨。
本公开实施例中还提供了一种关键词提取方法。在此方法中,如图1所示的S11从原始文档中提取候选词包括:根据候选词提取规则从原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词。
其中,修饰性词语的词性是形容词、名词、或可以修饰名词的其他词性词语。例如:手机是一个名词性词语,可折叠手机是一个名词性词组,其中,可折叠的是形容词性的修饰性词语,此名词性词组是由形容词性的修饰性词语与名词性词语组合成的词组。再例如:手机是一个名词性词语,曲面屏手机是一个名词性词组,其中,苹果是名词词性的修饰性词语,此名词性词组是由名词词性的修饰性词语与名词性词语组合成的词组。
其中,从原始文档中提取出名词性词语或者名词性词组包括以下两种方式中的一种:
方式一,对原始文档进行人工词性标注,从进行词性标注后的文档中提取出名词性词语或者名词性词组作为候选词。进行人工词性标注时对所有的词标注其相应的词性,或者只标注名词性词语和修饰性词语。
方式二,使用词性标注软件对原始文档进行词性标注。从进行词性标注后的文档中提取出名词性词语或者名词性词组作为候选词。使用词性标注软件进行标注时,设置需要标注的词性的范围,此范围可以设置为所有词性,也可以设置为名词性词语和修饰性词语。
候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
此方法中在候选词提取规则中设置多个参数,此多个参数除了涉及出现频率(即同一词的出现频率)这一种参数,还涉及包含字的个数和同义词概念相关参数,从而使提取出的候选词不只是在文中出现最频繁或较频繁的词这一单一特点的词,而是更为多元化和多方面且兼顾到同义概念的候选词。通过此方法选择出候选词相比现有技术是更能体现文中主旨的候选词。
本公开实施例中还提供了一种关键词提取方法。参照图3,图3是根据一示例性实施例示出的一种关键词提取方法的流程图。此方法在图1所示的方法基础上,还包括:
步骤S31,从原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
步骤S32,使用向量生成模型计算降噪文档的文档特征向量;
步骤S33,从降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取待聚类词语集合中每个待聚类词语的词语特征向量,根据词语特征向量对待聚类词语集合进行聚类,确定原始文档的多个聚类集合。其中,聚类方法包括多种:例如:K均值(K-Means)聚类方法、均值漂移聚类方法、基于密度的聚类方法、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测聚类方法。在聚类前,可预先设置目标聚类中心的个数(例如设置为3),设置目标聚类中心的个数时,根据待聚类处理的文档的字数进行设置,字数越多,设置的目标聚类中心的个数的越大。上述各种可以提供聚类中心的聚类方法均可达到相似的效果,K均值聚类方法的优点包括:效果稳定,实现的时间复杂度较低,并且可以指定聚类的簇数目。
步骤S32中的使用向量生成模型计算降噪文档的文档特征向量包括以下方式中的一种:
方式一,使用句子转向量的模型计算降噪文档的文档特征向量,例如句子转向量的模型是sent2vec模型。
方式二,使用词语转向量的模型计算降噪文档中每个词的词语特征向量,计算降噪文档中所有词的词语特征向量的平均值作为降噪文档的文档特征向量,例如句子转向量的模型是word2vec模型。
在一种实施方式中,方式一中使用句子转向量的模型计算降噪文档的文档特征向量的步骤包括准备阶段和训练阶段。具体的:
准备阶段中,准备与原始文档的所属领域相关的大于预设字数的语料(例如:100万句以上的无标注语料),此语料的语言种类与原始文档相同,例如原始文档为中文时,准备的语料均为中文内容。即原始文档为英文时,准备的语料均为英文内容。此语料一般是无批注的语料。需要此语料中包含词语关联拓扑中的所有词语,并且词语关联拓扑中的每个词语在语料中出现的次数不低于预设次数(例如50次)。句子转向量的模型是现有软件时,安装相关系统以及模型软件,例如安装python3.5与sent2vec工具软件。
训练阶段中,使用模型软件对语料进行训练。下面举例说明一种使用sent2vec工具软件训练阶段的具体过程:
步骤1,对准备好的语料进行清洗,保证清洗后的语料中的每句话都是语法正确、语义清晰的自然语言语句。具体清洗方法为:去除特殊字符、编程语言(如html语句)等无法有效表达语料主旨的部分。
步骤2,将清洗后的语料进行分句,每句之间以第一预设符号(例如换行符)分隔。
步骤3,将分句后的语料中每句进行分词,每个词以第二预设符号(例如空格)分隔。分词时可以使用开源软件进行分词,还可以加强词语关联拓扑中的各个词汇的权重。
步骤4,将分词操作后的语料内容以utf-8编码格式编码,存储在.txt格式文件中。
步骤5,确保计算机内存超过16G,运行sent2vec工具软件。设置软件运行必须的相关参数,例如进行以下设置:要求词汇在语料中出现的最低次数(minCount)为10,词语或文档向量维度(dim)为500,最大连词数(wordNgrams)为2,其中连词是指把两个连在一起的常见词作为一个词,训练过程中的负采样数(neg)为10,训练过程中随机失活的词数目(dropoutK)为4,训练过程中缓存的词数目(bucket)为1000000,sent2vec模型保留的最大词数(maxVocabSize)为500000。
步骤5,加载.txt格式文件,使用分词操作后的语料训练sent2vec模型。在训练成功后以.bin格式保存训练成功的sent2vec模型。
图1所示的步骤S12中获取第一词语集合中每个第一词语与原始文档的第一关联度,包括:根据文档特征向量和多个聚类集合以及第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与原始文档的第一关联度。
图1所示的步骤S17中获取并集中每个候选关键词与原始文档的第二关联度,包括:根据文档特征向量和多个聚类集合以及并集中每个候选关键词的词语特征向量,计算每个候选关键词与原始文档的第二关联度。
计算一词语与一文档的关联度的方法有多种,例如:词频-逆文档频率(TermFrequency–Inverse Document Frequency,TF-IDF)算法,潜在语义索引(Latent SemanticIndexing,简称LSI)算法、词移距离(Word Mover's Distance,WMD)等方法。
本文实施例中提供了一种新的计算词语与文档的关联度的方法。具体为:
步骤S12中计算每个第一词语与原始文档的第一关联度时,使用以下公式(1)进行计算:
公式(1)中,x表示第一词语集合中的任一第一词语的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与原始文档的第一关联度,α和β是权重系数,Ysim()是相似度函数,V0是文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。
相似度函数可以是任意能够表征两个向量相似度的函数,例如此相似度函数是余弦相似度函数、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、杰卡德距离等。
步骤S17中,计算每个候选关键词与原始文档的第二关联度时,使用公式(1)进行计算。公式(1)中,x表示并集中的任一候选关键词的词语特征向量,S(x,D)表示并集中的任一候选关键词的词语特征向量与原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。
上述公式(1)可以用于计算任一词语集合中的词语与文档的关联度。使用公式(1)的计算词语与文档的关联度的方法,是在使用sent2vec模型和聚类处理的基础上实现的,基于sent2vec模型对文档或句子级别的向量表征进行了优化的基础,聚类处理实现有效的分类,从而可以将词语更好地映射在同一个语义空间,使用公式(1)中结合词语与文档特征向量的关联度以及词语与聚类特征向量的关联度可以更准确有效的表达出词语与文档的关联度。
本公开实施例中还提供了一种关键词提取方法。在此方法中,图1所示的步骤S13中根据第一关联度确定第二词语集合是以下方式中的一种:
方式一,选择与原始文档的第一关联度大于第一预设关联值的第一词语构成第二词语集合。例如:第一预设关联值为80%,选择第一关联度大于第一预设关联值的第一词语。
方式二,选择在与原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成第二词语集合。例如:第一预设位置是指在排序中的第6位,与原始文档的第一关联度从大到小的排序中共包括30个位置时,选择与原始文档的第一关联度处于前5位的第一词语。
方式三,选择在与原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成第二词语集合。例如:第一预设比例是指在排序中的10%,与原始文档的第一关联度从大到小的排序中共包括30个位置时,选择与原始文档的第一关联度处于前3位的第一词语。
本公开实施例中还提供了一种关键词提取方法。在此方法中,图1所示的步骤S14中,针对第二词语集合中的每个第二词语,在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词,包括:词语关联拓扑是无向拓扑时,在词语关联拓扑中查询与第二词语集合中第二词语的关联距离小于预设距离的节点词。词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
本公开实施例中还提供了一种关键词提取方法。在此方法中,图1所示的步骤S17中,根据第二关联度,从并集中选择至少一个候选关键词构成原始文档的关键词集合,包括:
将并集中来自第三词语集合的部分候选关键词的与原始文档的关联度乘以一预设系数,此预设系数大于0.7小于1;
通过以下至少一种方式从并集中选择至少一个候选关键词:
方式一,选择第二关联度大于第二预设关联值的候选关键词。
方式二,选择第二关联度从大到小的排序中位于第二预设位置之前的候选关键词。
方式三,选择第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
本公开实施例中还提供了一种关键词提取装置。参照图4,图4是根据一示例性实施例示出的一种关键词提取装置的结构图。如图4所示,此装置包括:
接收模块400,用于接收原始文档;
第一提取模块401,用于从原始文档中提取候选词,将提取出的候选词构成第一词语集合;
第一获取模块402,用于获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度;
第一确定模块403,用于根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
第一查询模块404,用于针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
第二确定模块405,用于确定所述第二词语集合和所述第三词语集合的并集;
第二获取模块406,用于获取所述并集中每个候选关键词与所述原始文档的第二关联度;
第一选择模块407,用于根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
在另一实施例中,此装置还包括:输出模块,用于输出原始文档的关键词集合。此输出模块可以是传输模块,在关键词提取装置应用于移动终端时,此传输模块用于将原始文档的关键词集合发送至另一移动终端或网络侧设备;在关键词提取装置应用于网络侧设备时,此传输模块用于将原始文档的关键词集合发送至移动终端。此输出模块还可以是显示装置,用于显示原始文档的关键词集合。此输出模块还可以是播放装置,用于播放原始文档的关键词集合。本公开实施例中还提供了一种关键词提取装置。此装置中图4所示装置中第一提取模块401,包括:
第二提取模块,用于根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
本公开实施例中还提供了一种关键词提取装置。参照图5,图5是根据一示例性实施例示出的一种关键词提取装置的结构图。如图5所示,此装置在图4所示装置的基础上还包括:
第一构成模块501,用于从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
第一计算模块502,用于使用向量生成模型计算所述降噪文档的文档特征向量;
聚类模块503,用于从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量;根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。
本公开实施例中还提供了一种关键词提取装置。参照图6,图6是根据一示例性实施例示出的一种关键词提取装置的结构图。如图6所示,此装置在图5所示装置的基础上的一个新的装置。在此装置中,
图5所示的第一获取模块402,包括:第二计算模块601,用于根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度。
图5所示的第二获取模块406,包括:第三计算模块602,用于根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。
其中,
第二计算模块601,还用于根据以下公式计算每个第一词语与所述原始文档的第一关联度:以及第三计算模块602,还用于根据以下公式计算计算每个候选关键词与所述原始文档的第二关联度:
其中,x表示所述第一词语集合中的任一第一词语的词语特征向量或所述并集中的任一候选关键词的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与所述原始文档的第一关联度或所述并集中的任一候选关键词与所述原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是所述文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。
本公开实施例中还提供了一种关键词提取装置。此装置中图4所示装置中第一确定模块403,包括:
第二构成模块,用于选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,
第三构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,
第四构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。
本公开实施例中还提供了一种关键词提取装置。此装置中图4所示装置中第一查询模块404,包括:
第二查询模块,用于在所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
第三查询模块,用于所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
本公开实施例中还提供了一种关键词提取装置。此装置中图4所示装置中第一选择模块407,包括:
加权模块,用于将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
第二选择模块,用于选择所述第二关联度大于第二预设关联值的候选关键词;
或者,
第三选择模块,用于选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,
第四选择模块,用于选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
本公开实施例中还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种关键词提取方法,所述方法包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
图7是根据一示例性实施例示出的一种用于关键词提取装置700的框图。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置700可以包括以下一个或多个组件:处理组件702,存储器704,电力组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件706为装置700的各种组件提供电力。电力组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种用于关键词提取装置800的框图。例如,装置800可以被提供为一服务器。参照图8,装置800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述方法。
装置800还可以包括一个电源组件826被配置为执行装置800的电源管理,一个有线或无线网络接口850被配置为将装置800连接到网络,和一个输入输出(I/O)接口859。装置800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本文的真正范围和精神由下面的权利要求指出。
应当理解的是,本文并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。
Claims (17)
1.一种关键词提取方法,其特征在于,包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
2.如权利要求1所述的方法,其特征在于,
所述从原始文档中提取候选词,包括:
根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
其中,所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
3.如权利要求1所述的方法,其特征在于,
所述方法还包括:
从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
使用向量生成模型计算所述降噪文档的文档特征向量;
从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量,根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。
4.如权利要求3所述的方法,其特征在于,
所述获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;并且
所述获取所述并集中每个候选关键词与所述原始文档的第二关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。
6.如权利要求1所述的方法,其特征在于,
所述根据所述第一关联度确定第二词语集合,包括:
选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。
7.如权利要求1所述的方法,其特征在于,
所述针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,包括:
所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
8.如权利要求1所述的方法,其特征在于,
所述根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合,包括:
将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
通过以下至少一种方式从所述并集中选择所述至少一个候选关键词:
选择所述第二关联度大于第二预设关联值的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
9.一种关键词提取装置,其特征在于,包括:
接收模块,用于接收原始文档;
第一提取模块,用于从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
第一获取模块,用于获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度;
第一确定模块,用于根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
第一查询模块,用于针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
第二确定模块,用于确定所述第二词语集合和所述第三词语集合的并集;
第二获取模块,用于获取所述并集中每个候选关键词与所述原始文档的第二关联度;
第一选择模块,用于根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
10.如权利要求9所述的装置,其特征在于,
所述第一提取模块,包括:
第二提取模块,用于根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。
11.如权利要求9所述的装置,其特征在于,
所述装置还包括:
第一构成模块,用于从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
第一计算模块,用于使用向量生成模型计算所述降噪文档的文档特征向量;
聚类模块,用于从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量;根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。
12.如权利要求11所述的装置,其特征在于,
所述第一获取模块,包括:
第二计算模块,用于根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;
所述第二获取模块,包括:
第三计算模块,用于根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。
14.如权利要求9所述的装置,其特征在于,
所述第一确定模块,包括:
第二构成模块,用于选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,
第三构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,
第四构成模块,用于选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。
15.如权利要求9所述的装置,其特征在于,
所述第一查询模块,包括:
第二查询模块,用于在所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
第三查询模块,用于所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。
16.如权利要求9所述的装置,其特征在于,
所述第一选择模块,包括:
加权模块,用于将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
所述第一选择模块还包括:
第二选择模块,用于选择所述第二关联度大于第二预设关联值的候选关键词;
或者,
第三选择模块,用于选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,
第四选择模块,用于选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。
17.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种关键词提取方法,所述方法包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285835.5A CN111078884B (zh) | 2019-12-13 | 2019-12-13 | 一种关键词提取方法、装置及介质 |
US16/828,938 US11630954B2 (en) | 2019-12-13 | 2020-03-24 | Keyword extraction method, apparatus and medium |
EP20166998.3A EP3835993A3 (en) | 2019-12-13 | 2020-03-31 | Keyword extraction method, apparatus and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285835.5A CN111078884B (zh) | 2019-12-13 | 2019-12-13 | 一种关键词提取方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078884A true CN111078884A (zh) | 2020-04-28 |
CN111078884B CN111078884B (zh) | 2023-08-15 |
Family
ID=70110036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911285835.5A Active CN111078884B (zh) | 2019-12-13 | 2019-12-13 | 一种关键词提取方法、装置及介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11630954B2 (zh) |
EP (1) | EP3835993A3 (zh) |
CN (1) | CN111078884B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505595A (zh) * | 2021-07-26 | 2021-10-15 | 中国平安人寿保险股份有限公司 | 文本短语抽取方法、装置、计算机设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926319B (zh) * | 2021-02-26 | 2024-01-12 | 北京百度网讯科技有限公司 | 一种领域词汇的确定方法、装置、设备以及存储介质 |
CN113792131B (zh) * | 2021-09-23 | 2024-02-09 | 深圳平安智慧医健科技有限公司 | 一种关键词的提取方法、装置、电子设备及存储介质 |
CN116028609B (zh) * | 2023-02-14 | 2024-02-27 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
CN109271514A (zh) * | 2018-09-14 | 2019-01-25 | 华南师范大学 | 短文本分类模型的生成方法、分类方法、装置及存储介质 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8166045B1 (en) * | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US8577930B2 (en) * | 2008-08-20 | 2013-11-05 | Yahoo! Inc. | Measuring topical coherence of keyword sets |
WO2010075888A1 (en) * | 2008-12-30 | 2010-07-08 | Telecom Italia S.P.A. | Method and system of content recommendation |
US8751218B2 (en) | 2010-02-09 | 2014-06-10 | Siemens Aktiengesellschaft | Indexing content at semantic level |
US9483557B2 (en) * | 2011-03-04 | 2016-11-01 | Microsoft Technology Licensing Llc | Keyword generation for media content |
US20170139899A1 (en) | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN105808526B (zh) * | 2016-03-30 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN108073568B (zh) | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
US11397740B2 (en) * | 2017-07-24 | 2022-07-26 | Mycelebs Co., Ltd. | Method and apparatus for providing information by using degree of association between reserved word and attribute language |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
KR102195686B1 (ko) * | 2018-08-01 | 2020-12-29 | 주식회사 마이셀럽스 | 지역 기반 아이템 추천 장치 및 방법 |
JP7125322B2 (ja) * | 2018-10-18 | 2022-08-24 | 株式会社日立製作所 | 属性抽出装置および属性抽出方法 |
CN110232183B (zh) * | 2018-12-07 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
US11281854B2 (en) * | 2019-08-21 | 2022-03-22 | Primer Technologies, Inc. | Limiting a dictionary used by a natural language model to summarize a document |
-
2019
- 2019-12-13 CN CN201911285835.5A patent/CN111078884B/zh active Active
-
2020
- 2020-03-24 US US16/828,938 patent/US11630954B2/en active Active
- 2020-03-31 EP EP20166998.3A patent/EP3835993A3/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
CN109271514A (zh) * | 2018-09-14 | 2019-01-25 | 华南师范大学 | 短文本分类模型的生成方法、分类方法、装置及存储介质 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505595A (zh) * | 2021-07-26 | 2021-10-15 | 中国平安人寿保险股份有限公司 | 文本短语抽取方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3835993A3 (en) | 2021-08-04 |
EP3835993A2 (en) | 2021-06-16 |
US20200226367A1 (en) | 2020-07-16 |
US11630954B2 (en) | 2023-04-18 |
CN111078884B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078838B (zh) | 关键词提取方法、关键词提取装置及电子设备 | |
CN107766426B (zh) | 一种文本分类方法、装置及电子设备 | |
CN110008401B (zh) | 关键词提取方法、关键词提取装置和计算机可读存储介质 | |
CN111078884B (zh) | 一种关键词提取方法、装置及介质 | |
CN107527619B (zh) | 语音控制业务的定位方法及装置 | |
CN110781305A (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN108345612B (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN109815396B (zh) | 搜索词权重确定方法及装置 | |
CN111079422B (zh) | 关键词提取方法、装置及存储介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN111832315B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN111222316B (zh) | 文本检测方法、装置及存储介质 | |
CN112528671A (zh) | 语义分析方法、装置以及存储介质 | |
CN111651586A (zh) | 文本分类的规则模板生成方法、分类方法及装置、介质 | |
CN114756677A (zh) | 样本生成方法、文本分类模型的训练方法及文本分类方法 | |
CN111274389B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
KR102327790B1 (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN111381685B (zh) | 一种句联想方法和装置 | |
CN111832297A (zh) | 词性标注方法、装置及计算机可读存储介质 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |