CN107885717A - 一种关键词提取方法及装置 - Google Patents
一种关键词提取方法及装置 Download PDFInfo
- Publication number
- CN107885717A CN107885717A CN201610871071.8A CN201610871071A CN107885717A CN 107885717 A CN107885717 A CN 107885717A CN 201610871071 A CN201610871071 A CN 201610871071A CN 107885717 A CN107885717 A CN 107885717A
- Authority
- CN
- China
- Prior art keywords
- morpheme
- short string
- candidate
- short
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种关键词提取方法及装置,其中方法包括如下步骤:从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度;按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度;按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。采用本发明,提取到待提取文档中重要度较高的词素和完整度较高的短串,提高了提取关键词的准确性。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种关键词提取方法及装置。
背景技术
伴随着计算机技术、通信技术、互联网技术的发展,数据积累的越来越多。面对激增的数据,人们希望能够挖掘出有价值的信息,从而可以更好地利用这些数据为人们服务,其中,关键词的提取成为一个热点问题,能够通过关键词提示或概括文档内容,这样便于一些应用从用户之前阅读的文章中提取关键词,并根据提取的关键词向用户推荐符合用户兴趣爱好的文章,或者广告商可以根据某一网页的关键词投放适合的广告,等等。
目前已存在许多关键词提取方法,这些方法的重点是为了获取到出现频率较高的词语,从文档中统计出各个词语的出现频率,将出现频率较高的词语作为该文档的关键词。然而,词语在文档中出现频率的高低并无法决定该词语在文档的重要性,因此,通过这种方法提取的关键词有可能无法准确提示该文档,降低了提取关键词的准确性。
发明内容
本发明实施例提供一种关键词提取方法及装置,能够提取到待提取文档中重要度较高的词素和完整度较高的短串,提高了提取关键词的准确性。
本发明实施例第一方面提供了一种关键词提取方法,包括:
从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度;
按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度;
按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;
按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;
将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
本发明实施例第二方面提供了一种关键词提取装置,包括:
词素提取模块,用于从待提取文档中提取多个候选词素;
第一计算模块,用于基于词素重要度模型计算每个候选词素的重要度;
短串生成模块,用于按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串;
第二计算模块,用于基于短串完整度模型计算每个候选短串的完整度;
词素选择模块,用于按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;
短串选择模块,用于按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;
关键词确定模块,用于将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
在本发明实施例中,通过从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度,接着按照预设规则对多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度,按照重要度的排列顺序选择第一数量的候选词素以及按照完整度的排列顺序选择第二数量的候选短串,最后将第一数量的候选词素和第二数量的候选短串确定为待提取文档的关键词。通过计算词素在待提取文档中的重要度,而不是仅仅计算词素在待提取文档的出现频率,这样能够提取到待提取文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种关键词提取方法的流程示意图;
图2是本发明实施例提供的另一种关键词提取方法的流程示意图;
图3是本发明实施例提供的步骤S201的一种流程示意图;
图4是本发明实施例提供的与步骤S205相关的流程示意图;
图5是本发明实施例提供的步骤S208的一种流程示意图;
图6是本发明实施例提供的一种关键词提取装置的结构示意图;
图7是本发明实施例提供的另一种关键词提取装置的结构示意图;
图8是本发明实施例提供的新短串查找模块的结构示意图;
图9是本发明实施例提供的一种特征值获取模块的结构示意图;
图10是本发明实施例提供的另一种特征值获取模块的结构示意图;
图11是本发明实施例提供的一种关键词提取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的关键词提取方法可以应用于对用户阅读的网页文档的关键词提取的场景,例如:从网页文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度;按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度;按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;将所述第一数量的候选词素和所述第二数量的候选短串确定为所述网页文档的关键词。通过计算词素在网页文档中的重要度,而不是仅仅计算词素在网页文档的出现频率,这样能够提取到网页文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
本发明实施例涉及的通信终端和监测设备可以是任何具备存储和通信功能的设备,例如:平板电脑、手机、电子阅读器、个人计算机(Personal Computer,PC)、笔记本电脑、车载设备、网络电视、可穿戴设备等设备。
下面将结合附图1-附图2,对本发明实施例提供的关键词提取方法进行详细介绍。
请参见图1,为本发明实施例提供了一种关键词提取方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S105。
S101,从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度。
具体的,关键词提取装置从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度。可行的方案中,所述关键词提取装置可以采用信息检索与数据挖掘的常用加权技术从待提取文档中提取多个候选词素,例如,TF-IDF(termfrequency–inverse document frequency)方法,其中,TF表示词频(TermFrequency),IDF表示逆向文件频率(Inverse Document Frequency),TF-IDF的主要思想是如果词素x在文档A中出现的频率高,并且在其他文档中很少出现,则认为词x具有很好的区分能力,适合用来把文档A和其他文档区分开来。
进一步,所述关键词提取装置分别计算每个候选词素的重要度,具体是获取每个候选词素对应的多个目标特征,在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重,根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,若提取的其中一个候选词素为“微信”,则所述关键词提取装置获取该候选词素对应的多个目标特征,例如词性:名词,词素长度:2,词素IDF:4,在该待提取文档中的位置:108等,接着,所述关键词提取装置获取这些目标特征的特征值和权重,其中,当目标特征为词性时,词性的特征值是名词对应的数值,词性的权重为所述关键词提取装置所存储的数值;当目标特征为词素长度时,词素长度的特征值为2,词素长度的权重为所述关键词提取装置所存储的数值,当目标特征为词素IDF时,词素IDF的特征值为4,词素IDF的权重为所述关键词提取装置所存储的数值,以此类推进而获得各个目标特征的特征值和权重,根据每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,所述关键词提取装置可以将每个候选词素的各个目标特征的特征值乘以权重的乘积求和获得每个候选词素的重要度。
可选的,在待提取文档中可能存在一些停用词,而停用词会对词素的准确提取造成影响,常见的停用词有:是、和、中、的、地、得等等,当提取待提取文档中的候选词素时,可以先去除待提取文档中的停用词,再对去除所述停用词之后的待提取文档提取多个候选词素。这样能够提高提取候选词素的准确性。
S102,按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度。
具体的,所述关键词提取装置按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度。其中,短串为由一个或者多个词素组成的文本串。可行的方案中,所述关键词提取装置获取词素组合的最大组合数,所述最大组合数为大于1的正整数,将各个候选词素组合为小于或等于所述最大组合数的候选短串。举例来说,若提取到的候选词素的数量为10个,最大组合数为3,则所述关键词提取装置将10个候选词素以小于等于3的组合数进行组合,生成由任意两个候选词素组合的个候选短串,以及生成由任意三个候选词素组合的个候选短串,组合生成的候选短串均为本发明实施例中的候选短串。
进一步,所述关键词提取装置基于短串完整度模型计算每个候选短串的完整度,可行的方案中,所述关键词提取装置从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。其中,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率。所述关键词提取装置可以从存储的多个短串中查找候选短串以及该候选短串对应的目标转移概率和目标相似性替换概率,所述目标转移概率表示所述候选短串转移为第一短串的概率,其中,第一短串除了包含候选短串的词素之外还包括其他词素,或者,所述第一短串是由其他词素组成的,例如,若候选短串为“微信应用”,它可以转移为“微信搜索”、“下载应用”、“微博应用”、“微博软件”等短串;所述目标相似性替换概率表示所述候选短串替换为与所述短串具有共同词素的第二短串的概率,例如,若候选短串为“微信”,它可以转移为“微博”等短串。
S103,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。
具体的,所述关键词提取装置计算获得每个候选词素的重要度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选词素。
S104,按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串。
具体的,所述关键词提取装置计算获得每个候选短串的完整度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选短串。
S105,将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
具体的,所述关键词提取装置将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。通过综合考虑词素的重要度和短串的完整度,能够使得获得的关键词更加准确。
在本发明实施例中,通过从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度,接着按照预设规则对多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度,按照重要度的排列顺序选择第一数量的候选词素以及按照完整度的排列顺序选择第二数量的候选短串,最后将第一数量的候选词素和第二数量的候选短串确定为待提取文档的关键词。通过计算词素在待提取文档中的重要度,而不是仅仅计算词素在待提取文档的出现频率,这样能够提取到待提取文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
请参见图2,为本发明实施例提供了另一种关键词提取方法的流程示意图。如图2所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S211。
S201,对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串。
具体的,所述关键词提取装置对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串。其中,新短串为先前预存的多个短串中不存在的短串,短串为由一个或者多个词素组成的文本串。例如,微信、QQ、酷跑、涨姿势等词语。可行的方案中,请一并参见图3,为本发明实施例提供了步骤S201的一种流程示意图,如图3所示,该步骤S201包括步骤S2011至步骤S2015。
S2011,获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频。
具体的,所述关键词提取装置获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频。其中,所述预设值为自定义设置的,第一时间段可以是某一天的时间或者5天的时间等,本发明实施例对此不做限定。可行的方案中,所述关键词提取装置获取第一时间段内的多个第一候选短串和每个第一候选短串对应的词频的方法为:
A、根据当前的词条字典,对第一时间段内的文档进行切词,获取完整度大于预设完整度的多个短串,并计算各个短串的词频。其中,所述关键词提取装置可以采用但不限定于基于字符串匹配的切词方法、基于统计的切词方法等,对第一时间段内的全部文档进行切词,获得几十、几千甚至更多的词素,再根据候选词素的提取方法(例如,TF-IDF方法)获得多个候选词素,按照预设规则对所述多个候选词素进行排列组合,生成多个短串,获取完整度大于预设完整度的多个短串,并计算各个短串的词频。其中,短串的完整度是基于短串完整度模型计算的,可以参见计算短串完整度的具体实现方式,在此不再赘述。
B、在所述文档中获取每个短串的前向短串和后向短串,并计算所述每个短串的词频、每个前向短串的词频、每个后向短串的词频,所述前向短串是对所述每个短串前向增加至少一个词素组成的,所述后向短串是对所述每个短串后向增加至少一个词素组成的。举例来说,若获取到的短串为“微信”,则在文档中获取“微信”向前增加一个词素的短串即为前向短串,以及在文档中获取“微信”向后增加一个词素的短串即为后向短串,并统计该文档中短串、前向短串、后向短串的词频,这里的词频表示在文档中出现的频率。
C、将词频大于预设词频的短串确定为所述第一时间段内的第一候选短串。这样即可确定出第一时间段内的第一候选短串。
S2012,获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段。
具体的,所述关键词提取装置获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段。例如,第一时间段为当天的24小时,第二时间段为前一天的24小时,可选的,所述第一时间段和所述第二时间段的时长可以相同,也可以不同,本发明实施例对此不做限定。可行的方案中,所述关键词提取装置获取第二时间段内的多个第二候选短串和每个第二候选短串对应的词频可参照获取第一时间段内的多个第一候选短串和每个第一候选短串对应的词频的实现方式,在此不再赘述。
S2013,判断所述多个第二候选短串中是否存在目标候选短串。
具体的,所述关键词提取装置判断多个第二候选短串中是否存在目标候选短串,其中,所述目标候选短串为所述第一候选短串中的任一短串。若判断多个第二候选短串中存在目标候选短串,则执行步骤S2014;若判断多个第二候选短串中不存在目标候选短串,则执行步骤S2015。
S2014,计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,将词频增量超过第一预设值的目标候选短串确定为新短串。
具体的,若判断多个第二候选短串中存在目标候选短串,所述关键词提取装置计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,若目标候选短串的词频增量超过第一预设值,表示该目标候选短串在短时间内被大多数用户所使用,因此将词频增量超过第一预设值的目标候选短串确定为新短串。
S2015,将词频超过第二预设值的目标候选短串确定为新短串。
具体的,若判断多个第二候选短串中不存在目标候选短串,进一步若目标候选短串的词频超过第二预设值,表示该目标候选短串在短时间内被大多数用户所使用,因此将词频超过第二预设值的目标候选短串确定为新短串。
S202,将所述新短串增加至词条字典中。
具体的,所述关键词提取装置将所述新短串增加至词条字典中,所述词条字典是为切词准备的,所述词条词典中包含多个词素和多个短串,这样在根据增加了新短串的词条字典进行切词时,待提取文档中的新短串不会被切分开,保证了切词的准确性。
S203,去除待提取文档中的停用词。
具体的,所述关键词提取装置去除待提取文档中的停用词。在待提取文档中可能存在一些停用词,而停用词会对词素的准确提取造成影响,常见的停用词有:是、和、中、的、地、得等等,当提取待提取文档中的候选词素时,可以先去除待提取文档中的停用词,再对去除所述停用词之后的待提取文档提取多个候选词素。这样能够提高提取候选词素的准确性。
S204,根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素。
具体的,所述关键词提取装置根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素,所述词条词典中包含多个词素和多个短串。所述关键词提取装置可以采用但不限定于基于字符串匹配的切词方法、基于统计的切词方法等,对第一时间段内的全部文档进行切词,获得几十、几千甚至更多的词素,再根据候选词素的提取方法(例如,TF-IDF方法)获得多个候选词素。
S205,基于词素重要度模型计算每个候选词素的重要度。
具体的,所述关键词提取装置基于词素重要度模型计算每个候选词素的重要度。可行的方案中,所述关键词提取装置分别计算每个候选词素的重要度,具体是获取每个候选词素对应的多个目标特征,在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重,根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,若提取的其中一个候选词素为“微信”,则所述关键词提取装置获取该候选词素对应的多个目标特征,例如词性:名词,词素长度:2,词素IDF:4,在该待提取文档中的位置:108等,接着,所述关键词提取装置获取这些目标特征的特征值和权重,其中,当目标特征为词性时,词性的特征值是名词对应的数值,词性的权重为所述关键词提取装置所存储的数值;当目标特征为词素长度时,词素长度的特征值为2,词素长度的权重为所述关键词提取装置所存储的数值,当目标特征为词素IDF时,词素IDF的特征值为4,词素IDF的权重为所述关键词提取装置所存储的数值,以此类推进而获得各个目标特征的特征值和权重,根据每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,所述关键词提取装置可以将每个候选词素的各个目标特征的特征值乘以权重的乘积求和获得每个候选词素的重要度。
进一步,所述关键词提取装置在步骤S205中直接获取到各个候选词素的特征对应的特征值和权重,是在词素重要度模型中所保存的,而各个特征对应的特征值和权重是需要计算或训练的,因此,在执行步骤S205之前,还应该包括:请参见图4,为本发明实施例提供了一种与步骤S205相关的流程示意图,如图4所示的流程示意图包括步骤S212至步骤S215。
S212,基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素。
具体的,所述关键词提取装置基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素。其中,文档搜索日志可以包括用户的搜索词和根据搜索词搜索到的各个文档的信息,文档点击日志可以包括基于搜索到的文档用户所点击的文档的信息。这里的文档搜索日志和文档点击日志可以包含关于成千上万甚至更多的文档信息。
S213,获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据。
具体的,所述关键词提取装置获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据。其中,所述训练数据包括搜索词、共有词素和点击率,所述共有词素表示所述搜索词与根据所述搜索词搜索到的文档中共同存在的词素,所述点击率表示根据所述搜索词搜索到的且包含所述共有词素的文档的展示次数和所述文档被用户点击的次数的比值。
可选的,所述训练数据可以包括共有词素和点击率,所述共有词素表示根据搜索词搜索到的多个文档中两两文档之间的共有词素,所述点击率表示确定两两文档在通过搜索词搜索的过程中的点击次数和展示次数的比值。
可选的,所述训练数据可以包括共有词素和点击率,通所述共有词素表示同一个用户在一段时间内的搜索词中存在的相同词素,所述点击率表示该段时间内搜索到的文档的点击次数和展示次数的比值。
需要说明的是,以上三种方式均是训练数据的获取方法,本发明实施例对训练数据的获取方式和训练数据的具体数据内容不做限定。
S214,获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值。
具体的,所述关键词提取装置获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值。所述特征集包括固有属性、词素所属的类别和深度语义,所述固有属性包括专有名词类型、逆向文件频率IDF、词性、长度、语言类型、位置中的至少一个。
举例来说,对于特征为固有属性的情况,一种方式中,特征对应的特征值可以自定义设置,例如,专有名词类型:图书的特征值设置为1、音乐的特征值设置为2、商品的特征值设置为3、网址的特征值设备为4等等;词性:名词的特征值设置为4、动词的特征值设置为5等等;语言类型:英文的特征值设置为6、阿拉伯数字的特征值设备为7等等。另一种方式中,特征对应的特征值需要参考该特征的计算数值,例如,IDF的特征值为IDF的计算数值、长度的特征为该训练词素的字的数量、位置的特征值为该训练词素在所在文档中从开始算起的词素排列位置等等。
又举例来说,对于特征为词素所属的类别的情况,所述关键词提取装置获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值的方法为:从多个参考文档中提取词素,并确定所述多个参考文档中每个参考文档所属的类别;确定属于目标类别且包含目标词素的参考文档的第一数量,以及确定包含所述目标词素的参考文档的第二数量,所述目标类别为所述多个参考文档所属的全部类别中的任一类别,所述目标词素为所提取的词素中的任一词素;根据所述第一数量和所述第二数量,计算所述目标词素属于所述目标类别的概率;将所述概率确定为所述目标词素属于所述目标类别的特征值。假设目标词素为w,目标类别为c,则所述目标词素属于所述目标类别的概率p为:
其中,N(c,w)为属于目标类别且包含目标词素的参考文档的第一数量;N(c)为包含所述目标词素的参考文档的第二数量。
对于特征为词素所属的类别的情况,一个目标词素可以对应于多个类别,可选的,该目标词素属于每个类别都可以作为一个特征,对应的特征值为该目标词素属于每个类别的概率;可选的,还可以根据概率的大小,选取概率较大的几个目标词素属于的类别作为特征,本发明实施例对此不做限定。
又举例来说,对于特征为深度语义的情况,所述关键词提取装置获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值的方法为:获取每个训练词素的词向量;对所述每个训练词素进行扩展,获得多个扩展词素,获取每个扩展词素的词向量;对所述多个扩展词素进行聚类处理,生成至少一个簇,对每个簇设定一个特征值,其中,每个簇包含至少一个扩展词素;计算所述每个训练词素与所述每个簇的欧氏距离,将所述欧式距离确定为所述每个训练词素的深度语义特征的特征值。其中,词向量是将一个词素用向量的方式表示,举个例子,“话筒”表示为词向量[0 0 0 1 0 0 0 0 0 0 0 0 0 0 00……];“麦克”表示为词向量[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0……];当词向量用“Word Representation”的方式表示时,例如,词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,……]。在这种情况中,生成簇之后,根据簇中的词素确定簇的向量,进而将词素向量与簇向量之间的欧式距离确定为特征值。
对于特征为深度语义的情况,可以计算得到一个词素与每个簇之间的欧式距离,可选的,将每个簇都可以作为该词素的特征,对应的特征值为该词素与每个簇之间的欧氏距离;可选的,还可以根据欧式距离的大小,选取欧氏距离较大的簇作为该词素的特征,本发明实施例对此不做限定。
S215,根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。
具体的,所述关键词提取装置根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。在词素重要度模型中,共有词素的点击率越高,它在搜索词中的重要程度就越高,进而搜索词中越重要的词素所触发的搜索文档越容易被用户所点击。所述关键词提取装置按照这一原则对各个训练词素的特征值进行训练,通过满足大多数的点击率较高的共有词素的重要度较高、其他词素的重要度较低的条件,训练获得各个特征对应的权重,以使在所述关键词提取装置在提取到候选词素时,基于词素重要度模型根据各个候选词素所属特征对应的特征值和权重计算各个候选词素的重要度。
S206,获取词素组合的最大组合数。
具体的,所述关键词提取装置获取词素组合的最大组合数,所述最大组合数为大于1的正整数,所述最大组合数是自定义设置的,本发明实施例对此不做限定。
S207,将各个候选词素组合为小于或等于所述最大组合数的候选短串。
具体的,所述关键词提取装置将各个候选词素组合为小于或等于所述最大组合数的候选短串。举例来说,若提取到的候选词素的数量为10个,最大组合数为3,则所述关键词提取装置将10个候选词素以小于等于3的组合数进行组合,生成由任意两个候选词素组合的个候选短串,以及生成由任意三个候选词素组合的个候选短串,组合生成的候选短串均为本发明实施例中的候选短串。
S208,基于短串完整度模型计算每个候选短串的完整度。
具体的,所述关键词提取装置基于短串完整度模型计算每个候选短串的完整度。可行的方案中,请一并参见图5,为本发明实施例提供了一种步骤S208的流程示意图,如图5所示包括步骤S2081和S2082。
S2081,从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率。
具体的,所述关键词提取装置从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;其中,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率。所述关键词提取装置可以从存储的多个短串中查找候选短串以及该候选短串对应的目标转移概率和目标相似性替换概率,所述目标转移概率表示所述候选短串转移为第一短串的概率,其中,第一短串除了包含候选短串的词素之外还包括其他词素,或者,所述第一短串是由其他词素组成的,例如,若候选短串为“微信应用”,它可以转移为“微信搜索”、“下载应用”、“微博应用”、“微博软件”等短串;所述目标相似性替换概率表示所述候选短串替换为与所述短串具有共同词素的第二短串的概率,例如,若候选短串为“微信”,它可以转移为“微博”等短串。
S2082,根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。
具体的,所述关键词提取装置根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度,用以表示该候选短串未被转移为其他短串、没有缺少词素且没有增加词素的完整程度。
可行的方案中,所述短串完整度模型中所存储的多个短串对应的转移概率的计算方法为:该短串包含至少两个词素,获取从参考文档中提取的词素,将参考文档中提取的词素和短串包含的词素进行组合,生成新的短串,即为第一短串。以短串包含两个词素为例,设短串为AB,从参考文档中提取的词素包括C、N、T、U、Z等,得到如表1的转移矩阵,该转移矩阵中包含短串AB和多个第一短串,从表1可以看出,同一行短串的第一个词素相同,同一列短串的最后第一词素相同,例如,短串AC是将AB短串的后一个词素B转变为词素C得到;而短串TC是短串AB经过两次转变得到的,一种情况是短串AB转变为TB再转变为TC,另一种情况是短串AB转变为AC再转变为TC。该转移矩阵中包含了短串AB可以转变的各个短串。
表1转移矩阵
AB | AC | …… | AN |
TB | TC | …… | TN |
UB | UC | …… | UN |
…… | …… | …… | …… |
ZB | ZC | …… | ZN |
为了计算获得短串AB的转移概率,先统计所有第一短串包含词素的总的同时出现次数以及单独词素的总出现次数,并利用贝叶斯公式计算第一短串中一个词素出现的情况下另一个词素出现的概率p(ti|tj):
上式中N(ti,tj)表示词素对titj总的同时出现次数,N(tj)表示词素tj总的出现次数。
针对表1的转移矩阵,可以获得转移矩阵中每个短串的p(A|B)、p(B|A)、p(A|C)、p(C|A)、p(T|B)、p(B|T)等,在对计算获得的全部p(ti|tj)进行求和并取平均值,进而确定所述短串AB的转移概率。
可行的方案中,所述短串完整度模型中所存储的多个短串对应的相似性替换概率的计算方法为:由于用户输入时对文档记忆不清楚,输入一个类似的字符串代替,例如:刘的华(刘德华),虞人(虞美人),元宵戏乐(元宵喜乐会)等;那么,通过计算原始短串可能重写为非当前短串的概率,以此概率来衡量短串书写不完整的概率。具体为:对参考文档中的短串进行相似性聚类,可选的,限定原短串与替换短串之间有重叠词素;聚类后,得到各个替换短串与原短串的相似度,第i个替换短串与原始短串的相似度记为:SIMphrase-i;统计每个替换短串在全网文章中出现的频次,第i个替换短串的词频记为:TFphrase-i,原短串的词频记为:TFphrase,
构建一个相似队列,满足TFphrase≤TFphrase-i且SIMphrase-i≤thres,thres为预设的相似度阈值,相似队列如下,其中,AB为原始短串,其他为替换短串。
AB | CBSA | …… | NFB |
原短串被替换为第i个替换短串的概率为:
最终以这样的概率的平均值来表示原短串的相似性替换概率pSIM:
S209,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。
具体的,所述关键词提取装置计算获得每个候选词素的重要度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选词素。
S210,按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串。
具体的,所述关键词提取装置计算获得每个候选短串的完整度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选短串。
S211,将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
具体的,所述关键词提取装置将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。通过综合考虑词素的重要度和短串的完整度,能够使得获得的关键词更加准确。
在本发明实施例中,通过从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度,接着按照预设规则对多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度,按照重要度的排列顺序选择第一数量的候选词素以及按照完整度的排列顺序选择第二数量的候选短串,最后将第一数量的候选词素和第二数量的候选短串确定为待提取文档的关键词。通过计算词素在待提取文档中的重要度,而不是仅仅计算词素在待提取文档的出现频率,这样能够提取到待提取文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
请参见图3,为本发明实施例提供了一种关键词提取装置的结构示意图。如图3所示,本发明实施例的所述关键词提取装置1可以包括:词素提取模块11、第一计算模块12、短串生成模块13、第二计算模块14、词素选择模块15、短串选择模块16和关键词确定模块17。
词素提取模块11,用于从待提取文档中提取多个候选词素。
具体的,所述词素提取模块11从待提取文档中提取多个候选词素。可行的方案中,所述词素提取模块11可以采用信息检索与数据挖掘的常用加权技术从待提取文档中提取多个候选词素,例如,TF-IDF方法,其中,TF表示词频,IDF表示逆向文件频率,TF-IDF的主要思想是如果词素x在文档A中出现的频率高,并且在其他文档中很少出现,则认为词x具有很好的区分能力,适合用来把文档A和其他文档区分开来。
第一计算模块12,用于基于词素重要度模型计算每个候选词素的重要度。
具体的,所述第一计算模块12分别计算每个候选词素的重要度,具体是获取每个候选词素对应的多个目标特征,在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重,根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,若提取的其中一个候选词素为“微信”,则所述关键词提取装置1获取该候选词素对应的多个目标特征,例如词性:名词,词素长度:2,词素IDF:4,在该待提取文档中的位置:108等,接着,所述第一计算模块12获取这些目标特征的特征值和权重,其中,当目标特征为词性时,词性的特征值是名词对应的数值,词性的权重为所述关键词提取装置1所存储的数值;当目标特征为词素长度时,词素长度的特征值为2,词素长度的权重为所述关键词提取装置1所存储的数值,当目标特征为词素IDF时,词素IDF的特征值为4,词素IDF的权重为所述关键词提取装置1所存储的数值,以此类推进而获得各个目标特征的特征值和权重,根据每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,所述第一计算模块12可以将每个候选词素的各个目标特征的特征值乘以权重的乘积求和获得每个候选词素的重要度。
短串生成模块13,用于按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串。
具体的,所述短串生成模块13按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串。其中,短串为由一个或者多个词素组成的文本串。可行的方案中,所述短串生成模块13获取词素组合的最大组合数,所述最大组合数为大于1的正整数,将各个候选词素组合为小于或等于所述最大组合数的候选短串。举例来说,若提取到的候选词素的数量为10个,最大组合数为3,则所述短串生成模块13将10个候选词素以小于等于3的组合数进行组合,生成由任意两个候选词素组合的个候选短串,以及生成由任意三个候选词素组合的个候选短串,组合生成的候选短串均为本发明实施例中的候选短串。
第二计算模块14,用于基于短串完整度模型计算每个候选短串的完整度。
具体的,所述第二计算模块14基于短串完整度模型计算每个候选短串的完整度。可行的方案中,所述关键词提取装置1从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。其中,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率。所述关键词提取装置1可以从存储的多个短串中查找候选短串以及该候选短串对应的目标转移概率和目标相似性替换概率,所述目标转移概率表示所述候选短串转移为第一短串的概率,其中,第一短串除了包含候选短串的词素之外还包括其他词素,或者,所述第一短串是由其他词素组成的,例如,若候选短串为“微信应用”,它可以转移为“微信搜索”、“下载应用”、“微博应用”、“微博软件”等短串;所述目标相似性替换概率表示所述候选短串替换为与所述短串具有共同词素的第二短串的概率,例如,若候选短串为“微信”,它可以转移为“微博”等短串。
词素选择模块15,用于按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。
具体的,所述词素选择模块15计算获得每个候选词素的重要度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选词素。
短串选择模块16,用于按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串。
具体的,所述短串选择模块16计算获得每个候选短串的完整度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选短串。
关键词确定模块17,用于将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
具体的,所述关键词确定模块17将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。通过综合考虑词素的重要度和短串的完整度,能够使得获得的关键词更加准确。
在本发明实施例中,通过从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度,接着按照预设规则对多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度,按照重要度的排列顺序选择第一数量的候选词素以及按照完整度的排列顺序选择第二数量的候选短串,最后将第一数量的候选词素和第二数量的候选短串确定为待提取文档的关键词。通过计算词素在待提取文档中的重要度,而不是仅仅计算词素在待提取文档的出现频率,这样能够提取到待提取文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
请参见图4,为本发明实施例提供了另一种关键词提取装置的结构示意图。如图4所示,本发明实施例的所述关键词提取装置1可以包括:词素提取模块11、第一计算模块12、短串生成模块13、第二计算模块14、词素选择模块15、短串选择模块16、关键词确定模块17、新短串查找模块18、新短串增加模块19、训练词素提取模块20、训练数据获取模块21、特征值获取模块权重计算模块22、权重计算模块23和停用词去除模块24。
新短串查找模块18,用于对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串。
具体的,所述新短串查找模块18对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串。其中,新短串为先前预存的多个短串中不存在的短串,短串为由一个或者多个词素组成的文本串。例如,微信、QQ、酷跑、涨姿势等词语。可行的方案中,请一并参见图8,为本发明实施例提供了一种新短串查找模块的结构示意图,如图8所示,所述新短串查找单元18包括:第一短串获取单元181、第二短串获取单元182、短串判断单元183和新短串确定单元184。
第一短串获取单元181,用于获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频。
具体的,所述第一短串获取单元181获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频。其中,所述预设值为自定义设置的,第一时间段可以是某一天的时间或者5天的时间等,本发明实施例对此不做限定。可行的方案中,所述第一短串获取单元181可以包括词频计算子单元和短串确定子单元。
词频计算子单元,用于根据当前的词条字典,对第一时间段内的文档进行切词,获取完整度大于预设完整度的多个短串,并计算各个短串的词频。其中,所述词频计算子单元可以采用但不限定于基于字符串匹配的切词方法、基于统计的切词方法等,对第一时间段内的全部文档进行切词,获得几十、几千甚至更多的词素,再根据候选词素的提取方法(例如,TF-IDF方法)获得多个候选词素,按照预设规则对所述多个候选词素进行排列组合,生成多个短串,获取完整度大于预设完整度的多个短串,并计算各个短串的词频。其中,短串的完整度是基于短串完整度模型计算的,可以参见计算短串完整度的具体实现方式,在此不再赘述。
所述词频计算子单元,还用于在所述文档中获取每个短串的前向短串和后向短串,并计算所述每个短串的词频、每个前向短串的词频、每个后向短串的词频,所述前向短串是对所述每个短串前向增加至少一个词素组成的,所述后向短串是对所述每个短串后向增加至少一个词素组成的。举例来说,若获取到的短串为“微信”,则在文档中获取“微信”向前增加一个词素的短串即为前向短串,以及在文档中获取“微信”向后增加一个词素的短串即为后向短串,并统计该文档中短串、前向短串、后向短串的词频,这里的词频表示在文档中出现的频率。
短串确定子单元,用于将词频大于预设词频的短串确定为所述第一时间段内的第一候选短串。
第二短串获取单元182,用于获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段。
具体的,所述第二短串获取单元182获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段。例如,第一时间段为当天的24小时,第二时间段为前一天的24小时,可选的,所述第一时间段和所述第二时间段的时长可以相同,也可以不同,本发明实施例对此不做限定。可行的方案中,所述第二短串获取单元182获取第二时间段内的多个第二候选短串和每个第二候选短串对应的词频可参照所述第一短串获取单元181获取第一时间段内的多个第一候选短串和每个第一候选短串对应的词频的实现方式,在此不再赘述。
短串判断单元183,用于判断所述多个第二候选短串中是否存在目标候选短串,所述目标候选短串为所述第一候选短串中的任一短串。
具体的,所述短串判断单元183判断多个第二候选短串中是否存在目标候选短串,其中,所述目标候选短串为所述第一候选短串中的任一短串。
新短串确定单元184,用于若所述短串判断单元判断所述多个第二候选短串中存在目标候选短串,则计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,将词频增量超过第一预设值的目标候选短串确定为新短串。
具体的,若所述短串判断单元183判断多个第二候选短串中存在目标候选短串,所述新短串确定单元184计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,若目标候选短串的词频增量超过第一预设值,表示该目标候选短串在短时间内被大多数用户所使用,因此将词频增量超过第一预设值的目标候选短串确定为新短串。
所述新短串确定单元184,还用于若所述短串判断单元判断所述多个第二候选短串中不存在目标候选短串,则将词频超过第二预设值的目标候选短串确定为新短串。
具体的,若所述短串判断单元183判断多个第二候选短串中不存在目标候选短串,进一步若目标候选短串的词频超过第二预设值,表示该目标候选短串在短时间内被大多数用户所使用,因此所述新短串确定单元184将词频超过第二预设值的目标候选短串确定为新短串。
新短串增加模块19,用于将所述新短串增加至词条字典中。
具体的,所述新短串增加模块19将所述新短串增加至词条字典中,所述词条字典是为切词准备的,所述词条词典中包含多个词素和多个短串,这样在根据增加了新短串的词条字典进行切词时,待提取文档中的新短串不会被切分开,保证了切词的准确性。
停用词去除模块24,用于去除待提取文档中的停用词。
具体的,所述停用词去除模块24去除待提取文档中的停用词。在待提取文档中可能存在一些停用词,而停用词会对词素的准确提取造成影响,常见的停用词有:是、和、中、的、地、得等等,当提取待提取文档中的候选词素时,可以先去除待提取文档中的停用词,再对去除所述停用词之后的待提取文档提取多个候选词素。这样能够提高提取候选词素的准确性。
词素提取模块11,用于从待提取文档中提取多个候选词素。
具体的,所述词素提取模块11根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素,所述词条词典中包含多个词素和多个短串。所述词素提取模块11可以采用但不限定于基于字符串匹配的切词方法、基于统计的切词方法等,对第一时间段内的全部文档进行切词,获得几十、几千甚至更多的词素,再根据候选词素的提取方法(例如,TF-IDF方法)获得多个候选词素。
第一计算模块12,用于基于词素重要度模型计算每个候选词素的重要度。
具体的,所述第一计算模块12基于词素重要度模型计算每个候选词素的重要度。可行的方案中,所述第一计算模块12分别计算每个候选词素的重要度,具体是获取每个候选词素对应的多个目标特征,在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重,根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,若提取的其中一个候选词素为“微信”,则所述关键词提取装置1获取该候选词素对应的多个目标特征,例如词性:名词,词素长度:2,词素IDF:4,在该待提取文档中的位置:108等,接着,所述关键词提取装置1获取这些目标特征的特征值和权重,其中,当目标特征为词性时,词性的特征值是名词对应的数值,词性的权重为所述关键词提取装置1所存储的数值;当目标特征为词素长度时,词素长度的特征值为2,词素长度的权重为所述关键词提取装置1所存储的数值,当目标特征为词素IDF时,词素IDF的特征值为4,词素IDF的权重为所述关键词提取装置1所存储的数值,以此类推进而获得各个目标特征的特征值和权重,根据每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。举例来说,所述第一计算模块12可以将每个候选词素的各个目标特征的特征值乘以权重的乘积求和获得每个候选词素的重要度。
进一步,所述关键词提取装置1在第一计算模块12中直接获取到各个候选词素的特征对应的特征值和权重,是在词素重要度模型中所保存的,而各个特征对应的特征值和权重是需要计算或训练的,因此,在执行第一计算模块12之前,还应该包括特征值和权重的获取或计算过程,请参见训练词素提取模块20、训练数据获取模块21、特征值获取模块权重计算模块22和权重计算模块23的详细介绍。
训练词素提取模块20,用于基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素。
具体的,所述训练词素提取模块20基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素。其中,文档搜索日志可以包括用户的搜索词和根据搜索词搜索到的各个文档的信息,文档点击日志可以包括基于搜索到的文档用户所点击的文档的信息。这里的文档搜索日志和文档点击日志可以包含关于成千上万甚至更多的文档信息。
训练数据获取模块21,用于获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据。
具体的,所述训练数据获取模块21获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据。其中,所述训练数据包括搜索词、共有词素和点击率,所述共有词素表示所述搜索词与根据所述搜索词搜索到的文档中共同存在的词素,所述点击率表示根据所述搜索词搜索到的且包含所述共有词素的文档的展示次数和所述文档被用户点击的次数的比值。
可选的,所述训练数据可以包括共有词素和点击率,所述共有词素表示根据搜索词搜索到的多个文档中两两文档之间的共有词素,所述点击率表示确定两两文档在通过搜索词搜索的过程中的点击次数和展示次数的比值。
可选的,所述训练数据可以包括共有词素和点击率,通所述共有词素表示同一个用户在一段时间内的搜索词中存在的相同词素,所述点击率表示该段时间内搜索到的文档的点击次数和展示次数的比值。
需要说明的是,以上三种方式均是训练数据的获取方法,本发明实施例对训练数据的获取方式和训练数据的具体数据内容不做限定。
特征值获取模块22,用于获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值。
具体的,所述特征值获取模块22获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值。所述特征集包括固有属性、词素所属的类别和深度语义,所述固有属性包括专有名词类型、逆向文件频率IDF、词性、长度、语言类型、位置中的至少一个。
举例来说,对于特征为固有属性的情况,一种方式中,特征对应的特征值可以自定义设置,例如,专有名词类型:图书的特征值设置为1、音乐的特征值设置为2、商品的特征值设置为3、网址的特征值设备为4等等;词性:名词的特征值设置为4、动词的特征值设置为5等等;语言类型:英文的特征值设置为6、阿拉伯数字的特征值设备为7等等。另一种方式中,特征对应的特征值需要参考该特征的计算数值,例如,IDF的特征值为IDF的计算数值、长度的特征为该训练词素的字的数量、位置的特征值为该训练词素在所在文档中从开始算起的词素排列位置等等。
当所述词素的特征为所述词素所属的类别时,请参见图9,为本发明实施例提供了一种特征值获取模块的结构示意图,如图9所示,所述特征值获取模块22包括:类别确定单元221、数量确定单元222、概率计算单元223和第一特征值确定单元224。
类别确定单元221,用于从多个参考文档中提取词素,并确定所述多个参考文档中每个参考文档所属的类别。
数量确定单元222,用于确定属于目标类别且包含目标词素的参考文档的第一数量,以及确定包含所述目标词素的参考文档的第二数量,所述目标类别为所述多个参考文档所属的全部类别中的任一类别,所述目标词素为所提取的词素中的任一词素。
概率计算单元223,用于根据所述第一数量和所述第二数量,计算所述目标词素属于所述目标类别的概率。
第一特征值确定单元224,用于将所述概率确定为所述目标词素属于所述目标类别的特征值。
假设目标词素为w,目标类别为c,则所述目标词素属于所述目标类别的概率p为:
其中,N(c,w)为属于目标类别且包含目标词素的参考文档的第一数量;N(c)为包含所述目标词素的参考文档的第二数量。
对于特征为词素所属的类别的情况,一个目标词素可以对应于多个类别,可选的,该目标词素属于每个类别都可以作为一个特征,对应的特征值为该目标词素属于每个类别的概率;可选的,还可以根据概率的大小,选取概率较大的几个目标词素属于的类别作为特征,本发明实施例对此不做限定。
当所述词素的特征为所述深度语义时,请参见图10,为本发明实施例提供了另一种特征值获取模块的结构示意图,如图10所示,所述特征值获取模块22包括:词向量获取单元225、聚类处理单元226和第二特征值确定单元227。
词向量获取单元225,用于获取每个训练词素的词向量。
所述词向量获取单元225,还用于对所述每个训练词素进行扩展,获得多个扩展词素,获取每个扩展词素的词向量。
聚类处理单元226,用于对所述多个扩展词素进行聚类处理,生成至少一个簇,对每个簇设定一个特征值,其中,每个簇包含至少一个扩展词素。
第二特征值确定单元227,用于计算所述每个训练词素与所述每个簇的欧氏距离,将所述欧式距离确定为所述每个训练词素的深度语义特征的特征值。
其中,词向量是将一个词素用向量的方式表示,举个例子,“话筒”表示为词向量[00 0 1 0 0 0 0 0 0 0 0 0 0 0 0……];“麦克”表示为词向量[0 0 0 0 0 0 0 0 1 0 0 00 0 0 0……];当词向量用“Word Representation”的方式表示时,例如,词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,……]。在这种情况中,生成簇之后,根据簇中的词素确定簇的向量,进而将词素向量与簇向量之间的欧式距离确定为特征值。
对于特征为深度语义的情况,可以计算得到一个词素与每个簇之间的欧式距离,可选的,将每个簇都可以作为该词素的特征,对应的特征值为该词素与每个簇之间的欧氏距离;可选的,还可以根据欧式距离的大小,选取欧氏距离较大的簇作为该词素的特征,本发明实施例对此不做限定。
权重计算模块23,用于根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。
具体的,所述权重计算模块23根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。在词素重要度模型中,共有词素的点击率越高,它在搜索词中的重要程度就越高,进而搜索词中越重要的词素所触发的搜索文档越容易被用户所点击。所述关键词提取装置1按照这一原则对各个训练词素的特征值进行训练,通过满足大多数的点击率较高的共有词素的重要度较高、其他词素的重要度较低的条件,训练获得各个特征对应的权重,以使在所述权重计算模块23在提取到候选词素时,基于词素重要度模型根据各个候选词素所属特征对应的特征值和权重计算各个候选词素的重要度。
短串生成模块13,用于按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串。
具体的,所述短串生成模块13获取词素组合的最大组合数,所述最大组合数为大于1的正整数,并将各个候选词素组合为小于或等于所述最大组合数的候选短串。所述最大组合数为大于1的正整数,所述最大组合数是自定义设置的,本发明实施例对此不做限定。举例来说,若提取到的候选词素的数量为10个,最大组合数为3,则所述短串生成模块13将10个候选词素以小于等于3的组合数进行组合,生成由任意两个候选词素组合的个候选短串,以及生成由任意三个候选词素组合的个候选短串,组合生成的候选短串均为本发明实施例中的候选短串。
第二计算模块14,用于基于短串完整度模型计算每个候选短串的完整度。
具体的,所述第二计算单元14从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;并根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。其中,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率。所述关键词提取装置1可以从存储的多个短串中查找候选短串以及该候选短串对应的目标转移概率和目标相似性替换概率,所述目标转移概率表示所述候选短串转移为第一短串的概率,其中,第一短串除了包含候选短串的词素之外还包括其他词素,或者,所述第一短串是由其他词素组成的,例如,若候选短串为“微信应用”,它可以转移为“微信搜索”、“下载应用”、“微博应用”、“微博软件”等短串;所述目标相似性替换概率表示所述候选短串替换为与所述短串具有共同词素的第二短串的概率,例如,若候选短串为“微信”,它可以转移为“微博”等短串。
可行的方案中,所述短串完整度模型中所存储的多个短串对应的转移概率的计算方法为:该短串包含至少两个词素,获取从参考文档中提取的词素,将参考文档中提取的词素和短串包含的词素进行组合,生成新的短串,即为第一短串。以短串包含两个词素为例,设短串为AB,从参考文档中提取的词素包括C、N、T、U、Z等,得到如表1的转移矩阵,该转移矩阵中包含短串AB和多个第一短串,从表1可以看出,同一行短串的第一个词素相同,同一列短串的最后第一词素相同,例如,短串AC是将AB短串的后一个词素B转变为词素C得到;而短串TC是短串AB经过两次转变得到的,一种情况是短串AB转变为TB再转变为TC,另一种情况是短串AB转变为AC再转变为TC。该转移矩阵中包含了短串AB可以转变的各个短串。
为了计算获得短串AB的转移概率,先统计所有第一短串包含词素的总的同时出现次数以及单独词素的总出现次数,并利用贝叶斯公式计算第一短串中一个词素出现的情况下另一个词素出现的概率p(ti|tj):
上式中N(ti,tj)表示词素对titj总的同时出现次数,N(tj)表示词素tj总的出现次数。
针对表1的转移矩阵,可以获得转移矩阵中每个短串的p(A|B)、p(B|A)、p(A|C)、p(C|A)、p(T|B)、p(B|T)等,在对计算获得的全部p(ti|tj)进行求和并取平均值,进而确定所述短串AB的转移概率。
可行的方案中,所述短串完整度模型中所存储的多个短串对应的相似性替换概率的计算方法为:由于用户输入时对文档记忆不清楚,输入一个类似的字符串代替,例如:刘的华(刘德华),虞人(虞美人),元宵戏乐(元宵喜乐会)等;那么,通过计算原始短串可能重写为非当前短串的概率,以此概率来衡量短串书写不完整的概率。具体为:对参考文档中的短串进行相似性聚类,可选的,限定原短串与替换短串之间有重叠词素;聚类后,得到各个替换短串与原短串的相似度,第i个替换短串与原始短串的相似度记为:SIMphrase-i;统计每个替换短串在全网文章中出现的频次,第i个替换短串的词频记为:TFphrase-i,原短串的词频记为:TFphrase,
构建一个相似队列,满足TFphrase≤TFphrase-i且SIMphrase-i≤thres,thres为预设的相似度阈值,相似队列如下,其中,AB为原始短串,其他为替换短串。
AB | CBSA | …… | NFB |
原短串被替换为第i个替换短串的概率为:
最终以这样的概率的平均值来表示原短串的相似性替换概率pSIM:
词素选择模块15,用于按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。
具体的,所述词素选择模块15计算获得每个候选词素的重要度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选词素。
短串选择模块16,用于按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串。
具体的,所述短串选择模块16计算获得每个候选短串的完整度,按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素。例如,选择排列前五的候选短串。
关键词确定模块17,用于将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
具体的,所述关键词确定模块17将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。通过综合考虑词素的重要度和短串的完整度,能够使得获得的关键词更加准确。
在本发明实施例中,通过从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度,接着按照预设规则对多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度,按照重要度的排列顺序选择第一数量的候选词素以及按照完整度的排列顺序选择第二数量的候选短串,最后将第一数量的候选词素和第二数量的候选短串确定为待提取文档的关键词。通过计算词素在待提取文档中的重要度,而不是仅仅计算词素在待提取文档的出现频率,这样能够提取到待提取文档中较为重要的词素,另外还计算所生成的短串的完整度,进而提高了提取关键词的准确性。
请参见图11,为本发明实施例提供了另一种关键词提取装置的结构示意图。如图11所示,所述关键词提取装置1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及关键词提取应用程序。
在图11所示的关键词提取装置1000中,用户接口1003主要用于为用户提供输入的接口,获取用户选择的待提取文档或大量参考文档等;而处理器1001可以用于调用存储器1005中存储的关键词提取应用程序,并具体执行以下操作:
从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度;
按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度;
按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;
按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;
将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
在一个实施例中,所述处理器1001在执行从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度之前,还执行以下步骤:
去除待提取文档中的停用词;
所述从待提取文档中提取多个候选词素,包括:
根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素,所述词条词典中包含多个词素和多个短串。
在一个实施例中,所述词素重要度模型中包含多个特征、所述特征对应的特征值和所述特征对应的权重;
所述处理器1001在执行基于词素重要度模型计算每个候选词素的重要度,包括:
获取每个候选词素对应的多个目标特征;在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重;根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。
在一个实施例中,所述处理器1001在执行基于词素重要度模型计算每个候选词素的重要度之前,还执行以下步骤:
基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素;
获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据,所述训练数据包括搜索词、共有词素和点击率,所述共有词素表示所述搜索词与根据所述搜索词搜索到的文档中共同存在的词素,所述点击率表示根据所述搜索词搜索到的且包含所述共有词素的文档的展示次数和所述文档被用户点击的次数的比值;
获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值,所述特征集包括固有属性、词素所属的类别和深度语义,所述固有属性包括专有名词类型、逆向文件频率IDF、词性、长度、语言类型、位置中的至少一个;
根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。
在一个实施例中,当所述词素的特征为所述词素所属的类别时,所述处理器1001在执行获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值,具体执行以下步骤:
从多个参考文档中提取词素,并确定所述多个参考文档中每个参考文档所属的类别;
确定属于目标类别且包含目标词素的参考文档的第一数量,以及确定包含所述目标词素的参考文档的第二数量,所述目标类别为所述多个参考文档所属的全部类别中的任一类别,所述目标词素为所提取的词素中的任一词素;
根据所述第一数量和所述第二数量,计算所述目标词素属于所述目标类别的概率;
将所述概率确定为所述目标词素属于所述目标类别的特征值。
在一个实施例中,当所述词素的特征为所述深度语义时,所述处理器1001在执行获取每个训练词素对应的特征集中每个特征对应的特征值,包括:
获取每个训练词素的词向量;对所述每个训练词素进行扩展,获得多个扩展词素,获取每个扩展词素的词向量;对所述多个扩展词素进行聚类处理,生成至少一个簇,对每个簇设定一个特征值,其中,每个簇包含至少一个扩展词素;计算所述每个训练词素与所述每个簇的欧氏距离,将所述欧式距离确定为所述每个训练词素的深度语义特征的特征值。
在一个实施例中,所述处理器1001在执行按照预设规则对所述多个候选词素进行排列组合,具体执行以下步骤:
获取词素组合的最大组合数,所述最大组合数为大于1的正整数;将各个候选词素组合为小于或等于所述最大组合数的候选短串。
在一个实施例中,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率;
所述处理器1001在执行基于短串完整度模型计算每个候选短串的完整度,具体执行以下步骤:
从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;
根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。
在一个实施例中,所述处理器1001还执行以下步骤:
对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串;
将所述新短串增加至词条字典中。
在一个实施例中,所述处理器1001在执行对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串,具体执行以下步骤:
获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频;获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段;判断所述多个第二候选短串中是否存在目标候选短串,所述目标候选短串为所述第一候选短串中的任一短串;若存在,则计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,将词频增量超过第一预设值的目标候选短串确定为新短串;若不存在,则将词频超过第二预设值的目标候选短串确定为新短串。
在一个实施例中,所述处理器1001在执行获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频,具体执行以下步骤:
根据当前的词条字典,对第一时间段内的文档进行切词,获取完整度大于预设完整度的多个短串,并计算各个短串的词频;
在所述文档中获取每个短串的前向短串和后向短串,并计算所述每个短串的词频、每个前向短串的词频、每个后向短串的词频,所述前向短串是对所述每个短串前向增加至少一个词素组成的,所述后向短串是对所述每个短串后向增加至少一个词素组成的;
将词频大于预设词频的短串确定为所述第一时间段内的第一候选短串。
需要说明的是,本发明实施例所描述的移动终端中处理器1001所执行的步骤可根据上述图1或图2所示方法实施例中的方法具体实现,此处不再赘述。
本发明实施例中所述模块或单元,可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例终端中的模块或单元可以根据实际需要进行合并、划分和删减。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (22)
1.一种关键词提取方法,其特征在于,包括:
从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度;
按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串,基于短串完整度模型计算每个候选短串的完整度;
按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;
按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;
将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
2.根据权利要求1所述的方法,其特征在于,所述从待提取文档中提取多个候选词素,基于词素重要度模型计算每个候选词素的重要度之前,还包括:
去除待提取文档中的停用词;
所述从待提取文档中提取多个候选词素,包括:
根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素,所述词条词典中包含多个词素和多个短串。
3.根据权利要求1所述的方法,其特征在于,所述词素重要度模型中包含多个特征、所述特征对应的特征值和所述特征对应的权重;
所述基于词素重要度模型计算每个候选词素的重要度,包括:
获取每个候选词素对应的多个目标特征;
在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重;
根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。
4.根据权利要求3所述的方法,其特征在于,所述基于词素重要度模型计算每个候选词素的重要度之前,还包括:
基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素;
获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据,所述训练数据包括搜索词、共有词素和点击率,所述共有词素表示所述搜索词与根据所述搜索词搜索到的文档中共同存在的词素,所述点击率表示根据所述搜索词搜索到的且包含所述共有词素的文档的展示次数和所述文档被用户点击的次数的比值;
获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值,所述特征集包括固有属性、词素所属的类别和深度语义,所述固有属性包括专有名词类型、逆向文件频率IDF、词性、长度、语言类型、位置中的至少一个;
根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。
5.根据权利要求4所述的方法,其特征在于,当所述词素的特征为所述词素所属的类别时,所述获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值,包括:
从多个参考文档中提取词素,并确定所述多个参考文档中每个参考文档所属的类别;
确定属于目标类别且包含目标词素的参考文档的第一数量,以及确定包含所述目标词素的参考文档的第二数量,所述目标类别为所述多个参考文档所属的全部类别中的任一类别,所述目标词素为所提取的词素中的任一词素;
根据所述第一数量和所述第二数量,计算所述目标词素属于所述目标类别的概率;
将所述概率确定为所述目标词素属于所述目标类别的特征值。
6.根据权利要求4所述的方法,其特征在于,当所述词素的特征为所述深度语义时,所述获取每个训练词素对应的特征集中每个特征对应的特征值,包括:
获取每个训练词素的词向量;
对所述每个训练词素进行扩展,获得多个扩展词素,获取每个扩展词素的词向量;
对所述多个扩展词素进行聚类处理,生成至少一个簇,对每个簇设定一个特征值,其中,每个簇包含至少一个扩展词素;
计算所述每个训练词素与所述每个簇的欧氏距离,将所述欧式距离确定为所述每个训练词素的深度语义特征的特征值。
7.根据权利要求1所述的方法,其特征在于,所述按照预设规则对所述多个候选词素进行排列组合,包括:
获取词素组合的最大组合数,所述最大组合数为大于1的正整数;
将各个候选词素组合为小于或等于所述最大组合数的候选短串。
8.根据权利要求1所述的方法,其特征在于,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率;
所述基于短串完整度模型计算每个候选短串的完整度,包括:
从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;
根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。
9.根据权利2所述的方法,其特征在于,还包括:
对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串;
将所述新短串增加至词条字典中。
10.根据权利9所述的方法,其特征在于,所述对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串,包括:
获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频;
获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段;
判断所述多个第二候选短串中是否存在目标候选短串,所述目标候选短串为所述第一候选短串中的任一短串;
若存在,则计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,将词频增量超过第一预设值的目标候选短串确定为新短串;
若不存在,则将词频超过第二预设值的目标候选短串确定为新短串。
11.根据权利要求10所述的方法,其特征在于,所述获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频,包括:
根据当前的词条字典,对第一时间段内的文档进行切词,获取完整度大于预设完整度的多个短串,并计算各个短串的词频;
在所述文档中获取每个短串的前向短串和后向短串,并计算所述每个短串的词频、每个前向短串的词频、每个后向短串的词频,所述前向短串是对所述每个短串前向增加至少一个词素组成的,所述后向短串是对所述每个短串后向增加至少一个词素组成的;
将词频大于预设词频的短串确定为所述第一时间段内的第一候选短串。
12.一种关键词提取装置,其特征在于,包括:
词素提取模块,用于从待提取文档中提取多个候选词素;
第一计算模块,用于基于词素重要度模型计算每个候选词素的重要度;
短串生成模块,用于按照预设规则对所述多个候选词素进行排列组合,生成多个候选短串;
第二计算模块,用于基于短串完整度模型计算每个候选短串的完整度;
词素选择模块,用于按照重要度的排列顺序从所述多个候选词素中选择第一数量的候选词素;
短串选择模块,用于按照完整度的排列顺序从所述多个候选短串选择第二数量的候选短串;
关键词确定模块,用于将所述第一数量的候选词素和所述第二数量的候选短串确定为所述待提取文档的关键词。
13.根据权利要求12所述的装置,其特征在于,所述关键词提取装置还包括:
停用词去除模块,用于去除待提取文档中的停用词;
所述词素提取模块具体用于根据预存的词条字典,对去除所述停用词之后的待提取文档进行切词,并提取多个候选词素,所述词条词典中包含多个词素和多个短串。
14.根据权利要求12所述的装置,其特征在于,所述词素重要度模型中包含多个特征、所述特征对应的特征值和所述特征对应的权重;
所述第一计算模块具体用于:
获取每个候选词素对应的多个目标特征;
在所述词素重要度模型中查找每个目标特征对应的目标特征值和目标权重;
根据所述每个目标特征对应的目标特征值和目标权重,计算所述每个候选词素的重要度。
15.根据权利要求14所述的装置,其特征在于,所述关键词提取装置还包括:
训练词素提取模块,用于基于多个用户的文档搜索日志和文档点击日志,提取所述文档搜索日志和文档点击日志的训练词素;
训练数据获取模块,用于获取所述文档搜索日志和文档点击日志中用于词素重要度模型的训练数据,所述训练数据包括搜索词、共有词素和点击率,所述共有词素表示所述搜索词与根据所述搜索词搜索到的文档中共同存在的词素,所述点击率表示根据所述搜索词搜索到的且包含所述共有词素的文档的展示次数和所述文档被用户点击的次数的比值;
特征值获取模块,用于获取每个训练词素对应的特征集和所述特征集中每个特征对应的特征值,所述特征集包括固有属性、词素所属的类别和深度语义,所述固有属性包括专有名词类型、逆向文件频率IDF、词性、长度、语言类型、位置中的至少一个;
权重计算模块,用于根据所述训练数据中所述每个共有词素的点击率、每个训练词素对应的特征集和所述特征集中每个特征的特征值,训练获得所述每个特征对应的权重。
16.根据权利要求15所述的装置,其特征在于,当所述词素的特征为所述词素所属的类别时,所述特征值获取模块包括:
类别确定单元,用于从多个参考文档中提取词素,并确定所述多个参考文档中每个参考文档所属的类别;
数量确定单元,用于确定属于目标类别且包含目标词素的参考文档的第一数量,以及确定包含所述目标词素的参考文档的第二数量,所述目标类别为所述多个参考文档所属的全部类别中的任一类别,所述目标词素为所提取的词素中的任一词素;
概率计算单元,用于根据所述第一数量和所述第二数量,计算所述目标词素属于所述目标类别的概率;
第一特征值确定单元,用于将所述概率确定为所述目标词素属于所述目标类别的特征值。
17.根据权利要求15所述的装置,其特征在于,当所述词素的特征为所述深度语义时,所述特征值获取模块包括:
词向量获取单元,用于获取每个训练词素的词向量;
所述词向量获取单元,还用于对所述每个训练词素进行扩展,获得多个扩展词素,获取每个扩展词素的词向量;
聚类处理单元,用于对所述多个扩展词素进行聚类处理,生成至少一个簇,对每个簇设定一个特征值,其中,每个簇包含至少一个扩展词素;
第二特征值确定单元,用于计算所述每个训练词素与所述每个簇的欧氏距离,将所述欧式距离确定为所述每个训练词素的深度语义特征的特征值。
18.根据权利要求12所述的装置,其特征在于,所述短串生成模块具体用于:
获取词素组合的最大组合数,所述最大组合数为大于1的正整数;
将各个候选词素组合为小于或等于所述最大组合数的候选短串。
19.根据权利要求12所述的装置,其特征在于,所述短串完整度模型中包含多个短串、所述短串的转移概率和所述短串的相似性替换概率,所述转移概率表示所述短串转移为与所述短串不同的第一短串的概率,所述相似性替换概率表示所述短串替换为与所述短串具有共同词素的第二短串的概率;
所述第二计算单元具体用于:
从所述短串完整度模型中获取每个候选短串的目标转移概率和目标相似性替换概率;
根据所述每个候选短串的目标转移概率和目标相似性替换概率,计算所述每个候选短串的完整度。
20.根据权利13所述的装置,其特征在于,还包括:
新短串查找模块,用于对第一时间段内的文档进行分析,查找所述第一时间段内的文档中存在的新短串;
新短串增加模块,用于将所述新短串增加至词条字典中。
21.根据权利20所述的装置,其特征在于,所述新短串查找模块包括:
第一短串获取单元,用于获取第一时间段内词频高于预设值的多个第一候选短串和每个第一候选短串对应的词频;
第二短串获取单元,用于获取第二时间段内词频高于所述预设值的多个第二候选短串和每个第二候选短串对应的词频,所述第二时间段早于所述第一时间段;
短串判断单元,用于判断所述多个第二候选短串中是否存在目标候选短串,所述目标候选短串为所述第一候选短串中的任一短串;
新短串确定单元,用于若所述短串判断单元判断所述多个第二候选短串中存在目标候选短串,则计算所述目标候选短串在所述第一时间段和所述第二时间段的词频增量,将词频增量超过第一预设值的目标候选短串确定为新短串;
所述新短串确定单元,还用于若所述短串判断单元判断所述多个第二候选短串中不存在目标候选短串,则将词频超过第二预设值的目标候选短串确定为新短串。
22.根据权利要求21所述的装置,其特征在于,所述第一短串获取单元包括:
词频计算子单元,用于根据当前的词条字典,对第一时间段内的文档进行切词,获取完整度大于预设完整度的多个短串,并计算各个短串的词频;
所述词频计算子单元,还用于在所述文档中获取每个短串的前向短串和后向短串,并计算所述每个短串的词频、每个前向短串的词频、每个后向短串的词频,所述前向短串是对所述每个短串前向增加至少一个词素组成的,所述后向短串是对所述每个短串后向增加至少一个词素组成的;
短串确定子单元,用于将词频大于预设词频的短串确定为所述第一时间段内的第一候选短串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610871071.8A CN107885717B (zh) | 2016-09-30 | 2016-09-30 | 一种关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610871071.8A CN107885717B (zh) | 2016-09-30 | 2016-09-30 | 一种关键词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885717A true CN107885717A (zh) | 2018-04-06 |
CN107885717B CN107885717B (zh) | 2020-12-29 |
Family
ID=61768856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610871071.8A Active CN107885717B (zh) | 2016-09-30 | 2016-09-30 | 一种关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885717B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109325182A (zh) * | 2018-10-12 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于会话的信息推送方法、装置、计算机设备及存储介质 |
CN109933714A (zh) * | 2019-03-18 | 2019-06-25 | 北京搜狗科技发展有限公司 | 一种词条权重的计算方法、搜索方法及相关装置 |
CN110991173A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN112527981A (zh) * | 2020-11-20 | 2021-03-19 | 清华大学 | 开放式信息抽取方法、装置、电子设备及存储介质 |
CN112559693A (zh) * | 2020-12-25 | 2021-03-26 | 鼎易创展咨询(北京)有限公司 | 文本词语的相似词搜索方法、装置、设备和介质 |
CN113076735A (zh) * | 2021-05-07 | 2021-07-06 | 中国工商银行股份有限公司 | 目标信息的获取方法、装置和服务器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
US20120072443A1 (en) * | 2010-09-21 | 2012-03-22 | Inventec Corporation | Data searching system and method for generating derivative keywords according to input keywords |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
-
2016
- 2016-09-30 CN CN201610871071.8A patent/CN107885717B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
US20120072443A1 (en) * | 2010-09-21 | 2012-03-22 | Inventec Corporation | Data searching system and method for generating derivative keywords according to input keywords |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN103778243A (zh) * | 2014-02-11 | 2014-05-07 | 北京信息科技大学 | 一种领域术语抽取方法 |
CN105389349A (zh) * | 2015-10-27 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及装置 |
Non-Patent Citations (1)
Title |
---|
顾益军 等: "融合LDA与TextRank的关键词抽取研究", 《现代图书情报技术》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109271624B (zh) * | 2018-08-23 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109325182A (zh) * | 2018-10-12 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于会话的信息推送方法、装置、计算机设备及存储介质 |
CN109325182B (zh) * | 2018-10-12 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于会话的信息推送方法、装置、计算机设备及存储介质 |
CN109933714A (zh) * | 2019-03-18 | 2019-06-25 | 北京搜狗科技发展有限公司 | 一种词条权重的计算方法、搜索方法及相关装置 |
CN110991173B (zh) * | 2019-11-29 | 2023-09-29 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN110991173A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN112527981A (zh) * | 2020-11-20 | 2021-03-19 | 清华大学 | 开放式信息抽取方法、装置、电子设备及存储介质 |
CN112527981B (zh) * | 2020-11-20 | 2022-11-11 | 清华大学 | 开放式信息抽取方法、装置、电子设备及存储介质 |
CN112559693A (zh) * | 2020-12-25 | 2021-03-26 | 鼎易创展咨询(北京)有限公司 | 文本词语的相似词搜索方法、装置、设备和介质 |
CN113076735A (zh) * | 2021-05-07 | 2021-07-06 | 中国工商银行股份有限公司 | 目标信息的获取方法、装置和服务器 |
CN113076735B (zh) * | 2021-05-07 | 2024-08-06 | 中国工商银行股份有限公司 | 目标信息的获取方法、装置和服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN107885717B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107885717A (zh) | 一种关键词提取方法及装置 | |
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
Kang et al. | based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach | |
CN109740152B (zh) | 文本类目的确定方法、装置、存储介质和计算机设备 | |
CN103729359B (zh) | 一种推荐搜索词的方法及系统 | |
Chen et al. | Mining user requirements to facilitate mobile app quality upgrades with big data | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN102200975B (zh) | 一种利用语义分析的垂直搜索引擎系统 | |
CN104239373B (zh) | 为文档添加标签的方法及装置 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
Gaikwad et al. | Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms | |
CN102081602A (zh) | 确定未登录词的类别的方法和设备 | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
Wang et al. | Incorporating multimodal information in open-domain web keyphrase extraction | |
Qiu et al. | Incorporate the syntactic knowledge in opinion mining in user-generated content | |
CN102929962B (zh) | 一种搜索引擎的评测方法 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
Tschuggnall et al. | Reduce & attribute: Two-step authorship attribution for large-scale problems | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |