CN108241611B - 一种关键词提取方法以及提取设备 - Google Patents
一种关键词提取方法以及提取设备 Download PDFInfo
- Publication number
- CN108241611B CN108241611B CN201611222992.8A CN201611222992A CN108241611B CN 108241611 B CN108241611 B CN 108241611B CN 201611222992 A CN201611222992 A CN 201611222992A CN 108241611 B CN108241611 B CN 108241611B
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- keywords
- data
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种关键词提取方法以及提取设备,用于更加准确的反映了真实的热门信息。本发明实施例方法包括:获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,根据所述各第一文本的关键词得到第一数据;根据各第二文本的关键词得到第二数据,根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;基于第一关键词集合,根据权重系数确定目标关键词。本发明实施例还提供了一种提取设备。本发明实施例能够更加准确的反映了真实的热门信息。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种关键词提取方法以及提取设备。
背景技术
网页关键词的提取是海量数据背景下的互联网应用中的一个热点问题。对于不同领域的网站文本内容,由于其数据量的巨大,不可能人为地一一去阅读。因此需要能够对这些专业领域的文本内容进行归纳和总结,提取出关键信息,方便阅读者快速的收集核心信息。
目前已存在许多网页关键词提取方法,这些关键词的着眼点大多为词语的出现频率、词语在全文所处的区域或词语本身的语义特征。目前常用的文本关键词提取算法有TF-IDF算法,TextRank算法等,可以针对每一篇文档提取出关键词。对于行业领域内的热门关键词提取,通常用户的需求是获取一个时间段内的文本数据来进行热门关键词的提取和分析。
为解决上述问题,现有技术中,通过下述步骤来获取某个行业领域内的热门关键词:
步骤1:利用爬虫爬取网络上行业的网页数据;
步骤2:对网页数据进行处理,得到文本信息和文本的发布时间信息;
步骤3:利用关键词提取算法,如Text Rank或TF-IDF算法等,对文本进行关键词提取;
步骤4:对每篇文本中提取的关键词进行聚合和词频统计,得到互不重复的关键词和对应词频;
步骤5:将该互不重复的关键词和对应词频,按照词频降序排序,得到一段时间内某个行业或业务领域的热门关键词。
然而,在特定领域中,现有技术无法根据行业信息过滤掉一些在行业内常见的关键词。例如,在汽车领域,显然每一篇文本提取出来的关键词都包括汽车,最终导致汽车这个关键词的词频很高,成为热词,但是在汽车行业或领域内看来,汽车这个关键词是显而易见的,意义不大,导致利用现有技术提取出的行业热门关键词不能准确反映真实的热门信息。
发明内容
本发明实施例提供了一种关键词提取方法以及提取设备,用于更加准确的反映了真实的热门信息。
本发明实施例一方面提供了一种关键词提取方法,具体包括:
提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,所述第一文本为发布时间在选定时间段内的文本,所述第二文本为发布时间在选定历史时间段内的文本,所述选定时间段晚于所述选定历史时间段;
所述提取设备根据所述各第一文本的关键词得到第一数据,所述第一数据包括第一关键词集合和各第一关键词对应的词频;
所述提取设备根据所述各第二文本的关键词得到第二数据,所述第二数据包括第二关键词集合和各第二关键词对应的词频,所述第二关键词集合包括所述第一关键词集合的子集或全集;
所述提取设备根据所述第一数据和所述第二数据计算所述第一关键词集合中各第一关键词的权重系数;
基于所述第一关键词集合,所述提取设备根据所述权重系数确定目标关键词。
本发明实施例另一方面提供了一种提取设备,具体包括:
第一获取单元,用于获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,所述第一文本为发布时间在选定时间段内的文本,所述第二文本为发布时间在选定历史时间段内的文本,所述选定时间段晚于所述选定历史时间段;
第二获取单元,根据所述各第一文本的关键词得到第一数据,所述第一数据包括第一关键词集合和各第一关键词对应的词频;;
第三获取单元,用于根据所述各第二文本的关键词得到第二数据,所述第二数据包括第二关键词集合和各第二关键词对应的词频,所述第二关键词集合包括所述第一关键词集合的子集或全集;
计算单元,用于根据所述第一数据和所述第二数据计算所述各第一关键词的权重系数;
确定单元,基于所述第一关键词集合,用于根据所述权重系数确定目标关键词。
从以上技术方案可以看出,本发明实施例具有以下优点:提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,各第一文本为发布时间在选定时间段内的文本,各第二文本为发布时间在选定历史时间段内的文本,选定时间段晚于选定历史时间段;提取设备根据各第一文本的关键词得到第一数据,第一数据包括第一关键词集合和各第一关键词对应的词频;提取设备根据各第二文本的关键词得到第二数据,第二数据包括第二关键词集合和各第二关键词对应的词频,第二关键词集合包括第一关键词集合的子集或全集;提取设备根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;基于第一关键词集合,提取设备根据权重系数确定目标关键词。本发明实施例中,提取设备将选定时间段内的第一文本的关键词和选定历史时间段内的第二文本的关键词进行比较,计算得到各第一关键词的权重系数,由于第一关键词在第一文本集合和第二文本集合的词频相差越大,第一关键词的权重系数也越大,因此根据权重系数可以突出目标关键词,更加准确的反映了真实的热门信息。
附图说明
图1为本发明实施例中关键词提取方法一个实施例示意图;
图2为本发明实施例中关键词提取方法另一实施例示意图;
图3为本发明实施例中提取设备一个实施例示意图;
图4为本发明实施例中提取设备另一实施例示意图;
图5为本发明实施例中提取设备另一实施例示意图。
具体实施方式
本发明实施例提供了一种关键词提取方法以及提取设备,用于更加准确的反映了真实的热门信息。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
基于关键词搜索的网络爬虫是获取关键词信息的基础。网络爬虫,又被称为网页蜘蛛,网络机器人等,在FOAF社区中间,更经常的成为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。现有技术中,通过网络爬虫爬取特定行业或领域的网页信息,提取出其中的文本及发布时间,对选定时间段内的文本通过使用关键词提取算法进行关键词提取,对提取出的关键词进行聚合和统计处理,得到每个不重复的关键词和关键词的词频。最后按照词频对关键词进行降序排序,得到关键词的热门程度。然而现有技术中,无法根据行业信息过滤掉一些在行业内常见的关键词,导致利用现有技术提取出的行业热门关键词不能准确反映真实的热门信息。
有鉴于此,本发明实施例中,提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,各第一文本为发布时间在选定时间段内的文本,各第二文本为发布时间在选定历史时间段内的文本,选定时间段晚于选定历史时间段;提取设备根据各第一文本的关键词得到第一数据,第一数据包括第一关键词集合和各第一关键词对应的词频;提取设备根据各第二文本的关键词得到第二数据,第二数据包括第二关键词集合和各第二关键词对应的词频,第二关键词集合包括第一关键词集合的子集或全集;提取设备根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;基于第一关键词集合,提取设备根据权重系数确定目标关键词。
为便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中关键词提取方法一个实施例包括:
101、提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词;
当需要提取选定时间段的热门关键词时,提取设备获取第一文本集合中的各第一文本的关键词和第二文本集合中各的第二文本的关键词,其中,第一文本集合中包括的各第一文本的发布时间在选定时间段内,第二文本集合中包括的各第二文本的发布时间在选定历史时间段内,且选定时间段晚于选定历史时间段。
102、提取设备根据各第一文本的关键词得到第一数据;
提取设备获取到第一文本集合中各第一文本的关键词后,显然,提取设备从不同的第一文本中可能会提取到重复的关键词,因此提取设备根据各第一文本的关键词得到第一数据,其中,第一数据中包括第一关键词集合以及各第一关键词对应的词频。
103、提取设备根据各第二文本的关键词得到第二数据;
提取设备获取到第二文本集合中各第二文本的关键词后,显然,提取设备从不同的第二文本中可能会提取到重复的关键词,因此提取设备根据各第二文本的关键词得到第二数据,其中,第二数据中包括第二关键词集合以及各第二关键词对应的词频。且第一关键词集合与第二关键词集合为不同时段的文本的关键词的集合,两者所包括的关键词有重合,即第二关键词集合包括第一关键词集合的全集或者子集。
需要说明的是,提取设备通过步骤102得到第一数据,通过步骤103得到第二数据,而这两个过程之间并不存在步骤的先后顺序,可以先执行步骤102,也可以先执行步骤103,或者同时执行,具体此处不做限定。
104、提取设备根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;
提取设备获得了第一数据和第二数据后,根据第一数据和第二数据计算第一数据中各第一关键词的权重系数,其中,权重系数与各第一关键词在第一文本集合和第二文本集合的词频的差异有关。
105、提取设备根据权重系数确定目标关键词。
提取设备计算得到各第一关键词的权重系数后,基于第一关键词集合,提取设备根据各第一关键词的权重系数确定目标关键词。
本发明实施例中,提取设备将选定时间段内的第一文本的关键词和选定历史时间段内的第二文本的关键词进行比较,计算得到各第一关键词的权重系数,由于第一关键词在第一文本集合和第二文本集合的词频相差越大,第一关键词的权重系数也越大,因此根据权重系数可以突出目标关键词,更加准确的反映了真实的热门信息。
为便于理解,下面对本发明实施例中的关键词提取方法进行详细描述,具体如图2所示,请参阅图2,本发明实施例中另一种关键词提取方法包括:
201、提取设备获取目标网页的数据;
提取设备利用网络爬虫爬取网络上的目标网页的数据,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载目标网页,网络爬虫从待抓取URL队列中取出待抓取URL,并将待抓取URL对应的目标网页的数据下载下来。
202、提取设备根据目标网页的数据提取第一信息;
提取设备获取到目标网页的数据后,由于目标网页的数据中有固定上下文,管理设备解析该固定上下文确认该目标网页中的第一信息,其中该第一信息包括目标网页中的文本和与文本对应的文本发布时间。
203、提取设备对各文本进行关键词提取;
提取设备提取了第一信息后,利用文本关键词提取算法对第一信息中包括的目标网页中的各文本进行关键词的提取,即提取设备得到目标网页的文本信息包括:各文本、各文本的发布时间以及各文本的关键词。
需要说明的是,实际应用中,文本关键词提取算法包括TF-IDF、TexrRank等,具体的文本关键词提取算法此处不做限定。
204、提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词;
当需要提取选定时间段的热门关键词时,提取设备从得到的目标网页文本信息中确定发布时间在选定时间段内的文本,并将该选定时间段内的文本集合得到了第一文本集合和第一文本集合中各第一文本的关键词;提取设备还从得到的目标网页文本信息中获取发布时间在选定历史时间段内的文本,该选定历史时间段早于选定时间段,提取设备将该选定历史时间段内的文本集合得到了第二文本集合和第二文本集合中各第二文本的关键词,可以理解的是,第一文本集合中包括的各第一文本的发布时间均早于第二文本集合中的各第二文本的发布时间。例如,选定的时间段为8月1日到8月31日,则提取设备获取得到发布时间在8月1日到8月31目的所有文本和各文本对应的文本关键词,如选取时间段为上一个月,则提取设备确定选定历史时间段为7月1日到7月31日,再获取得到发布时间在7月1日到7月31目的所有文本和各文本对应的关键词。
205、提取设备将各第一文本的关键词进行去重处理得到第一关键词集合;
提取设备获取第一文本集合中各第一文本的关键词后,显然,提取设备从不同的第一文本中可能会提取到重复的关键词,因此提取设备根据各第一文本的关键词得到第一数据,其中,第一数据中包括由互不相同的各第一关键词组成的第一关键词集合以及各第一关键词在第一文本集合中出现的词频。例如,第一文本集合中包括A文本,B文本和C文本,其中,A文本的关键词为{小汽车,美观,省油},B文本的关键词为{吉普,大空间,省油},C文本的关键词为{小汽车,环保,小空间},由于A文本和B文本有重复的关键词{省油},A文本和C文本有重复的关键词{小汽车},则提取设备将该3个文本的关键词进行去重处理,得到了互不相同的各第一关键词集合{小汽车,美观,省油,吉普,大空间,环保,小空间}。
可以理解的是,不同文本的关键词会出现不相同但含义相近的情况,如{节能}和{省油},提取设备利用正则表达式匹配的方法找出其中含义相近的词,并从中随机选取一个或者将出现次数最多的关键词作为第一关键词,以避免出现关键词重复的情况。
需要说明的是,在实际应用中,去重处理的方式有多种,例如,提取设备串行处理各第一文本,并将第一个处理的文本的关键词赋予数值,若第二个处理的文本的关键词等于该数值,则提取设备认为是同一关键词。或者提取设备并行处理各第一文本,获得所有各第一文本的关键词后进行归纳整理得到互不相同的第一关键词。故提取设备去重处理的方式具体此处不做限定。
206、提取设备统计各第一关键词在第一文本集合中出现的次数得到各第一关键词对应的词频;
提取设备在得到第一关键词集合的过程中,在去重处理时提取设备统计各第一关键词在第一文本集合中出现的次数。例如第一文本集合中包括A文本,B文本和C文本,其中,A文本的关键词为{小汽车,美观,省油},B文本的关键词为{吉普,大空间,省油},C文本的关键词为{小汽车,环保,小空间},提取设备第一个处理的文本为A文本,记录关键词{小汽车}次数1,关键词{美观}次数1,关键词{省油}次数1,第二个处理的文本为B文本,记录关键词{吉普}次数1,关键词{大空间}次数1,关键词{省油}在A文本中重复出现,次数进行加1处理,依此类推,得到第一关键词集合{小汽车,美观,省油,吉普,大空间,环保,小空间}及其对应的词频{2,1,2,1,1,1,1}。
需要说明的是,在实际应用中,提取设备获得第一关键词对应的词频的方式有多种,例如获得所有各第一文本的关键词后再进行归纳,如上述例子中的第一文本集合中所有各第一文本的关键词集合为{小汽车,美观,省油,吉普,大空间,省油,小汽车,环保,小空间},提取设备将相同或相似的关键词进行统一,并记录每个关键词出现的次数,得到各关键词对应的词频。因此,提取设备获得第一关键词对应的词频的方式具体此处不做限定。
207、提取设备将各第二文本的关键词进行去重处理得到第二关键词集合;
提取设备获取第二文本集合中各第二文本的关键词后,显然,提取设备从不同的第二文本中可能会提取到重复的关键词,因此提取设备根据各第二文本的关键词得到第二数据,其中,第二数据中包括由互不相同的各第二关键词组成的第二关键词集合以及各第二关键词在第二文本集合中出现的词频。
208、提取设备统计各第二关键词在第二文本集合中出现的次数得到各第二关键词对应的词频;
提取设备在得到第二关键词集合的过程中,在去重处理时提取设备统计各第二关键词在第二文本集合中出现的次数。例如第二文本集合中包括A文本,B文本和C文本,其中,A文本的关键词为{小汽车,美观,省油},B文本的关键词为{吉普,大空间,省油},C文本的关键词为{小汽车,环保,小空间},提取设备第一个处理的文本为A文本,记录关键词{小汽车}次数1,关键词{美观}次数1,关键词{省油}次数1,第二个处理的文本为B文本,记录关键词{吉普}次数1,关键词{大空间}次数1,关键词{省油}在A文本中重复出现,次数进行加1处理,依此类推,得到第二关键词集合{小汽车,美观,省油,吉普,大空间,环保,小空间}及其对应的词频{2,1,2,1,1,1,1}。
需要说明的是,在实际应用中,提取设备获得第二关键词对应的词频的方式有多种,例如获得所有各第二文本的关键词后再进行归纳,如上述例子中的第二文本集合中所有各第二文本的关键词集合为{小汽车,美观,省油,吉普,大空间,省油,小汽车,环保,小空间},提取设备将相同或相似的关键词进行统一,并记录每个关键词出现的次数,得到各关键词对应的词频。因此,提取设备获得第二关键词对应的词频的方式具体此处不做限定。
需要说明的是,提取设备通过步骤205和步骤206得到第一数据,通过步骤207和步骤208得到第二数据,而这两个过程之间并不存在步骤的先后顺序,可以先执行步骤205和步骤206,也可以先执行步骤207和步骤208,或者同时执行,具体此处不做限定。
209、提取设备根据第一数据和第二数据计算各第一关键词的权重系数;
提取设备获得了第一数据和第二数据后,根据如下方式计算各第一关键词的权重系数:
SAX=FAX/FA-MAX*100;
SBX=FBX/FB-MAX*100;
其中,SAX为第一关键词集合中的关键词X在第一数据中的词频相对值,FAX为关键词X在第一数据中的词频,FA-MAX为第一数据中的最大词频,SBX为关键词X在第二数据中的词频相对值,FBX为关键词X在第二数据中的词频,FB-MAX为第二数据中的最大词频,SAX和SBX的规范化区间为[0,100];
当SAX+(1/SAX)≥SBX时,ZX=(SAX-SBX)*(1+(SAX-SBX)/SAX);
当SAX+(1/SAX)<SBX时,ZX=SAX-SBX;
ZX为关键词X的权重系数,其中,权重系数与各第一关键词在第一文本集合和第二文本集合的词频的差异相关。
需要说明的是,在实际应用中,计算关键词的权重系数的方式有多种,如SAX和SBX的规范化区间可以为[0,50]或[0,200],具体此处不做限定。
210、提取设备按照权重系数从大到小的顺序从第一关键词中选取预置数目个关键词作为目标关键词。
提取设备计算得到各第一关键词的权重系数后,按照权重系数从大到小的顺序从第一关键词集合中选取预置数目个关键词作为目标关键词。例如,第一数据包括{汽车,7座,家用,省油}以及对应的词频{13,6,9,12},第二数据包括{汽车,小型,省油,美观}以及对应的词频{8,9,11,4},则通过以上公式可以计算得到第一数据中的第一关键词集合{汽车,7座,家用,省油}对应的权重系数{3/8,12/13,18/13,-1/13}。若需从中选取2个目标关键词,则选取权重系数{18/13,12/13}对应的关键词{家用,7座}。
需要说明的是,在实际应用中,选取目标关键词的方式有多种,例如,提取设备判断得到的各第一关键词的权重系数是否大于预置系数,若大于,则提取设备确定该第一关键词为目标关键词。因此,具体选取目标关键词的方式此处不做限定。
本发明实施例中,提取设备将选定时间段内的第一文本的关键词和选定历史时间段内的第二文本的关键词进行比较,计算得到各第一关键词的权重系数,由于第一关键词在第一文本集合和第二文本集合的词频相差越大,第一关键词的权重系数也越大,因此根据权重系数可以突出目标关键词,更加准确的反映了真实的热门信息。
上面对本发明实施例中的关键词提取方法进行了描述,下面对本发明实施例中的提取设备进行描述,请参阅图3,本发明实施例中的提取设备包括:
第一获取单元301,用于获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,各第一文本为发布时间在选定时间段内的文本,各第二文本为发布时间在选定历史时间段内的文本,选定时间段晚于选定历史时间段;
第二获取单元302,用于根据各第一文本的关键词得到第一数据,第一数据包括第一关键词集合和各第一关键词对应的词频;
第三获取单元303,用于根据各第二文本的关键词得到第二数据,第二数据包括第二关键词集合和各第二关键词对应的词频,第二关键词集合包括第一关键词集合的子集或全集;
计算单元304,用于根据第一数据和第二数据计算各第一关键词的权重系数;
确定单元305,基于所述第一关键词集合,用于根据所述权重系数确定目标关键词。
为便于理解,下面对本发明实施例中的提取设备进行详细描述,上述图3所示的基础上,请参阅4,为本发明实施例中提取设备的另一个实施例示意图,第二获取单元402可以包括:
第一处理模块4021,用于执行上述图2中的步骤205,此处不再赘述;
第一统计模块4022,用于执行上述图2中的步骤206,此处不再赘述。
其中,第三获取单元403还可以包括:
第二处理模块,用于执行上述图2中的步骤207,此处不再赘述;
第二统计模块,用于执行上述图2中的步骤208,此处不再赘述。
其中,计算单元404还可以包括:
计算模块4041,用于执行上述图2中的步骤209,此处不再赘述。
其中,确定单元405还可以包括:
判断模块4051,用于判断第一关键词的权重系数是否大于预置系数;
确认模块4052,若大于,则用于确认第一关键词为目标关键词;或,
选取模块4053,用于执行上述图2中的步骤210,此处不再赘述。
本发明实施例中,提取设备还包括:
第四获取单元406,用于执行上述图2中的步骤201,此处不再赘述;
第一提取单元407,用于执行上述图2中的步骤202,此处不再赘述;
第二提取单元408,用于执行上述图2中的步骤203,此处不再赘述。
上述图3至图4从模块化功能实体的角度对本发明实施例中的提取设备进行详细描述,下面从硬件处理的角度对本发明实施例中的提取设备进行详细描述,请参阅图5。
输入装置501、输出装置502、处理器503和存储器504(其中第一交换机500中的处理器503的数量可以一个或多个,图5中以一个处理器503为例)。在本发明的一些实施例中,输入装置501、输出装置502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
通过调用存储器504存储的操作指令,处理器503,用于执行如下步骤:
获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,各第一文本为发布时间在选定时间段内的文本,各第二文本为发布时间在选定历史时间段内的文本,选定时间段晚于选定历史时间段;
根据所述各第一文本的关键词得到第一数据,第一数据包括第一关键词集合和各第一关键词对应的词频;
根据各第二文本的关键词得到第二数据,第二数据包括第二关键词集合和各第二关键词对应的词频,第二关键词集合包括第一关键词集合的子集或全集;
根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;
基于第一关键词集合,根据权重系数确定目标关键词。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种关键词提取方法,其特征在于,包括:
提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,所述各第一文本为发布时间在选定时间段内的文本,所述各第二文本为发布时间在选定历史时间段内的文本,所述选定时间段晚于所述选定历史时间段;
所述提取设备根据所述各第一文本的关键词得到第一数据,所述第一数据包括第一关键词集合和各第一关键词对应的词频;
所述提取设备根据所述各第二文本的关键词得到第二数据,所述第二数据包括第二关键词集合和各第二关键词对应的词频,所述第二关键词集合包括所述第一关键词集合的子集或全集;
所述提取设备根据所述第一数据和所述第二数据计算所述第一关键词集合中各第一关键词的权重系数,所述权重系数与所述各第一关键词在所述第一文本集合和所述第二文本集合的词频的差异有关,所述第一关键词在所述第一文本集合和所述第二文本集合的词频相差越大,所述第一关键词的权重系数也越大;
基于所述第一关键词集合,所述提取设备根据所述权重系数确定目标关键词;
所述提取设备根据所述第一数据和所述第二数据计算所述第一关键词集合中各第一关键词的权重系数包括:
按照如下方式计算所述各第一关键词的权重系数:
SAX=FAX/FA-MAX*100;
SBX=FBX/FB-MAX*100;
所述SAX为所述第一关键词集合中的关键词X在所述第一数据中的词频相对值,所述FAX为所述关键词X在所述第一数据中的词频,所述FA-MAX为所述第一数据中的最大词频,所述SBX为所述关键词X在所述第二数据中的词频相对值,所述FBX为所述关键词X在所述第二数据中的词频,所述FB-MAX为所述第二数据中的最大词频;
当SAX+(1/SAX)≥SBX时,ZX=(SAX-SBX)*(1+(SAX-SBX)/SAX);
当SAX+(1/SAX)<SBX时,ZX=SAX-SBX;
所述ZX为所述关键词X的权重系数。
2.根据权利要求1所述的关键词提取方法,其特征在于,所述提取设备根据所述各第一文本的关键词得到第一数据包括:
所述提取设备将所述各第一文本的关键词进行去重处理得到所述第一关键词集合;
所述提取设备统计所述各第一关键词在所述第一文本集合中出现的次数得到所述各第一关键词对应的词频。
3.根据权利要求1所述的关键词提取方法,其特征在于,所述提取设备根据所述各第二文本的关键词得到第二数据包括:
所述提取设备将所述各第二文本的关键词进行去重处理得到所述第二关键词集合;
所述提取设备统计所述各第二关键词在所述第二文本集合中出现的次数得到所述各第二关键词对应的词频。
4.根据权利要求1至3中任一项所述的关键词提取方法,其特征在于,所述提取设备根据所述权重系数确定目标关键词包括:
当所述第一关键词集合中存在权重系数大于预置系数的关键词时,所述提取设备确认所述权重系数大于预置系数的关键词为所述目标关键词;或,
所述提取设备按照权重系数从大到小的顺序从所述第一关键词集合中选取预置数目个关键词作为所述目标关键词。
5.根据权利要求4所述的关键词提取方法,其特征在于,所述提取设备获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词之前,所述方法还包括:
所述提取设备获取目标网页的数据;
所述提取设备根据所述目标网页的数据提取文本信息,所述文本信息包括所述目标网页中的文本集合和所述文本集合中各文本的发布时间,所述文本集合包括所述第一文本集合和所述第二文本集合;
所述提取设备对所述文本集合中各文本进行关键词提取。
6.一种关键词提取设备,其特征在于,包括:
第一获取单元,用于获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,所述各第一文本为发布时间在选定时间段内的文本,所述各第二文本为发布时间在选定历史时间段内的文本,所述选定时间段晚于所述选定历史时间段;
第二获取单元,用于根据所述各第一文本的关键词得到第一数据,所述第一数据包括第一关键词集合和各第一关键词对应的词频;
第三获取单元,用于根据所述各第二文本的关键词得到第二数据,所述第二数据包括第二关键词集合和各第二关键词对应的词频,所述第二关键词集合包括所述第一关键词集合的子集或全集;
计算单元,用于根据所述第一数据和所述第二数据计算所述各第一关键词的权重系数,所述权重系数与所述各第一关键词在所述第一文本集合和所述第二文本集合的词频的差异有关,所述第一关键词在所述第一文本集合和所述第二文本集合的词频相差越大,所述第一关键词的权重系数也越大;
确定单元,基于所述第一关键词集合,用于根据所述权重系数确定目标关键词;
所述计算单元包括:
计算模块,用于按照如下方式计算所述各第一关键词的权重系数:
SAX=FAX/FA-MAX*100;
SBX=FBX/FB-MAX*100;
所述SAX为所述第一关键词集合中的关键词X在所述第一数据中的词频相对值,所述FAX为所述关键词X在所述第一数据中的词频,所述FA-MAX为所述第一数据中的最大词频,所述SBX为所述关键词X在所述第二数据中的词频相对值,所述FBX为所述关键词X在所述第二数据中的词频,所述FB-MAX为所述第二数据中的最大词频;
当SAX+(1/SAX)≥SBX时,ZX=(SAX-SBX)*(1+(SAX-SBX)/SAX);
当SAX+(1/SAX)<SBX时,ZX=SAX-SBX;
所述ZX为所述关键词X的权重系数。
7.根据权利要求6所述的关键词提取设备,其特征在于,所述第二获取单元包括:
第一处理模块,用于将所述各第一文本的关键词进行去重处理得到所述第一关键词集合;
第一统计模块,用于统计所述各第一关键词在所述第一文本集合中出现的次数得到所述各第一关键词对应的词频。
8.根据权利要求7所述的关键词提取设备,其特征在于,所述第三获取单元包括:
第二处理模块,用于将所述各第二文本的关键词进行去重处理得到所述第二关键词集合;
第二统计模块,用于统计所述各第二关键词在所述第二文本集合中出现的次数得到所述各第二关键词对应的词频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611222992.8A CN108241611B (zh) | 2016-12-26 | 2016-12-26 | 一种关键词提取方法以及提取设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611222992.8A CN108241611B (zh) | 2016-12-26 | 2016-12-26 | 一种关键词提取方法以及提取设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241611A CN108241611A (zh) | 2018-07-03 |
CN108241611B true CN108241611B (zh) | 2021-08-17 |
Family
ID=62702456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611222992.8A Active CN108241611B (zh) | 2016-12-26 | 2016-12-26 | 一种关键词提取方法以及提取设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241611B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241387A (zh) * | 2018-08-28 | 2019-01-18 | 四川长虹电器股份有限公司 | 抓取社交媒体信息的爬虫分析方法 |
CN109783175B (zh) * | 2019-01-16 | 2023-03-31 | 平安普惠企业管理有限公司 | 应用程序图标管理方法、装置、可读存储介质及终端设备 |
CN109815499B (zh) * | 2019-01-25 | 2023-05-23 | 杭州凡闻科技有限公司 | 信息关联方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101296128A (zh) * | 2007-04-24 | 2008-10-29 | 北京大学 | 一种对互联网信息进行异常状态监测的方法 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
CN103885989A (zh) * | 2012-12-24 | 2014-06-25 | 腾讯科技(武汉)有限公司 | 预估新词文档频率的方法及装置 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
-
2016
- 2016-12-26 CN CN201611222992.8A patent/CN108241611B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101296128A (zh) * | 2007-04-24 | 2008-10-29 | 北京大学 | 一种对互联网信息进行异常状态监测的方法 |
CN103885989A (zh) * | 2012-12-24 | 2014-06-25 | 腾讯科技(武汉)有限公司 | 预估新词文档频率的方法及装置 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
Non-Patent Citations (2)
Title |
---|
Keywords frequency trend analysis of online novels;EISUKE ITO et al.;《2013 Second IIAI International Conference on Advanced Applied Informatics》;20130831;第68-73页 * |
基于关键词突变的主题突变研究;王莉亚;《情报理论与实践》;20131130;第36卷(第11期);第45-48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108241611A (zh) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN106874292B (zh) | 话题处理方法及装置 | |
US10216848B2 (en) | Method and system for recommending cloud websites based on terminal access statistics | |
CN110020122B (zh) | 一种视频推荐方法、系统及计算机可读存储介质 | |
CN107862022B (zh) | 文化资源推荐系统 | |
US20230116895A1 (en) | Data-driven method and apparatus for handling user inquiries using collected data | |
CN107368856B (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN104951512A (zh) | 一种基于互联网的舆情数据采集方法及系统 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
WO2009014361A2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN108241611B (zh) | 一种关键词提取方法以及提取设备 | |
CN102855282B (zh) | 一种文档推荐方法及装置 | |
Arru et al. | Signal-based user recommendation on twitter | |
CN103608826A (zh) | 利用网络信息挖掘的视频内产品注释 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
WO2014173349A1 (zh) | 网页分类标准获取方法、装置及网页分类方法、装置 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
CN109359188A (zh) | 一种组件编排方法和系统 | |
CN104573021A (zh) | 一种针对互联网行为进行分析的方法 | |
CN108932291A (zh) | 电网舆情评价方法、存储介质及计算机 | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN106327230A (zh) | 一种异常用户检测方法及设备 | |
CN112100221A (zh) | 一种资讯推荐方法、装置、推荐服务器及存储介质 | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 | |
CN102236652B (zh) | 一种信息的分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |