CN110851578A - 关键词提取方法、装置和电子设备 - Google Patents
关键词提取方法、装置和电子设备 Download PDFInfo
- Publication number
- CN110851578A CN110851578A CN201911049697.0A CN201911049697A CN110851578A CN 110851578 A CN110851578 A CN 110851578A CN 201911049697 A CN201911049697 A CN 201911049697A CN 110851578 A CN110851578 A CN 110851578A
- Authority
- CN
- China
- Prior art keywords
- word set
- document
- processed
- words
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 238000001914 filtration Methods 0.000 claims abstract description 72
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键词提取方法、装置和电子设备,基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集,备选词集中包含有待处理文档中的备选关键词。利用备选词集,过滤待处理文档,以压缩待处理文档,生成过滤词集,使过滤词集中包含有上述备选关键词。最后,根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。本发明的方案可以提升提取到的关键词的准确性。
Description
技术领域
本发明涉及文本处理领域,具体而言,涉及一种关键词提取方法、装置和电子设备。
背景技术
随着信息技术的发展,数字化的信息正以惊人的速度增长。用户不可能浏览所有可能包含有相关信息的文档,而抽取文档中的关键词给用户提供参考,对用户精准的获取信息、降低用户获取信息的成本有着重大的意义。
文档的关键词通常是某些与文档主题高度相关的词语。传统依靠人工去阅读文本,然后提取文档终端关键词的方法,在文档数量剧增的情形下,已越来越不能满足实际应用的需求。因此,如何自动提取关键词是当前急需解决的一个问题。
发明内容
为了解决上述问题,本发明实施例提供了一种关键词提取方法、装置和电子设备。
第一方面,本发明实施例提供了一种关键词提取方法,包括以下步骤:
基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集;
基于所述备选词集,过滤所述待处理文档,生成过滤词集;
根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
在一种可能的设计中,所述基于词在待处理文档中出现的频率,提取待处理文档中的关键词,生成备选词集包括:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成第一词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到;
合并所述第一词集和第二词集中的词,生成所述备选词集,其中,所述第二词集基于频繁模式树fp-growth算法,对所述历史语料的高频词组进行统计得到。
在一种可能的设计中,所述基于词在待处理文档中出现的频率,提取待处理文档中的关键词,生成备选词集包括:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成所述备选词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到。
在一种可能的设计中,所述基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集之前,所述方法还包括:
对所述待处理文档进行分词处理;
从分词后的待处理文档中过滤掉停止词。
在一种可能的设计中,所述根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词,包括:
若所述过滤词集中的词语数小于词数阈值,根据所述过滤词集中词的相邻关系,利用tf-idf算法,提取所述过滤词集中的关键词。
在一种可能的设计中,所述根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词,包括:
若所述过滤词集中的词语数大于或等于词数阈值,根据所述过滤词集中词的相邻关系,利用texttrank算法,提取所述过滤词集中的关键词。
在一种可能的设计中,所述基于所述备选词集,过滤所述待处理文档,生成过滤词集包括:
获取所述待处理文档中的分词;
若所述分词位于所述备选词集中,将所述分词添加到所述过滤词集中。
第二方面,本发明实施例提供了一种关键词提取装置,包括:
第一生成单元,用于基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集;
第二生成单元,用于基于所述备选词集,过滤所述待处理文档,生成过滤词集;
提取单元,根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项方法的步骤。
第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。
本发明提供的关键词提取方法、装置和电子设备,基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集,备选词集中包含有待处理文档中的候选关键词。利用备选词集,过滤待处理文档,以压缩待处理文档,生成过滤词集,使过滤词集中包含有上述候选关键词。最后,根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。相比人工直接在待处理文档中进行关键词提取的方案,本发明的方案可由系统基于压缩后待处理文档,进行关键词提取。一方面,可提高提取关键词的效率。另一方面,压缩后的文档包括了候选的关键词,排除了一些无关词对提取算法的影响,提高了提取到的关键词的准确性。
附图说明
图1是本发明实施例提供的一种关键词提取方法的流程示意图;
图2是本发明实施例提供的另一种关键词提取方法的流程示意图;
图3是本发明实施例提供的又一种关键词提取方法的流程示意图;
图4为本发明实施例提供的一种语料统计方法的流程示意图;
图5是本发明实施例提供的再一种关键词提取方法的流程示意图;
图6是本发明实施例提供的一种关键词提取装置的结构示意图;
图7为本发明实施例所涉及的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行进一步的介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
发明人在工作研究中发现,当前常用的关键词提取技术都有各自的优缺点。
tf-idf算法倾向给文档中出现次数多,语料库中出现少的词高权重,将这类词作为关键词。因此,有些在语料中出现次数比较多的词通常被漏掉,而这些词很可能是比较重要的词。
textrank算法借鉴谷歌的PageRank(网页排名)算法思想。PageRank算法认为:如果一个网页被很多网页链接的话,这个网页就很重要,如果链接该网页的网页很重要,那被链接的网页也很重要。textrank算法基于图,出现在同一滑动窗格里的词均具有图相邻关系,所以textrank算法所指向的图是无向图,这是与PageRank算法不同的地方。因此,对于比较长的句子,真正的关键词很难同时出现在滑动窗格中,关键词之间无法形成连接,texrank算法对可能无法准确地提取文档中的关键词。
参见图1,图1是本发明实施例提供的一种关键词提取方法的流程示意图,在本发明实施例中,所述方法包括:
S101、基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集。
待处理文档为要进行关键词提取的文档。可通过提取关键词的算法,从待处理文档中的候选关键词,并将这些候选关键词作为待处理文档中的备选关键词。提取关键词的算法包括但不限于:tf-idf算法、text-rank算法、LDA算法等。备选词集中包含通过提取关键词的算法,有从待处理文档中的提取到的候选关键词。
需要说明的是,备选词集中可包含较多的备选关键词。例如,最终需要从待处理文档中提取8个关键词,备选词集中可包含12个或20个备选关键词。由于备选词集中包含有待处理文档中的备选关键词,并要利用备选词集,过滤待处理文档,以压缩待处理文档,生成过滤词集,使过滤词集中包含有上述备选关键词。因此,备选词集中包含较多数目的备选关键词,可使最终的提取结果较准确。
S102、基于所述备选词集,过滤所述待处理文档,生成过滤词集。
具体地,可通过分词算法或者分词工具,对待处理文档进行分词处理,以获取待处理文档中的分词。分词算法包括:基于字符匹配的分词算法、基于理解的分词算法或基于统计的分词算法等。分词工具包括:盘古分词、jieba分词、Yaha分词等。本领域技术人员可根据具体的需求设置分词的方法,在此不再赘述。
通过分词处理后的待处理文档中包含有多个分词。若上述分词位于备选词集中,将所述分词添加到过滤词集中。若上述分词没有位于备选词集中,则该分词不会被添加到过滤词集中。通过上述操作,可使过滤词集中仅包含了备选词集中的词,而备选词集中包含了S101步骤中提取到的备选关键词。如此,压缩了备选词集中的分词个数,使过滤词集中包含有待处理文档的备选关键词。
举例来说,待处理文档中的内容为“小朋友做游戏,小朋友玩捉迷藏的游戏。分词后的待处理文档的内容为“小朋友”、“做”、“游戏”、“小朋友”、“玩”、“捉迷藏”、“游戏”。若备选词集中的内容为“小朋友”、“游戏”、“捉迷藏”,则过滤词集中的内容为:“小朋友”、“游戏”、“小朋友”、“捉迷藏”、“游戏”。
S103、根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
可设置一词距,过滤词集中在该词距以内的任意两个词,都可认为具有相邻关系。上述词距可根据实际需求进行设定,如,5,8等。
本发明实施例提供的关键词提取方法,基于压缩后待处理文档,进行关键词提取。由于压缩后的文档包含的候选词较少,且排查了一些无关词对提取算法的影响。因此,可解决现有技术中关键词算法效率不高且提取结果不够准确的问题。
在一种可能的设计中,上述步骤S103包括:
若所述过滤词集中的词语数小于词数阈值,利用tf-idf算法,提取所述过滤词集中的关键词。
词数阈值可根据具体需求进行设置,如:5个、10个等。在过滤词集中的词语数小于词数阈值的情况下,相比利用texttrank算法进行关键词提取的方案,利用tf-idf算法提取关键词,可提高关键词提取算法的执行效率。
在一种可能的设计中,上述步骤S103包括:
利用texttrank算法,提取所述过滤词集中的关键词。
由上述分析,可知对于比较长的句子,真正的关键词很难同时出现在滑动窗格中,关键词之间无法形成连接,textrank算法对可能无法准确地提取文档中的关键词。
本发明实施例提供的方法为利用texttrank算法,从所述过滤词集中提取所述待处理文档中的关键词。过滤词集中包含待处理文档的备选关键词。过滤词集中的分词个数相比原有的待处理文档中的分词个数有所减少,增加了过滤词集中关键词同时出现在滑动窗格中的可能性,从而使texttrank算法可较准确地提取出待处理文档中的关键词。
参见图2,图2是本发明实施例提供的另一种关键词提取方法的流程示意图,在本发明实施例中,所述方法包括:
S201、基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成第一词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到。
上述第一词集可包括待处理文档中的部分备选关键词。第一词集可通过tf-idf算法提取待处理文档中的关键词得到。idf数据代表了分词在语料中出现的频率。现有技术中已有对tf-idf算法较完善的实现方式,可通过tf-idf算法提取待处理文档中的关键词,这些关键词作为备选关键词的一部分。
S202、合并所述第一词集和第二词集中的词,生成所述备选词集,其中,所述第二词集基于频繁模式树fp-growth算法,对所述历史语料的高频词组进行统计得到。
上述第二词集可包括待处理文档中的另一部分备选关键词。可通过fp-growth算法提取出训练的语料中的高频词组得到。高频词组为历史语料中出现次数超过次数阈值的词组。次数阈值可根据具体的需求和语料大小进行设定。
举例来说,第一词集包括:“小朋友”、“游戏”、“唱歌”。第二词集包括:“小朋友”、“捉迷藏”、“英语接龙”。合并两者生成、以生成备选词集。备选词集包括:“小朋友”、“游戏”、“唱歌”、“捉迷藏”、“英语接龙”。备选词集中包括了待处理文档中的备选关键词。
S203、基于所述备选词集,过滤所述待处理文档,生成过滤词集。
其中,S205的具体过程可参照图1中S102的描述,此处不再赘述。
S204、根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
本发明实施例提供的关键词提取方法,利用tf-idf提取关键词和fp-growth高频词生成备选词集,并利用备选词集对预测文档进行过滤。tf-idf算法容易漏掉一些在语料中出现次数比较多的词。本发明实施例提供的方法通过tf-idf提取关键词和fp-growth高频词生成备选词集,弥补了tf-idf算法容易漏掉某些重要的词的缺点。因此,本发明实施提供的关键词提取方法可较准确地提取出待处理文档中的关键词。
参见图3,图3是本发明实施例提供的又一种关键词提取方法的流程示意图,在本发明实施例中,所述方法包括:
S301、对所述待处理文档进行分词处理。
可通过盘古分词、jieba分词等分词工具对待处理文档进行分词处理,分词处理后的待处理文档由多个词构成。
S302、从分词后的待处理文档中过滤掉停止词。
停止词为使用频率较高且没有特殊含义的词,通常为介词、副词和连词等,如:“在”、“也”、“的”、“为”等。将待处理完档中包括的停止词从待处理完档中删除,以减小后续处理待处理完档的工作量,提供提取算法的效率。
S303、基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成所述备选词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到。
S304、基于所述备选词集,过滤所述待处理文档,生成过滤词集。
S305、根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
本发明实施例提供的关键词提取方法,先对待处理文档进行分词处理,并从分词后的待处理文档中过滤掉停止词,使待处理文档中包含的分词量减小,可减小提取关键词算法的工作量,提高系统的运行速度。
现有的IF-IDF等方式对关键词的提取并不精准,可能会遗漏。本发明实施例提供的关键词提取方法,通过IF-IDF提取关键词的同时,还使用fp-growth提取高频词,将通过这两种方式获得的词作为候选关键词,形成候选关键词集合。基于text-rank对候选关键词集合进行处理,得到排名靠前的关键词作为目标关键词。其中,text-rank算法中,利用N-gram滑动窗口的方式:设定滑动窗口,按顺序进行滑动,将滑动窗口内所包含的候选关键词视为具有图相邻关系,类似于具有相互之间的链接,基于相邻关系进行打分,依次滑动窗口,进行打分,最终将分数高的词作为目标词。
下面通过一个具体实施方案具体阐述本发明关键词提取方法的实现过程。图4为本发明实施例提供的一种语料统计方法的流程示意图。该方法有两部分输出包括:idf文件和fp-growth关键词集合。上述语料统计方法包括如下步骤:输入语料:文档集;对文档集进行预处理,包括加载用户词、分词、过滤停止词等;基于预处理后的文档集,统计文档集的idf,输出idf文件;基于预处理后的文档集,获取fp-growth高频词组,生成词集fp-growth高频词组,输出fp-growth高频词组。
上述步骤为基于训练的语料进行统计分析的步骤,上述步骤输出两个文件:idf文件和fp-growth高频词组,为下面进一步地提取待处理文档中的关键词提供数据支撑。
图5是本发明实施例提供的再一种关键词提取方法的流程示意图,在本发明实施例中,所述方法包括:开启jieba分词模式,加载用户词和idf文件;待预测句子分词;基于上一步的idf文件,对预测文档基于tf-idf算法提取关键词;将提取结果与fp-growth高频词组合并,作为备选词集;将预测文档分词和过滤,只留下备选词集中的词;基于textrank算法,提取过滤后的预测文档中的关键词;若剩余词语数量过少(例如小于5),基于tf-id算法,提取过滤后的预测文档中的关键词。
本发明实施提供的关键词提取方法,一方面,先利用tf-idf提取关键词和fp-growth高频词生成备选词集,并利用备选词集对预测文档进行过滤,相当于对预测文档进行了压缩,然后再用textrank算法,基于压缩后的预测文档提取关键词,弥补了textrank对长文档提取效果差的缺点。另一方面,通过tf-idf提取关键词和fp-growth高频词生成备选词集,弥补了tf-idf算法容易漏掉某些重要的词的缺点。因此,本发明实施提供的关键词提取方法在效果上用到了两种算法的优点,弥补了其不足。
上述图1~图5详细阐述了本申请实施例的关键词提取方法。
请参见图6,图6是本发明实施例提供的一种关键词提取装置的结构示意图,如图6所示,所述关键词提取装置包括:
第一生成单元601,用于基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集;
第二生成单元602,用于基于所述备选词集,过滤所述待处理文档,生成过滤词集;
提取单元603,根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
可选地,第二生成单元602具体用于:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成第一词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到;
合并所述第一词集和第二词集中的词,生成所述备选词集,其中,所述第二词集基于频繁模式树fp-growth算法,对所述历史语料的高频词组进行统计得到。
可选地,第二生成单元602具体用于:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成所述备选词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到。
可选地,所述装置还包括:
预处理单元604,用于对所述待处理文档进行分词处理;
从分词后的待处理文档中过滤掉停止词。
可选地,提取单元603具体用于:
若所述过滤词集中的词语数小于词数阈值,利用tf-idf算法,提取所述过滤词集中的关键词。
可选地,提取单元603具体用于:
若所述过滤词集中的词语数大于或等于词数阈值,利用texttrank算法,提取所述过滤词集中的关键词。
可选地,第二生成单元602具体用于:
获取所述待处理文档中的分词;
若所述分词位于所述备选词集中,将所述分词添加到所述过滤词集中。
本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)、IC(Integrated Circuit,集成电路)等。
本发明实施例的各处理单元和/或模块,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件而实现。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述关键词提取方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
参见图7,其示出了本发明实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施上述实施例中提供的关键词提取方法。具体来讲:
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器720还可以包括存储器控制器,以提供处理器780和输入单元730对存储器720的访问。
输入单元730可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元730可包括触敏表面731(例如:触摸屏、触摸板或触摸框)。触敏表面731,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面731上或在触敏表面731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面731。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元740可包括显示面板741,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板741。进一步的,触敏表面731可覆盖显示面板741,当触敏表面731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中,触敏表面731与显示面板741是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面731与显示面板741集成而实现输入和输出功能。
处理器780是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器780可包括一个或多个处理核心;其中,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
具体在本实施例中,终端设备的显示单元是触摸屏显示器,终端设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现上述关键词提取方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上介绍仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关键词提取方法,其特征在于,所述方法包括:
基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集;
基于所述备选词集,过滤所述待处理文档,生成过滤词集;
根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
2.根据权利要求1所述的方法,其特征在于,所述基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集包括:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成第一词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到;
合并所述第一词集和第二词集中的词,生成所述备选词集,其中,所述第二词集基于频繁模式树fp-growth算法,对所述历史语料的高频词组进行统计得到。
3.根据权利要求1所述的方法,其特征在于,所述基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集包括:
基于idf文件,利用词频-逆向文件频率tf-idf算法,提取所述待处理文档中的关键词,生成所述备选词集,其中,所述idf文件基于历史语料的逆向文件频率idf数据得到。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集之前,所述方法还包括:
对所述待处理文档进行分词处理;
从分词后的待处理文档中过滤掉停止词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词,包括:
若所述过滤词集中的词语数小于词数阈值,根据所述过滤词集中词的相邻关系,利用tf-idf算法,提取所述过滤词集中的关键词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词,包括:
若所述过滤词集中的词语数大于或等于词数阈值,根据所述过滤词集中词的相邻关系,利用texttrank算法,提取所述过滤词集中的关键词。
7.根据权利要求1所述的方法,其特征在于,所述基于所述备选词集,过滤所述待处理文档,生成过滤词集包括:
获取所述待处理文档中的分词;
若所述分词位于所述备选词集中,将所述分词添加到所述过滤词集中。
8.一种关键词提取装置,其特征在于,所述装置包括:
第一生成单元,用于基于词在待处理文档中出现的频率,提取待处理文档中的候选关键词,生成备选词集;
第二生成单元,用于基于所述备选词集,过滤所述待处理文档,生成过滤词集;
提取单元,根据所述过滤词集中词的相邻关系,从所述过滤词集中提取所述待处理文档中的关键词。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911049697.0A CN110851578A (zh) | 2019-10-31 | 2019-10-31 | 关键词提取方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911049697.0A CN110851578A (zh) | 2019-10-31 | 2019-10-31 | 关键词提取方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110851578A true CN110851578A (zh) | 2020-02-28 |
Family
ID=69599164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911049697.0A Pending CN110851578A (zh) | 2019-10-31 | 2019-10-31 | 关键词提取方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851578A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326350A (zh) * | 2021-05-31 | 2021-08-31 | 江汉大学 | 基于远程学习的关键词提取方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228468A1 (en) * | 2008-03-04 | 2009-09-10 | Microsoft Corporation | Using core words to extract key phrases from documents |
CN103942189A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种确定作品关键词的方法和设备 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN109615001A (zh) * | 2018-12-05 | 2019-04-12 | 上海恺英网络科技有限公司 | 一种识别相似文章的方法和装置 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
-
2019
- 2019-10-31 CN CN201911049697.0A patent/CN110851578A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228468A1 (en) * | 2008-03-04 | 2009-09-10 | Microsoft Corporation | Using core words to extract key phrases from documents |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN103942189A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种确定作品关键词的方法和设备 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109615001A (zh) * | 2018-12-05 | 2019-04-12 | 上海恺英网络科技有限公司 | 一种识别相似文章的方法和装置 |
Non-Patent Citations (1)
Title |
---|
谢飞等: "基于语义联系的新闻网页关键词抽取", 《广西师范大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326350A (zh) * | 2021-05-31 | 2021-08-31 | 江汉大学 | 基于远程学习的关键词提取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2702270C2 (ru) | Обнаружение выбора рукописного фрагмента | |
KR101825154B1 (ko) | 중첩 쓰기 핸드라이팅 입력방법 | |
EP2650766B1 (en) | Multi-character continuous handwriting input method | |
US6292857B1 (en) | Method and mechanism for coordinating input of asynchronous data | |
US20150242114A1 (en) | Electronic device, method and computer program product | |
US9274704B2 (en) | Electronic apparatus, method and storage medium | |
US10845939B2 (en) | Method and system for determining user interface usage | |
JP2016071819A (ja) | 電子機器および方法 | |
CN102063620A (zh) | 一种手写识别方法、系统及手写识别终端 | |
US20140270529A1 (en) | Electronic device, method, and storage medium | |
CN102750552B (zh) | 一种手写识别方法、系统及手写识别终端 | |
US10049114B2 (en) | Electronic device, method and storage medium | |
CN110032734B (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
CN102073884A (zh) | 一种手写识别方法、系统及手写识别终端 | |
CN104464720A (zh) | 以语音识别来选择控制客体的装置及方法 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN111931488A (zh) | 用于验证判断结果准确性的方法、装置、电子设备及介质 | |
US10067926B2 (en) | Image processing system and methods for identifying table captions for an electronic fillable form | |
JP2014056503A (ja) | 多言語環境でのコミュニケーションに適する非テキスト要素を特定するためのコンピュータ実装方法、プログラム、および、システム | |
CN102243708B (zh) | 一种手写识别方法、系统及手写识别终端 | |
CN104102704A (zh) | 系统控件展示方法和装置 | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
CN110851578A (zh) | 关键词提取方法、装置和电子设备 | |
CN102236799A (zh) | 一种多字手写识别的方法及装置 | |
JP6342194B2 (ja) | 電子機器、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |
|
RJ01 | Rejection of invention patent application after publication |