CN108153781A

CN108153781A - 提取业务领域的关键词的方法和装置

Info

Publication number: CN108153781A
Application number: CN201611106707.6A
Authority: CN
Inventors: 璐鸿揪; 贺达
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-05
Filing date: 2016-12-05
Publication date: 2018-06-12

Abstract

本发明公开了一种提取业务领域的关键词的方法和装置。其中，该方法包括：获取业务领域的至少一个文本；计算每个文本中所包含的每个关键词的词频和逆文档频率；根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标；根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词；根据筛选后的结果确定业务领域的关键词。本发明解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

Description

提取业务领域的关键词的方法和装置

技术领域

本发明涉及信息检索领域，具体而言，涉及一种提取业务领域的关键词的方法和装置。

背景技术

互联网上存在着大量的有关各个领域行业的知识文本信息，例如汽车行业的新闻报道、论坛车型讨论、旅游行业的广告新闻、旅游攻略等消息，由于消息的数据量的庞大，仅通过人工直接从文本中提取出关键的信息是很难做到的，因此，如何快速、有效地归纳总结出某个领域或者话题下的文本的关键信息成为了信息浏览者需要面对的一个重要问题。

参考于我们平时浏览论文等文献，在文献的首段一般会有关键词信息用于标示这篇文献主要谈及的内容和要点，方便浏览者检索并快速获取文章的大致内容信息。因此，通过关键词来归纳单篇文章的关键信息是一个较为常见和可行的方法。

不同于论文等规范的文献资料，从互联网中获取的文本信息通常没有直接给出文本的关键词信息，需要通过人工或机器学习来对文本标注上关键词。目前最常见和通用的关键词提取方法是TF_IDF算法。

但是在特定的业务领域使用通用的TF_IDF算法提取得到的关键词往往会包含这个特定领域的一些关键词，例如在旅游相关的文本库中，很容易提取出“旅游”、“度假”、“景点”等词，但在分析该领域文本关键信息时，这些提取出来的关键词是很常见的词，因此并不能准确地反映在旅游这个业务领域中该文章的信息。在该领域，阅读者可能更加关心文本提到去哪旅游以及旅游评价如何，而不是单纯的“旅游”、“度假”、“景点”等这种笼统的概念词。

现有技术中主要是通过获取特定业务领域的文本集合，并对该文本集合进行分词处理，然后再使用通用文档库进行TF_IDF算法得到每篇文档的关键词信息，并对特定领域文本集合中的关键词进行聚合，得到关键词与包含该关键词的文档数之间的关系，然后人工标示出上述关系列表在该业务领域中不属于业务核心词或者该领域中常见词的关键词，并将这些关键词加入到应删除词词表，从而得到新的每篇文档的关键词信息，最后根据新的每篇文档的关键词信息得到该业务领域的热门关键词信息。上述方案存在如下缺点：

①需要人工对首次得到的关键词进行筛选，筛选出该领域内的常见词，但上述筛选过程依赖于个人对业务知识的理解，不同的人得到的结果可能不一样；

②随着业务领域的文本集合中文本数量的增加，应排除词词表存在着效果下降的问题，需要人工定期重新计算更新应排除词表。

针对上述现有技术中需要人工维护应删除词词表以及判断关键词不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种提取业务领域的关键词的方法和装置，以至少解决现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

根据本发明实施例的一个方面，提供了一种提取业务领域的关键词的方法，包括：获取业务领域的至少一个文本；计算每个文本中所包含的每个关键词的词频和逆文档频率；根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标；根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词；根据筛选后的结果确定业务领域的关键词。

根据本发明实施例的另一方面，还提供了一种提取业务领域的关键词的装置，包括：获取模块，用于获取业务领域的至少一个文本；第一计算模块，用于计算每个文本中所包含的每个关键词的词频和逆文档频率；第二计算模块，用于根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标；第一选择模块，用于根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词；第二选择模块，用于根据筛选后的结果确定业务领域的关键词。

在本发明实施例中，采用业务领域的文档作为文档库的方式，通过获取业务领域的至少一个文本，计算每个文本中所包含的每个关键词的词频和逆文档频率，根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标，然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词，最后根据筛选后的结果确定业务领域的关键词，达到了自动、动态地调整文本的关键词信息的目的，从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果，进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种提取业务领域的关键词的方法流程图；

图2是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图；

图3是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图；

图4是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图；以及

图5是根据本发明实施例的一种提取业务领域的关键词的装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

TF-IDF算法：词频-逆文档频率(Term Frequency-Inverse Document Frequency，简称)TF-IDF，是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

倒排索引：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。例如记录了：“关键词文章号[出现频率]出现位置”一表，该表中记录了关键词和文章的关联关系，可以用于检索包含关键词的文档，也可用于统计包含该关键词的文章数量。

全文搜索(检索)引擎：是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。

实施例1

根据本发明实施例，提供了一种提取业务领域的关键词的方法实施例。

图1是根据本发明实施例的提取业务领域的关键词的方法流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取业务领域的至少一个文本。

在上述步骤中，上述业务领域可以为任何行业的业务领域，例如，制造业、旅游业、交通物流行业等。上述业务领域的文本可以为互联网上的知识文本信息，例如，微博上的博客。通过上述步骤可以得到需要提取特定业务领域的关键词的文本集合。

步骤S104，计算每个文本中所包含的每个关键词的词频和逆文档频率。

在上述步骤中，上述关键词的词频用于表征该关键词在文本中出现的次数，用TF表示，即

例如，在一篇与旅游有关的博客中，共有500个词，其中，“马尔代夫”出现了15次，“珊瑚”出现了35次，则“马尔代夫”的词频为0.03，“珊瑚”的词频为0.07。

上述逆文档频率用于表征关键词普遍重要性的度量，可以用IDF表示，即如果包含某一关键词的文档数越少，IDF越大，则说明该关键词具有很好的类别区分能力。例如，在30篇与旅游有关的文本中，“马尔代夫”一词出现了2次，而“大海”出现了20次，则“马尔代夫”一词的逆文档频率IDF₁可用下式计算：

“大海”一词的逆文档频率IDF₂可用下式计算：

由上述可知，IDF₁＞IDF₂，因此，“马尔代夫”一词可以很好的将这30篇文本进行类别区分。

需要说明的是，上述关键词的词频可以通过分词器和通用排除词词典对文本进行分词；上述逆文档频率是的文本总数为业务领域中的文本总数，并不是通用文本库中的文本总数。

通过上述步骤可以准确地得到文档库中每个文本中的关键词的词频和逆文档频率。

步骤S106，根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标。

在上述步骤中，假设每个关键词的词频为TF，每个关键词的逆文档频率为IDF，则文本中所包含的每个关键词的关键程度指标TF_IDF可以用下式表示：

TF_IDF＝TF*IDF

需要说明的是，上述文本中所包含的每个关键词的关键程度指标为该关键词在文本中关键程度的衡量指标，TF_IDF的数值越大，说明该关键词在文本中起的作用越大，即该词具有很好的类别区分能力。

通过上述步骤，可以计算出文本中每个关键词的关键程度指标，从而可以根据该关键程度指标初次筛选出文本中的关键词。

步骤S108，根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词。

在上述步骤中，首先建立关键词与关键词的关键程度指标的一一对应关系，然后对关键词的关键程度指标值进行筛选，当关键词的关键程度指标值满足一定条件时，该关键程度指标所对应的关键词为该文本中的关键词。

通过上述步骤，可以滤除掉常见的词语，保留重要的词语，即关键词，从而可以进一步提高提取业务领域关键词的准确度。

步骤S110，根据筛选后的结果确定业务领域的关键词。

在上述步骤中，根据TF_IDF算法可以得到初步筛选后的关键词进一步得到关键词与包含该关键词的文档数之间的关系，然后再对该文档数进行筛选，选出符合要求的文档数，这些符合要求的文档数所对应的关键词即为该业务领域的关键词。

通过上述步骤可以实现自动地、动态地调整文本的关键词信息的目的，可以实现不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果。

在基于上述实施例步骤S102至步骤S110所公开的方案中，可以获知通过获取业务领域的至少一个文本，计算每个文本中所包含的每个关键词的词频和逆文档频率，根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标，然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词，最后根据筛选后的结果确定业务领域的关键词，容易注意到的是，由于获取的是特定业务领域的文本，而且在计算关键词的逆文档频率时使用的是特定业务领域的文本库，而不是通用的文本库，因而可以排除在使用通用文本库计算逆文档频率时将在业务领域中的通用词计算为关键词的情况，进一步达到了自动、动态地调整文本的关键词信息的目的，从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果，进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

可选的，关键程度指标用于表征文本中所包含的每个关键词在描述文本的语义时的关键程度值。

在一种可选的实施例中，如果某个关键词在一篇文章中出现的频率(即词频)比较高，但在其他的文章中很少出现，则该关键词具有很好的类别区分能力，可以用来分类，其中，关键词的关键程度值越高，说明该关键词的类别区分能力越强。

可选的，图2是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图，在执行步骤S104，即计算每个文本中所包含的每个关键词的逆文档频率时，该方法包括：

步骤S202，选取业务领域的文档库，文档库包括了多个预存的文本；

步骤S204，计算文档库中的文档总数；

步骤S206，根据倒排索引得到包含关键词的文档总数；

步骤S208，根据文档库中的文档总数以及包含关键词的文本总数，计算得到逆文档频率。

在上述步骤S202至步骤S208所限定的方案中，上述逆文档频率IDF可以用下式来表示，即

上式中，文档库中的文档总数为特定业务领域的文档总数，例如，旅游业的文档库，该文档库中存储了大量的有关旅游领域的文本。

在一种可选的实施例中，一篇文章的总词数为200个，而“马尔代夫”出现了2次，则“马尔代夫”一词在该文中的词频为：

旅游业的文档库中的文档总数为100000，而“马尔代夫”一词在99份文件中出现，则“马尔代夫”一词的逆文档频率为：

则“马尔代夫”的关键程度指标为：

TF_IDF＝TF*IDF＝0101*3＝0.03

可选的，图3是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图，在执行步骤S108，即根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词时，该方法包括：

步骤S302，对关键程度指标进行降序排序，得到第一降序排序结果；

步骤S304，从第一降序排序结果中选取关键程度指标大于第一预设阈值的关键词，得到至少一个文本中的关键词。

在上述步骤S302至步骤S304所限定的方案中，在一篇与旅游行业有关的文章中，假设有如下关键词：“马尔代夫”、“珊瑚”、“旅游”、“大海”、“人间天堂”、“太阳岛”，而这些关键词与其所对应的关键程度指标如表1所示。

表1

对表1中的关键程度指标进行降序排序，排序后的结果如表2所示。

表2

在第一预设阈值为0.04的情况下，筛选出的关键词为：“马尔代夫”、“太阳岛”和“人间天堂”。

可选的，图4是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图，在执行步骤S110，即根据筛选后的结果确定业务领域的关键词时，该方法包括：

步骤S402，对至少一个文本的关键词进行聚合处理；

步骤S404，从聚合结果获取包含关键词的文本的总数量；

步骤S406，对文本的总数进行降序排序，得到第二降序排序结果；

步骤S408，从第二降序排序结果中选取文本总数大于第二预设阈值的关键词，作为业务领域的关键词。

在上述步骤S402至步骤S408所限定的方案中，上述聚合处理是指对文本的关键词进行挑选、分析、归类，最后选出有价值的关键词。仍以文本库为旅游业的文本库为例进行说明，通过步骤S108筛选出“马尔代夫”、“太阳岛”和“人间天堂”三个关键词，然后计算出包含这三个关键词的旅游行业中的文本数量，如表3所示。

表3

关键词	马尔代夫	太阳岛	人间天堂
				文本数量	1000	550	700

在第二预设阈值为600的情况下，筛选出的关键词为：“马尔代夫”和“人间天堂”，因此，该业务领域的关键词为“马尔代夫”和“人间天堂”。

实施例2

根据本发明实施例，提供了一种提取业务领域的关键词的装置实施例，其中，上述实施例1中的方法可以在本实施例中所提供的装置中运行。

图5是根据本发明实施例的提取业务领域的关键词的装置结构示意图，如图5所示，该装置包括：获取模块501、第一计算模块503、第二计算模块505、第一选择模块507和第二选择模块509。

获取模块501，用于获取业务领域的至少一个文本。

在上述获取模块中，上述业务领域可以为任何行业的业务领域，例如，制造业、旅游业、交通物流行业等。上述业务领域的文本可以为互联网上的知识文本信息，例如，微博上的博客。通过上述获取模块可以得到需要提取特定业务领域的关键词的文本集合。

第一计算模块503，用于计算每个文本中所包含的每个关键词的词频和逆文档频率。

在上述第一计算模块中，上述关键词的词频用于表征该关键词在文本中出现的次数，可以用TF表示，即

“大海”一词的逆文档频率IDF₂可用下式计算：

通过上述第一计算模块可以准确地得到文档库中每个文本中的关键词的词频和逆文档频率。

第二计算模块505，用于根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标。

在上述第二计算模块中，假设每个关键词的词频为TF，每个关键词的逆文档频率为IDF，则文本中所包含的每个关键词的关键程度指标TF_IDF可以用下式表示：

TF_IDF＝TF*IDF

通过上述第二计算模块，可以计算出文本中每个关键词的关键程度指标，从而可以根据该关键程度指标初次筛选出文本中的关键词。

第一选择模块507，用于根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词。

在上述第一选择模块中，首先建立关键词与关键词的关键程度指标的一一对应关系，然后对关键词的关键程度指标值进行筛选，当关键词的关键程度指标值满足一定条件时，该关键程度指标所对应的关键词为该文本中的关键词。

通过上述第一选择模块，可以滤除掉常见的词语，保留重要的词语，即关键词，从而可以进一步提高提取业务领域关键词的准确度。

第二选择模块509，用于根据筛选后的结果确定业务领域的关键词。

在上述第二选择模块中，根据TF_IDF算法可以得到初步筛选后的关键词进一步得到关键词与包含该关键词的文档数之间的关系，然后再对该文档数进行筛选，选出符合要求的文档数，这些符合要求的文档数所对应的关键词即为该业务领域的关键词。

通过上述第二选择模块可以实现自动地、动态地调整文本的关键词信息的目的，可以实现不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果。

由上可知，通过获取业务领域的至少一个文本，计算每个文本中所包含的每个关键词的词频和逆文档频率，根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标，然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词，最后根据筛选后的结果确定业务领域的关键词，容易注意到的是，由于获取的是特定业务领域的文本，而且在计算关键词的逆文档频率时使用的是特定业务领域的文本库，而不是通用的文本库，因而可以排除在使用通用文本库计算逆文档频率时将在业务领域中的通用词计算为关键词的情况，进一步达到了自动、动态地调整文本的关键词信息的目的，从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果，进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

需要说明的是，上述获取模块、第一计算模块、第二计算模块、第一选择模块以及第二选择模块对应于实施例1中的步骤S102至步骤S110，五个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第一计算模块包括：

第三选择模块，用于选取业务领域的文档库，文档库包括了多个预存的文本；

第三计算模块，用于计算文档库中的文档总数；

第四计算模块，用于根据倒排索引得到包含关键词的文档总数；

第五计算模块，用于根据文档库中的文档总数以及包含关键词的文本总数，计算得到逆文档频率。

在一种可选的实施例中，上述逆文档频率IDF可以用下式来表示，即

则“马尔代夫”的关键程度指标为：

TF_IDF＝TF*IDF＝0101*3＝0.03

需要说明的是，上述第三选择模块、第三计算模块、第四计算模块以及第五计算模块对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第一选择模块包括：

第一排序模块，用于对关键程度指标进行降序排序，得到第一降序排序结果；

第四选择模块，用于从第一降序排序结果中选取关键程度指标大于第一预设阈值的关键词，得到至少一个文本中的关键词。

作为一种可选的实施例，在一篇与旅游行业有关的文章中，假设有如下关键词：“马尔代夫”、“珊瑚”、“旅游”、“大海”、“人间天堂”、“太阳岛”，而这些关键词与其所对应的关键程度指标如表4所示。

表4

对表4中的关键程度指标进行降序排序，排序后的结果如表5所示。

表5

需要说明的是，上述第一排序模块和第四选择模块对应于实施例1中的步骤S302至步骤S304，两个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第二选择模块包括：

聚合模块，用于对至少一个文本的关键词进行聚合处理；

处理模块，用于从聚合结果获取包含关键词的文本的总数量；

第二排序模块，用于对文本的总数进行降序排序，得到第二降序排序结果；

第五选择模块，用于从第二降序排序结果中选取文本总数大于第二预设阈值的关键词，作为业务领域的关键词。

在一种可选的实施例中，上述聚合处理是指对文本的关键词进行挑选、分析、归类，最后选出有价值的关键词。仍以文本库为旅游业的文本库为例进行说明，通过步骤S108筛选出“马尔代夫”、“太阳岛”和“人间天堂”三个关键词，然后计算出包含这三个关键词的旅游行业中的文本数量，如表6所示。

表6

关键词	马尔代夫	太阳岛	人间天堂
				文本数量	1000	550	700

需要说明的是，上述聚合模块、处理模块、第二排序模块以及第五选择模块对应于实施例1中的步骤S402至步骤S408，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数解析文本内容。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种提取业务领域的关键词的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取业务领域的至少一个文本；计算每个文本中所包含的每个关键词的词频和逆文档频率；根据每个关键词的词频和逆文档频率，确定文本中所包含的每个关键词的关键程度指标；根据文本中所包含的每个关键词的关键程度指标，从文本中筛选得到满足预定条件的关键词；根据筛选后的结果确定业务领域的关键词。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种提取业务领域的关键词的方法，其特征在于，包括：

获取业务领域的至少一个文本；

计算每个文本中所包含的每个关键词的词频和逆文档频率；

根据所述每个关键词的词频和逆文档频率，确定所述文本中所包含的每个关键词的关键程度指标；

根据所述文本中所包含的每个关键词的关键程度指标，从所述文本中筛选得到满足预定条件的关键词；

根据筛选后的结果确定所述业务领域的关键词。

2.根据权利要求1所述的方法，其特征在于，所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。

3.根据权利要求1所述的方法，其特征在于，计算每个文本中所包含的每个关键词的逆文档频率包括：

选取所述业务领域的文档库，所述文档库包括了多个预存的文本；

计算所述文档库中的文档总数；

根据倒排索引得到包含所述关键词的文档总数；

根据所述文档库中的文档总数以及包含所述关键词的文本总数，计算得到所述逆文档频率。

4.根据权利要求1所述的方法，其特征在于，通过如下公式确定所述文本中所包含的每个关键词的关键程度指标：

TF_IDF＝TF*IDF

其中，所述TF_IDF为所述关键程度指标，所述TF为所述每个关键词的词频，所述IDF为所述每个关键词的逆文档频率。

5.根据权利要求1所述的方法，其特征在于，根据所述文本中所包含的每个关键词的关键程度指标，从所述文本中筛选得到满足预定条件的关键词包括：

对所述关键程度指标进行降序排序，得到第一降序排序结果；

从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词，得到所述至少一个文本中的关键词。

6.根据权利要求5所述的方法，其特征在于，根据筛选后的结果确定所述业务领域的关键词包括：

对所述至少一个文本的关键词进行聚合处理；

从聚合结果获取包含所述关键词的文本的总数量；

对所述文本的总数进行降序排序，得到第二降序排序结果；

从所述第二降序排序结果中选取所述文本总数大于第二预设阈值的关键词，作为所述业务领域的关键词。

7.一种提取业务领域的关键词的装置，其特征在于，包括：

获取模块，用于获取业务领域的至少一个文本；

第一计算模块，用于计算每个文本中所包含的每个关键词的词频和逆文档频率；

第二计算模块，用于根据所述每个关键词的词频和逆文档频率，确定所述文本中所包含的每个关键词的关键程度指标；

第一选择模块，用于根据所述文本中所包含的每个关键词的关键程度指标，从所述文本中筛选得到满足预定条件的关键词；

第二选择模块，用于根据筛选后的结果确定所述业务领域的关键词。

8.根据权利要求7所述的装置，其特征在于，所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。

9.根据权利要求7所述的装置，其特征在于，所述第一计算模块包括：

第三选择模块，用于选取所述业务领域的文档库，所述文档库包括了多个预存的文本；

第三计算模块，用于计算所述文档库中的文档总数；

第四计算模块，用于根据倒排索引得到包含所述关键词的文档总数；

第五计算模块，用于根据所述文档库中的文档总数以及包含所述关键词的文本总数，计算得到所述逆文档频率。

10.根据权利要求7所述的装置，其特征在于，所述第一选择模块包括：

第一排序模块，用于对所述关键程度指标进行降序排序，得到第一降序排序结果；

第四选择模块，用于从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词，得到所述至少一个文本中的关键词。