CN108153781A - 提取业务领域的关键词的方法和装置 - Google Patents

提取业务领域的关键词的方法和装置 Download PDF

Info

Publication number
CN108153781A
CN108153781A CN201611106707.6A CN201611106707A CN108153781A CN 108153781 A CN108153781 A CN 108153781A CN 201611106707 A CN201611106707 A CN 201611106707A CN 108153781 A CN108153781 A CN 108153781A
Authority
CN
China
Prior art keywords
keyword
text
business scope
frequency
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611106707.6A
Other languages
English (en)
Inventor
璐鸿揪
贺达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611106707.6A priority Critical patent/CN108153781A/zh
Publication of CN108153781A publication Critical patent/CN108153781A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取业务领域的关键词的方法和装置。其中,该方法包括:获取业务领域的至少一个文本;计算每个文本中所包含的每个关键词的词频和逆文档频率;根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;根据筛选后的结果确定业务领域的关键词。本发明解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。

Description

提取业务领域的关键词的方法和装置
技术领域
本发明涉及信息检索领域,具体而言,涉及一种提取业务领域的关键词的方法和装置。
背景技术
互联网上存在着大量的有关各个领域行业的知识文本信息,例如汽车行业的新闻报道、论坛车型讨论、旅游行业的广告新闻、旅游攻略等消息,由于消息的数据量的庞大,仅通过人工直接从文本中提取出关键的信息是很难做到的,因此,如何快速、有效地归纳总结出某个领域或者话题下的文本的关键信息成为了信息浏览者需要面对的一个重要问题。
参考于我们平时浏览论文等文献,在文献的首段一般会有关键词信息用于标示这篇文献主要谈及的内容和要点,方便浏览者检索并快速获取文章的大致内容信息。因此,通过关键词来归纳单篇文章的关键信息是一个较为常见和可行的方法。
不同于论文等规范的文献资料,从互联网中获取的文本信息通常没有直接给出文本的关键词信息,需要通过人工或机器学习来对文本标注上关键词。目前最常见和通用的关键词提取方法是TF_IDF算法。
但是在特定的业务领域使用通用的TF_IDF算法提取得到的关键词往往会包含这个特定领域的一些关键词,例如在旅游相关的文本库中,很容易提取出“旅游”、“度假”、“景点”等词,但在分析该领域文本关键信息时,这些提取出来的关键词是很常见的词,因此并不能准确地反映在旅游这个业务领域中该文章的信息。在该领域,阅读者可能更加关心文本提到去哪旅游以及旅游评价如何,而不是单纯的“旅游”、“度假”、“景点”等这种笼统的概念词。
现有技术中主要是通过获取特定业务领域的文本集合,并对该文本集合进行分词处理,然后再使用通用文档库进行TF_IDF算法得到每篇文档的关键词信息,并对特定领域文本集合中的关键词进行聚合,得到关键词与包含该关键词的文档数之间的关系,然后人工标示出上述关系列表在该业务领域中不属于业务核心词或者该领域中常见词的关键词,并将这些关键词加入到应删除词词表,从而得到新的每篇文档的关键词信息,最后根据新的每篇文档的关键词信息得到该业务领域的热门关键词信息。上述方案存在如下缺点:
①需要人工对首次得到的关键词进行筛选,筛选出该领域内的常见词,但上述筛选过程依赖于个人对业务知识的理解,不同的人得到的结果可能不一样;
②随着业务领域的文本集合中文本数量的增加,应排除词词表存在着效果下降的问题,需要人工定期重新计算更新应排除词表。
针对上述现有技术中需要人工维护应删除词词表以及判断关键词不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种提取业务领域的关键词的方法和装置,以至少解决现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
根据本发明实施例的一个方面,提供了一种提取业务领域的关键词的方法,包括:获取业务领域的至少一个文本;计算每个文本中所包含的每个关键词的词频和逆文档频率;根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;根据筛选后的结果确定业务领域的关键词。
根据本发明实施例的另一方面,还提供了一种提取业务领域的关键词的装置,包括:获取模块,用于获取业务领域的至少一个文本;第一计算模块,用于计算每个文本中所包含的每个关键词的词频和逆文档频率;第二计算模块,用于根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;第一选择模块,用于根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;第二选择模块,用于根据筛选后的结果确定业务领域的关键词。
在本发明实施例中,采用业务领域的文档作为文档库的方式,通过获取业务领域的至少一个文本,计算每个文本中所包含的每个关键词的词频和逆文档频率,根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标,然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词,最后根据筛选后的结果确定业务领域的关键词,达到了自动、动态地调整文本的关键词信息的目的,从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果,进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种提取业务领域的关键词的方法流程图;
图2是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图;
图3是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图;
图4是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图;以及
图5是根据本发明实施例的一种提取业务领域的关键词的装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
TF-IDF算法:词频-逆文档频率(Term Frequency-Inverse Document Frequency,简称)TF-IDF,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
倒排索引:倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。例如记录了:“关键词文章号[出现频率]出现位置”一表,该表中记录了关键词和文章的关联关系,可以用于检索包含关键词的文档,也可用于统计包含该关键词的文章数量。
全文搜索(检索)引擎:是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
实施例1
根据本发明实施例,提供了一种提取业务领域的关键词的方法实施例。
图1是根据本发明实施例的提取业务领域的关键词的方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取业务领域的至少一个文本。
在上述步骤中,上述业务领域可以为任何行业的业务领域,例如,制造业、旅游业、交通物流行业等。上述业务领域的文本可以为互联网上的知识文本信息,例如,微博上的博客。通过上述步骤可以得到需要提取特定业务领域的关键词的文本集合。
步骤S104,计算每个文本中所包含的每个关键词的词频和逆文档频率。
在上述步骤中,上述关键词的词频用于表征该关键词在文本中出现的次数,用TF表示,即
例如,在一篇与旅游有关的博客中,共有500个词,其中,“马尔代夫”出现了15次,“珊瑚”出现了35次,则“马尔代夫”的词频为0.03,“珊瑚”的词频为0.07。
上述逆文档频率用于表征关键词普遍重要性的度量,可以用IDF表示,即如果包含某一关键词的文档数越少,IDF越大,则说明该关键词具有很好的类别区分能力。例如,在30篇与旅游有关的文本中,“马尔代夫”一词出现了2次,而“大海”出现了20次,则“马尔代夫”一词的逆文档频率IDF1可用下式计算:
“大海”一词的逆文档频率IDF2可用下式计算:
由上述可知,IDF1>IDF2,因此,“马尔代夫”一词可以很好的将这30篇文本进行类别区分。
需要说明的是,上述关键词的词频可以通过分词器和通用排除词词典对文本进行分词;上述逆文档频率是的文本总数为业务领域中的文本总数,并不是通用文本库中的文本总数。
通过上述步骤可以准确地得到文档库中每个文本中的关键词的词频和逆文档频率。
步骤S106,根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标。
在上述步骤中,假设每个关键词的词频为TF,每个关键词的逆文档频率为IDF,则文本中所包含的每个关键词的关键程度指标TF_IDF可以用下式表示:
TF_IDF=TF*IDF
需要说明的是,上述文本中所包含的每个关键词的关键程度指标为该关键词在文本中关键程度的衡量指标,TF_IDF的数值越大,说明该关键词在文本中起的作用越大,即该词具有很好的类别区分能力。
通过上述步骤,可以计算出文本中每个关键词的关键程度指标,从而可以根据该关键程度指标初次筛选出文本中的关键词。
步骤S108,根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词。
在上述步骤中,首先建立关键词与关键词的关键程度指标的一一对应关系,然后对关键词的关键程度指标值进行筛选,当关键词的关键程度指标值满足一定条件时,该关键程度指标所对应的关键词为该文本中的关键词。
通过上述步骤,可以滤除掉常见的词语,保留重要的词语,即关键词,从而可以进一步提高提取业务领域关键词的准确度。
步骤S110,根据筛选后的结果确定业务领域的关键词。
在上述步骤中,根据TF_IDF算法可以得到初步筛选后的关键词进一步得到关键词与包含该关键词的文档数之间的关系,然后再对该文档数进行筛选,选出符合要求的文档数,这些符合要求的文档数所对应的关键词即为该业务领域的关键词。
通过上述步骤可以实现自动地、动态地调整文本的关键词信息的目的,可以实现不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果。
在基于上述实施例步骤S102至步骤S110所公开的方案中,可以获知通过获取业务领域的至少一个文本,计算每个文本中所包含的每个关键词的词频和逆文档频率,根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标,然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词,最后根据筛选后的结果确定业务领域的关键词,容易注意到的是,由于获取的是特定业务领域的文本,而且在计算关键词的逆文档频率时使用的是特定业务领域的文本库,而不是通用的文本库,因而可以排除在使用通用文本库计算逆文档频率时将在业务领域中的通用词计算为关键词的情况,进一步达到了自动、动态地调整文本的关键词信息的目的,从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果,进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
可选的,关键程度指标用于表征文本中所包含的每个关键词在描述文本的语义时的关键程度值。
在一种可选的实施例中,如果某个关键词在一篇文章中出现的频率(即词频)比较高,但在其他的文章中很少出现,则该关键词具有很好的类别区分能力,可以用来分类,其中,关键词的关键程度值越高,说明该关键词的类别区分能力越强。
可选的,图2是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图,在执行步骤S104,即计算每个文本中所包含的每个关键词的逆文档频率时,该方法包括:
步骤S202,选取业务领域的文档库,文档库包括了多个预存的文本;
步骤S204,计算文档库中的文档总数;
步骤S206,根据倒排索引得到包含关键词的文档总数;
步骤S208,根据文档库中的文档总数以及包含关键词的文本总数,计算得到逆文档频率。
在上述步骤S202至步骤S208所限定的方案中,上述逆文档频率IDF可以用下式来表示,即
上式中,文档库中的文档总数为特定业务领域的文档总数,例如,旅游业的文档库,该文档库中存储了大量的有关旅游领域的文本。
在一种可选的实施例中,一篇文章的总词数为200个,而“马尔代夫”出现了2次,则“马尔代夫”一词在该文中的词频为:
旅游业的文档库中的文档总数为100000,而“马尔代夫”一词在99份文件中出现,则“马尔代夫”一词的逆文档频率为:
则“马尔代夫”的关键程度指标为:
TF_IDF=TF*IDF=0101*3=0.03
可选的,图3是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图,在执行步骤S108,即根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词时,该方法包括:
步骤S302,对关键程度指标进行降序排序,得到第一降序排序结果;
步骤S304,从第一降序排序结果中选取关键程度指标大于第一预设阈值的关键词,得到至少一个文本中的关键词。
在上述步骤S302至步骤S304所限定的方案中,在一篇与旅游行业有关的文章中,假设有如下关键词:“马尔代夫”、“珊瑚”、“旅游”、“大海”、“人间天堂”、“太阳岛”,而这些关键词与其所对应的关键程度指标如表1所示。
表1
对表1中的关键程度指标进行降序排序,排序后的结果如表2所示。
表2
在第一预设阈值为0.04的情况下,筛选出的关键词为:“马尔代夫”、“太阳岛”和“人间天堂”。
可选的,图4是根据本发明实施例的一种可选的提取业务领域的关键词的方法流程图,在执行步骤S110,即根据筛选后的结果确定业务领域的关键词时,该方法包括:
步骤S402,对至少一个文本的关键词进行聚合处理;
步骤S404,从聚合结果获取包含关键词的文本的总数量;
步骤S406,对文本的总数进行降序排序,得到第二降序排序结果;
步骤S408,从第二降序排序结果中选取文本总数大于第二预设阈值的关键词,作为业务领域的关键词。
在上述步骤S402至步骤S408所限定的方案中,上述聚合处理是指对文本的关键词进行挑选、分析、归类,最后选出有价值的关键词。仍以文本库为旅游业的文本库为例进行说明,通过步骤S108筛选出“马尔代夫”、“太阳岛”和“人间天堂”三个关键词,然后计算出包含这三个关键词的旅游行业中的文本数量,如表3所示。
表3
关键词 马尔代夫 太阳岛 人间天堂
文本数量 1000 550 700
在第二预设阈值为600的情况下,筛选出的关键词为:“马尔代夫”和“人间天堂”,因此,该业务领域的关键词为“马尔代夫”和“人间天堂”。
实施例2
根据本发明实施例,提供了一种提取业务领域的关键词的装置实施例,其中,上述实施例1中的方法可以在本实施例中所提供的装置中运行。
图5是根据本发明实施例的提取业务领域的关键词的装置结构示意图,如图5所示,该装置包括:获取模块501、第一计算模块503、第二计算模块505、第一选择模块507和第二选择模块509。
获取模块501,用于获取业务领域的至少一个文本。
在上述获取模块中,上述业务领域可以为任何行业的业务领域,例如,制造业、旅游业、交通物流行业等。上述业务领域的文本可以为互联网上的知识文本信息,例如,微博上的博客。通过上述获取模块可以得到需要提取特定业务领域的关键词的文本集合。
第一计算模块503,用于计算每个文本中所包含的每个关键词的词频和逆文档频率。
在上述第一计算模块中,上述关键词的词频用于表征该关键词在文本中出现的次数,可以用TF表示,即
例如,在一篇与旅游有关的博客中,共有500个词,其中,“马尔代夫”出现了15次,“珊瑚”出现了35次,则“马尔代夫”的词频为0.03,“珊瑚”的词频为0.07。
上述逆文档频率用于表征关键词普遍重要性的度量,可以用IDF表示,即如果包含某一关键词的文档数越少,IDF越大,则说明该关键词具有很好的类别区分能力。例如,在30篇与旅游有关的文本中,“马尔代夫”一词出现了2次,而“大海”出现了20次,则“马尔代夫”一词的逆文档频率IDF1可用下式计算:
“大海”一词的逆文档频率IDF2可用下式计算:
由上述可知,IDF1>IDF2,因此,“马尔代夫”一词可以很好的将这30篇文本进行类别区分。
需要说明的是,上述关键词的词频可以通过分词器和通用排除词词典对文本进行分词;上述逆文档频率是的文本总数为业务领域中的文本总数,并不是通用文本库中的文本总数。
通过上述第一计算模块可以准确地得到文档库中每个文本中的关键词的词频和逆文档频率。
第二计算模块505,用于根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标。
在上述第二计算模块中,假设每个关键词的词频为TF,每个关键词的逆文档频率为IDF,则文本中所包含的每个关键词的关键程度指标TF_IDF可以用下式表示:
TF_IDF=TF*IDF
需要说明的是,上述文本中所包含的每个关键词的关键程度指标为该关键词在文本中关键程度的衡量指标,TF_IDF的数值越大,说明该关键词在文本中起的作用越大,即该词具有很好的类别区分能力。
通过上述第二计算模块,可以计算出文本中每个关键词的关键程度指标,从而可以根据该关键程度指标初次筛选出文本中的关键词。
第一选择模块507,用于根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词。
在上述第一选择模块中,首先建立关键词与关键词的关键程度指标的一一对应关系,然后对关键词的关键程度指标值进行筛选,当关键词的关键程度指标值满足一定条件时,该关键程度指标所对应的关键词为该文本中的关键词。
通过上述第一选择模块,可以滤除掉常见的词语,保留重要的词语,即关键词,从而可以进一步提高提取业务领域关键词的准确度。
第二选择模块509,用于根据筛选后的结果确定业务领域的关键词。
在上述第二选择模块中,根据TF_IDF算法可以得到初步筛选后的关键词进一步得到关键词与包含该关键词的文档数之间的关系,然后再对该文档数进行筛选,选出符合要求的文档数,这些符合要求的文档数所对应的关键词即为该业务领域的关键词。
通过上述第二选择模块可以实现自动地、动态地调整文本的关键词信息的目的,可以实现不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果。
由上可知,通过获取业务领域的至少一个文本,计算每个文本中所包含的每个关键词的词频和逆文档频率,根据每个关键词的词频和逆文档频率确定每个关键词的关键程度指标,然后根据每个关键词的关键程度指标筛选出满足预定条件的关键词,最后根据筛选后的结果确定业务领域的关键词,容易注意到的是,由于获取的是特定业务领域的文本,而且在计算关键词的逆文档频率时使用的是特定业务领域的文本库,而不是通用的文本库,因而可以排除在使用通用文本库计算逆文档频率时将在业务领域中的通用词计算为关键词的情况,进一步达到了自动、动态地调整文本的关键词信息的目的,从而实现了不需要人工去维护排除词词表以及准确判断业务领域的通用词和关键词的技术效果,进而解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
需要说明的是,上述获取模块、第一计算模块、第二计算模块、第一选择模块以及第二选择模块对应于实施例1中的步骤S102至步骤S110,五个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,关键程度指标用于表征文本中所包含的每个关键词在描述文本的语义时的关键程度值。
在一种可选的实施例中,如果某个关键词在一篇文章中出现的频率(即词频)比较高,但在其他的文章中很少出现,则该关键词具有很好的类别区分能力,可以用来分类,其中,关键词的关键程度值越高,说明该关键词的类别区分能力越强。
可选的,第一计算模块包括:
第三选择模块,用于选取业务领域的文档库,文档库包括了多个预存的文本;
第三计算模块,用于计算文档库中的文档总数;
第四计算模块,用于根据倒排索引得到包含关键词的文档总数;
第五计算模块,用于根据文档库中的文档总数以及包含关键词的文本总数,计算得到逆文档频率。
在一种可选的实施例中,上述逆文档频率IDF可以用下式来表示,即
上式中,文档库中的文档总数为特定业务领域的文档总数,例如,旅游业的文档库,该文档库中存储了大量的有关旅游领域的文本。
在一种可选的实施例中,一篇文章的总词数为200个,而“马尔代夫”出现了2次,则“马尔代夫”一词在该文中的词频为:
旅游业的文档库中的文档总数为100000,而“马尔代夫”一词在99份文件中出现,则“马尔代夫”一词的逆文档频率为:
则“马尔代夫”的关键程度指标为:
TF_IDF=TF*IDF=0101*3=0.03
需要说明的是,上述第三选择模块、第三计算模块、第四计算模块以及第五计算模块对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第一选择模块包括:
第一排序模块,用于对关键程度指标进行降序排序,得到第一降序排序结果;
第四选择模块,用于从第一降序排序结果中选取关键程度指标大于第一预设阈值的关键词,得到至少一个文本中的关键词。
作为一种可选的实施例,在一篇与旅游行业有关的文章中,假设有如下关键词:“马尔代夫”、“珊瑚”、“旅游”、“大海”、“人间天堂”、“太阳岛”,而这些关键词与其所对应的关键程度指标如表4所示。
表4
对表4中的关键程度指标进行降序排序,排序后的结果如表5所示。
表5
在第一预设阈值为0.04的情况下,筛选出的关键词为:“马尔代夫”、“太阳岛”和“人间天堂”。
需要说明的是,上述第一排序模块和第四选择模块对应于实施例1中的步骤S302至步骤S304,两个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第二选择模块包括:
聚合模块,用于对至少一个文本的关键词进行聚合处理;
处理模块,用于从聚合结果获取包含关键词的文本的总数量;
第二排序模块,用于对文本的总数进行降序排序,得到第二降序排序结果;
第五选择模块,用于从第二降序排序结果中选取文本总数大于第二预设阈值的关键词,作为业务领域的关键词。
在一种可选的实施例中,上述聚合处理是指对文本的关键词进行挑选、分析、归类,最后选出有价值的关键词。仍以文本库为旅游业的文本库为例进行说明,通过步骤S108筛选出“马尔代夫”、“太阳岛”和“人间天堂”三个关键词,然后计算出包含这三个关键词的旅游行业中的文本数量,如表6所示。
表6
关键词 马尔代夫 太阳岛 人间天堂
文本数量 1000 550 700
在第二预设阈值为600的情况下,筛选出的关键词为:“马尔代夫”和“人间天堂”,因此,该业务领域的关键词为“马尔代夫”和“人间天堂”。
需要说明的是,上述聚合模块、处理模块、第二排序模块以及第五选择模块对应于实施例1中的步骤S402至步骤S408,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种提取业务领域的关键词的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取业务领域的至少一个文本;计算每个文本中所包含的每个关键词的词频和逆文档频率;根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;根据筛选后的结果确定业务领域的关键词。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种提取业务领域的关键词的方法,其特征在于,包括:
获取业务领域的至少一个文本;
计算每个文本中所包含的每个关键词的词频和逆文档频率;
根据所述每个关键词的词频和逆文档频率,确定所述文本中所包含的每个关键词的关键程度指标;
根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词;
根据筛选后的结果确定所述业务领域的关键词。
2.根据权利要求1所述的方法,其特征在于,所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。
3.根据权利要求1所述的方法,其特征在于,计算每个文本中所包含的每个关键词的逆文档频率包括:
选取所述业务领域的文档库,所述文档库包括了多个预存的文本;
计算所述文档库中的文档总数;
根据倒排索引得到包含所述关键词的文档总数;
根据所述文档库中的文档总数以及包含所述关键词的文本总数,计算得到所述逆文档频率。
4.根据权利要求1所述的方法,其特征在于,通过如下公式确定所述文本中所包含的每个关键词的关键程度指标:
TF_IDF=TF*IDF
其中,所述TF_IDF为所述关键程度指标,所述TF为所述每个关键词的词频,所述IDF为所述每个关键词的逆文档频率。
5.根据权利要求1所述的方法,其特征在于,根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词包括:
对所述关键程度指标进行降序排序,得到第一降序排序结果;
从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词,得到所述至少一个文本中的关键词。
6.根据权利要求5所述的方法,其特征在于,根据筛选后的结果确定所述业务领域的关键词包括:
对所述至少一个文本的关键词进行聚合处理;
从聚合结果获取包含所述关键词的文本的总数量;
对所述文本的总数进行降序排序,得到第二降序排序结果;
从所述第二降序排序结果中选取所述文本总数大于第二预设阈值的关键词,作为所述业务领域的关键词。
7.一种提取业务领域的关键词的装置,其特征在于,包括:
获取模块,用于获取业务领域的至少一个文本;
第一计算模块,用于计算每个文本中所包含的每个关键词的词频和逆文档频率;
第二计算模块,用于根据所述每个关键词的词频和逆文档频率,确定所述文本中所包含的每个关键词的关键程度指标;
第一选择模块,用于根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词;
第二选择模块,用于根据筛选后的结果确定所述业务领域的关键词。
8.根据权利要求7所述的装置,其特征在于,所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。
9.根据权利要求7所述的装置,其特征在于,所述第一计算模块包括:
第三选择模块,用于选取所述业务领域的文档库,所述文档库包括了多个预存的文本;
第三计算模块,用于计算所述文档库中的文档总数;
第四计算模块,用于根据倒排索引得到包含所述关键词的文档总数;
第五计算模块,用于根据所述文档库中的文档总数以及包含所述关键词的文本总数,计算得到所述逆文档频率。
10.根据权利要求7所述的装置,其特征在于,所述第一选择模块包括:
第一排序模块,用于对所述关键程度指标进行降序排序,得到第一降序排序结果;
第四选择模块,用于从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词,得到所述至少一个文本中的关键词。
CN201611106707.6A 2016-12-05 2016-12-05 提取业务领域的关键词的方法和装置 Pending CN108153781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611106707.6A CN108153781A (zh) 2016-12-05 2016-12-05 提取业务领域的关键词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611106707.6A CN108153781A (zh) 2016-12-05 2016-12-05 提取业务领域的关键词的方法和装置

Publications (1)

Publication Number Publication Date
CN108153781A true CN108153781A (zh) 2018-06-12

Family

ID=62471057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611106707.6A Pending CN108153781A (zh) 2016-12-05 2016-12-05 提取业务领域的关键词的方法和装置

Country Status (1)

Country Link
CN (1) CN108153781A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119880A (zh) * 2019-04-12 2019-08-13 平安科技(深圳)有限公司 一种自动评级方法、装置、存储介质及终端设备
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN111368070A (zh) * 2018-12-06 2020-07-03 北京国双科技有限公司 热点事件的确定方法及装置
CN111611461A (zh) * 2019-05-14 2020-09-01 北京精准沟通传媒科技股份有限公司 一种数据处理方法和装置
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN105260359A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN105512277A (zh) * 2015-12-04 2016-04-20 北京航空航天大学 一种面向图书市场书名的短文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN105260359A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN105512277A (zh) * 2015-12-04 2016-04-20 北京航空航天大学 一种面向图书市场书名的短文本聚类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368070A (zh) * 2018-12-06 2020-07-03 北京国双科技有限公司 热点事件的确定方法及装置
CN111368070B (zh) * 2018-12-06 2024-06-21 北京国双科技有限公司 热点事件的确定方法及装置
CN110119880A (zh) * 2019-04-12 2019-08-13 平安科技(深圳)有限公司 一种自动评级方法、装置、存储介质及终端设备
CN111611461A (zh) * 2019-05-14 2020-09-01 北京精准沟通传媒科技股份有限公司 一种数据处理方法和装置
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置

Similar Documents

Publication Publication Date Title
CN108153781A (zh) 提取业务领域的关键词的方法和装置
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN103810162B (zh) 推荐网络信息的方法和系统
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN107273391A (zh) 文书推荐方法和装置
CN108230085A (zh) 一种基于用户评论的商品评价系统及方法
CN104298749A (zh) 一种图像视觉和文本语义融合商品检索方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN108228556A (zh) 关键短语提取方法及装置
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN104809252A (zh) 互联网数据提取系统
CN103678710A (zh) 一种基于用户行为的信息推荐方法
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN104102662B (zh) 一种用户兴趣偏好相似度确定方法及装置
CN104834739A (zh) 互联网信息存储系统
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN104462448B (zh) 一种分组名分类方法及装置
CN107784024A (zh) 构建当事人画像的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612

RJ01 Rejection of invention patent application after publication