CN106372038A - 关键词的抽取方法及装置 - Google Patents

关键词的抽取方法及装置 Download PDF

Info

Publication number
CN106372038A
CN106372038A CN201510438374.6A CN201510438374A CN106372038A CN 106372038 A CN106372038 A CN 106372038A CN 201510438374 A CN201510438374 A CN 201510438374A CN 106372038 A CN106372038 A CN 106372038A
Authority
CN
China
Prior art keywords
pending
word
text
candidate keywords
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510438374.6A
Other languages
English (en)
Inventor
祁国晟
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510438374.6A priority Critical patent/CN106372038A/zh
Publication of CN106372038A publication Critical patent/CN106372038A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种关键词的抽取方法及装置。其中,该方法包括:获取待处理文本,其中,待处理文本包括多个待处理语句;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。本申请解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。

Description

关键词的抽取方法及装置
技术领域
本申请涉及抽取关键词技术领域,具体而言,涉及一种关键词的抽取方法及装置。
背景技术
关键词抽取是自然语言处理的基础与核心技术,通常对非结构化文本的自动处理,如自动文摘、文本聚类、自动问答等,均需要先进行关键词提取,关键词是表达文本主题意义的最小单位,能够概括文本的主题信息。
通常,抽取关键词的方法是依据文本中对词语的统计信息,计算各词语的权重,抽取关键词。因此,在文本中词语出现次数越多,那么该词成为关键词的可能就越大。在某些需求下,也需要依据文本中各个语句进行关键词抽取。即根据各个词语在语句中出现的频率,抽取关键词。然而根据文本中各个语句进行抽取关键词得到的抽取结果,与根据整个文本进行抽取关键词得到的结果往往是不一致的,即依据输入内容为语句的关键词抽取方法与依据输入内容为文本的关键词抽取方法的抽取结果存在不一致的问题。
针对现有技术中关键词抽取方法的抽取结果存在不一致的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关键词的抽取方法及装置,以至少解决现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
根据本申请实施例的一个方面,提供了一种关键词的抽取方法,该方法包括:获取待处理文本,其中,待处理文本包括多个待处理语句;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。
进一步地,分别获取候选关键词在多个待处理语句中的位置信息包括:获取候选关键词在待处理文本中的位置信息;分别获取多个待处理语句在待处理文本中的位置信息;以及根据候选关键词在待处理文本中的位置信息,与多个待处理语句在待处理文本中的位置信息,分别确定候选关键词在多个待处理语句中的位置信息。
进一步地,获取候选关键词在待处理文本中的位置信息包括:确定候选关键词的长度;确定候选关键词在待处理文本中的开始位置;以及根据候选关键词的长度和候选关键词在待处理文本中的开始位置,确定候选关键词在待处理文本中的位置信息。
进一步地,对待处理文本执行候选关键词抽取,得到候选关键词包括:对待处理文本执行分词处理,得到多个待处理词语;分别统计多个待处理词语在待处理文本中出现的频率;分别获取多个待处理词语在预设文本中的权重值,其中,预设文本中存储在多个待处理词语和多个待处理词语对应的权重值;根据多个待处理词语在待处理文本中出现的频率和多个待处理词语在预设文本中的权重值,分别确定多个待处理词语的第一分数值;根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词;对多个候选词按照第一分数值进行排序处理,得到排序结果;以及根据排序结果,确定候选关键词。
进一步地,在根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词之后,在对多个候选词按照第一分数值进行排序处理之前,该方法还包括:分别确定多个候选词在待处理文本中的位置信息;根据多个候选词在待处理文本中的位置信息,分别确定多个候选词的第二分数值,确定候选关键词包括:根据多个候选词的第一分数值和多个候选词的第二分数值,确定候选关键词。
进一步地,根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,得到目标关键词包括:根据候选关键词在多个待处理语句中的位置信息,判断候选关键词在多个待处理语句中是否存在;如果候选关键词在多个待处理语句中存在,对多个待处理语句执行目标关键词抽取,得到目标关键词;以及如果候选关键词在多个待处理语句中不存在,对多个待处理语句执行目标关键词抽取,返回结果为空。
根据本申请实施例的另一方面,还提供了一种关键词的抽取装置,该装置包括:确定单元,用于获取待处理文本,其中,待处理文本包括多个待处理语句;第一抽取单元,用于对待处理文本执行候选关键词抽取,得到候选关键词;获取单元,用于分别获取候选关键词在多个待处理语句中的位置信息;以及第二抽取单元,用于根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。
进一步地,获取单元包括:第一获取模块,用于获取候选关键词在待处理文本中的位置信息;第二获取模块,用于分别获取多个待处理语句在待处理文本中的位置信息;以及第一确定模块,用于根据候选关键词在待处理文本中的位置信息,与多个待处理语句在待处理文本中的位置信息,分别确定候选关键词在多个待处理语句中的位置信息。
进一步地,第一获取模块包括:第一确定子模块,用于确定候选关键词的长度;第二确定子模块,用于确定候选关键词在待处理文本中的开始位置;以及第三确定子模块,用于根据候选关键词的长度和候选关键词在待处理文本中的开始位置,确定候选关键词在待处理文本中的位置信息。
进一步地,第一抽取单元包括:处理模块,用于对待处理文本执行分词处理,得到多个待处理词语;统计模块,用于分别统计多个待处理词语在待处理文本中出现的频率;第三获取模块,用于分别获取多个待处理词语在预设文本中的权重值,其中,预设文本中存储在多个待处理词语和多个待处理词语对应的权重值;第二确定模块,用于根据多个待处理词语在待处理文本中出现的频率和多个待处理词语在预设文本中的权重值分别确定多个待处理词语的第一分数值;第三确定模块,用于根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词;排序模块,用于对多个候选词按照第一分数值进行排序处理,得到排序结果;以及第四确定模块,用于根据排序结果,确定候选关键词。
在本申请实施例中,采用获取待处理文本;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,得到目标关键词的方式,通过根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,达到了保证依据输入内容为语句的关键词抽取方法与依据输入内容为文本的关键词抽取方法的抽取结果一致性的目的,从而使得依据输入内容为语句的关键词抽取结果更准确和合理的技术效果,进而解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1根据本申请实施例的一种关键词的抽取方法的流程图;以及
图2是根据本申请实施例的一种关键词的抽取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种关键词的抽取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1根据本申请实施例的一种关键词的抽取方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,获取待处理文本。
获取待处理文本。其中,待处理文本包括多个待处理语句。在获取待处理文本之前,可以根据执行主体所接收的内容为语句的待处理语句,根据待处理语句获取待处理文本,需要说明的是,本申请实施例中的语句就是待处理文本中的句子。
步骤S104,对待处理文本执行候选关键词抽取,得到候选关键词。
对待处理文本执行候选关键词抽取,得到候选关键词。在待处理文本中获取候选关键词的方式有很多。
优选地,首先,可以通过对待处理文本执行分词处理,得到多个待处理词语;其次,分别统计多个待处理词语在待处理文本中出现的频率;再其次,分别获取多个待处理词语在预设文本中的权重值,其中,预设文本中存储在多个待处理词语和多个待处理词语对应的权重值;然后,根据多个待处理词语在待处理文本中出现的频率和多个待处理词语在预设文本中的权重值分别确定多个待处理词语的第一分数值;根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词;最后,对多个候选词按照第一分数值进行排序处理,得到排序结果;以及根据排序结果,确定候选关键词。
为了提高关键词抽取的准确率,在根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词之后,在对多个候选词按照第一分数值进行排序处理之前,该方法还包括:分别确定多个候选词在待处理文本中的位置信息;根据多个候选词在待处理文本中的位置信息,分别确定多个候选词的第二分数值,确定候选关键词包括:根据多个候选词的第一分数值和多个候选词的第二分数值,确定候选关键词。
通过上述步骤,在待处理文本中获取到候选关键词。
需要说明的是,上述的候选关键词为一个或多个关键词,依据用户设定抽取的关键词个数而定。
例如,输入一篇待处理文本。对该待处理文本进行中文分词,得到数组[w1,w2,w3,…,wn],其中,w1、w2,…,wn为待处理文本中的各个词语。对各个词语进行频数统计,得到数组[(w1,tf1),(w2,tf2),…,(wn,tfn)],其中,tf1、tf2,…,tfn为各个词语在待处理文本中出现的次数。查询预设文本,得到各个词语的idf权重,得到[(w1,idf1),(w2,idf2),…,(wn,idfn)],其中,预设文本是预先通过大规模的语言资料训练得到的,训练过程统计语言资料语料中所有出现的词语,并统计词语在语言资料中出现的频数,idf1、idf2…idfn为各个词语在预设文本中的idf权重值。通过tfidf公式对数组[(w1,tf1),(w2,tf2),…,(wn,tfn)]与数据[(w1,idf1),(w2,idf2),…,(wn,idfn)]进行计算,得到各个词语在待处理文本中的得分[(w1,tfidf1),(w2,tfidf2)…(wn,tfidfn)],对各个词语在中的得分由高到底进行排序,根据排序结果获取待处理文本中关键词的候选词。
对待处理文本中候选词进行基于其它模型(或称作考虑其它因素的影响)的得分计算,需要说明的是,其它模型并不是必须的,但是加入其它模型的影响可以提高关键词抽取的准确率。通常,其它模型包括词在文章中的位置信息、词语在文章中的词性信息、有双引号等特殊符号标引的信息等等。
对候选词得分和候选词经过其它模型影响的得分进行综合,并进行排序,得到排名靠前的k个候选词,作为待处理文本中抽取出来的k个候选关键词[kw1,kw2,…,kwk]。
步骤S106,分别获取候选关键词在多个待处理语句中的位置信息。
分别获取候选关键词在多个待处理语句中的位置信息有多种方式,优选地,通过获取候选关键词在待处理文本中的位置信息;分别获取多个待处理语句在待处理文本中的位置信息;以及根据候选关键词在待处理文本中的位置信息与多个待处理语句在待处理文本中的位置信息,分别确定候选关键词在多个待处理语句中的位置信息。
通常,被抽取的候选关键词在待处理文本中不止出现一次,在获得待处理文本中的k个候选关键词以后,需要分别统计这k个候选关键词每一次在待处理文本中出现的位置信息,其中,位置信息可以由词语在待处理文本中的开始位置和结束位置进行标引,也可以由词语在待处理文本中的开始位置和词语长度进行标引,因为词语的长度是词语本身的一个属性,因此,简便起见,我们此处对词语的开始位置和词语长度进行标引,并简略的,只记录词语在待处理文本中的开始位置即可。即,假设各个词在文档中出现的次数分别为[f1,f2…fk],那么一共需要记录的候选关键词和位置信息则共有F=∑(f1,f2…fk)个。
可选地,在本申请实施例提供的候选关键词的抽取方法中,获取候选关键词在待处理文本中的位置信息包括:确定候选关键词的长度;确定候选关键词在待处理文本中的开始位置;以及根据候选关键词的长度和候选关键词在待处理文本中的开始位置确定候选关键词在待处理文本中的位置信息。
需要说明的是,在分别获取候选关键词在多个待处理语句中的位置信息之前,需要对待处理文本进行中文分句,并获得句子列表以及句子对于待处理文本的位置信息。中文分句的方法有比较多种,此处的句子级别是同样可以应用在自然语言处理其他任务中。通常,中文分句的方法和自然语言处理其他任务需要的句子方法一致即可。也就是,任务需要定义什么样的依据称为一个句子,那么就对包括关键词抽取和其他任务在内的所有任务均采用相同的依据进行分割即可。
简单起见,此处认为中文语言规范定义的句子标准是中文分句的依据,即结尾包括“。”、“?”、“!”、“……”等标点符号时,可表示为一句话的结束,因此可以通过判断结尾是上述符号的方式进行中文分句。需要指出的是,中文分句不局限于这种方式,也不局限于必须由上述4个符号判断等。在通过依据对待处理文本进行分句后,同样地,需要记录每一个分句对于整个待处理文本的位置信息,为保证一致性,和词语一样,只记录起始位置信息即可。
此外,只记录起始位置信息还有另外一个原因,是无论词语还是分句,对于整个待处理文本而言都是不重叠的,即不会存在分句与分句之间相互重叠的词出现,这种条件也使得只记录起始位置看上去是合理的。
具体地,经过上述步骤S102和步骤S104,已获取到待处理文本中的候选关键词和候选关键词对于待处理文本的位置信息,以及待处理文本中的待处理语句和每一个待处理语句对于待处理文本的位置信息。由于所有的位置信息都是对于待处理文本而言的,因此,候选关键词和待处理语句的这些位置信息是可匹配的,并且,匹配这些位置是为了获得候选关键词在待处理文本中的位置。
具体步骤如下:步骤1,遍历候选关键词列表中的每一个词,取得该候选关键词的位置信息(以下简化表示为:wordPosition);
步骤2,遍历待处理文本中的每一个待处理语句,取得该待处理语句的位置信息(以下简化表示为:SentencePosition);
步骤3,判断是否SentencePosition<wordPosition;
如果返回结果为否,则表示候选关键词的开始位置在待处理语句的开始位置之前,那么候选关键词还不属于当前待处理语句,需要继续检查下一个待处理语句,返回步骤2得到下一个待处理语句;
如果返回结果为是,则表示候选关键词的开始位置已经在待处理语句的开始位置之后,则候选关键词属于当前待处理语句,跳出里层遍历,并执行获得候选关键词对于待处理语句的位置信息步骤4;
步骤4,获得候选关键词对于待处理语句的位置信息(以下简化表示为:wordPositionOfSentence),即:wordPositionOfSentence=wordPosition-SentencePosition。
通过以上步骤,分别获取到候选关键词在多个待处理语句中的位置信息。
步骤S108,根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。
根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,得到目标关键词包括:根据候选关键词在多个待处理语句中的位置信息判断候选关键词在多个待处理语句中是否存在;如果候选关键词在多个待处理语句中存在,对多个待处理语句执行目标关键词抽取,得到目标关键词;以及如果候选关键词在多个待处理语句中不存在,对多个待处理语句执行目标关键词抽取,返回结果为空。
根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,可以得到每一个待处理语句中的目标关键词,并且,这些目标关键词与对待处理文本直接抽取目标关键词的计算结果一致。对于一些待处理语句,可能待处理语句内部不包括任何目标关键词,这个是合理的,因为有一些待处理语句本身并不重要的这一假设是符合实际的。
例如,待处理语句为:“欢迎大家来到北京。北京有许多著名的旅游景点,旅游景点有故宫、长城、颐和园和天安门等等。”根据待处理语句确定的待处理文本,对待处理文本提取出的候选关键词为“北京”、“景点”。获取到“北京”、“景点”在待处理语句中的位置信息,对待处理语句进行目标关键词提取时,根据“北京”、“景点”在待处理语句中的位置信息进行提取目标关键词,如,第一句:欢迎大家来到北京中存在候选关键词“北京”,提取“北京”作为基于句子级别进行关键词提取的目标关键词。第二句:北京有许多著名的旅游景点存在候选关键词:“北京”和“景点”。将“北京”和“景点”作为基于句子级别进行关键词提取的目标关键词。第三句:例如,故宫、长城、颐和园和天安门等等中不存在候选关键词,返回结果为空。由于通过上述基于句子级别进行关键词提取的目标关键词与候选关键词是相同的。因此,在本实施例提供的关键词抽取方法中,保证了依据输入内容为语句的关键词抽取方法与依据输入内容为文本的关键词抽取方法的抽取结果是一致性。从而使得依据输入内容为语句的关键词抽取结果更准确和合理的技术效果,进而解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
另外,当需要对关键词进行一些操作时,例如,进行高亮处理。在本实施例提供的关键词抽取方法中,由于获取了关键词在多个待处理语句中的位置信息,可以快速的根据关键词所在位置进行处理,因而提升了对关键词的处理速度。
在本申请实施例提供的关键词的抽取方法中,通过获取待处理文本,其中,待处理文本包括多个待处理语句;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词,达到了保证依据输入内容为语句的关键词抽取方法与依据输入内容为文本的关键词抽取方法的抽取结果一致性的目的,从而使得依据输入内容为语句的关键词抽取结果更准确和合理的技术效果,进而解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
本申请实施例还提供了一种关键词的抽取装置,需要说明的是,本申请实施例的关键词的抽取装置可以用于执行本申请实施例所提供的用于关键词的抽取方法。以下对本申请实施例提供的关键词的抽取装置进行介绍。
图2是根据本申请实施例的一种关键词的抽取装置的示意图。如图2所示,该装置包括:确定单元10、第一抽取单元20、获取单元30和第二抽取单元40。
确定单元10,用于获取待处理文本,其中,待处理文本包括多个待处理语句。
第一抽取单元20,用于对待处理文本执行候选关键词抽取,得到候选关键词。
获取单元30,用于分别获取候选关键词在多个待处理语句中的位置信息。
第二抽取单元40,用于根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。
优选地,为了准确的获取候选关键词在多个待处理语句中的位置信息,在本申请实施例提供的关键词的抽取装置中,获取单元30还包括:第一获取模块,用于获取候选关键词在待处理文本中的位置信息;第二获取模块,用于分别获取多个待处理语句在待处理文本中的位置信息;以及第一确定模块,用于根据候选关键词在待处理文本中的位置信息,与多个待处理语句在待处理文本中的位置信息,分别确定候选关键词在多个待处理语句中的位置信息。
具体地,第一获取模块还包括:第一确定子模块,用于确定候选关键词的长度;第二确定子模块,用于确定候选关键词在待处理文本中的开始位置;以及第三确定子模块,用于根据候选关键词的长度和候选关键词在待处理文本中的开始位置,确定候选关键词在待处理文本中的位置信息。
优选地,为了准确的在待处理文本抽取候选关键词,在本申请实施例提供的关键词的抽取装置中,第一抽取单元20还包括:处理模块,用于对待处理文本执行分词处理,得到多个待处理词语;统计模块,用于分别统计多个待处理词语在待处理文本中出现的频率;第三获取模块,用于分别获取多个待处理词语在预设文本中的权重值,其中,预设文本中存储在多个待处理词语和多个待处理词语对应的权重值;第二确定模块,用于根据多个待处理词语在待处理文本中出现的频率和多个待处理词语在预设文本中的权重值分别确定多个待处理词语的第一分数值;第三确定模块,用于根据多个待处理词语的第一分数值,获取待处理文本中关键词的多个候选词;排序模块,用于对多个候选词按照第一分数值进行排序处理,得到排序结果;以及第四确定模块,用于根据排序结果,确定候选关键词。
在本申请实施例提供的关键词的抽取装置中,通过确定单元10获取待处理文本,其中,待处理文本包括多个待处理语句,第一抽取单元20对待处理文本执行候选关键词抽取,得到候选关键词,获取单元30分别获取候选关键词在多个待处理语句中的位置信息,第二抽取单元40根据候选关键词在多个待处理语句中的位置信息对多个待处理语句执行目标关键词抽取,得到目标关键词,达到了保证依据输入内容为语句的关键词抽取方法与依据输入内容为文本的关键词抽取方法的抽取结果一致性的目的,从而使得依据输入内容为语句的关键词抽取结果更准确和合理的技术效果,进而解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种关键词的抽取方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本包括多个待处理语句;
对所述待处理文本执行候选关键词抽取,得到候选关键词;
分别获取所述候选关键词在所述多个待处理语句中的位置信息;以及
根据所述候选关键词在所述多个待处理语句中的位置信息,对所述多个待处理语句执行目标关键词抽取,得到目标关键词。
2.根据权利要求1所述的方法,其特征在于,分别获取所述候选关键词在所述多个待处理语句中的位置信息包括:
获取所述候选关键词在所述待处理文本中的位置信息;
分别获取所述多个待处理语句在所述待处理文本中的位置信息;以及
根据所述候选关键词在所述待处理文本中的位置信息,与所述多个待处理语句在所述待处理文本中的位置信息,分别确定所述候选关键词在所述多个待处理语句中的位置信息。
3.根据权利要求2所述的方法,其特征在于,获取所述候选关键词在所述待处理文本中的位置信息包括:
确定所述候选关键词的长度;
确定所述候选关键词在所述待处理文本中的开始位置;以及
根据所述候选关键词的长度和所述候选关键词在所述待处理文本中的开始位置,确定所述候选关键词在所述待处理文本中的位置信息。
4.根据权利要求1所述的方法,其特征在于,对所述待处理文本执行候选关键词抽取,得到候选关键词包括:
对所述待处理文本执行分词处理,得到多个待处理词语;
分别统计所述多个待处理词语在所述待处理文本中出现的频率;
分别获取所述多个待处理词语在预设文本中的权重值,其中,所述预设文本中存储在所述多个待处理词语和所述多个待处理词语对应的权重值;
根据所述多个待处理词语在所述待处理文本中出现的频率和所述多个待处理词语在预设文本中的权重值,分别确定所述多个待处理词语的第一分数值;
根据所述多个待处理词语的第一分数值,确定所述待处理文本中关键词的多个候选词;
对所述多个候选词按照所述第一分数值进行排序处理,得到排序结果;以及
根据所述排序结果,确定所述候选关键词。
5.根据权利要求4所述的方法,其特征在于,在根据所述多个待处理词语的第一分数值,确定所述待处理文本中关键词的多个候选词之后,在对所述多个候选词按照所述第一分数值进行排序处理之前,所述方法还包括:
分别确定所述多个候选词在所述待处理文本中的位置信息;
根据所述多个候选词在所述待处理文本中的位置信息,分别确定所述多个候选词的第二分数值,
确定所述候选关键词包括:
根据所述多个候选词的第一分数值和所述多个候选词的第二分数值,确定所述候选关键词。
6.根据权利要求1所述的方法,其特征在于,根据所述候选关键词在所述多个待处理语句中的位置信息,对所述多个待处理语句执行目标关键词抽取,得到目标关键词包括:
根据所述候选关键词在所述多个待处理语句中的位置信息,判断所述候选关键词在所述多个待处理语句中是否存在;
如果所述候选关键词在所述多个待处理语句中存在,对所述多个待处理语句执行目标关键词抽取,得到所述目标关键词;以及
如果所述候选关键词在所述多个待处理语句中不存在,对所述多个待处理语句执行目标关键词抽取,返回结果为空。
7.一种关键词的抽取装置,其特征在于,包括:
确定单元,用于获取待处理文本,其中,所述待处理文本包括多个待处理语句;
第一抽取单元,用于对所述待处理文本执行候选关键词抽取,得到候选关键词;
获取单元,用于分别获取所述候选关键词在所述多个待处理语句中的位置信息;以及
第二抽取单元,用于根据所述候选关键词在所述多个待处理语句中的位置信息,对所述多个待处理语句执行目标关键词抽取,得到目标关键词。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
第一获取模块,用于获取所述候选关键词在所述待处理文本中的位置信息;
第二获取模块,用于分别获取所述多个待处理语句在所述待处理文本中的位置信息;以及
第一确定模块,用于根据所述候选关键词在所述待处理文本中的位置信息,与所述多个待处理语句在所述待处理文本中的位置信息,分别确定所述候选关键词在所述多个待处理语句中的位置信息。
9.根据权利要求8所述的装置,其特征在于,所述第一获取模块包括:
第一确定子模块,用于确定所述候选关键词的长度;
第二确定子模块,用于确定所述候选关键词在所述待处理文本中的开始位置;以及
第三确定子模块,用于根据所述候选关键词的长度和所述候选关键词在所述待处理文本中的开始位置,确定所述候选关键词在所述待处理文本中的位置信息。
10.根据权利要求7所述的装置,其特征在于,所述第一抽取单元包括:
处理模块,用于对所述待处理文本执行分词处理,得到多个待处理词语;
统计模块,用于分别统计所述多个待处理词语在所述待处理文本中出现的频率;
第三获取模块,用于分别获取所述多个待处理词语在预设文本中的权重值,其中,所述预设文本中存储在所述多个待处理词语和所述多个待处理词语对应的权重值;
第二确定模块,用于根据所述多个待处理词语在所述待处理文本中出现的频率和所述多个待处理词语在预设文本中的权重值分别确定所述多个待处理词语的第一分数值;
第三确定模块,用于根据所述多个待处理词语的第一分数值,确定所述待处理文本中关键词的多个候选词;
排序模块,用于对所述多个候选词按照所述第一分数值进行排序处理,得到排序结果;以及
第四确定模块,用于根据所述排序结果,确定所述候选关键词。
CN201510438374.6A 2015-07-23 2015-07-23 关键词的抽取方法及装置 Pending CN106372038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510438374.6A CN106372038A (zh) 2015-07-23 2015-07-23 关键词的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510438374.6A CN106372038A (zh) 2015-07-23 2015-07-23 关键词的抽取方法及装置

Publications (1)

Publication Number Publication Date
CN106372038A true CN106372038A (zh) 2017-02-01

Family

ID=57879863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510438374.6A Pending CN106372038A (zh) 2015-07-23 2015-07-23 关键词的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106372038A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111400451A (zh) * 2020-03-16 2020-07-10 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111522932A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
US20100205200A1 (en) * 2009-02-06 2010-08-12 Institute For Information Industry Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103778215A (zh) * 2014-01-17 2014-05-07 北京理工大学 一种基于情感分析和隐马尔科夫模型融合的股市预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
US20100205200A1 (en) * 2009-02-06 2010-08-12 Institute For Information Industry Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103778215A (zh) * 2014-01-17 2014-05-07 北京理工大学 一种基于情感分析和隐马尔科夫模型融合的股市预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111400451A (zh) * 2020-03-16 2020-07-10 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111444712B (zh) * 2020-03-25 2022-08-30 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111522932A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质
CN111522932B (zh) * 2020-04-23 2023-05-16 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107204184B (zh) 语音识别方法及系统
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN103399901B (zh) 一种关键词抽取方法
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN107220300B (zh) 信息挖掘方法、电子装置及可读存储介质
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN106886567B (zh) 基于语义扩展的微博突发事件检测方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN106372038A (zh) 关键词的抽取方法及装置
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN104008126A (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106951530B (zh) 一种事件类型抽取方法和装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
JP4737435B2 (ja) ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
CN111930793A (zh) 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201

RJ01 Rejection of invention patent application after publication