CN108228556A - 关键短语提取方法及装置 - Google Patents
关键短语提取方法及装置 Download PDFInfo
- Publication number
- CN108228556A CN108228556A CN201611154611.7A CN201611154611A CN108228556A CN 108228556 A CN108228556 A CN 108228556A CN 201611154611 A CN201611154611 A CN 201611154611A CN 108228556 A CN108228556 A CN 108228556A
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- phrase
- candidate phrase
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关键短语提取方法及装置。其中,该方法包括:获取目标文本;从目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;根据每个候选短语中左边词和右边词的相互关系,从若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。本发明解决了相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种关键短语提取方法及装置。
背景技术
目前,现有的关键短语提取方法主要包括如下几种:1、TF-IDF方法:通过计算各词语的TF-IDF值,选取出TF-IDF值较高的词语作为关键词;2、Text Rank方法:利用Text Rank算法对候选词进行图排序,选取排序前n位的词语作为关键词;3、KEA方法:将关键词提取看作对于单个词语的分类问题,选取TF-IDF值、首现位置、短语长度、相关结点数等作为特征,利用贝叶斯模型学习标注好的训练数据,并预测一个词语(或短语词典中存在的词组)是否为关键词或关键短语;4、频繁项挖掘方法:在大批的文本中(大于等于100),通过共现统计,选取共现次数较高的词组作为关键短语。
其中,TF-IDF和Text Rank方法只能抽取单个词作为关键词,而单个词涵盖的信息比较贫乏,不利于充分理解文章大意;KEA方法由于采用了有监督的关键短语识别方法,需要大量人工标注好的语料作为训练数据,耗费人力,并且短语词典对于新数据的适应性较差;频繁项挖掘方法依赖大规模的文本数据,不适用于单篇文本关键短语的提取。综上所述,现有的关键短语提取技术要么只能抽取单个词,要么需要依赖短语词典或者大批量的语料才能提取出关键短语。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种关键短语提取方法及装置,以至少解决相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
根据本发明实施例的一个方面,提供了一种关键短语提取方法,包括:获取目标文本;从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
进一步地,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
进一步地,根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语包括:
获取每个候选短语中左边词和右边词之间的互信息的值;和/或获取每个候选短语中左边词的右熵的值;和/或获取每个候选短语中右边词的左熵的值;根据上述互信息的值、上述左边词的右熵的值以及上述右边词的左熵的值中的至少一项确定每个候选短语的综合值;根据每个候选短语的综合值,从上述若干个候选短语中选出满足第一预设条件的候选短语;从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
进一步地,从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语包括:判断选出的满足上述第一预设条件的候选短语中的每一个是否包含至少一个上述关键词;若是,则将选出的满足上述第一预设条件的候选短语中包含了至少一个上述关键词的候选短语作为关键短语。
进一步地,在根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,上述方法还包括:预先从上述目标文本中提取一个或者多个关键词。
进一步地,预先从上述目标文本中提取一个或者多个关键词包括:从上述目标文本中提取若干个候选关键词;根据反映上述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;根据每个候选关键词的综合值,从上述若干个候选关键词中选出满足第二预设条件的候选关键词作为上述目标文本的关键词。
进一步地,反映上述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
根据本发明实施例的另一方面,还提供了一种关键短语提取装置,包括:获取单元,用于获取目标文本;第一提取单元,用于从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;第二提取单元,用于根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
进一步地,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
进一步地,上述第二提取单元包括:第一获取模块,用于获取每个候选短语中左边词和右边词之间的互信息的值;和/或第二获取模块,用于获取每个候选短语中左边词的右熵的值;和/或第三获取模块,用于获取每个候选短语中右边词的左熵的值;第一确定模块,用于根据上述互信息的值、上述左边词的右熵的值以及上述右边词的左熵的值中的至少一项确定每个候选短语的综合值;第一选择模块,用于根据每个候选短语的综合值,从上述若干个候选短语中选出满足第一预设条件的候选短语;第一提取模块,用于从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
进一步地,上述第一提取模块包括:判断子模块,用于判断选出的满足上述第一预设条件的候选短语中的每一个是否包含至少一个上述关键词;提取子模块,用于在是的情况下,则将选出的满足上述第一预设条件的候选短语中包含了至少一个上述关键词的候选短语作为关键短语。
进一步地,上述装置还包括:第三提取单元,用于在根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,预先从上述目标文本中提取一个或者多个关键词。
进一步地,第三提取单元包括:第二提取模块,用于从上述目标文本中提取若干个候选关键词;第二确定模块,用于根据反映上述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;第二选择模块,用于根据每个候选关键词的综合值,从上述若干个候选关键词中选出满足第二预设条件的候选关键词作为上述目标文本的关键词。
进一步地,反映上述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
在本发明实施例中,采用一种关键短语提取方法,包括:获取目标文本;从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。达到了能够提取出词组作为关键短语的目的,从而实现了不依赖人工标注数据,节省人力的技术效果,进而解决了相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的关键短语提取方法的流程图;
图2是根据本发明实施例的一种可选的文本候选关键词的示意图;
图3是根据本发明实施例的一种可选的关键短语提取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种关键短语选取的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的关键短语选取方法的流程图,如图1所示,该方法包括如下步骤:
S102,获取目标文本;
S104,从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;
S106,根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
也即,在对某一目标文本进行关键短语提取的过程中,首先获取目标文本,然后对该目标文本提取若干个候选短语,候选短语的个数可根据实际情况设定,并且,为了保证候选短语为词组或者短语,避免为单个字,该候选短语至少包括一个左边词和一个右边词,左边词与右边词可以连在一起,也可以不连在一起。在获取若干个候选短语后,根据每个候选短语中左边词和右边词的相互关系,进而选出包含一个或者多个含有关键词的候选短语作为关键短语,达到了结合关键词抽取和短语抽取进行关键短语抽取的效果。
以《银行股强势护盘》为例,本方法首先使用TextRank方法进行关键词抽取(结果如表1所示),然后使用互信息进行候选短语抽取(结果如表1所示),最后结合前述结果抽取包含关键词的候选短语作为关键短语(结果如表1所示)。
表1《银行强势护盘》关键短语抽取过程及结果
通过上述步骤,采用一种关键短语选取方法,包括:获取目标文本;从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中选出一个或者多个含有关键词的候选短语作为关键短语。达到了能够提取出词组作为关键短语的目的,从而实现了不依赖人工标注数据,节省人力的技术效果,进而解决了相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
可选地,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
其中,互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。熵可以视为描述一个随机变量的不确定性的一个度量。需要说明的是,每个候选短语中左边词和右边词的相互关系不限于互信息以及熵,还可以包括其他表示其关系的因素。
可选地,根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语包括:获取每个候选短语中左边词和右边词之间的互信息的值;和/或获取每个候选短语中左边词的右熵的值;和/或获取每个候选短语中右边词的左熵的值;根据上述互信息的值、上述左边词的右熵的值以及上述右边词的左熵的值中的至少一项确定每个候选短语的综合值;根据每个候选短语的综合值,从上述若干个候选短语中选出满足第一预设条件的候选短语;从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
例如,以一个候选短语“XY”进行计算,其互信息的值、左熵的值、右熵的值以及综合值计算方法如下:
(1)互信息,互信息(Mutual Information)是信息论里一种信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。在这里,互信息MI(X,Y)反映了两个词语(词语X与词语Y,大写表示常量)之间的紧密程度,互信息的值MI(X,Y)越大,词语X与词语Y是一个短语的可能性就越大。其计算公式如下:
(2)左熵,表示短语“XY”中词语(Y)左侧任意搭配词语(x,小写表示变量)的丰富程度。左熵的值HL(Y)越大,表示词语Y和左侧特定词X结合成短语的可能性就越小。
(3)右熵,表示短语“XY”中词语(X)右侧任意搭配词语(y,小写表示变量)的丰富程度。右熵越大,表示Y和右侧特定词Y结合成短语的可能性就越小。
综合互信息的值、左右熵的值,我们可知:对于一个候选短语“XY”,其互信息MI(X,Y)的值越大,X的右熵值HR(X)越小(即1/HR(X)越大),Y的左熵值越小(即1/HL(Y)越大),该候选短语XY被确定为短语的可能性就越大,各个候选短语的综合值的计算公式如下:
Score(XY)=MI(X,Y)+1/HR(X)+1/HL(Y)
得到各个候选短语的综合值之后,即可按照综合值的大小优先选择综合值较高且含有关键词的候选短语作为关键短语返回。也就是说,根据每个候选短语的综合值情况,从若干个候选短语中选出满足第一预设条件的候选短语;从选出的满足第一预设条件的候选短语中进一步选出含有关键词的候选短语作为关键短语。第一预设条件可以按照综合值的高低优选得分高的候选短语,当然也可以按照其他的预设条件,例如按照综合值的高低优选得分相近的候选短语。
通过上述方法,对于单篇语料关键短语抽取的适应性比较好,不依赖于单篇文章以外的数据;能够提取出词组作为关键短语。不依赖人工标注数据,节省人力。
可选地,从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语包括:判断选出的满足上述第一预设条件的候选短语中的每一个是否包含至少一个上述关键词;若是,则将选出的满足上述第一预设条件的候选短语中包含了至少一个上述关键词的候选短语作为关键短语。
也即,根据第一预设条件选出的所有候选短语中,需要判断选出的满足第一预设条件的候选短语中,每一个候选短语是否包含预先从目标文本中提取的一个或者多个关键词中的任意一个关键词。在候选短语包含预先从目标文本中提取的一个或者多个关键词中的任意一个关键词的情况下,将该候选短语作为关键短语。
可选地,在从选出的满足第一预设条件的候选短语中进一步选出含有关键词的候选短语作为关键短语之前,方法还包括:预先从目标文本中提取一个或者多个关键词。
也即,通过:预先从目标文本中提取一个或者多个关键词,使得不用每次确定关键短语时都重新提取一次关键词,减轻了系统负担,提高了工作效率。
可选地,预先从上述目标文本中提取一个或者多个关键词包括:从上述目标文本中提取若干个候选关键词;根据反映上述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;根据每个候选关键词的综合值,从上述若干个候选关键词中选出满足第二预设条件的候选关键词作为上述目标文本的关键词。
以TextRank为例,TextRank是一种衍生自Pagerank的文本排序算法,在提取关键词时,它将文本中的每一个候选关键词映射到一张有向图中(是根据本发明实施例的一种可选的文本候选关键词的示意图,如图2所示),其中每一个结点代表候选关键词,结点值代表排序得分,每一条有向边代表候选关键词之间存在上下文关系(比如在文本中最小距离小于5),边的值代表上下文关系的紧密程度(需要说明的是,计算方式可自定义)。在计算候选关键词得分时,TextRank会根据候选关键词之间的邻接关系,计算每个候选关键词的得分,选择Top N的词作为关键词。
可选地,反映各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
以基于TextRank选取候选词组为例,重点考虑词性、标题词、词频大小、词语位置等反映的词语重要性的信息,对上述特征进行了如下分析。
(1)覆盖度:主要反映与某结点的相邻结点的个数,个数越多,越可能是关键词,其分给每个相邻结点的权重就越大。结点vj分给其相邻结点vi的比重如下:
其中,out(vj)表示结点vj的出度(下同),|out(vj)|表示结点vj的出度个数(下同)。
(2)标题词:如果一个词出现在了标题词中,那么它是关键词的可能性就越大。结点分给其相邻结点vi的比重如下:
其中,T(vi)反映了标题词重要性,若vi是标题词,则其初始权重设为λ(λ>1)。
(3)词性:如果一个词的词性是名词、动词或形容词,那么它是关键词的可能性就越大。结点分给其相邻结点vi的比重如下:
其中,P(vi)反映了标题词重要性,若vi词性为名词(n)、动词(v)、形容词(a),则其权重初始为β(β>1)。
(4)词频:如果一个词出现的频率较高,那么它是关键词的可能性就越大。结点分给其相邻结点vi的比重如下:
其中,TF(vi)表示vi出现的次数。
(5)词语位置:如果一个词出现在文章的开头或结尾,那么它是关键词的可能性就越大。结点分给其相邻结点vi的比重如下:
其中,L(vi)反映了词语距离文章中心位置的最大距离,其中middle表示文章的中间位置,即文章长度的一半,first(vi)表示词语vi第一次出现的位置,last(vi)表示词语vi最后一次出现的位置。
L(vi)=max{|middle-first(vi)|,|middle-last(vi)|}
综上,本文得到了参考覆盖度、标题词、词性、词频、位置等特征的权重分配比例。综合考虑以上特征,结点vj分给其相邻结点vi的比重如下:
p(vi,vj)=a*pa(vi,vj)+b*pb(vi,vj)+c*pc(vi,vj)+d*pd(vi,vj)+e*pe(vi,vj)
其中,a+b+c+d+e=1。
则结点vi权重w(vi)的迭代公式如下:
w(vi)=(1-η)+p(vi,vj)*η*w(vj)
其中,η为阻尼系数,作用为避免局部最优化,取值范围(0,1)。
通过上述方法,结合关键词抽取和短语抽取进行关键短语抽取的方法;在关键词抽取中,多种特征融合的方法;以及标题词、词语位置衡量权重的方法;短语抽取中,融合互信息、左右熵进行短语抽取的方法。实现了不依赖人工标注数据,节省人力的技术效果,进而解决了相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
实施例2
根据本发明实施例的另一方面,还提供了一种关键短语提取装置,图3是根据本发明实施例的一种可选的关键短语提取装置的示意图,如图3所示,包括:获取单元20,用于获取目标文本;第一提取单元40,用于从上述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;第二提取单元60,用于根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
通过上述装置,达到了能够提取出词组作为关键短语的目的,从而实现了不依赖人工标注数据,节省人力的技术效果,进而解决了相关技术中需要依赖短语词典或者大批量语料才能提取出关键短语的技术问题。
可选地,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
可选地,上述第二提取单元包括:第一获取模块,用于获取每个候选短语中左边词和右边词之间的互信息的值;和/或第二获取模块,用于获取每个候选短语中左边词的右熵的值;和/或第三获取模块,用于获取每个候选短语中右边词的左熵的值;第一确定模块,用于根据上述互信息的值、上述左边词的右熵的值以及上述右边词的左熵的值中的至少一项确定每个候选短语的综合值;第一选择模块,用于根据每个候选短语的综合值,从上述若干个候选短语中选出满足第一预设条件的候选短语;第一提取模块,用于从选出的满足上述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
可选地,上述第一提取模块包括:判断子模块,用于判断选出的满足上述第一预设条件的候选短语中的每一个是否包含至少一个上述关键词;提取子模块,用于在是的情况下,则将选出的满足上述第一预设条件的候选短语中包含了至少一个上述关键词的候选短语作为关键短语。
可选地,上述装置还包括:第三提取单元,用于在根据每个候选短语中左边词和右边词的相互关系,从上述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,预先从上述目标文本中提取一个或者多个关键词。
可选地,第三提取单元包括:第二提取模块,用于从上述目标文本中提取若干个候选关键词;第二确定模块,用于根据反映上述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;第二选择模块,用于根据每个候选关键词的综合值,从上述若干个候选关键词中选出满足第二预设条件的候选关键词作为上述目标文本的关键词。
可选地,反映上述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
需要说明的是,实施例2中装置部分各实施方式与实施例1中方法部分各实施方式是相对应的,在此不再赘述,详细解释可以参照实施例1中的解释。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种关键短语提取方法,其特征在于,包括:
获取目标文本;
从所述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;
根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
2.根据权利要求1所述的方法,其特征在于,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
3.根据权利要求2所述的方法,其特征在于,根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语包括:
获取每个候选短语中左边词和右边词之间的互信息的值;和/或
获取每个候选短语中左边词的右熵的值;和/或
获取每个候选短语中右边词的左熵的值;
根据所述互信息的值、所述左边词的右熵的值以及所述右边词的左熵的值中的至少一项确定每个候选短语的综合值;
根据每个候选短语的综合值,从所述若干个候选短语中选出满足第一预设条件的候选短语;
从选出的满足所述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
4.根据权利要求3所述的方法,其特征在于,从选出的满足所述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语包括:
判断选出的满足所述第一预设条件的候选短语中的每一个是否包含至少一个所述关键词;
若是,则将选出的满足所述第一预设条件的候选短语中包含了至少一个所述关键词的候选短语作为关键短语。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,所述方法还包括:
预先从所述目标文本中提取一个或者多个关键词。
6.根据权利要求5所述的方法,其特征在于,预先从所述目标文本中提取一个或者多个关键词包括:
从所述目标文本中提取若干个候选关键词;
根据反映所述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;
根据每个候选关键词的综合值,从所述若干个候选关键词中选出满足第二预设条件的候选关键词作为所述目标文本的关键词。
7.根据权利要求6所述的方法,其特征在于,反映所述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
8.一种关键短语提取装置,其特征在于,包括:
获取单元,用于获取目标文本;
第一提取单元,用于从所述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;
第二提取单元,用于根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
9.根据权利要求8所述的装置,其特征在于,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
10.根据权利要求9所述的装置,其特征在于,所述第二提取单元包括:
第一获取模块,用于获取每个候选短语中左边词和右边词之间的互信息的值;和/或
第二获取模块,用于获取每个候选短语中左边词的右熵的值;和/或
第三获取模块,用于获取每个候选短语中右边词的左熵的值;
第一确定模块,用于根据所述互信息的值、所述左边词的右熵的值以及所述右边词的左熵的值中的至少一项确定每个候选短语的综合值;
第一选择模块,用于根据每个候选短语的综合值,从所述若干个候选短语中选出满足第一预设条件的候选短语;
第一提取模块,用于从选出的满足所述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
11.根据权利要求10所述的装置,其特征在于,所述第一提取模块包括:
判断子模块,用于判断选出的满足所述第一预设条件的候选短语中的每一个是否包含至少一个所述关键词;
提取子模块,用于在是的情况下,则将选出的满足所述第一预设条件的候选短语中包含了至少一个所述关键词的候选短语作为关键短语。
12.根据权利要求8至11中任一项所述的装置,其特征在于,所述装置还包括:
第三提取单元,用于在根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,预先从所述目标文本中提取一个或者多个关键词。
13.根据权利要求12所述的装置,其特征在于,第三提取单元包括:
第二提取模块,用于从所述目标文本中提取若干个候选关键词;
第二确定模块,用于根据反映所述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;
第二选择模块,用于根据每个候选关键词的综合值,从所述若干个候选关键词中选出满足第二预设条件的候选关键词作为所述目标文本的关键词。
14.根据权利要求13所述的装置,其特征在于,反映所述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611154611.7A CN108228556A (zh) | 2016-12-14 | 2016-12-14 | 关键短语提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611154611.7A CN108228556A (zh) | 2016-12-14 | 2016-12-14 | 关键短语提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228556A true CN108228556A (zh) | 2018-06-29 |
Family
ID=62650161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611154611.7A Pending CN108228556A (zh) | 2016-12-14 | 2016-12-14 | 关键短语提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228556A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110728136A (zh) * | 2019-10-14 | 2020-01-24 | 延安大学 | 一种融合多因素的textrank关键词提取算法 |
WO2020038253A1 (zh) * | 2018-08-20 | 2020-02-27 | 深圳追一科技有限公司 | 关键词的提取方法、系统和存储介质 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN111222328A (zh) * | 2018-11-26 | 2020-06-02 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
WO2021051595A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于神经网络对文本编码的方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
US10489469B2 (en) * | 2014-10-31 | 2019-11-26 | Marketmuse, Inc. | Systems and methods for semantic keyword analysis for paid search |
-
2016
- 2016-12-14 CN CN201611154611.7A patent/CN108228556A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US10489469B2 (en) * | 2014-10-31 | 2019-11-26 | Marketmuse, Inc. | Systems and methods for semantic keyword analysis for paid search |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
Non-Patent Citations (1)
Title |
---|
STHSF: "基于TextRank的关键词、短语、摘要提取", 《HTTPS://BLOG.CSDN.NET/U013041398/ARTICLE/DETAILS/52473994》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020038253A1 (zh) * | 2018-08-20 | 2020-02-27 | 深圳追一科技有限公司 | 关键词的提取方法、系统和存储介质 |
CN111222328A (zh) * | 2018-11-26 | 2020-06-02 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN111222328B (zh) * | 2018-11-26 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
WO2021051595A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于神经网络对文本编码的方法、装置、设备及存储介质 |
CN110728136A (zh) * | 2019-10-14 | 2020-01-24 | 延安大学 | 一种融合多因素的textrank关键词提取算法 |
CN110929043A (zh) * | 2019-11-28 | 2020-03-27 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
CN110929043B (zh) * | 2019-11-28 | 2023-02-24 | 北京智齿博创科技有限公司 | 业务问题提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228556A (zh) | 关键短语提取方法及装置 | |
Galgani et al. | Combining different summarization techniques for legal text | |
CN103631929B (zh) | 一种用于搜索的智能提示的方法、模块和系统 | |
US20160070803A1 (en) | Conceptual product recommendation | |
CN107578292B (zh) | 一种用户画像构建系统 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN109271518B (zh) | 用于对微博信息进行分类显示的方法和设备 | |
CN106503148B (zh) | 一种基于多知识库的表格实体链接方法 | |
CN104199875B (zh) | 一种搜索推荐方法及装置 | |
CN104063497B (zh) | 观点处理方法和装置以及搜索方法和装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
WO2013163062A1 (en) | Recommending keywords | |
CN109993583B (zh) | 信息推送方法和装置、存储介质及电子装置 | |
CN106156114A (zh) | 专利检索方法和装置 | |
CN110222260A (zh) | 一种搜索方法、装置及存储介质 | |
CN103631769B (zh) | 一种判断文件内容与标题间一致性的方法及装置 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN109388743A (zh) | 语言模型的确定方法和装置 | |
CN107885717A (zh) | 一种关键词提取方法及装置 | |
CN110222172A (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN107832444A (zh) | 基于搜索日志的事件发现方法及装置 | |
CN105159927B (zh) | 目标文本主题词的选取方法、装置及终端 | |
CN109885753A (zh) | 一种扩大商品搜索召回的方法及装置 | |
CN102609424A (zh) | 评价信息抽取方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |