CN102779119A - 一种抽取关键词的方法及装置 - Google Patents

一种抽取关键词的方法及装置 Download PDF

Info

Publication number
CN102779119A
CN102779119A CN2012102125746A CN201210212574A CN102779119A CN 102779119 A CN102779119 A CN 102779119A CN 2012102125746 A CN2012102125746 A CN 2012102125746A CN 201210212574 A CN201210212574 A CN 201210212574A CN 102779119 A CN102779119 A CN 102779119A
Authority
CN
China
Prior art keywords
word
words
node
text
semantic similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102125746A
Other languages
English (en)
Other versions
CN102779119B (zh
Inventor
翟周伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINASO INFORMATION TECHNOLOGY CO., LTD.
Original Assignee
PANGU CULTURE COMMUNICATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PANGU CULTURE COMMUNICATION CO Ltd filed Critical PANGU CULTURE COMMUNICATION CO Ltd
Priority to CN201210212574.6A priority Critical patent/CN102779119B/zh
Publication of CN102779119A publication Critical patent/CN102779119A/zh
Application granted granted Critical
Publication of CN102779119B publication Critical patent/CN102779119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种抽取关键词的方法及装置,涉及自然语言处理领域,可以提高确定的关键词的准确率。本发明实施了提供的方案,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。本发明实施了提供的方案适于抽取关键词时采用。

Description

一种抽取关键词的方法及装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种抽取关键词的方法及装置。
背景技术
目前,通常根据统计学方法对文本进行关键词抽取时,根据对关键词有重要影响的因子进行统计计算,然后对统计结果进行排序并确定候选关键词集合。
例如,可以采用包括词频以及TF-IDF(term frequency-inverse documentfrequency,词频-倒文档频率)等特征统计信息。采用基于词频抽取关键词时,根据某个词的词频越高,则该词是关键词的概率越大的规则进行抽取关键词。首先统计文本中各个词的词频,然后对统计的词频进行排序,确定词频最高的若干个词为该文本的关键词。基于TF-IDF抽取关键词时,通过统计计算每一个词的TF-IDF来确定关键词。TF-IDF指某个词或短语在一篇文章中出现的频率高,并且在其他文章中出现的频率低,则认为该词或者短语具有很好的类别区分能力,则确定此词或者短语为关键词。
然而,采用现有技术抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低。
发明内容
本发明的实施例提供一种抽取关键词的方法及装置,可以提高确定的关键词的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种抽取关键词的方法,包括:
获取文本经过词法分析以及预处理后的词语集合;
根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述各个词语的综合测度确定关键词。
一种抽取关键词的装置,包括:
获取单元,用于获取文本经过词法分析以及预处理后的词语集合;
第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
本发明实施例提供一种抽取关键词的方法及装置,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。与现有技术中抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低相比,本发明实施例提供的方法根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,从而可以提高确定的关键词的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种抽取关键词的方法的流程图;
图2为本发明实施例2提供的另一种抽取关键词的方法的流程图;
图3为本发明实施例2提供的语义相似度图示意图;
图4为本发明实施例2提供的区域位置因子权值表;
图5为本发明实施例3提供的一种抽取关键词的装置的框图;
图6为本发明实施例3提供的另一种抽取关键词的装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种抽取关键词的方法,如图1所示,该方法包括:
步骤1 01,获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
步骤102,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
可选的,根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;
确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
步骤103,根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;其中,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;
根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
步骤104,根据所述各个词语的综合测度确定关键词。
可选的,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
本发明实施例提供一种抽取关键词的方法,通过根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,并根据语义相似度确定关键词,从而可以提高确定的关键词的准确率。
实施例2
本发明实施例提供一种抽取关键词的方法,如图2所示,该方法包括:
步骤201,获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
步骤202,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
可选的,根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;
其中,每一个不同概念、意义、事物的叙述内容称为义项,例如,词语“飞行员”的义项可以表示为:人,职位,驾驶,飞行器这个几个义项,这几个义项共同来描述词语飞行员。
根据语义知识管理系统,确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;其中,语义知识管理系统可以为知网,知网为研究英语和汉语词汇所表达的概念的一种语义知识管理系统。
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;即既在知网中出现又在文本中出现的义项为目标义项集合,还可以称为语义词,这样本实施例可以根据具体的语言环境来计算词语的语义相似度,与现有技术中仅基于词语得到的语义相似度相比,本实施例确定的语义相似度较准确。
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
例如,设文本中包含的第一义项集合为D={s1,s2,...si...},其中,si表示文本义项集合中第i个义项;
文本中的任意两个词语为w1,w2,w1在知网中的词语义项集和为W1={s11s12,...s1i...},w2在知网中的词语义项集和为W2={s21,s22,...s2i...},则w1,w2的目标义项集合分别为:CD1=D∩W1={C11,C12,...C1i...},CD2=D∩W2={{C11,C12,...C1j...}},其中,s1i表示第一个词语w1在词语义项集合中第i个义项,s2i表示第二个词语w2在词语义项集合中第i个义项,C1i表示第一个词语w1在目标义项集合中第i个义项,其中,i=1,2,...n,C2j表示第二个词语w2目标义项集合中第j个义项,其中j=1,2,...m。
根据
Figure BDA00001799605100061
确定w1,w2的语义相似度。
步骤203,根据所述词语集合中任意两个词语的语义相似度,生成文本的语义相似度图;
进一步的,根据以下两个原则生成文本的语义相似度图:1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;其中,语义相似度阈值可以为大于等于0小于等于1的值,通过调节语义相似度阈值可以构造出更能体现文本特征的语义相似图。
2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;需要说明的是,此时删除第三节点或者第四节点中的一个,而不是全部删除。
如图3所示,当语义相似度阈值为0.02时一篇中文文档的语义相似图,其中节点的序号代表词语的序号。
步骤204,将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
从图3可以看出,语义相似度图中分为多个聚集在一起形成的意群社团,例如,图3中词语节点55、词语节点67、词语节点60、词语节点61、词语节点52、词语节点35、词语节点49、词语节点65可以组成一个意群社团。复杂网络现象也存在于人类语言当中,人类的语言网络既不是完全随机的,也不是完全规则的,而是具备“小世界”特性的复杂网络,即语言网络在全局上显示出高度的连接性,而同时局部具有高度的聚集性。通常作者在写文章时趋向于逐个描述主题,然后结合这些主题来表达一种观点,而作者在表达一种观点时往往用意义相近的词语来描述。语义相似度图是依据词语语义相似度构建的图,因此相近的词语聚集在一起形成一个相对的意群社团,这些意群社团为语义相近的一组词语,意群社团之间代表不同的主题。
本发明将利用复杂网络理论的社团结构分析算法来分析出语义相似度图的社团结构,不同的意群社团代表不同的意群主题,每个意群社团同时都可以通过数个关键词来表述主题。
可选的,社团结构分析算法有两种:凝聚方法和分裂方法,本发明实施例采用分裂方法中的GN算法来分析语义相似度图,具体的:
(1)计算语义相似度图中所有边的介数,边介数为语义相似度图中经过每条边的最短路径的数目;
(2)确定介数最高的边,并将其从语义相似度图中移除,
(3)重复步骤(2),直到每个节点存在于一个意群社团中。
需要说明的是,通过来衡量划分的意群社团的程度。例如,需要将语义相似度图划分为k个意群社团,那么定义一个k*k维的对称矩阵E=(eij),元素eij表示语义相似度图中连接两个不同意群社团的边在所有边中所占的比例。节点分别位于第i个意群社团和第j个意群社团。ai定义为每行或者每列中各个元素之和。Q的取值在0-1之间,Q越接近1则说明语义相似度图的社团结构越明显。
在上述步骤(3)中,每重复步骤(2)一次就计算Q值,直到Q值最大时就停止计算,此时得到的社团结构就是我们需要的语义相似度图的意群社团结构。
步骤205,确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个,并根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
本步骤针对每个意群社团中的每一个词语节点计算综合测度,与现有技术中针对预处理后的每个词语进行综合测度计算,计算量较大相比,本实施例可以降低计算量,并且以此方法确定的关键词较准确。
可选的,通过
Figure BDA00001799605100081
确定意群社团的社团因子权值,其中,Nm是意群社团m中包括的词语数量,L(Gm)是社团m的平均路径长度。λ为调节系数,一般取值为1;
可选的,根据
Figure BDA00001799605100082
计算平均路径长度,并根据|L(Gi)-L(G)|计算平均路径变化量;其中,L(G)表示词语节点i与词语节点j的平均路径长度,N表示节点i与节点j所在的意群社团中词语节点的数目,dij表示词语节点i与词语节点j之间的路径长度,L(Gi)表示包含词语节点i的平均路径长度,L(G)表示不包含词语节点的i平均路径长度。
需要说明的是,根据词语节点i与词语节点j之间的词语节点数目确定路径长度,例如词语节点i与词语节点j之间有一个词语节点,则词语节点i与词语节点j之间的路径长度为2,词语节点i与词语节点j之间没有别的词语节点,则词语节点i与词语节点j之间的路径长度为1。
可选的,根据计算聚类系数,并根据
Figure BDA00001799605100084
计算聚类系数变化量,其中,Ci表示词语节点i的聚类系数,ki表示与词语节点i相连接的其他词语节点数目,Ei表示词语节点i与ki个词语节点之间实际存在边的数目。例如,在语义相似度图中,对于词语节点i,其通过ki条边和其他ki个词语节点相连接,则词语节点i与ki个词语节点之间实际存在边的数目为Ei
Figure BDA00001799605100091
表示包含词语节点i的平均聚类系数,
Figure BDA00001799605100092
表示不包括词语节点i的平均聚类系数。
整个语义相似度图的聚类系数就是所有词语节点的聚类系数的平均值,则C的取值范围为[0,1],其中,C=0表示当且仅当所有词语节点均为孤立词语节点,C=1表示当且仅当语义相似度图为全局耦合,即语义相似度图中两两词语节点之间都连接。对于一个具有N个节点的完全随机图,当N很大时,C=O(N-1),而许多大规模的实际网络都具有明显的聚类效应,其聚类系数远小于1但却比O(N-1)大得多。
可选的,词语节点的度为一个词语节点连接的边的个数。这是图论中用于衡量节点和别的节点关系的一个参数,一般度越大则这个词语和别的词语之间越密切,则这个词语越重要。例如,一个词语节点与5条边相连接,则此词语节点的度为5。
可选的,根据
Figure BDA00001799605100093
计算词语节点i的词频-倒文档频率;其中,fredid是词语i在文档di中出现的次数,MaxFredd是文档di中出现次数最多的词语的次数,N为文本中文档的数目,ni是包含词语i的文档数目。需要说明的是,在信息检索中,一个词语对于表达文本特征的重要性取决于两个方面,一是这个词语在本篇文档中出现的次数,另一个因子就是倒文档频率,这个词语在别的文档中频率越小越重要。
可选的,根据
Figure BDA00001799605100094
计算词语节点i的位置pos权值,其中,posi表示词语节点出现的区域位置,n为词语在区域位置范围中出现的次数。区域因子的posi权值如图4所示,当词语i在标题中,则其pos权值为5,当词语i在摘要中,则其pos权值为3,当词语i在结论中,则其pos权值为2,当词语i在参考文献中,则其pos权值为1,当词语i在正文中,则其pos权值为0,图4表明词语位置不同,对抽取关键词的重要性则不同。pos权值越大,说明词语的重要性越大,pos权值越小,说明词语的重要性越小。
例如,一个词语在标题、摘要中出现,并且出现的次数均为1次,则此词语的pos权值为8。
可选的,可以根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
优选的,根据上述确定的全部综合测度参数,计算意群社团中的各个词语的综合测度,具体的,根据
CF = β [ a | L ( G i ) - L ( G ) | + b | Σ C i N - Σ j ≠ i C j N - 1 | + c | D i N | + dTFIDF + e pos N ] 计算词语节点i的综合测度;
其中,a,b,c,d,e为调节系数,其中,a+b+c+d+e=1,可以通过经验调节这五个系数;
|L(Gi)-L(G)|表示词语i对意群社团的贡献值,此值越大说明词语i对文本越重要。
Figure BDA00001799605100102
说明了词语节点i的出现对词汇网络的聚类特性的贡献值,它是从局部范围内衡量词语的重要性。
需要说明的是,在本步骤执行之前还需要判断每一个意群社团是否具有小世界特征,具体的,判断意群社团是否具有小世界特性主要是看意群社团的平均路径和聚类系数是否在一个合理的取值范围上并且满足特定的关系或约束,这个取值范围随文档规模的不同而动态变化的。如果当前意群社团具有小世界特征,则按照本步骤进行计算,得到意群社团中每个词语的综合测度;如果当前意群社团不具有小世界特征,则将a,b赋值为0,再进一步计算意群社团中每个词语的综合测度。
步骤206,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将(vi,CF)加入到词语节点i所在的意群社团的第一候选关键词集合中,将第一候选关键词集合中的各个词语的综合测度进行排序,例如按综合测度从大到小的顺序排列,或者按综合测度从小到大的顺序排列,然后取综合测度最大的前p%个元素组成有效的候选关键词集合加入到候选关键词集中,其中,p的取值可以根据用户需要进行设置。
步骤207,将所述候选关键词进行复合,获得所述文本的关键词。
可选的,根据以下原则结合词性,相邻位置以及词性搭配原则来从候选关键词集合中形成复合关键词,并最终形成文本关键词。具体原则为:以连词、介词、助词为开头或者结束的词语不与合并;根据词性搭配原则以及是否在原文中相邻合并候选关键词。
本发明实施例提供一种抽取关键词的方法,通过根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度,并根据多种综合测度衡量词语的重要性,从而提高抽取的关键词的准确率和召回率,并且能体现文本的语义。
实施例3
本发明实施例提供一种抽取关键词的的装置,如图5所示,该装置包括:获取单元501,第一处理单元502,第二处理单元503,关键词确定单元504;
获取单元501,用于获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
第一处理单元5 02,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,第二处理单元503计算所述词语集合中的各个词语的综合测度;
关键词确定单元504,用于根据所述各个词语的综合测度确定关键词。
进一步的,如图6所示,所述第一处理单元5 02包括:第一确定模块5021,第二确定模块5022,确定目标义项集合模块5023,确定语义相似度模块5024;
第一确定模块5021,用于根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;
第二确定模块5022,用于,确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;例如,语义知识管理系统可以为知网;
根据所述文本义项集合和所述词语义项集合的交集,确定目标义项集合模块5023,用于得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定语义相似度模块5024,用于确定所述词语集合中任意两个词语的语义相似度。
进一步的,如图6所示,所述第二处理单元503包括:生成模块5031,划分模块5032,确定模块5033,计算综合测度模块5034;
根据所述词语集合中任意两个词语的语义相似度,生成模块5031,用于生成所述文本的语义相似度图;
进一步的,所述生成模块5031中的边确定模块50311,用于当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
所述生成模块5031中的合并模块50312,用于当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;根据所述边确定模块50311和所述合并模块50312生成所述文本的语义相似度图;
划分模块5032,用于将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定模块5033,用于确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;
所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
计算综合测度模块5034,用于根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。优选的,根据确定的全部所述综合测度参数计算各个所述意群社团中的各个词语的综合测度,可以提高抽取的关键词的准确率和召回率。
进一步的,所述关键词确定单元504具体用于:将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词。可选的,根据以下原则结合词性,相邻位置以及词性搭配原则来从候选关键词集合中形成复合关键词,并最终形成文本关键词。具体原则为:以连词、介词、助词为开头或者结束的词语不与合并;根据词性搭配原则以及是否在原文中相邻合并候选关键词。
本发明实施例提供一种抽取关键词的装置,通过第一处理单元根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度,并且第二处理单元根据多种综合测度衡量词语的重要性,从而提高抽取的关键词的准确率和召回率,并且能体现文本的语义。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种抽取关键词的方法,其特征在于,包括:
获取文本经过词法分析以及预处理后的词语集合;
根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述各个词语的综合测度确定关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度包括:
根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;
确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度包括:
根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;
根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
4.根据权利要求3所述的方法,其特征在于,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;
根据上述1)和2)生成所述文本的语义相似度图。
6.根据权利要求1所述的方法,其特征在于,所述根据所述各个词语的综合测度确定关键词包括:
将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
7.一种抽取关键词的装置,其特征在于,包括:
获取单元,用于获取文本经过词法分析以及预处理后的词语集合;
第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
8.根据权利要求7所述的装置,其特征在于,所述第一处理单元包括:
第一确定模块,用于根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;
第二确定模块,用于确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;
确定目标义项集合模块,用于根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;
确定语义相似度模块,用于根据所述各个词语的目标义项集合,确定所述第一词语集合中任意两个词语的语义相似度。
9.根据权利要求8所述的装置,其特征在于,所述第二处理单元包括:
生成模块,用于根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
划分模块,用于将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定模块,用于确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;
计算综合测度模块,用于根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
10.根据权利要求9所述的装置,其特征在于,所述综合测度参数包括:
所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
11.根据权利要求9所述的装置,其特征在于,所述生成模块包括:
边确定模块,用于当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
合并模块,用于当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点。
12.根据权利要求7所述的装置,其特征在于,所述关键词确定单元具体用于:
将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
CN201210212574.6A 2012-06-21 2012-06-21 一种抽取关键词的方法及装置 Active CN102779119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210212574.6A CN102779119B (zh) 2012-06-21 2012-06-21 一种抽取关键词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210212574.6A CN102779119B (zh) 2012-06-21 2012-06-21 一种抽取关键词的方法及装置

Publications (2)

Publication Number Publication Date
CN102779119A true CN102779119A (zh) 2012-11-14
CN102779119B CN102779119B (zh) 2015-08-26

Family

ID=47124036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210212574.6A Active CN102779119B (zh) 2012-06-21 2012-06-21 一种抽取关键词的方法及装置

Country Status (1)

Country Link
CN (1) CN102779119B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN114818727A (zh) * 2022-04-19 2022-07-29 北京金山数字娱乐科技有限公司 关键句抽取方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GANG LIU AND ZHOUWEI ZHAI: "Research on Keywords Extraction of Chinese Documents Based on TEXT-NET", 《ICEICE 2011》 *
刘群 等: "基于《知网》的词汇语义相似度计算", 《第三届汉语词汇语义学研讨会》 *
翟周伟 等: "基于图模型的关键词挖掘方法", 《中国科技论文在线》 *
许云 等: "基于知网的语义相关度计算", 《北京理工大学学报》 *
金春霞 等: "动态向量的中文短文本聚类", 《计算机工程与应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103092828B (zh) * 2013-02-06 2015-08-12 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110502741B (zh) * 2019-07-11 2023-11-17 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN114818727A (zh) * 2022-04-19 2022-07-29 北京金山数字娱乐科技有限公司 关键句抽取方法及装置

Also Published As

Publication number Publication date
CN102779119B (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
CN106598944B (zh) 一种民航安保舆情情感分析方法
Chinsha et al. A syntactic approach for aspect based opinion mining
Chavan et al. Machine learning approach for detection of cyber-aggressive comments by peers on social media network
CN102779119A (zh) 一种抽取关键词的方法及装置
García et al. A lexicon based sentiment analysis retrieval system for tourism domain
CN102298642B (zh) 文本信息抽取方法和系统
CN108073568A (zh) 关键词提取方法和装置
CN105824922A (zh) 一种融合深层特征和浅层特征的情感分类方法
CN107832457A (zh) 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN104991956A (zh) 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
Ghorpade et al. Featured based sentiment classification for hotel reviews using NLP and Bayesian classification
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN104679738A (zh) 互联网热词挖掘方法及装置
CN106874419B (zh) 一种多粒度实时热点聚合方法
Singh et al. Sentiment analysis using lexicon based approach
Yang et al. Ontology generation for large email collections.
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
Latiffi et al. Sentiment analysis: An enhancement of ontological-based using hybrid machine learning techniques
Samonte Polarity analysis of editorial articles towards fake news detection
Tyagi et al. Literature review of sentiment analysis techniques for microblogging site
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
Campbell et al. Content+ context networks for user classification in twitter
CN105787101B (zh) 一种信息处理方法和电子设备
Garg et al. Study of sentiment classification techniques
Li et al. A novel semantic similarity measure within sentences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151221

Address after: 100162, Daxing District, Beijing North Hing Road (Eastern) No. 2 building, building 4, -1 to 5, 101

Patentee after: CHINASO INFORMATION TECHNOLOGY CO., LTD.

Address before: 100162, Beijing Daxing District North Xing Road (eastern section) No. 2 starlight film Park Pangu search building

Patentee before: Pangu Culture Communication Co.,Ltd.