CN102779119B - 一种抽取关键词的方法及装置 - Google Patents
一种抽取关键词的方法及装置 Download PDFInfo
- Publication number
- CN102779119B CN102779119B CN201210212574.6A CN201210212574A CN102779119B CN 102779119 B CN102779119 B CN 102779119B CN 201210212574 A CN201210212574 A CN 201210212574A CN 102779119 B CN102779119 B CN 102779119B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- node
- semantic similarity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种抽取关键词的方法及装置,涉及自然语言处理领域,可以提高确定的关键词的准确率。本发明实施了提供的方案,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。本发明实施了提供的方案适于抽取关键词时采用。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种抽取关键词的方法及装置。
背景技术
目前,通常根据统计学方法对文本进行关键词抽取时,根据对关键词有重要影响的因子进行统计计算,然后对统计结果进行排序并确定候选关键词集合。
例如,可以采用包括词频以及TF-IDF(term frequency-inverse documentfrequency,词频-倒文档频率)等特征统计信息。采用基于词频抽取关键词时,根据某个词的词频越高,则该词是关键词的概率越大的规则进行抽取关键词。首先统计文本中各个词的词频,然后对统计的词频进行排序,确定词频最高的若干个词为该文本的关键词。基于TF-IDF抽取关键词时,通过统计计算每一个词的TF-IDF来确定关键词。TF-IDF指某个词或短语在一篇文章中出现的频率高,并且在其他文章中出现的频率低,则认为该词或者短语具有很好的类别区分能力,则确定此词或者短语为关键词。
然而,采用现有技术抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低。
发明内容
本发明的实施例提供一种抽取关键词的方法及装置,可以提高确定的关键词的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种抽取关键词的方法,包括:
获取文本经过词法分析以及预处理后的词语集合;
根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述各个词语的综合测度确定关键词。
一种抽取关键词的装置,包括:
获取单元,用于获取文本经过词法分析以及预处理后的词语集合;
第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
本发明实施例提供一种抽取关键词的方法及装置,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。与现有技术中抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低相比,本发明实施例提供的方法根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,从而可以提高确定的关键词的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种抽取关键词的方法的流程图;
图2为本发明实施例2提供的另一种抽取关键词的方法的流程图;
图3为本发明实施例2提供的语义相似度图示意图;
图4为本发明实施例2提供的区域位置因子权值表;
图5为本发明实施例3提供的一种抽取关键词的装置的框图;
图6为本发明实施例3提供的另一种抽取关键词的装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种抽取关键词的方法,如图1所示,该方法包括:
步骤1 01,获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
步骤102,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
可选的,根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;
确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
步骤103,根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;其中,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;
根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
步骤104,根据所述各个词语的综合测度确定关键词。
可选的,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
本发明实施例提供一种抽取关键词的方法,通过根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,并根据语义相似度确定关键词,从而可以提高确定的关键词的准确率。
实施例2
本发明实施例提供一种抽取关键词的方法,如图2所示,该方法包括:
步骤201,获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
步骤202,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
可选的,根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;
其中,每一个不同概念、意义、事物的叙述内容称为义项,例如,词语“飞行员”的义项可以表示为:人,职位,驾驶,飞行器这个几个义项,这几个义项共同来描述词语飞行员。
根据语义知识管理系统,确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;其中,语义知识管理系统可以为知网,知网为研究英语和汉语词汇所表达的概念的一种语义知识管理系统。
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;即既在知网中出现又在文本中出现的义项为目标义项集合,还可以称为语义词,这样本实施例可以根据具体的语言环境来计算词语的语义相似度,与现有技术中仅基于词语得到的语义相似度相比,本实施例确定的语义相似度较准确。
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
例如,设文本中包含的第一义项集合为D={s1,s2,...si...},其中,si表示文本义项集合中第i个义项;
文本中的任意两个词语为w1,w2,w1在知网中的词语义项集和为W1={s11s12,...s1i...},w2在知网中的词语义项集和为W2={s21,s22,...s2i...},则w1,w2的目标义项集合分别为:CD1=D∩W1={C11,C12,...C1i...},CD2=D∩W2={{C11,C12,...C1j...}},其中,s1i表示第一个词语w1在词语义项集合中第i个义项,s2i表示第二个词语w2在词语义项集合中第i个义项,C1i表示第一个词语w1在目标义项集合中第i个义项,其中,i=1,2,...n,C2j表示第二个词语w2目标义项集合中第j个义项,其中j=1,2,...m。
根据确定w1,w2的语义相似度。
步骤203,根据所述词语集合中任意两个词语的语义相似度,生成文本的语义相似度图;
进一步的,根据以下两个原则生成文本的语义相似度图:1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;其中,语义相似度阈值可以为大于等于0小于等于1的值,通过调节语义相似度阈值可以构造出更能体现文本特征的语义相似图。
2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;需要说明的是,此时删除第三节点或者第四节点中的一个,而不是全部删除。
如图3所示,当语义相似度阈值为0.02时一篇中文文档的语义相似图,其中节点的序号代表词语的序号。
步骤204,将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
从图3可以看出,语义相似度图中分为多个聚集在一起形成的意群社团,例如,图3中词语节点55、词语节点67、词语节点60、词语节点61、词语节点52、词语节点35、词语节点49、词语节点65可以组成一个意群社团。复杂网络现象也存在于人类语言当中,人类的语言网络既不是完全随机的,也不是完全规则的,而是具备“小世界”特性的复杂网络,即语言网络在全局上显示出高度的连接性,而同时局部具有高度的聚集性。通常作者在写文章时趋向于逐个描述主题,然后结合这些主题来表达一种观点,而作者在表达一种观点时往往用意义相近的词语来描述。语义相似度图是依据词语语义相似度构建的图,因此相近的词语聚集在一起形成一个相对的意群社团,这些意群社团为语义相近的一组词语,意群社团之间代表不同的主题。
本发明将利用复杂网络理论的社团结构分析算法来分析出语义相似度图的社团结构,不同的意群社团代表不同的意群主题,每个意群社团同时都可以通过数个关键词来表述主题。
可选的,社团结构分析算法有两种:凝聚方法和分裂方法,本发明实施例采用分裂方法中的GN算法来分析语义相似度图,具体的:
(1)计算语义相似度图中所有边的介数,边介数为语义相似度图中经过每条边的最短路径的数目;
(2)确定介数最高的边,并将其从语义相似度图中移除,
(3)重复步骤(2),直到每个节点存在于一个意群社团中。
需要说明的是,通过来衡量划分的意群社团的程度。例如,需要将语义相似度图划分为k个意群社团,那么定义一个k*k维的对称矩阵E=(eij),元素eij表示语义相似度图中连接两个不同意群社团的边在所有边中所占的比例。节点分别位于第i个意群社团和第j个意群社团。ai定义为每行或者每列中各个元素之和。Q的取值在0-1之间,Q越接近1则说明语义相似度图的社团结构越明显。
在上述步骤(3)中,每重复步骤(2)一次就计算Q值,直到Q值最大时就停止计算,此时得到的社团结构就是我们需要的语义相似度图的意群社团结构。
步骤205,确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个,并根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
本步骤针对每个意群社团中的每一个词语节点计算综合测度,与现有技术中针对预处理后的每个词语进行综合测度计算,计算量较大相比,本实施例可以降低计算量,并且以此方法确定的关键词较准确。
可选的,通过确定意群社团的社团因子权值,其中,Nm是意群社团m中包括的词语数量,L(Gm)是社团m的平均路径长度。λ为调节系数,一般取值为1;
可选的,根据计算平均路径长度,并根据|L(Gi)-L(G)|计算平均路径变化量;其中,L(G)表示词语节点i与词语节点j的平均路径长度,N表示节点i与节点j所在的意群社团中词语节点的数目,dij表示词语节点i与词语节点j之间的路径长度,L(Gi)表示包含词语节点i的平均路径长度,L(G)表示不包含词语节点的i平均路径长度。
需要说明的是,根据词语节点i与词语节点j之间的词语节点数目确定路径长度,例如词语节点i与词语节点j之间有一个词语节点,则词语节点i与词语节点j之间的路径长度为2,词语节点i与词语节点j之间没有别的词语节点,则词语节点i与词语节点j之间的路径长度为1。
可选的,根据计算聚类系数,并根据计算聚类系数变化量,其中,Ci表示词语节点i的聚类系数,ki表示与词语节点i相连接的其他词语节点数目,Ei表示词语节点i与ki个词语节点之间实际存在边的数目。例如,在语义相似度图中,对于词语节点i,其通过ki条边和其他ki个词语节点相连接,则词语节点i与ki个词语节点之间实际存在边的数目为Ei,表示包含词语节点i的平均聚类系数,表示不包括词语节点i的平均聚类系数。
整个语义相似度图的聚类系数就是所有词语节点的聚类系数的平均值,则C的取值范围为[0,1],其中,C=0表示当且仅当所有词语节点均为孤立词语节点,C=1表示当且仅当语义相似度图为全局耦合,即语义相似度图中两两词语节点之间都连接。对于一个具有N个节点的完全随机图,当N很大时,C=O(N-1),而许多大规模的实际网络都具有明显的聚类效应,其聚类系数远小于1但却比O(N-1)大得多。
可选的,词语节点的度为一个词语节点连接的边的个数。这是图论中用于衡量节点和别的节点关系的一个参数,一般度越大则这个词语和别的词语之间越密切,则这个词语越重要。例如,一个词语节点与5条边相连接,则此词语节点的度为5。
可选的,根据计算词语节点i的词频-倒文档频率;其中,fredid是词语i在文档di中出现的次数,MaxFredd是文档di中出现次数最多的词语的次数,N为文本中文档的数目,ni是包含词语i的文档数目。需要说明的是,在信息检索中,一个词语对于表达文本特征的重要性取决于两个方面,一是这个词语在本篇文档中出现的次数,另一个因子就是倒文档频率,这个词语在别的文档中频率越小越重要。
可选的,根据计算词语节点i的位置pos权值,其中,posi表示词语节点出现的区域位置,n为词语在区域位置范围中出现的次数。区域因子的posi权值如图4所示,当词语i在标题中,则其pos权值为5,当词语i在摘要中,则其pos权值为3,当词语i在结论中,则其pos权值为2,当词语i在参考文献中,则其pos权值为1,当词语i在正文中,则其pos权值为0,图4表明词语位置不同,对抽取关键词的重要性则不同。pos权值越大,说明词语的重要性越大,pos权值越小,说明词语的重要性越小。
例如,一个词语在标题、摘要中出现,并且出现的次数均为1次,则此词语的pos权值为8。
可选的,可以根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
优选的,根据上述确定的全部综合测度参数,计算意群社团中的各个词语的综合测度,具体的,根据
其中,a,b,c,d,e为调节系数,其中,a+b+c+d+e=1,可以通过经验调节这五个系数;
|L(Gi)-L(G)|表示词语i对意群社团的贡献值,此值越大说明词语i对文本越重要。
说明了词语节点i的出现对词汇网络的聚类特性的贡献值,它是从局部范围内衡量词语的重要性。
需要说明的是,在本步骤执行之前还需要判断每一个意群社团是否具有小世界特征,具体的,判断意群社团是否具有小世界特性主要是看意群社团的平均路径和聚类系数是否在一个合理的取值范围上并且满足特定的关系或约束,这个取值范围随文档规模的不同而动态变化的。如果当前意群社团具有小世界特征,则按照本步骤进行计算,得到意群社团中每个词语的综合测度;如果当前意群社团不具有小世界特征,则将a,b赋值为0,再进一步计算意群社团中每个词语的综合测度。
步骤206,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将(vi,CF)加入到词语节点i所在的意群社团的第一候选关键词集合中,将第一候选关键词集合中的各个词语的综合测度进行排序,例如按综合测度从大到小的顺序排列,或者按综合测度从小到大的顺序排列,然后取综合测度最大的前p%个元素组成有效的候选关键词集合加入到候选关键词集中,其中,p的取值可以根据用户需要进行设置。
步骤207,将所述候选关键词进行复合,获得所述文本的关键词。
可选的,根据以下原则结合词性,相邻位置以及词性搭配原则来从候选关键词集合中形成复合关键词,并最终形成文本关键词。具体原则为:以连词、介词、助词为开头或者结束的词语不与合并;根据词性搭配原则以及是否在原文中相邻合并候选关键词。
本发明实施例提供一种抽取关键词的方法,通过根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度,并根据多种综合测度衡量词语的重要性,从而提高抽取的关键词的准确率和召回率,并且能体现文本的语义。
实施例3
本发明实施例提供一种抽取关键词的的装置,如图5所示,该装置包括:获取单元501,第一处理单元502,第二处理单元503,关键词确定单元504;
获取单元501,用于获取文本经过词法分析以及预处理后的词语集合;
可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为:唯物主义/n-/w凡是/d承认/v存/v在/p即/v物质/n是/v第一性/n、/w是/v本原/n,/w而/c思维/n是/v第二性/n,/w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,n表示名词,w表示标点符号,d表示副词,v表示动词,p表示介词。
可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。
进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
第一处理单元5 02,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,第二处理单元503计算所述词语集合中的各个词语的综合测度;
关键词确定单元504,用于根据所述各个词语的综合测度确定关键词。
进一步的,如图6所示,所述第一处理单元5 02包括:第一确定模块5021,第二确定模块5022,确定目标义项集合模块5023,确定语义相似度模块5024;
第一确定模块5021,用于根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;
第二确定模块5022,用于,确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;例如,语义知识管理系统可以为知网;
根据所述文本义项集合和所述词语义项集合的交集,确定目标义项集合模块5023,用于得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定语义相似度模块5024,用于确定所述词语集合中任意两个词语的语义相似度。
进一步的,如图6所示,所述第二处理单元503包括:生成模块5031,划分模块5032,确定模块5033,计算综合测度模块5034;
根据所述词语集合中任意两个词语的语义相似度,生成模块5031,用于生成所述文本的语义相似度图;
进一步的,所述生成模块5031中的边确定模块50311,用于当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
所述生成模块5031中的合并模块50312,用于当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;根据所述边确定模块50311和所述合并模块50312生成所述文本的语义相似度图;
划分模块5032,用于将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定模块5033,用于确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;
所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
计算综合测度模块5034,用于根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。优选的,根据确定的全部所述综合测度参数计算各个所述意群社团中的各个词语的综合测度,可以提高抽取的关键词的准确率和召回率。
进一步的,所述关键词确定单元504具体用于:将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词。可选的,根据以下原则结合词性,相邻位置以及词性搭配原则来从候选关键词集合中形成复合关键词,并最终形成文本关键词。具体原则为:以连词、介词、助词为开头或者结束的词语不与合并;根据词性搭配原则以及是否在原文中相邻合并候选关键词。
本发明实施例提供一种抽取关键词的装置,通过第一处理单元根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度,并且第二处理单元根据多种综合测度衡量词语的重要性,从而提高抽取的关键词的准确率和召回率,并且能体现文本的语义。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (6)
1.一种抽取关键词的方法,其特征在于,包括:
获取文本经过词法分析以及预处理后的词语集合;
根据所述文本,确定所述词语集合中各个词语包含的文本义项集合;
确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;
根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;
根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度;
根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;
确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;
根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
根据所述各个词语的综合测度确定关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;
1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;
根据上述1)和2)生成所述文本的语义相似度图。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各个词语的综合测度确定关键词包括:
将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
4.一种抽取关键词的装置,其特征在于,包括:
获取单元,用于获取文本经过词法分析以及预处理后的词语集合;
第一处理单元,用于根据所述文本,确定所述词语集合中各个词语包含的文本义项集合;确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度;
第二处理单元,包括:生成模块,用于根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;划分模块,用于将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;确定模块,用于确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;以及计算综合测度模块,用于根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度;
关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
5.根据权利要求4所述的装置,其特征在于,所述生成模块包括:
边确定模块,用于当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;
合并模块,用于当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点。
6.根据权利要求4所述的装置,其特征在于,所述关键词确定单元具体用于:
将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;
将所述候选关键词进行复合,获得所述文本的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210212574.6A CN102779119B (zh) | 2012-06-21 | 2012-06-21 | 一种抽取关键词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210212574.6A CN102779119B (zh) | 2012-06-21 | 2012-06-21 | 一种抽取关键词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102779119A CN102779119A (zh) | 2012-11-14 |
CN102779119B true CN102779119B (zh) | 2015-08-26 |
Family
ID=47124036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210212574.6A Active CN102779119B (zh) | 2012-06-21 | 2012-06-21 | 一种抽取关键词的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102779119B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN103092828B (zh) * | 2013-02-06 | 2015-08-12 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
CN105095430A (zh) * | 2015-07-22 | 2015-11-25 | 深圳证券信息有限公司 | 构建词语网络及抽取关键词的方法和装置 |
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109344397B (zh) * | 2018-09-03 | 2023-08-08 | 东软集团股份有限公司 | 文本特征词语的提取方法及装置、存储介质及程序产品 |
CN110502741B (zh) * | 2019-07-11 | 2023-11-17 | 平安科技(深圳)有限公司 | 中文文本的识别方法及装置 |
CN114818727A (zh) * | 2022-04-19 | 2022-07-29 | 北京金山数字娱乐科技有限公司 | 关键句抽取方法及装置 |
-
2012
- 2012-06-21 CN CN201210212574.6A patent/CN102779119B/zh active Active
Non-Patent Citations (5)
Title |
---|
Research on Keywords Extraction of Chinese Documents Based on TEXT-NET;Gang Liu and Zhouwei Zhai;《ICEICE 2011》;20110417;第II-III节 * |
动态向量的中文短文本聚类;金春霞 等;《计算机工程与应用》;20111231;第47卷(第33期);第157页左栏第1段 * |
基于《知网》的词汇语义相似度计算;刘群 等;《第三届汉语词汇语义学研讨会》;20021231;第4.1节 * |
基于图模型的关键词挖掘方法;翟周伟 等;《中国科技论文在线》;20120213;第2.1节 * |
基于知网的语义相关度计算;许云 等;《北京理工大学学报》;20050531;第25卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102779119A (zh) | 2012-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779119B (zh) | 一种抽取关键词的方法及装置 | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN102298642B (zh) | 文本信息抽取方法和系统 | |
Wang et al. | Using Wikipedia knowledge to improve text classification | |
CN101685455B (zh) | 数据检索的方法和系统 | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN103064969A (zh) | 自动建立关键词索引表的方法 | |
CN104346379A (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN104765779A (zh) | 一种基于YAGO2s的专利文档查询扩展方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Foong et al. | Text summarization using latent semantic analysis model in mobile android platform | |
Batura et al. | A method for automatic text summarization based on rhetorical analysis and topic modeling | |
Tyagi et al. | Literature review of sentiment analysis techniques for microblogging site | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN109871429B (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
Tavan et al. | Identifying Ironic Content Spreaders on Twitter using Psychometrics, Contextual and Ironic Features with Gradient Boosting Classifier. | |
Asa et al. | A comprehensive survey on extractive text summarization techniques | |
Dong et al. | Knowledge graph construction of high-performance computing learning platform | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Ma et al. | Combining n-gram and dependency word pair for multi-document summarization | |
Imran et al. | Twitter Sentimental Analysis using Machine Learning Approaches for SemeVal Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20151221 Address after: 100162, Daxing District, Beijing North Hing Road (Eastern) No. 2 building, building 4, -1 to 5, 101 Patentee after: CHINASO INFORMATION TECHNOLOGY CO., LTD. Address before: 100162, Beijing Daxing District North Xing Road (eastern section) No. 2 starlight film Park Pangu search building Patentee before: Pangu Culture Communication Co.,Ltd. |