CN103473217B - 从文本中抽取关键词的方法和装置 - Google Patents
从文本中抽取关键词的方法和装置 Download PDFInfo
- Publication number
- CN103473217B CN103473217B CN201210187676.7A CN201210187676A CN103473217B CN 103473217 B CN103473217 B CN 103473217B CN 201210187676 A CN201210187676 A CN 201210187676A CN 103473217 B CN103473217 B CN 103473217B
- Authority
- CN
- China
- Prior art keywords
- node
- word
- semantic category
- target word
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种从文本中抽取关键词的方法和装置。其中,从文本中抽取关键词的方法包括:对文本进行分词处理;为分词处理获得的词语标注语义类编号;以所述语义类编号作为节点,组成同义词网络;从所述同义词网络中选择节点作为关键词。采用本发明提供的从文本中抽取关键词的方法和装置,能够提高抽取关键词的效率。
Description
技术领域
本发明涉及网络技术,尤其涉及一种从文本中抽取关键词的方法和装置。
背景技术
在网站向用户显示网页的过程中,需要从文本中抽取关键词,根据关键词确定网页显示的内容。
目前,采用基于图形的关键词抽取方法,将文本中的词语作为节点,以词语间的关系为边,将词语相连接,构成一个无权网络图形,通过挖掘该网络中的特殊节点来发现关键词。例如,在一种基于图形的关键词抽取方法中,将词语作为节点,根据词语在一定窗口内的共现关系,将词语相连接构成一个无权网络图形,并证明该网络具有小世界特征,并且,定义对文本主题起重要影响作用的词语以及根本概念为关键词,通过挖掘文本网络的中心节点获得关键词,其中,文本网络的中心节点为对图形中小团体的紧密度起重要作用的节点。在另一种基于图形的关键词抽取方法中,将文本中的词语作为边的节点,通过词语共现定义节点间的权重,构建无向赋权图,并定义中心函数来评价一个节点在图中的重要程度,以其中重要的节点作为关键词。
上述现有的基于图形的关键词抽取方法,将文本中的每个词语均作为节点,因此所构成的网络的规模大,在抽取关键词的过程中,需要进行大量的计算,从而导致效率低下。
发明内容
本发明的第一个方面是提供一种从文本中抽取关键词的方法,用以解决现有技术中的缺陷,提高抽取关键词的效率。
本发明的另一个方面是提供一种从文本中抽取关键词的装置,用以解决现有技术中的缺陷,提高抽取关键词的效率。
本发明的第一个方面是提供一种从文本中抽取关键词的方法,包括:
对文本进行分词处理;
为分词处理获得的词语标注语义类编号;
以所述语义类编号作为节点,组成同义词网络;
从所述同义词网络中选择节点作为关键词。
本发明的另一个方面是提供一种从文本中抽取关键词的装置,包括:
分词单元,用于对文本进行分词处理;
语义类标注单元,用于为分词处理获得的词语标注语义类编号;
组网单元,用于以所述语义类编号作为节点,组成同义词网络;
关键词单元,用于从所述同义词网络中选择节点作为关键词。
由上述发明内容可见,在对文本进行分词处理获得词语后,先为词语标注语义类编号,在组成网络时,以语义类编号作为节点,组成同义词网络。由于该网络以语义类编号作为节点,因此精简了网络结构,缩小了网络规模,减小了从文本中抽取关键词所需的计算量,从而提高了抽取关键词的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的从文本中抽取关键词的方法的流程图;
图2为本发明实施例二的从文本中抽取关键词的方法的流程图;
图3为本发明实施例三的同义词网络的示意图;
图4为本发明实施例四的从文本中抽取关键词的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一的从文本中抽取关键词的方法的流程图。如图1所示,该方法包括如下过程。
步骤101:对文本进行分词处理。
步骤102:为分词处理获得的词语标注语义类编号。
步骤103:以语义类编号作为节点,组成同义词网络。
步骤104:从同义词网络中选择节点作为关键词。
在本发明实施例一中,在对文本进行分词处理获得词语后,先为词语标注语义类编号,在组成网络时,以语义类编号作为节点,组成同义词网络。由于该网络以语义类编号作为节点,因此,对于分词处理后得到的属于同义词的两个或两个以上的词语,在网络中仅以一个节点表示,与现有的以每一个词语作为一个节点组成的网络相比,本发明实施例一精简了网络结构,缩小了网络规模,因此减小了从文本中抽取关键词所需的计算量,从而提高了抽取关键词的效率。并且,由于以一个节点表示属于同义词的两个或两个以上的词语,因此,避免了同义词的多种表示形式导致词语的重要性分散的情况,能够以属于同义词的全部词语作为一个整体,通过综合考虑该整体的词频确定其重要性,避免了抽取的关键词中包括同义词的情况,提高了抽取关键词的准确度。
图2为本发明实施例二的从文本中抽取关键词的方法的流程图。如图2所示,该方法包括以下过程。
步骤201:对文本进行分词处理。
在本步骤中,通过对文本进行分词处理,获得该文本中包括的全部词语。
步骤202:为分词处理获得的词语标注词性信息和语义类编号。
在本步骤中,为分词处理获得的词语标注词性信息为可选步骤,可以为分词处理获得的词语标注词性信息和语义类编号,也可以仅为分词处理获得的词语标注语义类编号。在本发明实施例二中,仅以在本步骤中为分词处理获得的词语标注词性信息和语义类编号为例。
同义词词典是对词语按语义进行全面分类的词典,同义词词典中的每个词的编码包含了该词语的全部信息。同义词词典具体可以采用《同义词词林》词典。在本步骤中,根据同义词词典,对文本中的词语添加语义类标注信息,该语义类标注信息具体为语义类编号。具体地,语义类编号是多位代码构成的编号序列,每一位代码可以是数字或字母。如果两个词语的语义类编号完全相同,则说明这两个词语属于同义词。
以下是词语语义类编号方式的一个示例:
表1本发明实施例二的词语语义编号表
表1为本发明实施例二的词语语义编号表。参见表1。根据词语的语义,划分多个大类,其中,每个大类中包括多个中类,每个中类中又包括多个小类。在一个词语的语义类编号中,第一个字母代表该词语所属的大类,第二个字母代表该词语在该大类中所属的中类,后两位数字代表该词语在该中类中所属的小类。
用表1所示的编号方式对词语进行语义类编号,同义词词典中词语的组织方式的具体实例如下:
Ba01电脑#计算机#PC机
Ba02手机#移动电话
在同义词词典中,每一条条目均以4位的编号作为开始,接下来是用符号“#”分割的多个同义词。在上述同义词词典中的实例中,该条目表示:语义类编号为Ba01对应的词语包括:电脑、计算机、PC机;语义类编号为Ba02对应的词语包括:手机、移动电话。
在步骤202之后,以语义类编号作为节点,组成同义词网络。在该同义词网络中,以每个语义类编号作为节点,从而对于同义词来说,由于其语义类编号相同,因此属于同义词的多个词语对应同义词网络中的同一个节点。具体地,以语义类编号作为节点,组成同义词网络的过程可以包括以下的步骤203至步骤211。
步骤203:按照文本的顺序,从分词处理获得的词语中读取一个目标词语。
在步骤203中,在读取一个目标词语之后,获取该目标词语的出现位置信息,并且,通过统计该目标词语在文本中的出现次数,获得该目标词语的词频信息。
步骤204:根据目标词语的词性信息,判断目标词语是否为名词。
如果目标词语是名词,则执行步骤205。如果目标词语不是名词,则执行步骤208。
步骤204为可选步骤。如果步骤202中为分词处理获得的词语标注了词性信息,则在步骤203之后执行步骤204。如果在步骤202中没有为分词处理获得的词语标注词性信息,则在步骤203之后,不执行步骤204,直接执行步骤205。
步骤205:判断同义词网络中是否存在目标词语的语义类编号构成的节点。
如果是,执行步骤206。否则,执行步骤207。
步骤206:更新同义词网络中的目标词语的语义类编号构成节点的词频信息和出现位置信息。
在同义词网络中,为该同义词网络中的每个节点记录节点信息,节点信息中包括该节点对应的词语的词频信息和出现位置信息。在步骤206中,同义词网络中存在与当前的目标词语的语义类编号相同的节点,则更新该节点的节点信息,具体地,更新该节点对应的词语的词频信息和出现位置信息,在该节点的节点信息中增加当前的目标词语的词频信息和出现位置信息。
在步骤206之后,执行步骤208。
步骤207:将目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息。
在本步骤中,具体地,将该目标词语的语义类编号作为节点添加到同义词网络中,将该目标词语的词频信息保存为该节点的词频信息,将该目标词语的出现位置信息保存为该节点的出现位置信息。
在步骤207之后,执行步骤208。
步骤208:判断分词处理获得的词语中是否存在未读取的词语。
如果判断为否,分词处理获得的词语中不存在未读取的词语,说明已根据该文本的全部词语进行了处理,则执行步骤209。从步骤209至步骤211,为同义词网络中的节点建立无向连接。如果判断为是,分词处理获得的词语中存在未读取的词语,说明该文本中还有未处理的词语,则返回步骤203,按照文本的顺序,从分词处理获得的词语中读取当前目标词语的下一个词语,作为新的目标词语,再次执行步骤204至步骤208。
步骤209:读取同义词网络中的一个节点。
步骤210:按照节点在文本中的位置,将节点与在窗口距离内的其它节点建立无向连接。
在本步骤中,用词语在一定窗口内的共现关系作为标准,将节点连接构成一个网络。将一定的词语间的距离设置为窗口,如果两个节点对应的词语出现在同一窗口内,则为该两个节点进行连接;如果两个节点对应的词语没有出现在同一窗口内,则不为该两个节点进行连接。连接两个节点间的边具有一定的权重值,具体地,可以采用三种方式确定节点间的边的权重。方式一:在执行了步骤203,读取到一个目标词语之后,进一步地,分别统计该目标词语与分词处理获得的每个其它词语的连接次数,以该连接次数分别作为目标词语对应的节点与每个其它词语对应的节点之间的边的权重,即,统计目标词语与某一个其它词语的连接次数,以该连接次数作为目标词语对应的节点与该其它词语对应的节点之间的边的权重,以此方式获得目标词语对应的节点与每一个其它词语对应的节点之间的边的权重。方式二:在执行了步骤207,将目标词语的语义类编号作为节点添加到同义词网络中之后,进一步地,分别统计该目标词语的语义类编号对应的节点与每个其它节点的连接次数,以该连接次数分别作为目标词语的语义类编号对应的节点与每个其它节点之间的边的权重,即,统计该目标词语的语义类编号对应的节点与某一个其它节点的连接次数,以该连接次数作为该目标词语的语义类编号对应的节点与该其它节点之间的边的权重,以此方式获得目标词语的语义类编号对应的节点与每一个其它节点之间的边的权重。方式三:在步骤210中,分别统计该目标词语的语义类编号对应的节点与每个其它节点的连接次数,以该连接次数分别作为目标词语的语义类编号对应的节点与每个其它节点之间的边的权重,即,统计该目标词语的语义类编号对应的节点与某一个其它节点的连接次数,以该连接次数作为该目标词语的语义类编号对应的节点与该其它节点之间的边的权重,以此方式获得目标词语的语义类编号对应的节点与每一个其它节点之间的边的权重。在上述方式一中,统计该目标词语与分词处理获得的其它词语的连接次数的具体方法为:统计该目标词语与该其它词语在窗口内的出现次数。在上述方式二和方式三中,统计该目标词语的语义类编号对应的节点与其它节点的连接次数的具体方法为:统计该目标词语与该其它节点对应的词语在窗口内的出现次数。
步骤211:判断同义词网络中是否存在未读取的节点。
如果是,返回步骤209。否则,结束以语义类编号作为节点组成同义词网络的流程,进入步骤212。
在步骤211之后,如果步骤212判断为否,则完成了以语义类编号作为节点,组成同义词网络的过程,接下来,从同义词网络中选择节点作为关键词,具体包括以下步骤212至步骤215。
步骤212:根据同义词网络的节点的连接关系,计算节点的权重。
在本步骤中,一种较佳的实施方式是,采用网页排名算法(简称PageRank算法)计算节点的权重。PageRank算法的功能特性是通过网络中节点连接关系来决定每个节点在网络中重要程度。首先,把同义词网络中的每个节点的初始权重设置为1;然后,在网络上运行PageRank算法,得出每个节点的权重。
采用PageRank算法计算同义词网络中节点的权重的具体方法如下:
第一步,建立一个同义词网络G(V,E)。
其中,G表示同义词网络,V表示网络节点的集合,E表示网络中节点间边的集合,E可以表示为V*V子集。以Vi表示当前处理的节点,以Vj表示与节点Vi连接的一个节点,以C(Vi)表示与节点Vi相连接的所有边的集合,以Eij表示连接节点Vi与Vj的边,以weitht(Eij)表示边Eij的权重。以S(Vi)表示节点Vi的权重,S(Vi)的初始值为1,即S(Vi)=1{Vi∈G}。
第二步,在同义词网络上运行无向有权图公式,通过迭代计算,获得各个节点的权重。
具体地,无向有权图公式为:
其中,d为阻尼系数,通常d的取值为0.85。
在本步骤中,迭代计算上述公式,直到该公式收敛,从而获得同义词网络上各个节点的权重。
步骤213:根据节点的词频信息和出现位置信息对权重进行调整。
步骤213为可选步骤,在不包括步骤213的情况下,在步骤212之后,直接执行后续的步骤214或步骤215。在包括步骤213的情况下,在步骤212之后,先执行步骤213,然后再执行后续的步骤214或步骤215。在本发明实施例二中,以包括步骤213为例。
在步骤213中,根据节点的词频信息和出现位置信息,对步骤212计算得到的权重进行调整。因为标题具有对文本高度概括的功能,因此在步骤213中,对节点的权重进行如下调整:
outR(Vi)=S(Vi)*(1+Freq(Vi))(1+0.2*T(Vi))
其中,outR(Vi)表示节点Vi调整后的权重,T(Vi)表示节点Vi中是否包含标题词语,如果包含,则T(Vi)取值为1,如果不包含,则T(Vi)取值为0,Freq(Vi)表示节点Vi在文本中出现的总次数除以文本中全部词语出现的总次数的结果,Freq(Vi)的取值范围为(0,1)。
步骤214:根据同义词网络的节点总数以及同义词网络的节点的权重,计算预设个数。
步骤214为可选步骤,在不包括步骤214的情况下,在步骤212或步骤213之后,直接执行步骤215。在包括步骤214的情况下,在步骤212或步骤213之后,先执行步骤214,然后再执行步骤215。在本发明实施例二中,以包括步骤214为例。
在步骤214中,如果在先过程中不包括步骤213,则本步骤中的同义词网络的节点的权重为步骤212计算获得的权重;如果在先过程中包括步骤213,则本步骤中的同义词网络的节点的权重为经过步骤213调整后的权重。
在步骤214中,根据同义词网络的节点总数以及同义词网络的节点的权重,计算预设个数,以该预设个数作为抽取的关键词的总数,以N表示该预设个数,即抽取的关键词的总数为N个。经过数据集测试,计算N的一种较佳的实施方式为:综合考虑同义词网络的节点总数以及节点权重下降程度的因素,根据如下公式,灵活地获取关键词总数N。
其中,num(V)是同义词网络的节点总数。根据上述公式,当同义词网络的节点总数小于等于20个时,确定关键词总数为5个;当同义词网络的节点总数在20至50个之间时,如果在第i个节点处得到则确定关键词总数为10与i中的最小值;当同义词网络的节点总数大于50个时,如果在第i个节点处得到则确定关键词总数为15与i中的最小值。
步骤215:按照权重由重到轻的顺序为同义词网络的节点排序,确定排序在前的预设个数的节点作为关键词。
在步骤215中,按照权重由重到轻的顺序为同义词网络的节点排序,仍以N表示该预设个数,选择排序的前N个节点作为文档的关键词。如果在先过程中不包括步骤213,则在步骤215中,按照步骤212计算获得的权重进行排序;如果在先过程中包括步骤213,则在步骤215中,按照经过步骤213调整后的权重进行排序。
在步骤215中,该预设个数即为最终抽取的关键词的总数。如果在先过程中不包括步骤214,则可以根据用户的指定值确定预设个数;如果在先过程中包括步骤214,则以步骤214的计算结果作为预设个数。
在本发明实施例二中,在对文本进行分词处理获得词语后,先为词语标注语义类编号,在组成网络时,以语义类编号作为节点,组成同义词网络。由于该网络以语义类编号作为节点,因此,对于分词处理后得到的属于同义词的两个或两个以上的词语,在网络中仅以一个节点表示,与现有的以每一个词语作为一个节点组成的网络相比,本发明实施例二精简了网络结构,缩小了网络规模,因此减小了从文本中抽取关键词所需的计算量,从而提高了抽取关键词的效率。并且,由于以一个节点表示属于同义词的两个或两个以上的词语,因此,避免了同义词的多种表示形式导致词语的重要性分散的情况,能够以属于同义词的全部词语作为一个整体,通过综合考虑该整体的词频确定其重要性,避免了抽取的关键词中包括同义词的情况,提高了抽取关键词的准确度。进一步地,在从同义词网络中抽取节点作为关键词时,根据节点的词频信息和出现位置信息对节点的权重进行调整,并且根据节点总数以及同义词网络的节点的权重的下降程度确定关键词的总数,根据调整后的权重选择相应数量的关键词,从而通过对权重和关键词总数进行更加精确的计算,进一步提高了抽取关键词的准确性。
以下通过本发明实施例三,对应用本发明实施一和实施例二的关键词抽取方法的一个具体实例进行详细说明。
用于抽取关键词的文本如下所示:
首先,对上述文本进行分词、词性标注和语义类标注,如下所示:
在上面文本段的标注中,每个词语可被标注成如下形式:“语义类”+词语+“/词性”。以“Ih07B01延期/v”为例,其中,“Ih07B01”表示该词语的语义类,“延期”表示该词语,“/v”表示该词语的词性。上述标注语义类所采用的同义词词典为20世纪80年代出版的《同义词词林》词典,各词性编码对应的意义可以参见《汉语文本词性标注规范》。
在上述示例中,词语“暴风雨”、“暴雨”都属于Bf01A05语义类,词语“山洪”、“洪水”都属于Bg01A03语义类,词语“推迟”、“延期”都属于Ih07B01语义类。并且,上述Bf01A05语义类与Bf01C01语义类为近义词。
根据上述标注,选择名词的语义类为节点,建立同义词网络。图3为本发明实施例三的同义词网络的示意图。根据上述标注建立的同义词网络参见图3所示。
在该同义词网络中运行PageRank公式,得到初步权重。然后,利用位置信息,对初步权重进行修正。表2为本发明实施例三的权重修正对照表。在表2中,对于不存在同义词的词语,可以直接以该词语表示对应节点;如果是存在同义词的词语,以同义词对应的语义类编号表示该节点。各词语或语义类标号修正前后的权重参见表2所示。
表2.本发明实施例三的权重修正对照表
在修正前,权重最高的为“Bf01C01”,即词语“冰雹”的语义类。由于词语“墨尔本”出现在标题,对文章意义比较重要,因此,在修正后,将其权重修正到最高。
选择权重前N个语义类作为关键词,如下:
语义编码 | 词汇 | 权重 |
0 | 墨尔本 | 2.83318 |
Bf01C01 | 冰雹 | 2.64159 |
Bf01A05 | 暴风雨、暴雨 | 1.6443 |
Bg01A03 | 洪水、山洪 | 1.20593 |
0 | 昆士兰 | 1.15725 |
Id20A01 | 交通 | 1.14605 |
图4为本发明实施例四的从文本中抽取关键词的装置的结构示意图。如图4所示,该装置至少包括:分词单元41、语义类标注单元42、组网单元43和关键词单元44。
其中,分词单元41用于对文本进行分词处理。
语义类标注单元42用于为分词处理获得的词语标注语义类编号。
组网单元43用于以语义类编号作为节点,组成同义词网络。
关键词单元44用于从同义词网络中选择节点作为关键词。
在上述技术方案的基础上,具体地,组网单元43可以包括:节点读取子单元431、控制子单元432、节点维护子单元433和连接建立子单元434。
其中,节点读取子单元431用于按照文本的顺序,从分词处理获得的词语中读取一个目标词语,获取目标词语的词频信息和出现位置信息。
控制子单元432用于判断同义词网络中是否存在目标词语的语义类编号构成的节点,如果存在,控制节点维护子单元433更新同义词网络中的目标词语的语义类编号构成节点的词频信息和出现位置信息,如果不存在,控制节点维护子单元433将目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息。控制子单元432还用于判断分词处理获得的词语中是否存在未读取的词语,如果不存在,控制连接建立子单元434为同义词网络中的节点建立无向连接,如果存在,控制节点读取子单元431再次按照文本的顺序,从分词处理获得的词语中读取一个目标词语。
节点维护子单元433用于在控制子单元432的控制下更新同义词网络中的目标词语的语义类编号构成节点的词频信息和出现位置信息,或在控制子单元432的控制下将目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息。
连接建立子单元434用于在控制子单元432的控制下,为同义词网络中的节点建立无向连接。
在上述技术方案的基础上,进一步地,组网单元43还可以包括:边权重计算子单元435。边权重计算子单元435用于在节点读取子单元431从分词处理获得的词语中读取一个目标词语之后,分别统计目标词语与分词处理获得的每个其它词语的连接次数,以连接次数分别作为目标词语对应的节点与每个其它词语对应的节点之间的边的权重。或者,边权重计算子单元435用于在节点维护子单元433将目标词语的语义类编号作为节点添加到同义词网络中之后,分别统计目标词语的语义类编号对应的节点与每个其它节点的连接次数,以连接次数分别作为目标词语的语义类编号对应的节点与每个其它节点之间的边的权重。或者,边权重计算子单元435用于在控制子单元432判断为分词处理获得的词语中不存在未读取的词语之后,分别统计目标词语的语义类编号对应的节点与每个其它节点的连接次数,以连接次数分别作为目标词语的语义类编号对应的节点与每个其它节点之间的边的权重。
在上述技术方案的基础上,具体地,连接建立子单元434具体用于读取同义词网络中的一个节点,按照节点在文本中的位置,根据节点与其它节点之间的边的权重,将节点与在预设的窗口距离内的其它节点建立无向连接,判断同义词网络中是否存在未读取的节点,如果是,再次读取同义词网络中的一个节点,否则,连接建立完成。
在上述技术方案的基础上,进一步地,该装置还可以包括:词性信息标注单元45。词性信息标注单元45用于为分词处理获得的词语标注词性信息。相应地,控制子单元432还用于根据目标词语的词性信息,判断目标词语是否为名词,如果目标词语是名词,判断同义词网络中是否存在目标词语的语义类编号构成的节点,如果目标词语不是名词,判断分词处理获得的词语中是否存在未读取的词语。
在上述技术方案的基础上,具体地,关键词单元44可以包括:节点权重计算子单元441和关键词选择子单元442。其中,节点权重计算子单元441,用于根据同义词网络的节点的连接关系,计算节点的权重。关键词选择子单元442用于按照权重由重到轻的顺序为同义词网络的节点排序,确定排序在前的预设个数的节点作为关键词。
在上述技术方案的基础上,进一步地,关键词单元44还包括:预设个数计算子单元443。预设个数计算子单元443用于根据同义词网络的节点总数以及同义词网络的节点的权重,计算预设个数。
在上述技术方案的基础上,进一步地,关键词单元44还包括:节点权重调整子单元444。节点权重调整子单元444用于根据节点的词频信息和/或出现位置信息对权重进行调整。相应地,关键词选择子单元442具体用于按照调整后的权重由重到轻的顺序为同义词网络的节点排序。预设个数计算子单元443具体用于根据同义词网络的节点总数以及同义词网络的节点的调整后的权重,计算预设个数。
在本发明实施例四中,分词单元对文本进行分词处理获得词语后,语义类标注单元为词语标注语义类编号,组网单元在组成网络时以语义类编号作为节点,组成同义词网络。由于该网络以语义类编号作为节点,因此,对于分词处理后得到的属于同义词的两个或两个以上的词语,在网络中仅以一个节点表示,与现有的以每一个词语作为一个节点组成的网络相比,本发明实施例四精简了网络结构,缩小了网络规模,因此减小了从文本中抽取关键词所需的计算量,从而提高了抽取关键词的效率。并且,由于以一个节点表示属于同义词的两个或两个以上的词语,因此,避免了同义词的多种表示形式导致词语的重要性分散的情况,能够以属于同义词的全部词语作为一个整体,通过综合考虑该整体的词频确定其重要性,避免了抽取的关键词中包括同义词的情况,提高了抽取关键词的准确度。
需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种从文本中抽取关键词的方法,其特征在于,包括:
对文本进行分词处理;
为分词处理获得的词语标注语义类编号;
以所述语义类编号作为节点,组成同义词网络;
从所述同义词网络中选择节点作为关键词;
所述以所述语义类编号作为节点,组成同义词网络包括:
按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语;
获取所述目标词语的词频信息和出现位置信息;
判断同义词网络中是否存在所述目标词语的语义类编号构成的节点;如果存在,更新同义词网络中的所述目标词语的语义类编号构成节点的词频信息和出现位置信息;如果不存在,将所述目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息;
判断所述分词处理获得的词语中是否存在未读取的词语;如果不存在,为所述同义词网络中的节点建立无向连接;如果存在,返回所述按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语的步骤。
2.根据权利要求1所述的方法,其特征在于,
所述从所述分词处理获得的词语中读取一个目标词语之后,还包括:分别统计所述目标词语与所述分词处理获得的每个其它词语的连接次数,以所述连接次数分别作为所述目标词语对应的节点与所述每个其它词语对应的节点之间的边的权重;
或者,在将所述目标词语的语义类编号作为节点添加到同义词网络中之后,还包括:分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重;
或者,在判断为所述分词处理获得的词语中不存在未读取的词语之后,还包括:分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重。
3.根据权利要求2所述的方法,其特征在于,所述为所述同义词网络中的节点建立无向连接包括:
读取所述同义词网络中的一个节点;
按照所述节点在文本中的位置,根据所述节点与其它节点之间的边的权重,将所述节点与在预设的窗口距离内的其它节点建立无向连接;
判断同义词网络中是否存在未读取的节点;
如果是,返回执行读取所述同义词网络中的一个节点的步骤;
否则,结束以所述语义类编号作为节点,组成同义词网络的流程。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,
所述以所述语义类编号作为节点,组成同义词网络之前,还包括:为所述分词处理获得的词语标注词性信息;
所述按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语之后,所述判断同义词网络中是否存在所述目标词语的语义类编号构成的节点之前,还包括:根据所述目标词语的词性信息,判断所述目标词语是否为名词;如果所述目标词语是名词,执行所述判断同义词网络中是否存在所述目标词语的语义类编号构成的节点的步骤;如果所述目标词语不是名词,执行所述判断所述分词处理获得的词语中是否存在未读取的词语的步骤。
5.根据权利要求1至3中任意一项所述的方法,其特征在于,所述从所述同义词网络中选择节点作为关键词包括:
根据所述同义词网络的节点的连接关系,计算节点的权重;
按照权重由重到轻的顺序为所述同义词网络的节点排序,确定排序在前的预设个数的节点作为关键词。
6.一种从文本中抽取关键词的装置,其特征在于,包括:
分词单元,用于对文本进行分词处理;
语义类标注单元,用于为分词处理获得的词语标注语义类编号;
组网单元,用于以所述语义类编号作为节点,组成同义词网络;
关键词单元,用于从所述同义词网络中选择节点作为关键词;
所述组网单元包括:
节点读取子单元,用于按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语,获取所述目标词语的词频信息和出现位置信息;
控制子单元,用于判断同义词网络中是否存在所述目标词语的语义类编号构成的节点,如果存在,控制节点维护子单元更新同义词网络中的所述目标词语的语义类编号构成节点的词频信息和出现位置信息,如果不存在,控制节点维护子单元将所述目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息,控制子单元还用于判断所述分词处理获得的词语中是否存在未读取的词语,如果不存在,控制连接建立子单元为所述同义词网络中的节点建立无向连接,如果存在,控制所述节点读取子单元再次按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语;
节点维护子单元,用于在控制子单元的控制下,更新同义词网络中的所述目标词语的语义类编号构成节点的词频信息和出现位置信息,或将所述目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息;
连接建立子单元,用于在控制子单元的控制下,为所述同义词网络中的节点建立无向连接。
7.根据权利要求6所述的装置,其特征在于,所述组网单元还包括:权重计算子单元;
所述权重计算子单元用于在所述节点读取子单元从所述分词处理获得的词语中读取一个目标词语之后,分别统计所述目标词语与所述分词处理获得的每个其它词语的连接次数,以所述连接次数分别作为所述目标词语对应的节点与所述每个其它词语对应的节点之间的边的权重;
或者,所述权重计算子单元用于在所述节点维护子单元将所述目标词语的语义类编号作为节点添加到同义词网络中之后,分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重;
或者,所述权重计算子单元用于在所述控制子单元判断为所述分词处理获得的词语中不存在未读取的词语之后,分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重。
8.根据权利要求7所述的装置,其特征在于,
所述连接建立子单元具体用于读取所述同义词网络中的一个节点,按照所述节点在文本中的位置,根据所述节点与其它节点之间的边的权重,将所述节点与在预设的窗口距离内的其它节点建立无向连接,判断同义词网络中是否存在未读取的节点,如果是,再次读取所述同义词网络中的一个节点,否则,连接建立完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210187676.7A CN103473217B (zh) | 2012-06-08 | 2012-06-08 | 从文本中抽取关键词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210187676.7A CN103473217B (zh) | 2012-06-08 | 2012-06-08 | 从文本中抽取关键词的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473217A CN103473217A (zh) | 2013-12-25 |
CN103473217B true CN103473217B (zh) | 2016-08-03 |
Family
ID=49798076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210187676.7A Active CN103473217B (zh) | 2012-06-08 | 2012-06-08 | 从文本中抽取关键词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473217B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302882B (zh) * | 2015-10-14 | 2018-09-14 | 东软集团股份有限公司 | 获取关键词的方法及装置 |
CN105718445B (zh) * | 2016-01-28 | 2018-05-11 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN107885718B (zh) * | 2016-09-30 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 语义确定方法及装置 |
CN109344397B (zh) * | 2018-09-03 | 2023-08-08 | 东软集团股份有限公司 | 文本特征词语的提取方法及装置、存储介质及程序产品 |
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
CN110703614B (zh) * | 2019-09-11 | 2021-01-22 | 珠海格力电器股份有限公司 | 语音控制方法、装置、语义网络构建方法及装置 |
CN113378556B (zh) * | 2020-02-25 | 2023-07-14 | 华为技术有限公司 | 提取文本关键字的方法及装置 |
CN111310421B (zh) * | 2020-03-12 | 2023-08-01 | 掌阅科技股份有限公司 | 一种文本批量标记方法、终端及计算机存储介质 |
CN113641918B (zh) * | 2021-08-16 | 2022-07-19 | 江苏云居检测技术有限公司 | 一种基于大数据的区域空气环境质量监测系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809548B2 (en) * | 2004-06-14 | 2010-10-05 | University Of North Texas | Graph-based ranking algorithms for text processing |
-
2012
- 2012-06-08 CN CN201210187676.7A patent/CN103473217B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
Non-Patent Citations (1)
Title |
---|
Keyword Extraction Using PageRank on Synonym Networks;Zhengyang Liu,et al.;《E-Product E-Service and E-Entertainment(ICEEE),2010 International Conference on》;20101109;论文第二节C部分,第三节A、C部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN103473217A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN103699521B (zh) | 文本分析方法及装置 | |
CN108829658B (zh) | 新词发现的方法及装置 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
US10643182B2 (en) | Resume extraction based on a resume type | |
CN109960724A (zh) | 一种基于tf-idf的文本摘要方法 | |
CN105243129A (zh) | 商品属性特征词聚类方法 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN104133855B (zh) | 一种输入法智能联想的方法及装置 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN109582704A (zh) | 招聘信息和求职简历匹配的方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN105488077A (zh) | 生成内容标签的方法和装置 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110334187A (zh) | 基于迁移学习的缅语情感分析方法及装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN107247751A (zh) | 基于lda主题模型的内容推荐方法 | |
CN110728136A (zh) | 一种融合多因素的textrank关键词提取算法 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |