CN105302882A - 获取关键词的方法及装置 - Google Patents
获取关键词的方法及装置 Download PDFInfo
- Publication number
- CN105302882A CN105302882A CN201510666887.2A CN201510666887A CN105302882A CN 105302882 A CN105302882 A CN 105302882A CN 201510666887 A CN201510666887 A CN 201510666887A CN 105302882 A CN105302882 A CN 105302882A
- Authority
- CN
- China
- Prior art keywords
- network
- participle
- word
- participles
- shortest distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 64
- 230000008859 change Effects 0.000 claims abstract description 47
- 230000002776 aggregation Effects 0.000 claims description 143
- 238000004220 aggregation Methods 0.000 claims description 143
- 238000004364 calculation method Methods 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获取关键词的方法及装置。该方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。由此,能够从文本信息中准确提取出关键词。
Description
技术领域
本发明涉及文本处理领域,具体地,涉及一种获取关键词的方法及装置。
背景技术
关键词提取是依靠计算机从文本信息中选择出反映主题内容的词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词可以为文本信息提供一个简短的概括,使读者能够在短时间内了解文本信息的大概内容。此外,关键词还是信息检索系统中对文本信息进行索引、聚类等操作的基础。因此,如何准确地从文本信息中提取出关键词十分重要。
发明内容
本发明的目的是提供一种能够从文本信息中准确提取关键词的获取关键词的方法及装置。
为了实现上述目的,根据本发明的第一方面,提供了一种获取关键词的方法,所述方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
在本发明的第一方面的一些可能的实施方式中,所述方法还包括:在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
在本发明的第一方面的一些可能的实施方式中,所述第一相似性为所述任意两个分词的向量之间的欧式距离;所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值;以及所述对文本信息进行分词处理,得到多个分词包括:对文本信息进行分词处理,得到多个分词和每个分词的向量。
在本发明的第一方面的一些可能的实施方式中,所述更新所述词共现图包括:判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
在本发明的第一方面的一些可能的实施方式中,所述确定每个分词的网络最短距离变化参数包括:利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,所述第一网络平均最短距离为所述词共现图的网络平均最短距离;利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离;根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差,确定所述每个分词的网络最短距离变化参数;所述确定每个分词的网络聚集系数变化参数包括:利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数;利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数;根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差,确定所述每个分词的网络聚集系数变化参数;所述确定每个分词的中间性参数包括:针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
在本发明的第一方面的一些可能的实施方式中,所述第一网络平均最短距离计算函数包括:
其中,L表示所述第一网络平均最短距离;dij表示顶点i与顶点j之间的最短路径上的边线的权重和;V表示所述词共现图中的顶点集合;N表示所述词共现图中的顶点总数;
所述第二网络平均最短距离计算函数包括:
其中,k表示所述多个分词中的一个分词所对应的顶点;Lk表示顶点k所对应的分词的第二网络平均最短距离;
所述第一网络平均聚集系数计算函数包括:
其中,C表示所述第一网络平均聚集系数;Ci表示顶点i的聚集系数,并且,其中,Ei表示与顶点i相邻的顶点之间的实际边线的条数;Vi表示与顶点i相邻的顶点的总数;
所述第二网络平均聚集系数计算函数包括:
其中,Ck表示顶点k所对应的分词的第二网络平均聚集系数;
所述中间性计算函数包括:
其中,Cb表示顶点k所对应的分词的中间性参数;nij表示顶点i与顶点j之间的最短路径的数量;nij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。
在本发明的第一方面的一些可能的实施方式中,所述方法还包括:从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词;将所获取到的同义词作为关键词。
在本发明的第一方面的一些可能的实施方式中,所述从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词包括:根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1;根据第二相似性计算函数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,所述第二相似性计算函数不同于所述第一相似性计算函数;根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标;从所述多个分词中除所获取到的关键词之外的分词中,获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为所述第m个关键词的同义词;判断m是否等于M,其中,M为所获取到的关键词的总数;在m不等于M的情况下,将m加1并返回所述根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性的步骤。
在本发明的第一方面的一些可能的实施方式中,所述第一相似性为两个词的向量之间的欧式距离;所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比;以及所述对文本信息进行分词处理,得到多个分词包括:对文本信息进行分词处理,得到多个分词和每个分词的向量。
根据本发明的第二方面,提供了一种获取关键词的装置,所述装置包括:分词处理模块,用于对文本信息进行分词处理,得到多个分词;词共现图构建模块,用于构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;网络最短距离变化参数确定模块、网络聚集系数变化参数确定模块以及中间性参数确定模块中的至少一者,其中,所述网络最短距离变化参数确定模块用于根据所述词共现图,确定每个分词的网络最短距离变化参数,所述网络聚集系数变化参数确定模块用于根据所述词共现图,确定每个分词的网络聚集系数变化参数,所述中间性参数确定模块用于根据所述词共现图,确定每个分词的中间性参数;重要性确定模块,用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及第一关键词获取模块,用于按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
在本发明的第二方面的一些可能的实施方式中,所述装置还包括:第一相似性确定模块,用于在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;更新模块,用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
在本发明的第二方面的一些可能的实施方式中,所述第一相似性为所述任意两个分词的向量之间的欧式距离;所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值;以及所述分词处理模块,用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
在本发明的第二方面的一些可能的实施方式中,所述更新模块包括:第一判断子模块,用于判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;权重增加子模块,用于在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;边线增加子模块,用于在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
在本发明的第二方面的一些可能的实施方式中,所述网络最短距离变化参数确定模块包括:第一网络平均最短距离确定子模块,用于利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,所述第一网络平均最短距离为所述词共现图的网络平均最短距离;第二网络平均最短距离确定子模块,用于利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离;网络最短距离变化参数确定子模块,用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差,确定所述每个分词的网络最短距离变化参数;所述网络聚集系数变化参数确定模块包括:第一网络平均聚集系数确定子模块,用于利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数;第二网络平均聚集系数确定子模块,用于利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数;网络聚集系数变化参数确定子模块,用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差,确定所述每个分词的网络聚集系数变化参数;所述中间性参数确定模块包括:中间性参数确定子模块,用于针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
在本发明的第二方面的一些可能的实施方式中,所述第一网络平均最短距离计算函数包括:
其中,L表示所述第一网络平均最短距离;dij表示顶点i与顶点j之间的最短路径上的边线的权重和;V表示所述词共现图中的顶点集合;N表示所述词共现图中的顶点总数;
所述第二网络平均最短距离计算函数包括:
其中,k表示所述多个分词中的一个分词所对应的顶点;Lk表示顶点k所对应的分词的第二网络平均最短距离;
所述第一网络平均聚集系数计算函数包括:
其中,C表示所述第一网络平均聚集系数;Ci表示顶点i的聚集系数,并且,其中,Ei表示与顶点i相邻的顶点之间的实际边线的条数;Vi表示与顶点i相邻的顶点的总数;
所述第二网络平均聚集系数计算函数包括:
其中,Ck表示顶点k所对应的分词的第二网络平均聚集系数;
所述中间性计算函数包括:
其中,Cb表示顶点k所对应的分词的中间性参数;nij表示顶点i与顶点j之间的最短路径的数量;nij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。
在本发明的第二方面的一些可能的实施方式中,所述装置还包括:同义词获取模块,用于从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词;第二关键词获取模块,用于将所获取到的同义词作为关键词。
在本发明的第二方面的一些可能的实施方式中,所述同义词获取模块包括:第一相似性确定子模块,用于根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1;第二相似性确定子模块,用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,所述第二相似性计算函数不同于所述第一相似性计算函数;同义词指标确定子模块,用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标;同义词获取子模块,用于从所述多个分词中除所获取到的关键词之外的分词中,获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为所述第m个关键词的同义词;第二判断子模块,用于判断m是否等于M,其中,M为所获取到的关键词的总数;返回子模块,用于在m不等于M的情况下,将m加1并重新运行所述第一相似性确定子模块。
在本发明的第二方面的一些可能的实施方式中,所述第一相似性为两个词的向量之间的欧式距离;所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比;以及所述分词处理模块,用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
在上述技术方案中,通过利用文本信息中的各分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者,来确定各分词的重要性,并按照重要性从高到低的顺序,获取预定数量的分词作为关键词,可以实现关键词的自动提取,并且,所获取到的关键词的准确性和可靠性较高,能够较为客观、真实地代表该文本信息,从而能够为文本信息的索引、聚类等提供准确依据。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1示出了根据本发明的一种实施方式的获取关键词的方法的流程图。
图2示出了采用基于递归神经网络的中文分词算法进行分词处理的过程的树形网络结构示意图。
图3示出了根据本发明的另一实施方式的获取关键词的方法的流程图。
图4示出了根据本发明的另一实施方式的获取关键词的方法的流程图。
图5示出了根据本发明的另一实施方式的获取关键词的方法的流程图。
图6示出了根据本发明的实施方式的如何获取关键词的同义词的方法的流程图。
图7示出了根据本发明的实施方式的获取关键词的装置的结构框图。
图8示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。
图9示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。
图10示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。
图11示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的一种实施方式的获取关键词的方法的流程图。如图1所示,该方法可以包括:
在步骤S101中,对文本信息进行分词处理,得到多个分词。
在本发明中,可以采用本领域技术人员公知的多种分词处理技术中的任一种来对文本信息进行分词处理,得到多个分词。例如,可以采用基于递归神经网络的中文分词算法。该算法将每个字表示为一n维向量,通过神经网络可以计算每对字可以合并为一个词的概率,在计算合并概率的同时还可以生成一个代表合并后词的n维向量,用该词替换合并前的字继续计算与其余字的合并概率,直至输入的句子全部映射到编码空间则完成分词的处理,同时还可以生成每个词的向量。该过程可以表示为树形网络结构,如图2所示。其中,在图2中,c1、c2、c3…cp分别表示一个句子中的第1个字至第p个字的向量,p为大于1的自然数。
对神经网络的训练可以采用贪婪RNN(RecurrentneuralNetwork,递归神经网络)方法。例如,假设给定两个字的向量为c1、c2,为了考虑上下文关系,增加c1、c2前后的词或字的向量x-1、x+1,将四个向量的连接(x-1,c1,c2,x+1)作为网络的输入,采用一层的神经网络计算结合后的向量p:
p=tanh(W[x-1;c1;c2;x+1]+b)(1)
其中,W为权重,b为偏置,二者均为神经网络的参数。
之后,可以计算一个行向量Wscore与p的内积作为衡量两个字可合并为一个词的可能性,如等式(2)。
s1,2=Wscorep(2)
其中,Wscore为行向量,为神经网络的参数;s1,2为c1、c2所表示的两个字可合并为一个词的可能性,并且,可被合并成一个词语的两个字的s1,2较高,而不可被合并为一个词语的两个字的s1,2较低。
对于每个句子,可以构建一个最优树。设训练数据集为句子、树对(xi,yi),xi为第i个句子,yi为其对应的最优树,对于训练数据集中的每个句子,对应一个最优树。网络的目标函数如下:
其中,sd(c'1,c'2)为在进行第d次合并时,被合并的两个字或词c'1、c'2可合并为一个词的可能性,s(xi,yi)为所有合并可能性之和,T(yi)为树yi中的合并过程的总合并次数。采用最速下降法,对于每个未知参数,如W,对应的梯度为
应当理解的是,基于递归神经网络的中文分词算法是本领域的技术人员公知的用于中文分词处理的算法,因此,对于该算法的具体实现过程及原理,本发明在此不进行详细描述。
采用上述示例的算法,可以完成对文本信息的分词处理,得到多个分词,并且还可以同时得到每个分词的向量。例如,每个分词的向量为一n维向量。不过应当理解的是,其他分词处理技术也可以适用于本发明。
在步骤S102中,构建多个分词的词共现图,其中,每个分词作为词共现图的一个顶点,并且两个顶点之间的边线的权重为两个顶点所对应的分词在文本信息中的共现次数;
在步骤S103中,根据词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者。
关键词,通常为文本信息中出现次数较多、较为重要的分词。在词共现图中,这些重要的分词在网络中有很强的聚合性,其余分词所对应的顶点聚集在这些重要的分词所对应的顶点的周围。如果将这类顶点从网络中移除,网络的聚集系数会下降,而网络的最短距离会增加。因此,可以根据在移除某个分词之前的网络的最短距离与在移除该分词之后的网络的最短距离的变化来确定该分词的重要性。可替换地或附加地,可以根据在移除某个分词之前的网络的聚集系数与在移除该分词之后的网络的聚集系数的变化来确定该分词的重要性。可替换地或附加地,还可以根据分词的中间性来确定该分词的重要性。
为了提升确定出的关键词的准确性和代表性,在该步骤S103中,可以根据词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的全部。
下面分别描述如何确定分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数的方法。
首先,在一种实施方式中,在确定每个分词的网络最短距离变化参数时,可以利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,该第一网络平均最短距离为词共现图的网络平均最短距离。
在一些可能的实施方式中,第一网络平均最短距离计算函数可以例如包括:
其中,L表示第一网络平均最短距离;dij表示顶点i与顶点j之间的最短路径上的边线的权重和;V表示词共现图中的顶点集合;N表示词共现图中的顶点总数。
针对每个分词,第一网络平均最短距离可以相同。
接下来,利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,每个分词的第二网络平均最短距离为从词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离。
在一些可能的实施方式中,第二网络平均最短距离计算函数可以例如包括:
其中,k表示多个分词中的一个分词所对应的顶点;Lk表示顶点k所对应的分词的第二网络平均最短距离。
可以逐一选取词共现图中的顶点作为k,并利用等式(5),确定出每个顶点所对应的分词的第二网络平均最短距离。
之后,可以根据第一网络平均最短距离和每个分词的第二网络平均最短距离之间的差,确定每个分词的网络最短距离变化参数。
例如,网络最短距离变化参数ΔL可以通过以下等式(6)来确定:
ΔL=|Lk-L|(6)
通过上述过程,就可以确定出每个分词的网络最短距离变化参数ΔL。
在另一种实施方式中,在确定每个分词的网络聚集系数变化参数时,可以利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,该第一网络平均聚集系数为词共现图的网络平均聚集系数。
在一些可能的实施方式中,第一网络平均聚集系数计算函数可以例如包括:
其中,C表示第一网络平均聚集系数;Ci表示顶点i的聚集系数,并且,其中,Ei表示与顶点i相邻的顶点之间的实际边线的条数;Vi表示与顶点i相邻的顶点的总数。
针对每个分词,第一网络平均聚集系数可以相同。
接下来,可以利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,每个分词的第二网络平均聚集系数为从词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数。
在一些可能的实施方式中,第二网络平均聚集系数计算函数可以例如包括:
其中,Ck表示顶点k所对应的分词的第二网络平均聚集系数。
可以逐一选取词共现图中的顶点作为k,并利用等式(8),确定出每个顶点所对应的分词的第二网络平均聚集系数。
之后,可以根据第一网络平均聚集系数和每个分词的第二网络平均聚集系数之间的差,确定每个分词的网络聚集系数变化参数。
例如,网络聚集系数变化参数ΔC可以通过以下等式(9)来确定:
ΔC=|Ck-C|(9)
通过上述过程,就可以确定出每个分词的网络聚集系数变化参数ΔC。
在另一种实施方式中,在确定每个分词的中间性参数时,可以针对每个分词,根据词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
在一些可能的实施方式中,中间性计算函数可以例如包括:
其中,Cb表示顶点k所对应的分词的中间性参数;nij表示顶点i与顶点j之间的最短路径的数量;nij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。
现在转回图1,在获取到每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之后,在步骤S104中,根据所确定出的每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定每个分词的重要性。
如前所述,在步骤S103中,可以确定出每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的全部。在这种情况下,例如,分词的重要性CE可以例如通过以下等式(11)来确定:
CE=αΔL+βΔC+γCb(11)
其中,α、β、γ分别表示预设的网络最短距离变化参数的权重系数、预设的网络聚集系数变化参数的权重系数、以及预设的中间性参数的权重系数,并且,α+β+γ=1。
接下来,在步骤S105中,按照重要性从高到低的顺序,获取预定数量的分词作为关键词。也就是说,通过该步骤S105,可以获取到重要性排名靠前的预定数量的分词作为关键词。
由此,可以实现关键词的自动提取,并且,所获取到的关键词的准确性和可靠性较高,能够更为客观、真实地代表该文本信息,从而能够为文本信息的索引、聚类等提供准确依据。
在文本信息中,可能存在不同的词表达的是同一意思的情况。因此,在本发明的一个可选的实施方式中,在构建词共现图时,考虑两个词的相似性。
图3示出了根据这一实施方式的获取关键词的方法的流程图。如图3所示,在图1所示的方法的基础上,该方法还可以包括:
在步骤S103之前,在步骤S301中,确定多个分词中的任意两个分词之间的第一相似性。
在步骤S302,在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新词共现图。
在步骤S302之后,再进行步骤S103以及之后的步骤。应当理解的是,一旦在步骤S302中,词共现图被更新,则后续步骤中使用的词共现图为更新后的词共现图。
通常情况下,相似的词具有相似的词向量,因此,在一些可能的实施方式中,可以采用两个词的向量之间的欧式距离作为第一相似性,来评价两个词之间的相似程度。在这种情况下,预设的相似性条件可以包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值。
例如,在所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值的情况下,表示所述任意两个分词相似,此时,更新词共现图。在所述任意两个分词的向量之间的欧式距离大于预设的距离阈值的情况下,表示所述任意两个分词不相似,此时,可以不更新词共现图。
由于采用欧式距离作为第一相似性,而在确定欧式距离时需要分词的向量,因此,对文本信息进行分词处理,得到多个分词的步骤可以包括,对文本信息进行分词处理,得到多个分词和每个分词的向量。例如,如前所述,可以采用基于递归神经网络的中文分词处理算法,来得到多个分词和每个分词的向量。
例如,可以通过以下方式来确定两个词的向量之间的欧式距离:
其中,d表示两个词的向量之间的欧式距离;al表示两个词中的一个词的n维向量元素中的第l维元素;bl表示两个词中的另一个词的n维向量元素中的第l维元素;并且,1≤l≤n,n表示分词的向量的总维数。
图4示出了根据本发明的另一实施方式的获取关键词的方法的流程图。如图4所示,图3中的更新词共现图的步骤(即,步骤S302)可以包括:
在步骤S401中,判断词共现图中,所述任意两个分词所对应的顶点之间是否存在边线。
在步骤S402中,在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重。例如,在一个示例实施方式中,可以将所述任意两个分词所对应的顶点之间的边线的权重加1。
在步骤S403中,在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。此时,增加的边线的权重初始为1。
通过根据分词之间的相似性来更新词共现图,可以使得在后续根据词共现图来获取关键词时,进一步提高所获取到的关键词的准确性、全面性。
图5示出了根据本发明的另一实施方式的获取关键词的方法的流程图。如图5所示,该方法可以包括:
在步骤S501中,对文本信息进行分词处理,得到多个分词。
在步骤S502中,构建多个分词的词共现图,其中,每个分词作为词共现图的一个顶点,并且两个顶点之间的边线的权重为两个顶点所对应的分词在文本信息中的共现次数。
在步骤S503中,根据词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者。
在步骤S504中,根据所确定出的每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定每个分词的重要性。
在步骤S505中,按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
在步骤S506中,从多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词。
确定两个词是否属于同义词的方法有很多。在本发明的一个示例实施方式中,可以通过两个词之间的相似性来确定两个词是否属于同义词。
图6示出了根据本发明的实施方式的如何获取关键词的同义词的方法的流程图。如图6所示,步骤S506可以包括:
在步骤S601中,根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与多个分词中除获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1。
在一些可选的实施方式中,第一相似性为两个词的向量之间的欧式距离d。欧式距离的确定方法已在上文描述,此处便不再赘述。在这种情况下,对文本信息进行分词处理,得到多个分词的步骤可以包括:对文本信息进行分词处理,得到多个分词和每个分词的向量。
在步骤S602中,根据第二相似性计算函数,确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,第二相似性计算函数不同于第一相似性计算函数。也就是说,通过步骤S601和步骤S602,可以利用两种不同的相似性确定方法,来确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的相似性。
在一些可选的实施方式中,第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比,可以如以下等式(13)所示:
其中,Score表示第二相似性;w1和w2分别表示两个词;len(w1∩w2)表示两个词之间相同词素的个数;len(w1∪w2)表示两个词的全部词素的个数。
在步骤S603中,根据第一相似性、第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的同义词指标。
在一些可选的实施方式中,可以通过以下等式(14)来确定同义词指标SIM:
SIM=λ1d+λ2Score(14)
其中,λ1、λ2分别表示预设的第一相似性的权重系数、以及预设的第二相似性的权重系数,并且,λ1+λ2=1。
在步骤S604中,从多个分词中除所获取到的关键词之外的分词中,获取与第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为第m个关键词的同义词。
如果在多个分词中除所获取到的关键词之外的分词中,不存在与第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,则可以跳过步骤S604,直接进行步骤S605。
在步骤S605中,判断m是否等于M,其中,M为所获取到的关键词的总数。
在步骤S606中,在m不等于M的情况下,将m加1并返回步骤S601,继续获取下一关键词的同义词。上述过程可以重复进行,直到遍历完全部关键词为止。
在m等于M的情况下,可以结束获取同义词的过程,并进行后续步骤(即,步骤S507)。
现在返回到图5,在获取每个关键词的同义词之后,在步骤S507中,将所获取到的同义词作为关键词。也就是说,在该实施方式中,将所获取到的关键词、以及所获取到的关键词的同义词均作为关键词。
通过在确定关键词时考虑每个关键词的同义词,可以确保具有不同写法但表达同一含义的词能够同时被作为关键词,避免出现一些与获取到的关键词同义的分词被漏选的情况。这样,可以使得最终获取到的关键词更为全面、准确。
图7示出了根据本发明的实施方式的获取关键词的装置的结构框图。如图7所示,该装置可以包括:分词处理模块701,用于对文本信息进行分词处理,得到多个分词;词共现图构建模块702,用于构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;网络最短距离变化参数确定模块703、网络聚集系数变化参数确定模块704以及中间性参数确定模块705中的至少一者(图7中示出了装置包括网络最短距离变化参数确定模块703、网络聚集系数变化参数确定模块704以及中间性参数确定模块705中的全部。不过在其他实施方式中,装置可以包括网络最短距离变化参数确定模块703、网络聚集系数变化参数确定模块704以及中间性参数确定模块705中的一者或两者),其中,所述网络最短距离变化参数确定模块703可以用于根据所述词共现图,确定每个分词的网络最短距离变化参数,所述网络聚集系数变化参数确定模块704可以用于根据所述词共现图,确定每个分词的网络聚集系数变化参数,所述中间性参数确定模块705可以用于根据所述词共现图,确定每个分词的中间性参数;重要性确定模块706,用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及第一关键词获取模块707,用于按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
在一些可选的实施方式中,所述网络最短距离变化参数确定模块703可以包括:第一网络平均最短距离确定子模块,用于利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,所述第一网络平均最短距离为所述词共现图的网络平均最短距离;第二网络平均最短距离确定子模块,用于利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离;网络最短距离变化参数确定子模块,用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差,确定所述每个分词的网络最短距离变化参数。
在一些可选的实施方式中,所述网络聚集系数变化参数确定模块704可以包括:第一网络平均聚集系数确定子模块,用于利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数;第二网络平均聚集系数确定子模块,用于利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数;网络聚集系数变化参数确定子模块,用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差,确定所述每个分词的网络聚集系数变化参数。
在一些可选的实施方式中,所述中间性参数确定模块705可以包括:中间性参数确定子模块,用于针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
图8示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。如图8所示,在图7所示的装置的基础上,该装置还可以包括:第一相似性确定模块801,用于在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;更新模块802,用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
在一些可选的实施方式中,所述第一相似性为所述任意两个分词的向量之间的欧式距离;所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值。在这种情况下,所述分词处理模块701,可以用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
图9示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。如图9所示,所述更新模块802可以包括:第一判断子模块901,用于判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;权重增加子模块902,用于在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;边线增加子模块903,用于在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
图10示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。如图10所示,在图7所示的装置的基础上,该装置还可以包括:同义词获取模块1001,用于从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词;第二关键词获取模块1002,用于将所获取到的同义词作为关键词。
图11示出了根据本发明的另一实施方式的获取关键词的装置的结构框图。如图11所示,所述同义词获取模块1001可以包括:第一相似性确定子模块1101,用于根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1;第二相似性确定子模块1102,用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,所述第二相似性计算函数不同于所述第一相似性计算函数;同义词指标确定子模块1103,用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标;同义词获取子模块1104,用于从所述多个分词中除所获取到的关键词之外的分词中,获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为所述第m个关键词的同义词;第二判断子模块1105,用于判断m是否等于M,其中,M为所获取到的关键词的总数;返回子模块1106,用于在m不等于M的情况下,将m加1并重新运行所述第一相似性确定子模块1101。
在一些可能的实施方式中,第一相似性为两个词的向量之间的欧式距离,第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比。在这种情况下,所述分词处理模块701,可以用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
本发明的获取关键词的装置对应于获取关键词的方法,因此相同的内容不再赘述。
综上所述,通过利用文本信息中的各分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者,来确定各分词的重要性,并按照重要性从高到低的顺序,获取预定数量的分词作为关键词,可以实现关键词的自动提取,并且,所获取到的关键词的准确性和可靠性较高,能够较为客观、真实地代表该文本信息,从而能够为文本信息的索引、聚类等提供准确依据。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明的实施方式可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (18)
1.一种获取关键词的方法,其特征在于,所述方法包括:
对文本信息进行分词处理,得到多个分词;
构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;
根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;
根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及
按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;
在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
3.根据权利要求2所述的方法,其特征在于,所述第一相似性为所述任意两个分词的向量之间的欧式距离;
所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值;以及
所述对文本信息进行分词处理,得到多个分词包括:
对文本信息进行分词处理,得到多个分词和每个分词的向量。
4.根据权利要求2所述的方法,其特征在于,所述更新所述词共现图包括:
判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;
在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;
在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述确定每个分词的网络最短距离变化参数包括:
利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,所述第一网络平均最短距离为所述词共现图的网络平均最短距离;
利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离;
根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差,确定所述每个分词的网络最短距离变化参数;
所述确定每个分词的网络聚集系数变化参数包括:
利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数;
利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数;
根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差,确定所述每个分词的网络聚集系数变化参数;
所述确定每个分词的中间性参数包括:
针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
6.根据权利要求5所述的方法,其特征在于,所述第一网络平均最短距离计算函数包括:
其中,L表示所述第一网络平均最短距离;dij表示顶点i与顶点j之间的最短路径上的边线的权重和;V表示所述词共现图中的顶点集合;N表示所述词共现图中的顶点总数;
所述第二网络平均最短距离计算函数包括:
其中,k表示所述多个分词中的一个分词所对应的顶点;Lk表示顶点k所对应的分词的第二网络平均最短距离;
所述第一网络平均聚集系数计算函数包括:
其中,C表示所述第一网络平均聚集系数;Ci表示顶点i的聚集系数,并且, 其中,Ei表示与顶点i相邻的顶点之间的实际边线的条数;Vi表示与顶点i相邻的顶点的总数;
所述第二网络平均聚集系数计算函数包括:
其中,Ck表示顶点k所对应的分词的第二网络平均聚集系数;
所述中间性计算函数包括:
其中,Cb表示顶点k所对应的分词的中间性参数;nij表示顶点i与顶点j之间的最短路径的数量;nij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词;
将所获取到的同义词作为关键词。
8.根据权利要求7所述的方法,其特征在于,所述从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词包括:
根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1;
根据第二相似性计算函数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,所述第二相似性计算函数不同于所述第一相似性计算函数;
根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标;
从所述多个分词中除所获取到的关键词之外的分词中,获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为所述第m个关键词的同义词;
判断m是否等于M,其中,M为所获取到的关键词的总数;
在m不等于M的情况下,将m加1并返回所述根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性的步骤。
9.根据权利要求8所述的方法,其特征在于,所述第一相似性为两个词的向量之间的欧式距离;所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比;以及
所述对文本信息进行分词处理,得到多个分词包括:
对文本信息进行分词处理,得到多个分词和每个分词的向量。
10.一种获取关键词的装置,其特征在于,所述装置包括:
分词处理模块,用于对文本信息进行分词处理,得到多个分词;
词共现图构建模块,用于构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;
网络最短距离变化参数确定模块、网络聚集系数变化参数确定模块以及中间性参数确定模块中的至少一者,其中,所述网络最短距离变化参数确定模块用于根据所述词共现图,确定每个分词的网络最短距离变化参数,所述网络聚集系数变化参数确定模块用于根据所述词共现图,确定每个分词的网络聚集系数变化参数,所述中间性参数确定模块用于根据所述词共现图,确定每个分词的中间性参数;
重要性确定模块,用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及
第一关键词获取模块,用于按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一相似性确定模块,用于在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;
更新模块,用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
12.根据权利要求11所述的装置,其特征在于,所述第一相似性为所述任意两个分词的向量之间的欧式距离;
所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值;以及
所述分词处理模块,用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
13.根据权利要求11所述的装置,其特征在于,所述更新模块包括:
第一判断子模块,用于判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;
权重增加子模块,用于在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;
边线增加子模块,用于在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
14.根据权利要求10-13中任一项所述的装置,其特征在于,所述网络最短距离变化参数确定模块包括:
第一网络平均最短距离确定子模块,用于利用第一网络平均最短距离计算函数,确定第一网络平均最短距离,其中,所述第一网络平均最短距离为所述词共现图的网络平均最短距离;
第二网络平均最短距离确定子模块,用于利用第二网络平均最短距离计算函数,确定每个分词的第二网络平均最短距离,其中,所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离;
网络最短距离变化参数确定子模块,用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差,确定所述每个分词的网络最短距离变化参数;
所述网络聚集系数变化参数确定模块包括:
第一网络平均聚集系数确定子模块,用于利用第一网络平均聚集系数计算函数,确定第一网络平均聚集系数,其中,所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数;
第二网络平均聚集系数确定子模块,用于利用第二网络平均聚集系数计算函数,确定每个分词的第二网络平均聚集系数,其中,所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数;
网络聚集系数变化参数确定子模块,用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差,确定所述每个分词的网络聚集系数变化参数;
所述中间性参数确定模块包括:
中间性参数确定子模块,用于针对每个分词,根据所述词共现图中,除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量,所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量,以及中间性计算函数,确定该分词的中间性参数。
15.根据权利要求14所述的装置,其特征在于,所述第一网络平均最短距离计算函数包括:
其中,L表示所述第一网络平均最短距离;dij表示顶点i与顶点j之间的最短路径上的边线的权重和;V表示所述词共现图中的顶点集合;N表示所述词共现图中的顶点总数;
所述第二网络平均最短距离计算函数包括:
其中,k表示所述多个分词中的一个分词所对应的顶点;Lk表示顶点k所对应的分词的第二网络平均最短距离;
所述第一网络平均聚集系数计算函数包括:
其中,C表示所述第一网络平均聚集系数;Ci表示顶点i的聚集系数,并且,其中,Ei表示与顶点i相邻的顶点之间的实际边线的条数;Vi表示与顶点i相邻的顶点的总数;
所述第二网络平均聚集系数计算函数包括:
其中,Ck表示顶点k所对应的分词的第二网络平均聚集系数;
所述中间性计算函数包括:
其中,Cb表示顶点k所对应的分词的中间性参数;nij表示顶点i与顶点j之间的最短路径的数量;nij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。
16.根据权利要求10-13中任一项所述的装置,其特征在于,所述装置还包括:
同义词获取模块,用于从所述多个分词中除所获取到的关键词之外的分词中,获取每个关键词的同义词;
第二关键词获取模块,用于将所获取到的同义词作为关键词。
17.根据权利要求16所述的装置,其特征在于,所述同义词获取模块包括:
第一相似性确定子模块,用于根据第一相似性计算函数,确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性,其中,m为大于零的自然数,并且m的初始值为1;
第二相似性确定子模块,用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性,其中,所述第二相似性计算函数不同于所述第一相似性计算函数;
同义词指标确定子模块,用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数,确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标;
同义词获取子模块,用于从所述多个分词中除所获取到的关键词之外的分词中,获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词,作为所述第m个关键词的同义词;
第二判断子模块,用于判断m是否等于M,其中,M为所获取到的关键词的总数;
返回子模块,用于在m不等于M的情况下,将m加1并重新运行所述第一相似性确定子模块。
18.根据权利要求17所述的装置,其特征在于,所述第一相似性为两个词的向量之间的欧式距离;所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比;以及
所述分词处理模块,用于对文本信息进行分词处理,得到多个分词和每个分词的向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510666887.2A CN105302882B (zh) | 2015-10-14 | 2015-10-14 | 获取关键词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510666887.2A CN105302882B (zh) | 2015-10-14 | 2015-10-14 | 获取关键词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105302882A true CN105302882A (zh) | 2016-02-03 |
CN105302882B CN105302882B (zh) | 2018-09-14 |
Family
ID=55200152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510666887.2A Active CN105302882B (zh) | 2015-10-14 | 2015-10-14 | 获取关键词的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105302882B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843850A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索优化方法和装置 |
CN106528615A (zh) * | 2016-09-29 | 2017-03-22 | 北京金山安全软件有限公司 | 分类方法、装置及服务器 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN109522479A (zh) * | 2018-11-09 | 2019-03-26 | 广东美的制冷设备有限公司 | 搜索处理方法及装置 |
CN110705282A (zh) * | 2019-09-04 | 2020-01-17 | 东软集团股份有限公司 | 关键词提取方法、装置、存储介质及电子设备 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN112948527A (zh) * | 2021-02-23 | 2021-06-11 | 云南大学 | 一种改进的TextRank关键词提取方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
US8473338B2 (en) * | 2007-04-30 | 2013-06-25 | Demand Media, Inc. | Methods and systems to facilitate keyword bid arbitrage with multiple advertisement placement providers |
CN103390058A (zh) * | 2013-07-29 | 2013-11-13 | 北京理工大学 | 基于知识地图的领域知识浏览方法 |
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN104731819A (zh) * | 2013-12-24 | 2015-06-24 | 苏州开眼数据技术有限公司 | 广告关键词提取方法和装置 |
-
2015
- 2015-10-14 CN CN201510666887.2A patent/CN105302882B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473338B2 (en) * | 2007-04-30 | 2013-06-25 | Demand Media, Inc. | Methods and systems to facilitate keyword bid arbitrage with multiple advertisement placement providers |
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN103390058A (zh) * | 2013-07-29 | 2013-11-13 | 北京理工大学 | 基于知识地图的领域知识浏览方法 |
CN104731819A (zh) * | 2013-12-24 | 2015-06-24 | 苏州开眼数据技术有限公司 | 广告关键词提取方法和装置 |
Non-Patent Citations (1)
Title |
---|
任晓龙,吕琳媛: ""网络重要节点排序方法综述"", 《科学通报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843850A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索优化方法和装置 |
CN105843850B (zh) * | 2016-03-15 | 2020-07-24 | 北京百度网讯科技有限公司 | 搜索优化方法和装置 |
CN106528615A (zh) * | 2016-09-29 | 2017-03-22 | 北京金山安全软件有限公司 | 分类方法、装置及服务器 |
CN106528615B (zh) * | 2016-09-29 | 2019-08-06 | 北京金山安全软件有限公司 | 分类方法、装置及服务器 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN106599269B (zh) * | 2016-12-22 | 2019-12-03 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN107562717B (zh) * | 2017-07-24 | 2021-08-03 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN109522479A (zh) * | 2018-11-09 | 2019-03-26 | 广东美的制冷设备有限公司 | 搜索处理方法及装置 |
CN110705282A (zh) * | 2019-09-04 | 2020-01-17 | 东软集团股份有限公司 | 关键词提取方法、装置、存储介质及电子设备 |
CN112364648A (zh) * | 2020-12-02 | 2021-02-12 | 中金智汇科技有限责任公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN112948527A (zh) * | 2021-02-23 | 2021-06-11 | 云南大学 | 一种改进的TextRank关键词提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105302882B (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105302882B (zh) | 获取关键词的方法及装置 | |
US10878004B2 (en) | Keyword extraction method, apparatus and server | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
CN105224807B (zh) | 病例审核规则提取方法及装置,病例审核方法及系统 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN108509474A (zh) | 搜索信息的同义词扩展方法及装置 | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
EP3937029A2 (en) | Method and apparatus for training search model, and method and apparatus for searching for target object | |
CN104572631B (zh) | 一种语言模型的训练方法及系统 | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
CN112183117B (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
CN104572614A (zh) | 一种语言模型的训练方法及系统 | |
CN110688489A (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN109635810B (zh) | 一种确定文本信息的方法、装置、设备及存储介质 | |
CN105243053B (zh) | 提取文档关键句的方法及装置 | |
CN113392218A (zh) | 文本质量评估模型的训练方法和确定文本质量的方法 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111831685A (zh) | 一种查询语句的处理方法、训练模型的方法、装置及设备 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 | |
US20200410007A1 (en) | Search apparatus, search system, and non-transitory computer readable medium | |
CN114706841B (zh) | 查询内容库构建方法、装置、电子设备及可读存储介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |