CN109885831A - 关键术语抽取方法、装置、设备及计算机可读存储介质 - Google Patents
关键术语抽取方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109885831A CN109885831A CN201910091177.XA CN201910091177A CN109885831A CN 109885831 A CN109885831 A CN 109885831A CN 201910091177 A CN201910091177 A CN 201910091177A CN 109885831 A CN109885831 A CN 109885831A
- Authority
- CN
- China
- Prior art keywords
- word
- term
- candidate terms
- specific area
- key term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种关键术语抽取方法、装置、设备及计算机可读存储介质,该方法包括:根据预先构建的特定领域术语词典,对文本进行切分处理;利用预设的第一抽取窗口遍历文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语,根据预先构建的特定领域术语词典,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;通过预先构建的概率主题模型对候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;根据每个主题关联的候选术语及其关联概率,确定关键术语,本发明基于特定领域术语词典对文本划分,并采用概率主题模型进行关键术语提取,有效抽取特定领域的关键术语,提高关键术语抽取的准确性。
Description
技术领域
本发明涉及词语抽取技术领域,尤其涉及一种关键术语抽取方法、装置、设备及计算机可读存储介质。
背景技术
传统中文关键术语抽取方法一般是先对中文本文进行分词,然后基于分词结果,采用频次法对关键术语进行抽取。但是,传统中文关键术语抽取方法有以下的缺陷:(1)采用通用的切分字典,容易将特定领域的关键术语切分成跟文章主题不相关的词语,导致最后关键术语的抽取不能表达文章真正的意思;(2)过分注重词语的频次,忽略一些低频的关键术语。
发明内容
针对上述问题,本发明的目的在于提供一种关键术语抽取方法、装置、设备及计算机可读存储介质,其能有效抽取特定领域的关键术语,提高关键术语抽取的准确性。
第一方面,本发明实施例提供了一种关键术语抽取方法,包括以下步骤:
根据预先构建的特定领域术语词典,对文本进行切分处理;
利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
根据每个主题关联的候选术语及其关联概率,确定关键术语。
优选地,所述根据每个主题关联的候选术语及其关联概率,确定关键术语,具体包括:
抽取最大关联概率对应的主题关联的候选术语,作为所述关键术语。
优选地,所述通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率,具体包括:
构建每个所述候选术语的词向量;
根据所述候选术语、所述候选术语的词向量,计算所述候选术语的相似性、词语左熵以及词语右熵;
根据所述候选术语的相似性、词语左熵以及词语右熵,通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率。
优选地,所述方法还包括:
获取特定领域的语料,并对所述语料进行分词处理;
根据分词处理后得到的词语,构建词语图模型;
根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合;
利用预设的第二抽取窗口遍历所述语料,对分词处理后得到的词语进行抽取;
根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典。
优选地,所述根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典,具体包括:
判断分词处理后得到的每个词语中是否存在所述第一术语集合中的至少一个词语;
当分词处理后得到的词语存在所述第一术语集合中的一个词语时,将所述第一术语集合中的一个词语,作为第一特定领域术语;
当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1;
根据所述第一特定领域术语和所述第二特定领域术语,构建所述特定领域术语词典。
优选地,所述当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语,具体包括:
当分词处理后得到的m个词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1。
优选地,所述根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合,具体包括:
根据分词处理后得到的词语的共现次数,对所述词语图模型中的词语进行连边,并将所述词语图模型中具有连边的词语作为所述第一术语集合;其中,所述词语图模型中以分词处理后得到的词语为节点。
第二方面,本发明实施例提供了一种关键术语抽取装置,包括:
文本切分模块,用于根据预先构建的特定领域术语词典,对文本进行切分处理;
词语抽取模块,用于利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
主题聚类模块,用于通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
关键术语确定模块,用于根据每个主题关联的候选术语及其关联概率,确定关键术语。
第三方面,本发明实施例提供了一种人关键术语抽取设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的关键术语抽取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的关键术语抽取方法。
以上实施例具有如下有益效果:
根据预先构建的特定领域术语词典,对文本进行切分处理;利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语,可以避免词语切分不当的问题;根据预先构建的特定领域术语词典,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;根据每个主题关联的候选术语及其关联概率,确定关键术语,通过对候选术语进行主题聚类,避免在抽取过程中忽略低频关键术语,有效抽取特定领域的关键术语,提高关键术语抽取的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的关键术语抽取方法的流程示意图;
图2是本发明第二实施例提供的关键术语抽取装置的结构示意图;
图3是本发明第三实施例提供的关键术语抽取设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明第一实施例提供了一种关键术语抽取方法,其可由关键术语抽取设备来执行,并包括以下步骤:
S11:根据预先构建的特定领域术语词典,对文本进行切分处理;
在本发明实施例中,所述关键术语抽取设备可为电脑、手机、平板电脑、笔记本电脑或者服务器等计算设备,所述关键术语抽取方法可作为其中一个功能模块集成与所述关键术语抽取设备上,由所述关键术语抽取设备来执行。
S12:利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
S13:通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
S14:根据每个主题关联的候选术语及其关联概率,确定关键术语。
在本发明实施例中,所述第一抽取窗口的长度为5。例如:采用预先构建的特定领域术语词典切分文本“人工智能时代,以智能机器人为工具的…”;之后利用所述第一抽取窗口遍历所述文本,得到“人工智能时”、“工智能时代”…“智能机器人”等词语,之后通过对比步骤S11切分后的词语与步骤S12遍历得到的词语,根据对比结果对切分处理后得到的词语进行抽取,获得特定领域的候选术语。以所述候选术语作为所述概率主题模型的输入值,对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率,以主题的关联概率为抽取标准,抽取任意一个主题关联的候选术语,作为关键术语,避免在抽取过程中忽略低频关键术语,有效抽取特定领域的关键术语,提高关键术语抽取的准确性。
在本发明实施例中,对文本的切分处理方式不做具体的限定,例如可以结合预先构建的特定领域术语词典采用hanlp工具对所述文本进行切分处理,又或者结合预先构建的特定领域术语词典采用结巴分词工具对所述文本进行切分处理。
在一种可选的实施例中,所述通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率,具体包括:
构建每个所述候选术语的词向量;
根据所述候选术语、所述候选术语的词向量,计算所述候选术语的相似性、词语左熵以及词语右熵;
在本实施例中,所述候选术语的相似性其中,a表示候选术语1的向量,b表示候选术语2的向量。需要说明的是,本发明实施例对候选术语的词向量的计算方式不做具体的限定,例如候选术语的词向量可通过袋模型计算得到。
一个候选术语的词语左熵EL(w)表示候选术语a的词语左熵,表示对一个词语左边的词语出现的稳定性的度量。A表示候选术语a的左边所有可能的候选术语的集合,w表示候选术语a的左边某一个可能的候选术语语,在这里,通过对候选术语a所有左边的候选术语计算信息熵,然后求和,最终得到候选术语a的词语左熵的值。
例如,假设候选术语a为“智能”,候选术语a的某一个左边的词为“人工”,那么在预设的语料库(比如有1000文档组成)中,p(智能)表示在这个语料库中出现“智能”的概率,比如是500篇,那么p(智能)为0.5,并且在这500篇文档中,“人工”这个词出现在“智能”左边,有100篇,则p(人工智能|智能)=0.2,同理可计算候选术语a的其他左边可能的词,最终得到候选术语a的词语左熵的值。
同理,一个候选术语的词语左熵
ER(w)表示候选术语b的词语左熵,表示对一个词语右边的词语出现的稳定性的度量。B表示候选术语b的右边所有可能的候选术语的集合,w表示候选术语b的右边某一个可能的候选术语,在这里,通过对候选术语b所有右边的候选术语计算信息熵,然后求和,最终得到候选术语b的词语右熵的值。
根据所述候选术语的相似性、词语左熵以及词语右熵,通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率。
在发明本实施例中,根据每个所述候选术语的相似性、词语左熵、词语右熵以及预设的权值,计算每个所述候选术语的特征重要性指数,并根据每个所述候选术语的特征重要性指数通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率,作为选取所述文本的关键术语的依据。在本实施例中,一般情况下,每个指标值的重要性不一定相同,因此对于每一个指标都设定一个权值,例如,给相关性这个指标设定第一权值、给词语左熵这个指标设定第二权值、给词语右熵这个指标设定第三权值,那么对于一个候选术语,其最终的特征重要性指数为:I(a)=α1P(a,b)+α2EL(w)+α3ER(w),其中,α1+α2+α3=1,α1、α2、α3的值根据实际情况来决定。
在本发明实施中,采用LAD(潜在狄立克雷分配)概率主题模型对所述候选术语进行主题聚类。需要说明的是,在其他实施例中,还可以采用pLSA(概率隐语义分析)概率主题模型对所述候选术语进行主题聚类。
在一种可选的实施例中,所述根据每个主题关联的候选术语及其关联概率,确定关键术语,具体包括:
抽取最大关联概率对应的主题关联的候选术语,作为所述关键术语。
例如:其中一个主题关联的候选术语包括:“人工智能”、“智能机器人”等,其关联概率为70%;另一主题关联的候选术语包括:“智能时代”、“智能机器人”等,其关联概率为40%;则抽取关联概率为70%对应主题中的候选术语“智能时代”、“智能机器人”等作为文本的关键术语。当低频的关键术语的向量与一些高频的关键术语的相关度很高,通过所述概率主题模型的抽取,这些低频的关键术语会包含对应高频的关键术语所在的主题内,避免在抽取过程中忽略低频关键术语。
通过第一抽取窗口和特定领域术语词典对所述文本切分后得到的候选术语利用概率主题模型进行了学习训练,获取多个主题,需要说明的是主题数量可以根据实际情况设定;其中,对应的候选术语,每个候选术语的归类是采用词语的相似性聚类算法实现的;这里的词语的相似性结合候选术语的词语左熵、词语右熵以及词向量进行计算,进一步增加文本的语义关系,提高文本关键术语提取的准确性。
需要说明的是,在其他实施例中,还可以抽取关联概率大于预设阈值的主题关联的候选术语,作为所述关键术语。
在一种可选的实施例中,所述方法还包括:
获取特定领域的语料,并对所述语料进行分词处理;
在本发明实施例中,对语料的分词处理方式不做具体的限定,例如可以通过hanlp工具对所述语料进行分词处理,又或者通过结巴分词工具对所述语料进行分词处理。
根据分词处理后得到的词语,构建词语图模型;
在本发明实施例中,采用结巴算法将某一个领域的多个语料切分成若干个单词,并对上述的单词构建词语图模型。例如将语料划分成10个词语,那么将词语作为节点,节点之间的边的初始权重数值设为0,构建初始的词语图模型。
根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合;
进一步地,所述根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合,具体包括:
根据分词处理后得到的词语的共现次数,对所述词语图模型中的词语进行连边,并将所述词语图模型中具有连边的词语作为所述第一术语集合;其中,所述词语图模型中以分词处理后得到的词语为节点。
例如以词语作为节点,然后将共现次数大于或等于10的词语进行词语连边,并具有连边的词语作为候选术语。
利用预设的第二抽取窗口遍历所述语料,对分词处理后得到的词语进行抽取;
在本发明实施例中,所述第二抽取窗口的长度等于第一抽取窗口的长度。
根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典。
进一步地,所述根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典,具体包括:
判断分词处理后得到的每个词语中是否存在所述第一术语集合中的至少一个词语;
当分词处理后得到的词语存在所述第一术语集合中的一个词语时,将所述第一术语集合中的一个词语,作为第一特定领域术语;
当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1;
进一步地,所述分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语,具体包括:
当分词处理后得到的m个词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1,m>10。
在本发明实施例中,如果在第二抽取窗口内出现上面的第一术语集合,并且出现的次数大于设定的阈值m(10次),那么就把上面的第一术语集合进行组合。以文本“人工智能时代,以智能机器人为工具的…”为例,当分词后的词语中没有得到没有“人工-智能-时”的候选术语集,但有“智能-机器人”,根据分词处理后得到的词语和窗口的遍历结果,从上述切分结果抽取出“人工智能”、“智能机器人”等候选术语。
根据所述第一特定领域术语和所述第二特定领域术语,构建所述特定领域术语词典。
在本实施例中,通过构建特定领域术语词典,只要有一个代表行业领域特点的语料库,就能快速构建该行业的术语词典,无需先验数据,实现非监督文本切分。
相对于现有技术,本发明实施例的有益效果在于:
1、通过构建特定领域术语词典,并结合文本词语的共现次数、第一抽取窗口进行术语抽取,实现非监督文本切分。
2、采用结合所述候选术语的相似性、词语左熵、词语右熵,利用LAD概率主题模型进行关键术语提取,充分需要考虑从文本生成的词向量的相似性关系和文本的词语之间的位置关系,综合确定词语之间的聚类关系,提高术语抽取的准确性。
3、基于预先构建的特定领域术语词典进行文本的词语划分;最后采用改进LAD概率主题模型进行关键术语提取,能够有效的提取低频关键术语,避免了传统采用频次或者互信息等指标提取关键术语的缺陷,进一步提高术语抽取的准确性。
请参阅图2,本发明第二实施例提供了一种关键术语抽取装置,包括:
文本切分模块1,用于根据预先构建的特定领域术语词典,对文本进行切分处理;
词语抽取模块2,用于利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
主题聚类模块3,用于通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
关键术语确定模块4,用于根据每个主题关联的候选术语及其关联概率,确定关键术语。
在一种可选的实施例中,所述关键术语确定模块4,用于抽取最大关联概率对应的主题关联的候选术语,作为所述关键术语。
在一种可选的实施例中,所述主题聚类模块3包括:
词向量构建单元,用于构建每个所述候选术语的词向量;
术语指标计算单元,用于根据所述候选术语、所述候选术语的词向量,计算所述候选术语的相似性、词语左熵以及词语右熵;
术语聚类单元,用于根据所述候选术语的相似性、词语左熵以及词语右熵,通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率。
在一种可选的实施例中,所述装置还包括:
分词模块,用于获取特定领域的语料,并对所述语料进行分词处理;
图模型构建模块,用于根据分词处理后得到的词语,构建词语图模型;
第一术语集合提取模块,用于根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合;
语料抽取模块,用于利用预设的第二抽取窗口遍历所述语料,对分词处理后得到的词语进行抽取;
术语词典构建模块,用于根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典。
在一种可选的实施例中,所述术语词典构建模块包括:
共现判断单元,用于判断分词处理后得到的每个词语中是否存在所述第一术语集合中的至少一个词语;
第一词语提取单元,用于当分词处理后得到的词语存在所述第一术语集合中的一个词语时,将所述第一术语集合中的一个词语,作为第一特定领域术语;
第二词语提取单元,用于当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1;
术语词典构建单元,用于根据所述第一特定领域术语和所述第二特定领域术语,构建所述特定领域术语词典。
在一种可选的实施例中,第二词语提取单元,用于当分词处理后得到的m个词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1。
在一种可选的实施例中,所述第一术语集合提取模块,用于根据分词处理后得到的词语的共现次数,对所述词语图模型中的词语进行连边,并将所述词语图模型中具有连边的词语作为所述第一术语集合;其中,所述词语图模型中以分词处理后得到的词语为节点。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
参见图3,是本发明第三实施例提供的关键术语抽取设备的示意图。如图3所示,该关键术语抽取设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者术语结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的关键术语抽取方法,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如文本切分模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述关键术语抽取设备中的执行过程。
所述关键术语抽取设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述关键术语抽取设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是关键术语抽取设备的示例,并不构成对关键术语抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器11是所述关键术语抽取设备的控制中心,利用各种接口和线路连接整个关键术语抽取设备的各个部分。
所述存储器15可用于存储所述计算机程序和/或模块,所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的术语,实现所述关键术语抽取设备的各种功能。所述存储器15可主要包括存储程序区和存储术语区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储术语区可存储根据手机的使用所创建的术语(比如音频术语、电话本等)等。此外,存储器15可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述关键术语抽取设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种关键术语抽取方法,其特征在于,包括以下步骤:
根据预先构建的特定领域术语词典,对文本进行切分处理;
利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
根据每个主题关联的候选术语及其关联概率,确定关键术语。
2.如权利要求1所述的关键术语抽取方法,其特征在于,所述根据每个主题关联的候选术语及其关联概率,确定关键术语,具体包括:
抽取最大关联概率对应的主题关联的候选术语,作为所述关键术语。
3.如权利要求1所述的关键术语抽取方法,其特征在于,所述通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率,具体包括:
构建每个所述候选术语的词向量;
根据所述候选术语、所述候选术语的词向量,计算所述候选术语的相似性、词语左熵以及词语右熵;
根据所述候选术语的相似性、词语左熵以及词语右熵,通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率。
4.如权利要求1所述的关键术语抽取方法,其特征在于,所述方法还包括:
获取特定领域的语料,并对所述语料进行分词处理;
根据分词处理后得到的词语,构建词语图模型;
根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合;
利用预设的第二抽取窗口遍历所述语料,对分词处理后得到的词语进行抽取;
根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典。
5.如权利要求4所述的关键术语抽取方法,其特征在于,所述根据抽取后得到的词语以及所述第一术语集合,对分词处理后得到的词语进行组合,构建所述特定领域术语词典,具体包括:
判断分词处理后得到的每个词语中是否存在所述第一术语集合中的至少一个词语;
当分词处理后得到的词语存在所述第一术语集合中的一个词语时,将所述第一术语集合中的一个词语,作为第一特定领域术语;
当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1;
根据所述第一特定领域术语和所述第二特定领域术语,构建所述特定领域术语词典。
6.如权利要求5所述的关键术语抽取方法,其特征在于,所述当分词处理后得到的词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语,具体包括:
当分词处理后得到的m个词语存在所述第一术语集合中的n个词语时,对所述第一术语集合中的n个词语进行组合处理,并将组合后得到的词语作为第二特定领域术语;其中,n>1。
7.如权利要求4所述的关键术语抽取方法,其特征在于,所述根据所述词语图模型以及分词处理后得到的词语的共现次数,获得第一术语集合,具体包括:
根据分词处理后得到的词语的共现次数,对所述词语图模型中的词语进行连边,并将所述词语图模型中具有连边的词语作为所述第一术语集合;其中,所述词语图模型中以分词处理后得到的词语为节点。
8.一种关键术语抽取装置,其特征在于,包括:
文本切分模块,用于根据预先构建的特定领域术语词典,对文本进行切分处理;
词语抽取模块,用于利用预设的第一抽取窗口遍历所述文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语;
主题聚类模块,用于通过预先构建的概率主题模型对所述候选术语进行主题聚类,获得多个主题关联的候选术语及其关联概率;
关键术语确定模块,用于根据每个主题关联的候选术语及其关联概率,确定关键术语。
9.一种人关键术语抽取设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的关键术语抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的关键术语抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910091177.XA CN109885831B (zh) | 2019-01-30 | 2019-01-30 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910091177.XA CN109885831B (zh) | 2019-01-30 | 2019-01-30 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885831A true CN109885831A (zh) | 2019-06-14 |
CN109885831B CN109885831B (zh) | 2023-06-02 |
Family
ID=66927478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910091177.XA Active CN109885831B (zh) | 2019-01-30 | 2019-01-30 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885831B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598127A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种群组推荐方法及装置 |
CN111898010A (zh) * | 2020-07-10 | 2020-11-06 | 时趣互动(北京)科技有限公司 | 新关键词挖掘方法、装置及电子设备 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN107220232A (zh) * | 2017-04-06 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108804617A (zh) * | 2018-05-30 | 2018-11-13 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN109117477A (zh) * | 2018-07-17 | 2019-01-01 | 广州大学 | 面向中文领域的非分类关系抽取方法、装置、设备及介质 |
-
2019
- 2019-01-30 CN CN201910091177.XA patent/CN109885831B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN107220232A (zh) * | 2017-04-06 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108804617A (zh) * | 2018-05-30 | 2018-11-13 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN109117477A (zh) * | 2018-07-17 | 2019-01-01 | 广州大学 | 面向中文领域的非分类关系抽取方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
李勇: "基于聚类方法对特定领域术语的自动筛选", 《计算机工程与科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598127A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种群组推荐方法及装置 |
CN111898010A (zh) * | 2020-07-10 | 2020-11-06 | 时趣互动(北京)科技有限公司 | 新关键词挖掘方法、装置及电子设备 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109885831B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022022045A1 (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
US10762297B2 (en) | Semantic hierarchical grouping of text fragments | |
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
Khuc et al. | Towards building large-scale distributed systems for twitter sentiment analysis | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
CN109739978A (zh) | 一种文本聚类方法、文本聚类装置及终端设备 | |
CN110032639B (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
CN112749344B (zh) | 信息推荐方法、装置、电子设备、存储介质及程序产品 | |
CN107679144A (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
CN108563636A (zh) | 提取文本关键词的方法、装置、设备及存储介质 | |
CN109918657A (zh) | 一种从文本中提取目标关键词的方法 | |
US20140032207A1 (en) | Information Classification Based on Product Recognition | |
CN110427610A (zh) | 文本分析方法、装置、计算机装置及计算机存储介质 | |
CN103425710A (zh) | 一种基于主题的搜索方法和装置 | |
CN109885831A (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN108108347B (zh) | 对话模式分析系统及方法 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN110347790A (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN109117474A (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN105205163B (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
CN109117477B (zh) | 面向中文领域的非分类关系抽取方法、装置、设备及介质 | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
Kim et al. | Effective fake news detection using graph and summarization techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |