CN110457707B - 实词关键词的提取方法、装置、电子设备及可读存储介质 - Google Patents

实词关键词的提取方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110457707B
CN110457707B CN201910757870.6A CN201910757870A CN110457707B CN 110457707 B CN110457707 B CN 110457707B CN 201910757870 A CN201910757870 A CN 201910757870A CN 110457707 B CN110457707 B CN 110457707B
Authority
CN
China
Prior art keywords
candidate
keyword
keywords
topic
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910757870.6A
Other languages
English (en)
Other versions
CN110457707A (zh
Inventor
王千
梁新敏
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Miaozhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Miaozhen Information Technology Co Ltd filed Critical Miaozhen Information Technology Co Ltd
Priority to CN201910757870.6A priority Critical patent/CN110457707B/zh
Publication of CN110457707A publication Critical patent/CN110457707A/zh
Application granted granted Critical
Publication of CN110457707B publication Critical patent/CN110457707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请涉及文档处理技术领域,尤其涉及实词关键词的提取方法、装置、电子设备及可读存储介质,提取方法包括:将目标文档输入文档主题生成模型中,输出至少一个主题,以及每个主题对应的多个候选关键词,分别计算每个候选关键词与该候选关键词所属主题对应的其他候选关键词之间的相似度,根据每个主题的多个相似度和值,确定每个主题的关键词筛选区间,将相似度和值落入该主题的关键词筛选区间的候选关键词确定为目标文档的实词关键词。这样,通过计算同一主题下各个候选关键词对应的相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高实词关键词提取的准确率。

Description

实词关键词的提取方法、装置、电子设备及可读存储介质
技术领域
本申请涉及文档处理技术领域,具体而言,涉及实词关键词的提取方法、装置、电子设备及可读存储介质。
背景技术
用户在微信、微博、论坛等互联网发表的评议、讨论等文本信息蕴含有极大的信息量,反映了当前舆情对于某些事件、活动的关注热度。这些潜在文本语料信息,能够发掘出大众的兴趣区间以及热度事件的关键主题。但是由于用户原创内容偏向口语化、产生的内容主题分布广泛,而且由于一些高频率通用词等噪声存在,导致要从文本语料信息中准确地提取出实词关键词是一个很大的挑战。
目前,实词关键词的提取通常使用词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)方法,TF-IDF方法的基本思路是从词频的角度挖掘信息,高频词被抑制,低频词被凸显出来,但是TF-IDF方法单纯以词频衡量一个词的重要性,并没有涉及到主题级别的信息,不能完整反映出整个文档的多个主题,因此,在同一主题下提取实词关键词的准确度也很难保证。
发明内容
有鉴于此,本申请实施例的目的在于提供实词关键词的提取方法、装置、电子设备及可读存储介质,通过计算同一主题下各个候选关键词对应的相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高对实词关键词提取的准确率。
本申请的一个方面,提供了一种实词关键词的提取方法,所述提取方法包括:
获取待提取实词关键词的目标文档;
将所述目标文档输入训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词除该候选关键词之外的候选关键词;
根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
对于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
在上述实施例中,所述针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括:
将每个候选关键词输入训练好的词向量生成模型中,输出该候选关键词的候选关键词词向量;
根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题其他候选关键词之间的相似度。
在上述实施例中,所述根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间,包括:
根据每个主题对应的多个候选关键词的多个相似度和值,计算所述多个相似度和值的平均值和标准差;
根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间。
在上述实施例中,所述根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间,包括:
根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值;
根据所述上限值和下限值,确定每个主题的关键词筛选区间。
在上述实施例中,所述根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值,包括:
将所述平均值减去预设数值与所述标准差乘积得到的差值,确定为所述下限值;
将所述平均值加上所述预设数值与所述标准差乘积得到和值,确定为所述上限值。
在上述实施例中,所述计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括:
确定每个候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量相乘得到的第一数值;
确定每个候选关键词词向量的模值与该候选关键词所属主题的其他候选关键词词向量的模值相乘得到的第二数值;
将所述第一数值与所述第二数值相除得到的数值,确定为每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
本申请的另一方面,提供一种实词关键词的提取装置,所述提取装置包括:
获取模块,用于获取待提取实词关键词的目标文档;
输出模块,用于将所述目标文档输入至训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
计算模块,用于每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词中除该候选关键词之外的候选关键词;
第一确定模块,用于根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
第二确定模块,用于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
在上述实施例中,所述计算模块,用于根据以下步骤计算相似度:
将每个候选关键词输入训练好的词向量生成模型中,输出该候选关键词的候选关键词词向量;
根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
在上述实施例中,所述第一确定模块包括:
计算单元,用于根据每个主题对应的多个相似度和值,计算所述多个相似度和值的平均值和标准差;
确定单元,用于根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间。
在上述实施例中,所述确定单元,用于根据以下步骤确定每个主题的关键词筛选区间:
根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值;
根据所述上限值和下限值,确定每个主题的关键词筛选区间。
在上述实施例中,所述确定单元,还用于根据以下步骤计算上限值和下限值:
将所述平均值减去预设数值与所述标准差乘积得到的差值,确定为所述下限值;
将所述平均值加上所述预设数值与所述标准差乘积得到和值,确定为所述上限值。
在上述实施例中,所述计算模块,用于根据以下步骤计算相似度:
确定每个候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量相乘得到的第一数值;
确定每个候选关键词词向量的模值与该候选关键词所属主题的其他候选关键词词向量的模值相乘得到的第二数值;
将所述第一数值与所述第二数值相除得到的数值,确定为每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
本申请的另一方面,提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述实施例提供的实词关键词提取方法的步骤。
本申请的另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的实词关键词提取方法的步骤。
本申请实施例提供的实词关键词的提取方法、装置、电子设备及可读存储介质,将目标文档输入文档主题生成模型中,输出至少一个主题,以及每个主题对应的多个候选关键词,分别计算每个候选关键词与该候选关键词所属主题对应的其他候选关键词之间的相似度,根据每个主题的多个相似度和值,确定每个主题的关键词筛选区间,将相似度和值落入该主题的关键词筛选区间的候选关键词确定为目标文档的实词关键词。这样,通过计算同一主题下各个候选关键词对应的相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高实词关键词提取的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种实词关键词的提取方法的流程图;
图2示出了本申请实施例所提供的一种实词关键词的提取装置的结构示意图之一;
图3示出了本申请实施例所提供的一种实词关键词的提取装置的结构示意图之二;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
现有技术中,实词关键词的提取通常使用词频-逆文本频率指数TF-IDF方法,TF-IDF方法的基本思路是从词频的角度挖掘信息,高频词被抑制,低频词被凸显出来,但是TF-IDF方法单纯以词频衡量一个词的重要性,并没有涉及到主题级别的信息,不能完整反映出整个文档的多个主题,因此,在同一主题下提取实词关键词的准确度也很难保证。
针对上述问题,本申请提供了实词关键词的提取方法、装置、电子设备及可读存储介质,将获取的目标文档输入文档生成模型中,输出至少一个主题和每个主题对应的多个候选关键词,分别计算每个候选关键词与所述主题对应的其他候选关键词之间的相似度,根据每个主题对应的多个候选关键词的多个相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高对实词关键词提取的准确率。
下面结合图1示出的实词关键词的提取方法流程图描述的内容,对本申请实施例提供实词关键词的提取方法进行详细说明。
参见图1所示,为本申请实施例提供的实词关键词的提取方法的流程图,所述提取方法包括步骤S101~S105,其中:
S101:获取待提取实词关键词的目标文档。
该步骤中,目标文档可能是多篇文档集也可以是一篇文档,从目标文档提取出来的实词关键词是能够准确反映目标文档主题的关键词。
S102:将所述目标文档输入训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词。
该步骤中,将目标文档输入训练好的文档主题生成模型中,通过预设的聚类数输出多个主题,这里每个主题都与目标文档描述的内容密切相关,同时也会输出每个主题下对应的多个候选关键词,这里,同一主题下的多个候选关键词是与其对应的主题共现概率较高的关键词,从同一主题下的多个候选关键词中,可以提取出能够准确反映目标文档主题的实词关键词。
还需要说明的是,文档主题生成模型是经过训练得到的,具体地,可以事先获取大量样本文档,根据大量样本文档训练得到文档主题生成模型。
优选地,文档主题生成模型可以为隐含狄利克雷(Latent DirichletAllocation,LDA)主题模型,LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息,其中,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
具体地,文档主题生成模型可以将目标文档的主题按照概率分布的形式给出,每一个主题对应的多个候选关键词也可以按照概率分布的形式给出,然后基于采样算法以及文档主题生成模型中各个分布的概率,生成多个主题以及每个主题对应的多个候选关键词。
这里,在将目标文档输入至训练好的文档主题生成模型之前,可以先对目标文档进行预处理,其中,预处理过程包括以下步骤:
步骤a:将目标文档中的昵称、特殊符号、表情、网址、手机号码、停用词等无效字符进行去除;步骤b:将去除无效字符后的目标文本中的繁体替换为简体;步骤c:对经过上述处理的目标文本进行分词,将经过分词后的目标文本输入至文档主题生成模型。
S103:针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词中除该候选关键词之外的候选关键词。
该步骤中,针对每个主题下的每个候选关键词,将该候选关键词与该候选关键词所属的主题下的各个其他候选关键词分别进行相似度的计算,得到该候选关键词与各个其他候选关键词之间的多个相似度,并将这多个相似度进行求和,得到该候选关键词的相似度和值。这里,通过计算出的每个候选关键词的相似度和值,可以反映出该候选关键词与该候选关键词对应的主题中各个其他候选关键词的相似程度。
一示例中,假设一个主题下对应有5个候选关键词,5个候选关键词分别为“肌肤”、“皮肤”、“效果”、“成分”和“使用”,将候选关键词“肌肤”分别与该主题下其余的4个候选关键词“皮肤”、“效果”、“成分”、“使用”分别进行相似度的计算,得到4个相似度,再把这4个值进行求和,在该主题下得到候选关键词“肌肤”对应的相似度和值。
S104:根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间。
该步骤中,分别计算出目标文档中各个主题对应的各个候选关键词的相似度和值,对于各个主题中的任一主题,根据该主题中各个候选关键词的相似度和值,可以确定出该主题的关键词筛选区间,进而根据该关键词筛选区间,从该主题对应的多个候选关键词中提取出实词关键词。
S105对于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
该步骤中,每个主题都对应有一个关键词筛选区间,对于每个主题对应的各个候选关键词,判断每个候选关键词的相似度的和值是否在该主题的关键词筛选区间内,若该相似度和值在该关键词筛选区间内,则将该候选关键词确定为实词关键词,若该相似度和值不在该关键词筛选区间内,则该候选关键词与该主题下的其他关键词相关性不高,可以将该候选关键词滤出。这样,通过每个主题对应的关键词筛选区间,可以从每个主题对应的多个候选关键词中筛选出实词关键词,可以提高实词关键词提取的准确率。
在本申请实施例中,通过将获取的目标文档输入文档主题生成模型中,输出至少一个主题,以及每个主题对应的多个候选关键词,分别计算每个候选关键词与所述主题对应的其他候选关键词之间的相似度,根据每个主题对应的多个候选关键词的多个相似度和值,确定每个主题的关键词筛选区间,将相似度和值落入关键词筛选区间的候选关键词,确定为实词关键词。这样,通过计算同一主题下各个候选关键词对应的相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高实词关键词提取的准确率。
在一种可能的实施方式中,在S103中针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括以下步骤:
步骤(1):将每个候选关键词输入训练好的词向量生成模型中,输出该候选关键词的候选关键词词向量。
在具体实施中,将目标文档输入至文档主题生成模型中,输出与目标文档对应的多个主题和每个主题对应的多个候选关键词之后,将每个候选关键词输入至训练好的词向量生成模型中,可以输出每个候选关键词对应的候选关键词词向量。这里,每个候选关键词与每个候选关键词词向量是一一对应的,即一个词对应生成一个词向量。
其中,可以通过学习大量的文本数据进行词向量生成模型的训练,以训练出可以表征出各个词语义的词向量的词向量生成模型,作为训练的文本数据越丰富,获得的词向量的语义特性就更好。
这里,词向量生成模型,可以是开源词向量计算工具,比如一类神经网络模型(word to vector,word2vec),它依据给定的语料库,通过优化后的训练模型高速有效的将一个词语表达成向量形式。
一示例中,假设将目标文档输入至文档主题生成模型后,输出的一个主题中包括5个候选关键词,5个候选关键词分别为“肌肤”、“皮肤”、“效果”、“成分”和“使用”,将这5个候选关键词分别输入至训练好的词向量生成模型中,分别得到与每个候选关键词对应的候选关键词词向量,这里,候选关键词“肌肤”对应的候选关键词词向量为(x1,x2,…,xt)、候选关键词“皮肤”对应的候选关键词词向量为(y1,y1,…,yt)、候选关键词“效果”对应的候选关键词词向量为(z1,z2,…,zt)、候选关键词“成分”对应的候选关键词词向量为(p1,p2,…,pt)、候选关键词“使用”对应的候选关键词词向量为(q1,q2,…,qt),其中,t为候选关键词词向量的维度。
步骤(2):根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
在具体实施中,对于每个主题对应的每个候选关键词,该候选关键词与其他候选关键词之间的相似度,可以通过该候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量进行相似度的计算。这里,相似度可以采用欧氏距离或余弦相似度表征。
这里,若相似度为欧氏距离,一个候选关键词词向量X=(x1,x2,…,xt)与另一个候选关键词词向量Y=(y1,y2,…,yt)之间的相似度计算公式为:
Figure BDA0002169325120000111
其中,1≤i≤t,t为候选关键词词向量的维度。
在一种可能的实施方式中,在S104中根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间,包括以下步骤:
步骤(一):根据每个主题对应的多个相似度和值,计算所述多个相似度和值的平均值和标准差。
在具体实施中,在分别计算出目标文档中各个主题对应的各个候选关键词的相似度和值之后,对于各个主题中的任一主题,计算出该主题中各个候选关键词的相似度和值的平均值和标准差,对于其他主题也进行同样的计算,这样,可以建立各个主题下的关于相似度和的分布,在异常值检测的过程中,假设该分布遵循正态分布,并将其转换为标准正态分布。该分布可以衡量每个主题对应的各个候选关键词与该主题的相关程度。
这里,一个主题中各个候选关键词的相似度和值的平均值公式为:
Figure BDA0002169325120000121
其中,mean表示平均值,n为该主题下候选关键词的数量,ai为每个候选关键词的相似度和值,1≤i≤n。
一个主题中各个候选关键词的相似度和值的标准差公式为:
Figure BDA0002169325120000122
其中,std表示标准差。
步骤(二):根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间。
在具体实施中,依据上一步骤求出的每个主题对应的候选关键词的相似度和值平均值和标准差,确定出该主题的关键词筛选区间,通过该关键词筛选区间,可以从该主题对应的多个候选关键词中提取出实词关键词。
在一种可能的实施方式中,步骤(二)中根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间,包括以下步骤:
步骤A:根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值。
在具体实施中,在求出的每个主题对应的候选关键词的相似度和值平均值和标准差之后,通过上述平均值和标准差来计算该主题的关键词筛选区间的上限值和下限值;其中,下限值小于上限值,下限值与上限值构成了一个封闭的关键词筛选区间。这里,每个主题对应的候选关键词的相似度和值服从正态分布,如果某个候选关键词的相似度和值与该主题各个候选关键词的相似度和值的平均值相差较多,则可以认为该候选关键词为噪声词,不对其进行提取。
步骤B:根据所述上限值和下限值,确定每个主题的关键词筛选区间。
在具体实施中,通过上述平均值和标准差计算出的每个主题的关键词筛选区间的上限值和下限值,可以确定出该主题的关键词筛选区间,通过该关键词筛选区间,可以从该主题对应的多个候选关键词中提取出实词关键词。
在一种可能的实施方式中,步骤B中根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值,包括以下步骤:
步骤(1):将所述平均值减去预设数值与所述标准差乘积得到的差值,确定为所述下限值。
在具体实施中,将上述步骤得到的平均值减去预设数值与上述步骤得到的标准差乘积的差值,作为筛选区间的下限值。这里,一个主题的关键词筛选区间的下限值的计算公式为:floor=mean-λ*std,其中,λ值可根据不同领域选取不同的预设数值,一般优选范围为[0.5,3.0]。λ越小,筛选区间越小,过滤越严格,这里,λ优选为1。
步骤(2):将所述平均值加上所述预设数值与所述标准差乘积得到和值,确定为所述上限值。
在具体实施中,将上述步骤得到的平均值减去预设数值与上述步骤得到的标准差乘积的和值,作为筛选区间的上限值。这里,一个主题的关键词筛选区间的上限值的计算公式为:cell=mean+λ*std。
一示例中,同一主题下,“肌肤”、“皮肤”、“效果”、“成分”和“使用”这5个候选关键词的对应相似度和值的平均值为5.3,标准差为0.31623;若预设数值λ=1,则,该主题的关键词筛选区间的下限值为:5.3-1×0.31623=4.98377,该主题的关键词筛选区间的上限值为:5.3+1×0.31623=5.61623,进而,该关键词筛选区间为[4.98377,5.616232],若“肌肤”、“皮肤”、“效果”、“成分”和“使用”这5个候选关键词的对应的相似度和值分别为5.6、5.5、5.2、5.4、4.8,其中,候选关键词“肌肤”、“皮肤”、“效果”、“成分”对应的相似度和值均在该关键词筛选区间内,判断出在该主题下,“肌肤”、“皮肤”、“效果”、“成分”这4个候选关键词确定为该主题的实词关键词。
在一种可能的实施方式中,步骤(2)中计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括以下步骤:
确定每个候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量相乘得到的第一数值;确定每个候选关键词词向量的模值与该候选关键词所属主题的其他候选关键词词向量的模值相乘得到的第二数值;将所述第一数值与所述第二数值相除得到的数值,确定为每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
这里,相似度为余弦相似度,一个候选关键词词向量X=(x1,x2,…,xt)与另一个候选关键词词向量Y=(y1,y2,…,yt)之间的余弦相似度计算公式为:
Figure BDA0002169325120000141
其中,1≤i≤t,t为候选关键词词向量的维度。
基于同一发明构思,本申请实施例中还提供了与实词关键词的提取方法对应的实词关键词的提取装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述实词关键词的提取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图2所示,为本申请实施例提供的一种实词关键词的提取的结构示意图之一,参见图3所示,为本申请实施例提供的一种实词关键词的提取的结构示意图之二,其中,如图2和图3所示,实词关键词的提取装置200包括:
获取模块210,用于获取待提取实词关键词的目标文档;
输出模块220,用于将所述目标文档输入至训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
计算模块230,用于每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为每个主题的多个候选关键词除该候选关键词之外的候选关键词;
第一确定模块240,用于根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
第二确定模块250,用于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
本申请实施例中,通过获取模块210获取目标文档再通过输出模块220输入至文档主题生成模型中,输出多个主题以及与每个主题相对应的多个候选关键词,再经过计算模块230计算每个候选关键词与该候选关键词所属主题的其余候选关键词的词向量的相似度,并求和值,基于相似度和值,通过第一确定模块240确定筛选区间,再通过第二确定模块250确定出实词关键词。这样,可以提高筛选实词关键词的准确度。
在一种可能的实施方式中,如图2和图3所示,计算模块230,用于根据以下步骤计算相似度:
将每个候选关键词输入训练好的词向量生成模型中,输出该候选关键词的候选关键词词向量;
根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
在一种可能的实施方式中,如图3所示,所述第一确定模块240包括计算单元242和确定单元244:
所述计算单元242,用于根据每个主题对应的多个相似度和值,计算所述多个相似度和值的平均值和标准差。
所述确定单元244,用于根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间。
在一种可能的实施方式中,所述确定单元244,用于以下步骤具体计算该主题的关键词筛选区间:
根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值;
根据所述上限值和下限值,确定每个主题的关键词筛选区间。
在一种可能的实施方式中,所述确定单元244,还用于以下步骤具体计算每个主题的关键词筛选区间的上限值和下限值:
将所述平均值减去预设数值与所述标准差乘积得到的差值,确定为所述下限值;
将所述平均值加上所述预设数值与所述标准差乘积得到和值,确定为所述上限值。
在一种可能的实施方式中,所述计算模块230,还用于根据以下步骤计算相似度:
确定每个候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量相乘得到的第一数值;
确定每个候选关键词词向量的模值与该候选关键词所属主题的其他候选关键词词向量的模值相乘得到的第二数值;
将所述第一数值与所述第二数值相除得到的数值,确定为每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
基于同一申请构思,参见图4所示,为本申请实施例提供的一种电子设备400的结构示意图,包括:处理器410、存储器420和总线430,所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过所述总线430进行通信,所述机器可读指令被所述处理器410运行时执行上述图1所示的实词关键词的提取方法的步骤。具体地,所述机器可读指令被所述处理器410执行时可以执行如下处理:
获取待提取实词关键词的目标文档;
将所述目标文档输入训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词中除该候选关键词之外的候选关键词;
根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
对于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
在本申请实施例中,通过将将目标文档输入文档主题生成模型中,输出至少一个主题,以及每个主题对应的多个候选关键词,分别计算每个候选关键词与该候选关键词所属主题对应的其他候选关键词之间的相似度,根据每个主题的多个相似度和值,确定每个主题的关键词筛选区间,将相似度和值落入该主题的关键词筛选区间的候选关键词确定为目标文档的实词关键词。这样,通过计算同一主题下各个候选关键词对应的相似度和值,可以确定出该主题对应的关键词筛选区间,并通过该关键词筛选区间从该主题下的候选关键词中筛选出实词关键词,可以提高实词关键词提取的准确率。
基于同一申请构思,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的实词关键词提取方法的步骤。
本申请实施例所提供的实词关键词的提取方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的实词关键词提取方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种实词关键词的提取方法,其特征在于,所述提取方法包括:
获取待提取实词关键词的目标文档;
将所述目标文档输入训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
针对每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出该候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词中除该候选关键词之外的候选关键词;
根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
对于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
2.根据权利要求1所述的提取方法,其特征在于,所述针对每个主题对应的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括:
将每个候选关键词输入训练好的词向量生成模型中,输出每个候选关键词的候选关键词词向量;
根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题其他候选关键词之间的相似度。
3.根据权利要求1所述的提取方法,其特征在于,所述根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间,包括:
根据每个主题对应的多个相似度和值,计算所述多个相似度和值的平均值和标准差;
根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间。
4.根据权利要求3所述的提取方法,其特征在于,所述根据所述多个相似度和值的平均值和标准差,确定每个主题的关键词筛选区间,包括:
根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值;
根据所述上限值和下限值,确定每个主题的关键词筛选区间。
5.根据权利要求4所述的提取方法,其特征在于,所述根据所述多个相似度和值的平均值和标准差,计算每个主题的关键词筛选区间的上限值和下限值,包括:
将所述平均值减去预设数值与所述标准差乘积得到的差值,确定为所述下限值;
将所述平均值加上所述预设数值与所述标准差乘积得到和值,确定为所述上限值。
6.根据权利要求2所述的提取方法,其特征在于,所述计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,包括:
确定每个候选关键词词向量与该候选关键词所属主题的其他候选关键词词向量相乘得到的第一数值;
确定每个候选关键词词向量的模值与该候选关键词所属主题的其他候选关键词词向量的模值相乘得到的第二数值;
将所述第一数值与所述第二数值相除得到的数值,确定为每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
7.一种实词关键词的提取装置,其特征在于,所述提取装置包括:
获取模块,用于获取待提取实词关键词的目标文档;
输出模块,用于将所述目标文档输入至训练好的文档主题生成模型中,输出所述目标文档对应的至少一个主题,以及每个主题对应的多个候选关键词;
计算模块,用于每个主题的每个候选关键词,分别计算该候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度,并将得到的多个相似度进行求和,确定出每个候选关键词的相似度和值;所述其他候选关键词为该候选关键词所属主题的多个候选关键词中除该候选关键词之外的候选关键词;
第一确定模块,用于根据每个主题对应的多个相似度和值,确定每个主题的关键词筛选区间;
第二确定模块,用于每个主题,确定该主题的多个候选关键词中,落入该主题的关键词筛选区间的候选关键词为目标文档的实词关键词。
8.根据权利要求7所述的提取装置,其特征在于,所述计算模块用于根据以下步骤计算相似度:
将每个候选关键词输入训练好的词向量生成模型中,输出每个候选关键词的候选关键词词向量;
根据每个候选关键词词向量,分别计算每个候选关键词与该候选关键词所属主题的其他候选关键词之间的相似度。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的实词关键词的提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的实词关键词的提取方法。
CN201910757870.6A 2019-08-16 2019-08-16 实词关键词的提取方法、装置、电子设备及可读存储介质 Active CN110457707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910757870.6A CN110457707B (zh) 2019-08-16 2019-08-16 实词关键词的提取方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757870.6A CN110457707B (zh) 2019-08-16 2019-08-16 实词关键词的提取方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110457707A CN110457707A (zh) 2019-11-15
CN110457707B true CN110457707B (zh) 2023-01-17

Family

ID=68487086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757870.6A Active CN110457707B (zh) 2019-08-16 2019-08-16 实词关键词的提取方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110457707B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311276B (zh) * 2020-02-07 2023-08-29 北京明略软件系统有限公司 一种异常用户团体的识别方法、识别装置及可读存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于联合权重的多文档关键词抽取技术;杨洁等;《中文信息学报》;20081115(第06期);全文 *

Also Published As

Publication number Publication date
CN110457707A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN108269122B (zh) 广告的相似度处理方法和装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN105164676A (zh) 查询特征和问题
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN110866102A (zh) 检索处理方法
Sunarya et al. Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter
Ma et al. The impact of weighting schemes and stemming process on topic modeling of arabic long and short texts
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
Adler et al. Real-time claim detection from news articles and retrieval of semantically-similar factchecks
CN114020876A (zh) 文本的关键词提取方法、装置、设备及存储介质
CN113094519B (zh) 一种基于文档进行检索的方法及装置
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
Wibawa et al. Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes
CN115391551A (zh) 事件检测方法及装置
CN114610576A (zh) 一种日志生成监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant