CN108009149A - 一种关键词提取方法、提取装置、介质和电子设备 - Google Patents

一种关键词提取方法、提取装置、介质和电子设备 Download PDF

Info

Publication number
CN108009149A
CN108009149A CN201711183233.XA CN201711183233A CN108009149A CN 108009149 A CN108009149 A CN 108009149A CN 201711183233 A CN201711183233 A CN 201711183233A CN 108009149 A CN108009149 A CN 108009149A
Authority
CN
China
Prior art keywords
probability
node
cliction
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711183233.XA
Other languages
English (en)
Inventor
刘嘉伟
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711183233.XA priority Critical patent/CN108009149A/zh
Publication of CN108009149A publication Critical patent/CN108009149A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

发明一种关键词提取方法,包括如下步骤:从待分析文本中获取中心词;根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词;所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;计算所述每个上下文词在Huffman树中的概率;将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;遍历待分析文本中的每个词作为中心词,执行上述步骤,分别获取各个中心词的关键词权重;将所述待分析文本中的各个中心词按关键词权重大小排序输出。本发明在神经网络的基础上,利用其特性能够进行相似词语维度上的关键词提取,取得了优异的提取关键词效果。

Description

一种关键词提取方法、提取装置、介质和电子设备
技术领域
本发明涉及通信技术领域,尤其涉及一种关键词提取方法和提取装置。
背景技术
关键词Keyword即关键性的词语。从本质上来讲,关键词是描述文章本质的词语,在信息检索领域,通过关键词来区别不同文章,如在信息搜索领域的百度即是通过关键词来进行搜索。而在自然语言处理领域,关键词常用来提取文章的本质意思,或者进一步来对长文本进行自动摘要来提取中心思想,是自然语言处理领域的关键性技术。
现在的关键词提取技术主要是利用机器学习的有监督的提取和无监督的提取。有监督的提取需要对人工标注的待分析文本进行训练,人工预处理的代价较高。而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取,因此适用性较强。关键词的无监督提取主要分为三大类:基于统计特征的TF-IDF、基于词图模型的TextRank和基于主题模型的LDA。
LDA最主要的假设是词袋Bag of Words假设,指通过交换文章内词的顺序而不影响模型训练的结果,模型结果与词的顺序无关。很显然,如果不考虑词的顺序将丧失很多语义层面的意义,比如「谢霆锋是谁的儿子」和「谢霆锋的儿子是谁」两句话词袋基本相同但语义层面的含义完全不同。TF-IDF作为关键词提取的经典算法,虽然速度很快,但是仅从词频角度挖掘信息,并不能体现文本的深层语义信息。TextRank基本思想来自PageRank,本质是找「重要性传递」。但是由于其没有TF-IDF里考虑整个语料库的思想,仅考虑文档内部的结构信息时,导致一些在各个文档的出现频率均较高且不属于停止词的词语最终的得分较高,最后的结果也不理想。
发明内容
为了能够更多的在考虑文本语义层面含义的基础上进行关键词提取,本发明的实施例提供了一种关键词提取方法和提取装置。
根据本发明的一个方面,提供一种关键词提取方法,具体包括如下步骤:
步骤S110,从待分析文本中获取中心词;
步骤S120,根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词;
步骤S130,所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;
步骤S140,计算所述每个上下文词在Huffman树中的概率;
步骤S150,将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;
步骤S160,遍历待分析文本中的每个词作为中心词,执行所述步骤S110-S150,分别获取各个中心词的关键词权重;
步骤S170,将关键词权重超过阈值的中心词确定为要提取的关键词。
进一步的,所述步骤S110之前还包括:从语料中利用Word2Vec技术训练词向量。
进一步的,所述步骤S120还包括,根据业务需求调整所述滑动窗口的大小。
进一步的,所述步骤S140之前,还包括获取所述中心词的词向量。
进一步的,所述步骤S140中,计算一个上下文词在Huffman树中的概率具体包括:
确定所述Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点;
逐个计算所述路径中的节点的概率;
将所述路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。
进一步的,所述逐个计算路径中的节点的概率步骤,具体包括:一个节点的概率算法为,该节点的父节点向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;或者,如果该节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
根据本发明的另一方面,还提供一种关键词提取装置,具体包括如下模块:
获取模块,用于从待分析文本中获取中心词,以及根据预设的滑动窗口大小获取所述中心词在所述待分析文本中的上下文词。
计算模块,用于将所述上下文词构成一个Huffman树的叶节点,计算所述中心词的词向量,和/或根据所述每个上下文词的Huffman编码,计算所述每个上下文词在Huffman树中的概率。
权重模块,用于将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
遍历模块,用于遍历待分析文本中的每个词作为中心词,执行步骤S110-S140,分别获取各个中心词的关键词权重。
输出模块,用于将关键词权重超过阈值的中心词确定为要提取的关键词。
进一步的,所述计算模块具体用于:确定Huffman树中从根节点到要计算概率的上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将所述路径中的所有节点的概率相乘得到所述上下文词在Huffman树中的概率。
进一步的,所述计算模块具体用于:一个节点的概率算法为,该节点的父节点向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;或者,如果该节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。
根据本发明的另一方面,还提供一种电子设备,包括:如上所述的计算机可读存储介质;以及一个或多个处理器,用于执行所述计算机可读存储介质中的程序。
根据本发明的另一方面,还提供一种计算机程序产品,其包括处理器可执行的程序,该程序被处理器执行时实现如上所述方法的步骤。
由上述本发明提供的技术方案可以看出,本发明避开了TF-IDF只考虑相同词的词频弊端、TextRank没有考虑语言环境下语料库不足的弊端以及LDA只考虑词袋的弊端,取得了优异的提取关键词效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种关键词提取方法的流程示意图;
图2为本发明实施例采用的Skip-Gram模型示意图;
图3为本发明实施例提供的Huffman树示意图;
图4为本发明实施例的一种关键词提取装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心思想是从「关键词」的本质出发,即获取了关键词就能获取文章的大意。如果一篇文章的关键词是「中国羽毛球」,那么这篇文章就不会大量涉及诸如「改革开放」、「IPhone发布新手机」等信息,也就是说,通过关键词就能获取文章的本质意思,用公式来表示,也就是某个词wi使得条件概率P(a|wi)最大,其中a表示某篇文章(Article)。假设文章由n个词w1、w2……wn组成,那么:
即通过计算P(wk|wi)的概率积,就能找到关键词,此处的概率是涉及文章的语义层面的概率,即涉及文章的中心思想。本发明利用神经网络能从语义层面解析此概率。下面具体阐述。
实施例一、
如图1所示,一种关键词提取方法,包括如下步骤:
步骤S110,从待分析文本中获取中心词。
待分析文本可以是一句话、一段文字或一篇文章,可以从待分析文本中任意一个位置选取一个词语作为中心词,当然,中心词也可以从待分析文本的初始端向后依次选取。
可选的,为了保证选取的中心词为一个具体的、有含义的词,在选取之前或选取过程中,需要对待分析文本进行清洗去噪,去除停用词,如“的”、“了”等。
步骤S120,根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词。
以神经网络为例,建立Skip-Gram模型,滑动窗口的大小代表着文本深度,可以预先设置好。以中心词为wi为例,取前后n为滑动窗口,n是决定上下文窗口大小的常数,n越大则需要考虑的词就越多,一般能够带来更精确的结果,但是训练时间也会增加。图2为n=2时的Skip-Gram模型图,其中中心词为wi,上下文词wk具体为w(i-2)、w(i-1)、w(i+1)和w(i+2)
一般滑动窗口的典型值取2,当然,也可以根据业务需求调整滑动窗口的大小,比如调整为3。举例而言,在待分析文本“The quick brown fox jumps over lazy dog”中,如果获取的中心词wi为“fox”,固定滑动窗口skip_window=2的话,那么中心词“fox”的上下文词wk就是[quick,brown,jumps,over]。
步骤S130,所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码,并计算所述每个上下文词在Huffman树中的概率。
将获取到的神经网络输出的所有的词,均作为Huffman树的叶节点,进而可以得到对应的Huffman编码。
Huffman编码来源于Huffman树。Huffman树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶节点的权值乘上其到根节点的路径长度,树的路径长度是从树根到每一节点的路径长度之和。利用Huffman树设计的不等长二进制前缀编码,即为Huffman编码。Skip-Gram常用的是Hierarchical Softmax(层次Softmax)算法,层次Softmax算法也结合了Huffman编码,每个词w都可以从树的根节点沿着唯一一条路径被访问到,如图3的w2。层次Softmax将Huffman树的所有节点当作词典里的词,而将从树根到叶子节点的路径上的每个非叶子节点都看作是二分类,路径上的二分类概率连乘的结果就是该叶子节点对应的词的概率。L(w)为这条路径的长度,如图3所示,到w2的路径长度L(w2)为3,n(w2,j)为w2到这条路径上的第j个节点,其中j从1开始编码,即n(w2,1)=root(第一个节点为根节点)。在神经网络中,输出层是一个Huffman树,节点代表待分析文本里所有的词,在待分析文本中出现的次数为其权重,同时,在节点里的每个词都有一个全局的编码,即Huffman编码,这个Huffman编码可以随机分配,比如对图3中的w2分配为如“11101”;也可以以最短Huffman编码定义各个节点编码,比如以Huffman树向左走为1,向右走为0,则图3中的w2最短Huffman编码为“110”。
根据每个节点的Huffman编码,计算出每个上下文词在Huffman树中的概率。举例而言,在待分析文本“The quick brown fox jumps over lazy dog”中,如果获取的中心词wi为“fox”,固定滑动窗口skip_window=2的话,那么中心词“fox”的上下文词wk就是[quick,brown,jumps,over],以其中一个上下文词quick为例,词quick为Huffman树中的某一叶节点(即叶子节点),计算从根节点到该词quick叶节点路径上经过的每个节点的概率之后,将这些节点的概率相乘,即得到该上下文词quick在Huffman树中的概率。
步骤S140,将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
还以待分析文本“The quick brown fox jumps over lazy dog”、中心词“fox”为例,计算上下文词quick在Huffman树中的概率后,继续计算上下文词brown、上下文词jumps、上下文词over分别在Huffman树中的概率,并将计算所得的所有概率相乘,即得到中心词“fox”的关键词权重。
步骤S150,遍历待分析文本中的每个词作为中心词,执行步骤S110-S140,分别获取各个中心词的关键词权重。
步骤S160,将关键词权重超过阈值的中心词确定为要提取的关键词。
具体的,可以设定权重阈值,对于超过权重阈值的中心词设为提取后的关键词,根据需要按照设定的规则输出,比如,将待分析文本中关键词权重超过权重阈值的的各个中心词按权重大小排序输出,可以按权重由小到大排序输出,或者按权重由大到小排序输出。
本发明的关键词提取方法,避开了TF-IDF只考虑相同词的词频弊端、TextRank没有考虑语言环境(即语料库不足)的弊端以及LDA只考虑词袋的弊端。由于本发明的算法考虑了各个节点的概率,即考虑了文章内部的关系,因此具有TextTank的优势,在待分析文本上取得了优异的提取关键词效果。
基于上述原理,本发明还提供一种更为详尽的实施例,为了便于陈述,对于相同步骤相同的原理,在本实施例中不再做重复的赘述,本领域技术人员在上一实施例的基础上,即可理解本实施例。具体的:
实施例二、
一种关键词提取方法,包括如下步骤:
步骤S210,从待分析文本中获取中心词。
在步骤S210之前,还包括从语料中利用Word2Vec技术训练词向量的步骤。本发明从新闻、微博、微信等大量文本中利用神经网络的技术对每个词生成词向量。词向量具有语义层面的信息,词向量最常见的应用就是寻找相似词,如输入「社保」,在词向量的解析中,「医保」、「养老保险」等词会和其很相似。由于训练过程是现有技术中常见的技术,因此不再过多赘述。
步骤S220,根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词。
步骤S230,所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码。
步骤S240,获取从语料中利用Word2Vec技术训练后的中心词的词向量。
步骤S250,根据获取的所述每个上下文词的Huffman编码和所述中心词的词向量,计算所述每个上下文词在Huffman树中的概率。
计算一个上下文词在Huffman树中的概率p(wk|wi)具体包括:
步骤S251,确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的节点。
步骤S252,逐个计算路径中的节点的概率。一个节点的概率算法为,该节点的父节点的词向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;当然,也可以是节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
假设在根节点时,向左走的概率是P(left),那么向右走的概率就是1-P(left)。则:P(left)=σ(θn T*h)
其中σ()为sigmoid公式,θn为非叶节点向量,h是隐藏层的输出值,即中心词wi的词向量。
步骤S253,将所述路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。
非叶节点即有子节点的节点,在图3中为黑色实心节点,如n(w2,1)、n(w2,2)等。在层次Softmax中,每个非叶节点都有对应的向量。根据上式,得到wk的概率为:
其中d为该节点的Huffman编码(0或者1)。
步骤S260,将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
步骤S270,遍历待分析文本中的每个词作为中心词,执行步骤S110-S140,分别获取各个中心词的关键词权重。
将wk中的k由1到n遍历,计算不同P(wk|wi)后相乘即可得到词wi的关键词权重。
步骤S280,将关键词权重超过阈值的中心词确定为要提取的关键词。
进一步的,可以将所述待分析文本中的各个中心词按关键词权重从大到小或从小到大排序输出。
将权重从大到小排列即为文章的关键词列表。
以「苹果是一种水果」为例,取滑动窗口为2,假设获取到的中心词wi为「苹果」,遍历wk,即「是」、「一种」(由于苹果之前没有词语,因此之前的概率不考虑),计算得到每个P(wk|wi)后相乘即可得到「苹果」作为关键词的权重。再将「是」、「一种」、「苹果」分别作为中心词wi计算各自作为关键词的权重,这样就得到了每个词的权重,再从大到小排列输出即可。在案例「苹果是一种水果」中,关键词权重从高到低依次为「水果」、「苹果」、「一种」、「是」。
本发明通过神经网络来进行关键词提取,提出了一个提取关键词的新算法,由于本发明的算法考虑了各个节点的概率,即考虑了文章内部的关系,因此具有TextTank的优势。另外,本发明在神经网络的基础上,将关键词转化为词向量,利用词向量的特点在节点概率计算中能够将「相似词语」维度上的特性纳入考虑,能够更多的在考虑文本语义层面含义的基础上计算关键词权重,避开TF-IDF只考虑「相同词」的弊端,很好的利用了基于神经网络这种天生语料库的语义优势,在待分析文本上取得了优异的提取关键词效果。
作为本发明的另一种实施例,可以将上述步骤S230与S240互换,即先获取中心词的词向量,再获得每个上下文词的Huffman编码。
作为本发明的另一种实施例,可以将上述步骤S230与S240同时执行,即获取中心词的词向量的同时,获得每个上下文词的Huffman编码。
作为本发明的另一种实施例,在步骤S280输出之前还包括,将各中心词依据预设的关键词权重阈值进行筛选,满足阈值要求的中心词保留,不满足阈值要求的中心值去除。
根据本发明的另一方面,基于上述方法的原理,本发明还提供一种与之对应的关键词提取装置,由于其原理与上述方法对应,在此不再做过多的赘述。
如图4所示,一种关键词提取装置,具体包括如下模块:
获取模块401,用于从待分析文本中获取中心词,以及根据预设的滑动窗口大小获取所述中心词在所述待分析文本中的上下文词。
计算模块402,用于将所述上下文词构成一个Huffman树的叶节点,计算所述中心词的词向量,和/或根据所述每个上下文词的Huffman编码,计算所述每个上下文词在Huffman树中的概率。
具体用于:确定Huffman树中从根节点到要计算概率的上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将所述路径中的所有节点的概率相乘得到所述上下文词在Huffman树中的概率。
进一步的,具体用于,一个节点的概率算法为,该节点的父节点向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;或者,如果该节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
权重模块403,用于将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
遍历模块404,用于遍历待分析文本中的每个词作为中心词,执行步骤S110-S140,分别获取各个中心词的关键词权重。
输出模块405,用于将所述待分析文本中的各个中心词按关键词权重大小排序输出。
进一步的,还包括清洗模块406,用于预先对所述待分析文本进行清洗去噪,去除停用词。
进一步的,还包括筛选模块407,用于将每个中心词依据预设的关键词权重阈值进行筛选,满足阈值要求的中心词保留,不满足阈值要求的中心值去除。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。
根据本发明的另一方面,还提供一种电子设备,包括上述计算机可读存储介质;以及一个或多个处理器,用于执行所述计算机可读存储介质中的程序。
根据本发明的另一方面,还提供一种计算机程序产品,其包括处理器可执行的程序,该程序被处理器执行时实现如上所述方法的步骤。
综上所述,本发明实施例通过本发明实施例通过确定待分析文本的中心词;根据预设的滑动窗口大小采用文本深度表示模型神经网络的Skip-Gram模型进行建模用于获取所述中心词在待分析文本中的上下文词;将每个上下文词对应设置为一个Huffman树的叶节点,获取每个上下文词的Huffman编码;根据每个上下文词的Huffman编码获文本深度表示模型神经网络输出的所述中心词的词向量;根据所述中心词的词向量以及Huffman编码,计算每个上下文词在Huffman树中的概率;将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重,根据所述中心词的关键词权重确定待分析文本中关键词的提取。避开了TF-IDF只考虑相同词的词频弊端、TextRank没有考虑语言环境下待分析文本库不足的弊端以及LDA只考虑词袋的弊端,在神经网络的基础上,利用其特性能够进行「相似词语」维度上的关键词提取,因此能在语义层面进行提取了。同时,由于神经网络是基于神经网络的,自带词语平滑功能,哪怕出现了一些新词,也能从语义层面得到一个符合逻辑的概率。其避开TF-IDF只考虑「相同词」的弊端,进行「相似词」层面的提取,同时P(wk|wi)考虑了文章内部的关系,具有TextTank的优势,再加上神经网络天生的待分析文本、语义优势,在测试集上取得了优异的提取关键词效果。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或提取装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及提取装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种关键词提取方法,其特征在于,包括如下步骤:
步骤S110,从待分析文本中获取中心词;
步骤S120,根据预设的滑动窗口大小建立模型,获取所述中心词在所述待分析文本中的上下文词;
步骤S130,所述上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;
步骤S140,计算所述每个上下文词在Huffman树中的概率;
步骤S150,将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;
步骤S160,遍历所述待分析文本中的每个词作为中心词,执行所述步骤
S110-S150,分别获取各个中心词的关键词权重;
步骤S170,
将关键词权重超过阈值的中心词确定为要提取的关键词。
2.根据权利要求1所述的一种关键词提取方法,其特征在于:所述步骤S110之前还包括:从语料中利用Word2Vec技术训练词向量。
3.根据权利要求1所述的一种关键词提取方法,其特征在于:所述步骤S120还包括,根据业务需求调整所述滑动窗口的大小。
4.根据权利要求1所述的一种关键词提取方法,其特征在于:所述步骤S140之前,还包括获取所述从语料中利用Word2Vec技术训练后的中心词的词向量。
5.根据权利要求1或4所述的一种关键词提取方法,其特征在于:所述步骤S140中,计算一个上下文词在Huffman树中的概率具体包括:
确定所述Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点;
逐个计算所述路径中的节点的概率;
将所述路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。
6.根据权利要求5所述的一种关键词提取方法,其特征在于:所述逐个计算路径中的节点的概率步骤,具体包括:一个节点的概率算法为,该节点的父节点向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;或者,如果该节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
7.一种关键词提取装置,具体包括如下模块:
获取模块,用于从待分析文本中获取中心词,以及根据预设的滑动窗口大小获取所述中心词在所述待分析文本中的上下文词;
计算模块,用于将所述上下文词构成一个Huffman树的叶节点,计算所述中心词的词向量,和/或根据所述每个上下文词的Huffman编码,计算所述每个上下文词在Huffman树中的概率;
权重模块,用于将所述中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重;
遍历模块,用于遍历待分析文本中的每个词作为中心词,执行步骤S110-S140,分别获取各个中心词的关键词权重;
输出模块,用于将关键词权重超过阈值的中心词确定为要提取的关键词。
8.根据权利要求7所述的一种关键词提取装置,其特征在于:
所述计算模块具体用于:确定Huffman树中从根节点到要计算概率的上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将所述路径中的所有节点的概率相乘得到所述上下文词在Huffman树中的概率。
9.根据权利要求7所述的一种关键词提取装置,其特征在于:
所述计算模块具体用于:一个节点的概率算法为,该节点的父节点向量的转置与所述中心词的词向量求点积,如果该节点为左节点,其概率为所述点积的sigmoid函数,如果该节点为右节点,其概率为1减去其对应的所述左节点的概率;或者,如果该节点为右节点,其概率为所述点积的sigmoid函数,如果该节点为左节点,其概率为1减去其对应的所述右节点的概率。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
CN201711183233.XA 2017-11-23 2017-11-23 一种关键词提取方法、提取装置、介质和电子设备 Pending CN108009149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711183233.XA CN108009149A (zh) 2017-11-23 2017-11-23 一种关键词提取方法、提取装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711183233.XA CN108009149A (zh) 2017-11-23 2017-11-23 一种关键词提取方法、提取装置、介质和电子设备

Publications (1)

Publication Number Publication Date
CN108009149A true CN108009149A (zh) 2018-05-08

Family

ID=62053323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711183233.XA Pending CN108009149A (zh) 2017-11-23 2017-11-23 一种关键词提取方法、提取装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN108009149A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108920660A (zh) * 2018-07-04 2018-11-30 中国银行股份有限公司 关键词权重获取方法、装置、电子设备及可读存储介质
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN110442874A (zh) * 2019-08-09 2019-11-12 南京邮电大学 一种基于词向量的中文词义预测方法
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法
CN112597776A (zh) * 2021-03-08 2021-04-02 中译语通科技股份有限公司 关键词提取方法及系统
CN115563933A (zh) * 2022-09-19 2023-01-03 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131475A1 (en) * 2007-05-24 2010-05-27 Fujitsu Limited Computer product, information retrieving apparatus, and information retrieval method
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131475A1 (en) * 2007-05-24 2010-05-27 Fujitsu Limited Computer product, information retrieving apparatus, and information retrieval method
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴笛: "《基于语义网的个性化网络学习服务》", 30 April 2017, 武汉大学出版社 *
苏剑林: "【不可思议的Word2Vec】3.提取关键词", 《HTTPS://WWW.SPACES.AC.CN/ARCHIVES/4316》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
CN108920660A (zh) * 2018-07-04 2018-11-30 中国银行股份有限公司 关键词权重获取方法、装置、电子设备及可读存储介质
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN110442874A (zh) * 2019-08-09 2019-11-12 南京邮电大学 一种基于词向量的中文词义预测方法
CN110442874B (zh) * 2019-08-09 2023-06-13 南京邮电大学 一种基于词向量的中文词义预测方法
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110728144B (zh) * 2019-10-06 2023-04-07 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法
CN112597776A (zh) * 2021-03-08 2021-04-02 中译语通科技股份有限公司 关键词提取方法及系统
CN115563933A (zh) * 2022-09-19 2023-01-03 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备
CN115563933B (zh) * 2022-09-19 2023-12-01 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备

Similar Documents

Publication Publication Date Title
CN108009149A (zh) 一种关键词提取方法、提取装置、介质和电子设备
Shi et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations
Lin et al. A structured self-attentive sentence embedding
Husain et al. A survey of offensive language detection for the Arabic language
Vilares et al. A syntactic approach for opinion mining on Spanish reviews
CN104991891B (zh) 一种短文本特征提取方法
CN108197111A (zh) 一种基于融合语义聚类的文本自动摘要方法
CN106503192A (zh) 基于人工智能的命名实体识别方法及装置
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
El-Fishawy et al. Arabic summarization in twitter social network
Garg et al. The structure of word co-occurrence network for microblogs
Elouardighi et al. A machine Learning approach for sentiment analysis in the standard or dialectal Arabic Facebook comments
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN107895024A (zh) 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN114997288A (zh) 一种设计资源关联方法
CN104021202B (zh) 一种知识共享平台的词条处理装置和方法
Çoban et al. Facebook tells me your gender: An exploratory study of gender prediction for Turkish Facebook users
Hofmann et al. A graph auto-encoder model of derivational morphology
Thaiprayoon et al. Graph and centroid-based word clustering
CN107193916B (zh) 一种个性化多样化查询推荐方法及系统
Priyanka et al. Classification model to determine the polarity of movie review using logistic regression
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
Alfarisy et al. Focused web crawler for Indonesian recipes
JP5184195B2 (ja) 言語処理装置およびプログラム
Manuja et al. Intelligent text classification system based on self-administered ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication