CN111985217B - 一种关键词提取方法、计算设备及可读存储介质 - Google Patents
一种关键词提取方法、计算设备及可读存储介质 Download PDFInfo
- Publication number
- CN111985217B CN111985217B CN202010941205.5A CN202010941205A CN111985217B CN 111985217 B CN111985217 B CN 111985217B CN 202010941205 A CN202010941205 A CN 202010941205A CN 111985217 B CN111985217 B CN 111985217B
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- candidate word
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种关键词提取方法,在计算设备中执行,包括以下步骤:获取待提取关键词的文本,该文本中包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为文本的关键词。本发明一并公开了相应的计算设备。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于三种特征的英文关键词智能提取方法及计算设备。
背景技术
近十年来,在线学术资源的数量迅速增长,例如,顶级数据提供商谷歌学术(Google Scholar)在2019年收录了数千万篇论文。云数据的广泛应用和在线学术信息的激增提升了个人对学术资料的访问便捷性,同时也为学术工作者带来了从海量信息中正确选择出所需要的信息的挑战。
为了便于进行信息检索,数据提供者试图在文档搜索上应用智能处理方法。关键词是文档的概括性描述,被认为是高效的搜索标签。准确的关键词能够提高文档搜索任务的效率,大大减少用户搜索所需文档以及阅读文档内容的时间。但是,并非所有文档都带有准确的关键词,关键词的缺失和错误容易造成文档的漏检和错检,使得文档搜索的效率和准确性大打折扣。因此,需要一种文档关键词的智能提取方法。
发明内容
为此,本发明提供一种关键词提取方法及计算设备,以力图解决或至少缓解上面存在的问题。
根据本发明的第一个方面,提供一种关键词提取方法,在计算设备中执行,包括:获取待提取关键词的文本,该文本包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为上述文本的关键词。
可选地,在根据本发明的关键词提取方法中,文本为英文文本,该方法还包括:删除文本中的停用词,将文本中剩余的词作为候选词。
可选地,在根据本发明的关键词提取方法中,候选词之间的相似度按照以下步骤确定:采用词向量模型来确定候选词的词向量;将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。
可选地,在根据本发明的关键词提取方法中,词向量模型包括依次相连的输入层、隐藏层和输出层,上述采用词向量模型来确定候选词的词向量的步骤包括:将文本中的候选词与其上下文词所组成的词对作为训练样本,训练词向量模型,以得到隐藏层的权重矩阵,权重矩阵的行的数量为文本包括的候选词的数量,列的数量为预设的词向量维数;将权重矩阵中的每一个行向量作为相应候选词的词向量。
可选地,在根据本发明的关键词提取方法中,候选词的位置特征值为候选词在文本中出现的各个位置顺序的倒数之和。
可选地,在根据本发明的关键词提取方法中,候选词的主题概率分布按照以下步骤确定:将文本输入预设的主题分类模型,以便主题分类模型输出该文本所属的主题集合,以及各候选词属于主题集合中的每个主题的概率;候选词属于主题集合中的每个主题的概率组成该候选词的主题概率分布。
可选地,在根据本发明的关键词提取方法中,候选词的综合特征值按照以下步骤确定:分别将候选词的覆盖率、位置特征值、语义多样性进行归一化;根据归一化后的覆盖率和语义多样性来确定候选词的语义特征值;根据语义特征值和归一化后的位置特征值来确定候选词的综合特征值。
可选地,在根据本发明的关键词提取方法中,候选词的语义特征值按照以下公式计算:
其中,Ei、Ci、Di分别为第i个候选词的语义特征值、归一化后的覆盖率、归一化后的语义多样性,λ1、λ2分别为覆盖率、语义多样性的权重,V为候选词的数量,为第i个候选词所属的主题zi所包括候选词的数量,候选词所属的主题为其主题概率分布中概率最大的主题。
可选地,在根据本发明的关键词提取方法中,候选词的综合特征值按照以下公式计算:
其中,Si、Ei、Pi分别为第i个候选词的综合特征值、语义特征值、归一化后的位置特征值,λ3、λ4分别为语义特征值、位置特征值的权重。
根据本发明的第二个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,当程序指令被处理器读取并执行时,使得计算设备执行上述关键词提取方法。
根据本发明的第三个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述关键词提取方法。
根据本发明的技术方案,分别计算每个候选词的覆盖率、位置特征值和语义多样性,其中,覆盖率用于表示候选词对文本中其他词的概括能力,位置特征值用于表示候选词在文本中的出现顺序和出现频次,语义多样性用于表示候选词从语义上代表文本主题的准确性。随后,根据覆盖率、位置特征值和语义多样性计算得出每个候选词的综合特征值,将综合特征值最大的几个候选词作为关键词。这样,根据本发明的技术方案所提取出的关键词对文本中的其他词具有良好的概括能力、在文本中出现的位置较早和/或频次较高且能够从语义上准确代表文本主题,使得本发明提取出的关键词具有更高的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的关键词提取系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的关键词提取方法300的流程图;
图4示出了根据本发明一个实施例的词向量模型的结构示意图;以及
图5示出了根据本发明一个实施例的综合特征值的计算过程的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有技术中存在的问题,本发明提供一种基于三种特征的关键词智能提取方法,以准确提取出文本中的关键词。
图1示出了根据本发明一个实施例的关键词提取系统100的示意图。本发明的关键词提取方法可以应用于图1所示的场景中。
如图1所示,关键词提取系统100包括终端设备110、服务器120和数据存储装置130。应当指出,图1所示的关键词提取系统100仅是示例性的,虽然其中仅示出了一个终端设备、一个服务器和一个数据存储装置,但是,在具体实践情况中,关键词提取系统中可以包括不同数量的终端设备、服务器和数据存储装置,本发明对关键词提取系统中所包括的终端设备、服务器以及数据存储装置的数量均不作限制。
终端设备110为位于用户侧的、能够与用户进行交互的计算设备。在本发明的实施例中,用户指的是有文档检索需求的人,包括但不限于学生、教师、科研工作者等。终端设备110通常为桌面电脑、笔记本电脑等个人配置的计算机。在一些实施例中,终端设备110也可以是手机、平板电脑、智能可穿戴设备、物联网设备等。本发明对终端设备110的种类和硬件配置情况不做限制。
在本发明的实施例中,终端设备110中安装有用于进行文档检索的客户端应用,例如浏览器、数据提供商所提供的特定软件等。用户可以在终端设备110上对该应用进行操作,以检索需要的文档。需要说明的是,客户端应用可以以任意形式驻留于终端设备110上,本发明对客户端应用在终端设备110中的存在形式不做限制。例如,客户端应用可以是安装于终端设备110上的独立软件,也可以是独立软件中的一个功能模块,还可以是可通过浏览器进行访问的Web页面,等等。
服务器120为终端设备110中部署的用于进行文档检索的客户端应用的服务端,其基于数据存储装置130中存储的相关数据,向客户端应用提供数据和方法调用等服务。
数据存储装置130在硬件上可以实现为任意存储介质,在软件上可以实现为任意存储系统(例如文件存储系统、对象存储系统等)以及任意数据库软件,本发明不限制数据存储装置130的具体配置情况。
在本发明的实施例中,数据存储装置130中存储有文本数据,文本数据例如可以是学术期刊论文、专利文件、标准文件、网络博客文章等,本发明不限制文本数据的具体类型。
在本发明的实施例中,为了便于进行信息检索,服务器120适于执行本发明的关键词提取方法300,对数据存储装置130中存储的文本数据进行处理,准确提取出每篇文本的关键词。
服务器120具体可以实现为任意计算设备。图2示出了根据本发明一个实施例的计算设备200的示意图。需要说明的是,图2所示的计算设备200仅为一个示例,在实践中,用于实施本发明的关键词提取方法的计算设备可以是任意型号的设备,其硬件配置情况可以与图2所示的计算设备200相同,也可以与图2所示的计算设备200不同。实践中用于实施本发明的关键词提取方法的计算设备可以对图2所示的计算设备200的硬件组件进行增加或删减,本发明对计算设备的具体硬件配置情况不做限制。
如图2所示,在基本的配置102中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器204读取。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。操作系统220例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用222包括用于实现各种用户期望的功能的程序指令,应用222例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用222被安装到计算设备200中时,可以向操作系统220添加驱动模块。
在计算设备200启动运行时,处理器204会从存储器206中读取操作系统220的程序指令并执行。应用222运行在操作系统220之上,利用操作系统220以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用222时,应用222会加载至存储器206中,处理器204从存储器206中读取并执行应用222的程序指令。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括用于执行本发明的关键词提取方法300的指令,该指令可以指示处理器204执行本发明的关键词提取方法300,以准确提取出文本中的关键词。
图3示出了根据本发明一个实施例的关键词提取方法300的流程图。方法300在计算设备(例如前述计算设备200)中执行。如图3所示,方法300始于步骤S310。
在步骤S310中,获取待提取关键词的文本,该文本包括多个候选词。
根据一种实施例,步骤S310中的文本为英文文本。在获取到文本内容后,删除文本中的停用词,将剩余的词作为候选词。停用词指的是在自然语言中很常用但对于文本的语义贡献很小或没有贡献的词。在本发明的实施例中,为了提高关键词提取的效率和准确性,需要删除文本中的停用词。删除停用词后,剩下的所有词均为候选词。
英文文本中的停用词通常包括and,is,the,at,in,to,for,where,when,he,等等。
随后,对于文本中的每一个候选词,执行步骤S320~S350,以确定各候选词的综合特征值。需要说明的是,步骤S320~S350中的“该候选词”指的是当前正在被处理的候选词,其具体可以是所有候选词中的任意一个。
在步骤S320中,分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率。
覆盖率用于表示候选词对文本中其他词的概括能力。候选词的覆盖率越大,表示该候选词对文本中其他词的概括能力越强,更能够代表文本的语义,因此该候选词更适合作为文本的关键词。
根据一种实施例,候选词之间的相似度按照以下步骤S322、S324确定:
在步骤S322中,采用词向量模型来确定候选词的词向量。
具体地,词向量模型包括依次相连的输入层、隐藏层和输出层。在步骤S322中,将文本中的候选词与其上下文词所组成的词对作为训练样本,来训练词向量模型,以得到隐藏层的权重矩阵。其中,权重矩阵的行的数量为文本中所包括的候选词的数量,权重矩阵的列的数量为预设的词向量维数。将权重矩阵中的每一个行向量作为相应候选词的词向量。
词向量模型适于生成词所对应的词向量。本发明不限制词向量模型的具体结构,任意模型结构均在本发明的保护范围之内。例如,词向量模型可以是word2vec模型(例如Skip-Gram模型、CBOW模型等)、GloVe模型等,但不限于此。
图4示出了根据本发明一个实施例的词向量模型的结构图。图4所示的词向量模型为Skip-Gram模型,该模型用于预测一个词的上下文单词,其输入是一个特定词的词向量,输出是特定词对应的上下文词向量。
图4所示,Skip-Gram模型包括依次相连的输入层(Input Layer)、隐藏层(HiddenLayer)和输出层(Output Layer)。
输入层包括V个节点,为单个候选词的1×V的独热编码向量{x1,x2,…,xV},该向量包括V个元素(即向量为V维),V为文本所包括的候选词的数量。独热编码向量中的每个元素对应于一个候选词,在候选词所对应的独热编码向量中,只有该候选词对应位置的元素值为1,其他元素值均为0。例如,在独热编码向量中,在第k个候选词wk的独热编码向量中,只有第k个元素xk的值为1,其他元素(即元素x1~xk-1,xk+1~xV)的值均为0。
隐藏层包括N个节点,每个节点的输出组成一个1×N(即N维)的向量{h1,h2,…,hN}。隐藏层的输出向量{h1,h2,…,hN}由输入层的独热编码向量{x1,x2,…,xV}与权重矩阵WV×N相乘得出。
输出层包括C×V个节点,各节点的输出组成C个1×V的向量{y11,y12,…,y1V}、{y21,y22,…,y2V}、…、{yC1,yC2,…,yCV},即输出一个C×V的矩阵,其中,C为预设的上下文单词的数量。输出层的每个1×V的输出向量由隐藏层的输出向量{h1,h2,…,hN}与相应的权重矩阵W’N×V相乘得出。
采用文本中的候选词与其上下文词所组成的词对作为训练样本来训练Skip-Gram模型,得到隐藏层的权重矩阵WV×N和输出层的权重矩阵W’N×V。例如,定义上下文窗口长度为window=2,则上下文词数C=2*window=4,文本为由4个单词word1、word2、word3、word4所组成的候选词序列,则训练样本为词对(word1,word2)(word1,word3)(word2,word1)(word2,word3)(word2,word4)(word3,word1)(word3,word2)(word3,word4)(word4,word2)(word4,word3)。隐藏层的权重矩阵WV×Nz中的每一个行向量即为相应候选词的词向量。
在步骤S324中,将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。
即,两候选词的相似度按照以下公式计算:
候选词的覆盖率为该候选词与其他候选词的相似度的和,即候选词wi的覆盖率Coverage(wi)按照以下公式计算:
候选词的覆盖率越大,表示该候选词越接近文本内的其他词,可以覆盖更多的文本内容,对文本的概括能力更强,更适合作为文本的关键词。
在步骤S330中,根据该候选词在文本中的位置来确定该候选词的位置特征值。
根据一种实施例,候选词的位置特征值为候选词在文本中出现的各个位置顺序的倒数之和。即,候选词的位置特征值按照以下公式计算:
其中,Positon(wi)为第i个候选词wi的位置特征值,j为计数变量,1≤j≤α,α为候选词wi在文本中的出现频次,position(j)为候选词wi第j次出现时在文本中的顺序。
例如,某一候选词出现在了文本的第四位、第六位和第八位(即文本中的第四个、第六个、第八个词为该候选词),则该候选词的位置特征值为1/4+1/6+1/8=0.54。
位置特征值用于表示候选词在文本中的出现顺序和出现频次。候选词的位置特征值越大,表示该候选词的出现顺序越早、出现频次越多,对于整个文本来说更重要,因此该候选词更适合作为文本的关键词。
在步骤S340中,确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性。
根据一种实施例,候选词的主题概率分布按照以下步骤确定:将文本输入预设的主题分类模型,以便主题分类模型输出该文本所属的主题集合,以及各候选词属于主题集合中的每个主题的概率,候选词属于主题集合中的每个主题的概率组成该候选词的主题概率分布。在候选词的主题概率分布中,概率最大的主题即为该候选词所属的主题。
主题分类模型适于输出文档所属的主题分类。本发明不限制主题分类模型的具体结构,任意模型结构均在本发明的保护范围之内。根据一种实施例,主题分类模型为LDA(Latent Dirichlet Allocation)模型。将待提取关键词的文本输入LDA模型,LDA模型将输出该文本所属的主题集合、每个主题的置信概率以及文本中的各候选词属于主题集合中每个主题的概率。候选词属于主题集合中每个主题的概率即为该候选词的主题概率分布。
例如,LDA模型输出文本text的主题集合为{theme1,theme2,theme3},候选词wi属于主题theme1、theme2、theme3的概率分别为pi1、pi2、pi3,pi1、pi2、pi3即为候选词的主题概率分布。其中,pi2的值最大,则候选词wi所属的主题为theme2。
在候选词的主体概率分布中,概率的最大值即为该候选词wi的语义多样性。即,候选词的语义多样性为:
Diversity(wi)=p(zi|wi)
其中,zi为wi所属的主题,p(zi|wi)为候选词wi属于主题zi的概率。
语义多样性用于表示候选词从语义上对于文本主题的代表性。候选词的语义多样性越大,表示该候选词对于文本主题的代表性越强,因此该候选词越适合作为文本的关键词。
需要说明的是,尽管在图3中,步骤S320~S340顺序执行,但本发明并不限制步骤S320~S340的执行顺序,步骤S320~S340可以按照任意顺序先后执行,也可以并行执行。
在步骤S320~S340分别确定了候选词的覆盖率、位置特征值、语义多样性后,执行步骤S350。
在步骤S350中,根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值。
根据一种实施例,如图5所示,候选词的综合特征值按照以下步骤S352~S356确定:
在步骤S352中,分别将候选词的覆盖率、位置特征值、语义多样性进行归一化。
将候选词的覆盖率、位置特征值、语义多样性进行归一化是为了将三者转化成同一量纲,以便将三者的值进行综合。本发明不限制归一化的具体方法,任意归一化方法均在本发明的保护范围之内。根据一种实施例,可以按照以下公式来将候选词wi的覆盖率Coverage(wi)、位置特征值Position(wi)、语义多样性Diversity(wi)进行归一化,得到归一化后的覆盖率Ci、位置特征值Pi和语义多样性Di:
随后,在步骤S354中,根据归一化后的覆盖率和语义多样性来确定候选词的语义特征值。
根据一种实施例,候选词的语义特征值按照以下公式计算:
其中,Ei、Ci、Di分别为第i个候选词的语义特征值、归一化后的覆盖率、归一化后的语义多样性,λ1、λ2分别为覆盖率、语义多样性的权重,V为候选词的数量,为第i个候选词所属的主题zi所包括候选词的数量,候选词所属的主题为其主题概率分布中概率最大的主题。
权重λ1、λ2的值可以由本领域技术人员自行设置,本发明对二者的取值不做限制。根据一种实施例,可以设置λ1=0.3,λ2=0.7,这种设置方式是为了使语义在确定关键词时的影响力更大。
随后,在步骤S356中,根据语义特征值和归一化后的位置特征值来确定候选词的综合特征值。
根据一种实施例,候选词的综合特征值按照以下公式计算:
其中,Si、Ei、Pi分别为第i个候选词的综合特征值、语义特征值、归一化后的位置特征值,λ3、λ4分别为语义特征值、位置特征值的权重。
上述公式采用调和平均数的方法来综合语义特征值和归一化后的位置特征值。调和平均数的计算方式强调了较小值的重要性,只有当语义特征值和位置特征值均较大时,所计算出的综合特征值才会较大;当二者之间有一个值较小时,所计算出的综合特征值会较小。这种方式使得所选择出的关键词能够兼顾语义特征和位置特征,准确性更高。
权重λ3、λ4的值可以由本领域技术人员自行设置,本发明对二者的取值不做限制。根据一种实施例,可以设置λ3=0.8,λ4=0.2。
在计算出每个候选词的综合特征值后,执行步骤S360。
在步骤S360中,将综合特征值最大的预设数量个候选词作为该文本的关键词。
根据一种实施例,在步骤S360中,可以按照综合特征值从大到小的顺序来对所有的候选词进行排序,将排名最靠前的预设数量个候选词作为文本的关键词。预设数量的值可以由本领域技术人员自行设置,本发明对此不做限制。例如,可以将预设数量设置为5,则在步骤S360中,将综合特征值最大的5个候选词作为文本的关键词。
本发明的关键词提取方法结合了覆盖率、位置特征、语义多样性三种特征,其中,覆盖率提高了对候选词是否能提升对文档中其他词汇概括能力的评估,位置特征增加了更早出现的单词的权重,语义多样性避免了一些不准确情况的发生,从而提升了英文关键词提取的准确度。
在同等条件下,采用本发明的关键词提取方法和目前主流的关键词提取方法MultipartiteRank(多方图排名)、PositionRank(位置排名)、TopicalRank(主题排名)和YAKE(雅克),在知识发现和数据挖掘(KDD)、万维网会议(WWW)、Inspec和文档理解会议(DUC)四个数据集上进行实验。结果表明,在预测四个及以上关键词时,本发明的关键词提取方法相较于其他方法具有更高的准确性。
A11、一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如A1-9中任一项所述的关键词提取方法。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的关键词提取方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的优选实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种关键词提取方法,在计算设备中执行,包括:
获取待提取关键词的文本,所述文本包括多个候选词;
对于每一个候选词:
分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;
根据该候选词在所述文本中的位置来确定该候选词的位置特征值:
确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;
根据所述覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;
将综合特征值最大的预设数量个候选词作为所述文本的关键词;
其中,候选词的综合特征值按照以下步骤确定:
分别将候选词的覆盖率、位置特征值、语义多样性进行归一化;
根据归一化后的覆盖率和语义多样性来确定候选词的语义特征值;
根据所述语义特征值和归一化后的位置特征值来确定候选词的综合特征值。
2.如权利要求1所述的方法,其中,所述文本为英文文本,所述方法还包括:
删除所述文本中的停用词,将所述文本中剩余的词作为候选词。
3.如权利要求1或2所述的方法,其中,候选词之间的相似度按照以下步骤确定:
采用词向量模型来确定候选词的词向量;
将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。
4.如权利要求3所述的方法,其中,所述词向量模型包括依次相连的输入层、隐藏层和输出层,
所述采用词向量模型来确定候选词的词向量的步骤包括:
将所述文本中的候选词与其上下文词所组成的词对作为训练样本,训练所述词向量模型,以得到所述隐藏层的权重矩阵,所述权重矩阵的行的数量为所述文本包括的候选词的数量,列的数量为预设的词向量维数;
将所述权重矩阵中的每一个行向量作为相应候选词的词向量。
5.如权利要求1或2所述的方法,其中,候选词的位置特征值为候选词在所述文本中出现的各个位置顺序的倒数之和。
6.如权利要求1或2所述的方法,其中,候选词的主题概率分布按照以下步骤确定:
将所述文本输入预设的主题分类模型,以便所述主题分类模型输出所述文本所属的主题集合,以及各候选词属于所述主题集合中的每个主题的概率;
候选词属于所述主题集合中的每个主题的概率组成该候选词的主题概率分布。
9.一种计算设备,包括:
至少一个处理器和存储有程序指令的存储器;
当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述的关键词提取方法。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述的关键词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941205.5A CN111985217B (zh) | 2020-09-09 | 2020-09-09 | 一种关键词提取方法、计算设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941205.5A CN111985217B (zh) | 2020-09-09 | 2020-09-09 | 一种关键词提取方法、计算设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985217A CN111985217A (zh) | 2020-11-24 |
CN111985217B true CN111985217B (zh) | 2022-08-02 |
Family
ID=73449358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010941205.5A Active CN111985217B (zh) | 2020-09-09 | 2020-09-09 | 一种关键词提取方法、计算设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985217B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032581B (zh) * | 2021-04-09 | 2024-02-06 | 北京百度网讯科技有限公司 | 更新产品列表的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN111061839A (zh) * | 2019-12-19 | 2020-04-24 | 过群 | 基于语义与知识图谱的关键词联合式生成方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN111078838B (zh) * | 2019-12-13 | 2023-08-18 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
-
2020
- 2020-09-09 CN CN202010941205.5A patent/CN111985217B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN108920456A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种关键词自动抽取方法 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
CN111061839A (zh) * | 2019-12-19 | 2020-04-24 | 过群 | 基于语义与知识图谱的关键词联合式生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
An unsupervised keyphrase extractionmodel by incorporating structural and semantic information;Linkai Luo 等;《Progress in Artificial Intelligence》;20191026;第77-83页 * |
PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents;Corina Florescu 等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170831;第1105-1115页 * |
官方微博关键词提取与摘要技术研究;高永兵 等;《内蒙古科技大学学报》;20170930;第36卷(第3期);第273-279页 * |
结合主题分布与统计特征的关键词抽取方法;刘啸剑 等;《计算机工程》;20170731;第43卷(第7期);第217-222页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111985217A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
WO2021143267A1 (zh) | 基于图像检测的细粒度分类模型处理方法、及其相关设备 | |
KR101778679B1 (ko) | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
WO2013119400A1 (en) | System and method for semantically annotating images | |
KR20170004154A (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
US11822590B2 (en) | Method and system for detection of misinformation | |
WO2018121198A1 (en) | Topic based intelligent electronic file searching | |
WO2020258481A1 (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
US20150169740A1 (en) | Similar image retrieval | |
CN107515904B (zh) | 一种职位搜索方法和计算设备 | |
CN108133357A (zh) | 一种人才推荐方法及计算设备 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
WO2021027149A1 (zh) | 基于画像相似性的信息检索推荐方法、装置及存储介质 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
US8046361B2 (en) | System and method for classifying tags of content using a hyperlinked corpus of classified web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |