CN109635273A

CN109635273A - 文本关键词提取方法、装置、设备及存储介质

Info

Publication number: CN109635273A
Application number: CN201811254895.6A
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-04-16
Anticipated expiration: 2038-10-25
Also published as: WO2020082560A1; CN109635273B

Abstract

本发明提供一种基于分类模型及预测模型的文本关键词提取方法、装置、设备及存储介质，该方法包括：获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；根据预置的最优生成模型从所述词向量组中提取目标关键词向量；根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词。本发明可提高文本关键词提取效率。

Description

文本关键词提取方法、装置、设备及存储介质

技术领域

本发明涉及关键词提取技术领域，尤其涉及一种文本关键词提取方法、装置、设备及存储介质。

背景技术

关键词抽取在文本处理的许多领域中应用广泛，如：文本聚类、文本摘要和信息检索。在当下大数据时代，关键词抽取更是在NLP领域扮演着重要角色，为情感分析、语义分析、知识图谱等热点问题提供了基石。目前该领域主流代表的方法有基于隐含主题模型的关键词抽取(LDA)、基于TF-IDF词频统计的关键词抽取和基于词图模型的关键词抽取(TextRank)。

本发明提出一种新的关键词抽取方法。

发明内容

本发明的主要目的在于提供一种文本关键词提取方法，旨在解决现有文本关键词提取效率不高的技术问题。

为实现上述目的，本发明提供一种文本关键词提取方法，其特征在于，所述文本关键词提取方法包括以下步骤：

获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；

根据预置的最优生成模型从所述词向量组中提取目标关键词向量；

根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词。

可选地，所述根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词的步骤包括：

遍历所述预置词向量库中所有的预置词向量，分别计算各所述预置词向量与所述目标关键词向量的欧氏距离；

从所有的预置词向量中获取与所述目标关键词向量之间欧氏距离最小的匹配词向量，并从所述预置词向量库中获取所述匹配词向量对应的匹配词，所述匹配词为目标关键词。

可选地，所述根据预置的最优生成模型从所述词向量组中提取目标关键词向量的步骤之前包括：

根据预置词向量库将预置的训练文本转换为对应的训练词向量组，并获取所述训练词向量组中的真实关键词向量；

将所述训练词向量组输入到最新生成模型中，并由所述最新生成模型输出从所述训练词向量组中提取预测关键词向量；

将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，并由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率；

若所述匹配概率大于预设阈值，则所述最新生成模型为预置的最优生成模型。

可选地，所述由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率的步骤之后包括：

若所述匹配概率小于预设阈值，则根据所述匹配概率计算获得所述最新生成模型和所述最新判别模型各自的损失函数；

根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化，以获得模型参数优化更新后的最新生成模型和最新判别模型；

执行所述将所述训练词向量组输入到最新生成模型中的步骤。

可选地，所述根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化的步骤包括：

根据所述最新生成模型和所述最新判别模型各自的损失函数，通过ADAM算法对所述最新生成模型和所述最新判别模型各自的模型参数进行优化。

可选地，所述根据预置词向量库将所述待提取文本转换为对应的词向量组的步骤之前包括：

获取待转换的语料文本，将所述语料文本进行分词，获得分词后的待转换词组；

将所述待转换词组中各待转换词转换成对应的词向量，将各所述待转换词与对应的词向量关联存储在预置词向量库。

可选地，所述将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，与由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率之间包括：

分别计算各预测关键词向量与每个真实关键词向量的欧氏距离；

统计与预设个数真实关键词向量的欧氏距离小于预设值的匹配预测词向量的数目，所述预设个数至少为一个；

基于所述匹配预测词向量的数目计算所述预测关键词向量与所述真实关键词向量的匹配概率。

此外，为实现上述目的，本发明还提供一种文本关键词提取装置，所述文本关键词提取装置包括：

第一向量转换模块，用于获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；

关键词生成模块，用于根据预置的最优生成模型从所述词向量组中提取目标关键词向量；

第二向量转换模块，用于根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词。

此外，为实现上述目的，本发明还提供一种文本关键词提取设备，所述文本关键词提取设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本关键词提取程序，其中所述文本关键词提取程序被所述处理器执行时，实现如上述的文本关键词提取方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有文本关键词提取程序，其中所述文本关键词提取程序被处理器执行时，实现如上述的文本关键词提取方法的步骤。

本发明实施例通过获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；根据预置的最优生成模型从所述词向量组中提取目标关键词向量，即通过将待提取文本转换为向量化数据，并将其作为生成模型的输入，可减少模型运算量，提高文本关键词提取效率；根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词，实现对待提取文本的文本关键词的提取。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的文本关键词提取设备结构示意图；

图2为本发明文本关键词提取方法第一实施例的流程示意图；

图3为本发明文本关键词提取方法第二实施例的流程示意图；

图4为本发明文本关键词提取装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1为本发明所提供的文本关键词提取设备的硬件结构示意图。

所述文本关键词提取设备可以是PC，也可以是智能手机、平板电脑、便携计算机、台式计算机等具有显示功能的设备，可选地，所述文本关键词提取设备可以是服务器设备，存在文本关键词提取的后端管理系统，用户通过所述后端管理系统对文本关键词提取设备进行管理。

所述文本关键词提取设备可以包括：处理器101以及存储器201等部件。在所述文本关键词提取设备中，所述处理器101与所述存储器201连接，所述存储器201上存储有文本关键词提取程序，处理器101可以调用存储器201中存储的文本关键词提取程序，并实现如下述文本关键词提取方法各实施例的步骤。

所述存储器201，可用于存储软件程序以及各种数据。存储器201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如文本关键词提取程序)等；存储数据区可包括数据库，例如关联网络的节点的节点信息等。此外，存储器201可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器101，是文本关键词提取设备的控制中心，利用各种接口和线路连接整个文本关键词提取设备的各个部分，通过运行或执行存储在存储器201内的软件程序和/或模块，以及调用存储在存储器201内的数据，执行文本关键词提取设备的各种功能和处理数据，从而对文本关键词提取设备进行整体监控。处理器101可包括一个或多个处理单元；可选地，处理器101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器101中。

本领域技术人员可以理解，图1中示出的文本关键词提取设备结构并不构成对文本关键词提取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述硬件结构，提出本发明方法各个实施例，下文中的“提取设备”为文本关键词提取设备的简称。

本发明提供一种文本关键词提取方法。

参照图2，图2为本发明文本关键词提取方法第一实施例的流程示意图。

本实施例中，所述文本关键词提取方法包括以下步骤：

步骤S10，获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；

待提取文本，指待进行关键词提取的文本数据，待提取文本是多个字符按照特定语义顺序构成的字符串，待提取文本可以为一篇文章或一段文字。

对于获取待提取文本，具体地，提取设备可提供输入界面，以获取用户通过输入界面输入需要进行关键词提取的文本数据，将获取的文本数据作为待提取文本。提取设备也可接收其他设备发送的需要进行关键词提取的文本数据，将接收到的文本数据作为待提取文本。提取设备还可提供可选文本列表，以获取用户从可选文本列表中选择的待提取文本。

预置词向量库，存储有预置的语料词语与对应的词向量，词向量指词语被映射到实数的向量，比如，文本形式的“话筒”表示为数学形式“[00010000000..]”，此时，“[00010000000...]”即为“话筒”的词向量。可以理解，这里不限定将文本形式的语料词语转换为何种表示的词向量，只要能够将文本形式的语料词语进行数学化表示即可。在执行步骤10中的根据预置词向量库将所述待提取文本转换为对应的词向量组这一步骤之前，需建立预置词向量库，具体地，包括：

步骤S11，获取待转换的语料文本，将所述语料文本进行分词，获得分词后的待转换词组；

待转换的语料文本，即待进行向量转换的语料文本，提取设备可直接从互联网上拉取语料文本，比如新闻或者文章等，语料文本也可从语料库获得。

待转换词组指将语料文本进行分词后，得到的组成语料文本的词语组，本实施例中的“词组”指多个词，待转换词组包含多个待转换词。

分词是将连续的字符序列切分成多个单独的字符或者字符序列的操作。提取设备可再对语料文本按照标点符号进行语句分割，得到若干语句，再对各语句进行分词，得到组成语料文本的各词。提取设备可采用预设的分词方式对待提取文本进行分词处理，得到多个字符(无顺序词组)或者字符序列(具有特定排列顺序的词组，如与语料文本顺序顺序相同的词组)，提取设备可再根据词汇表确定分词处理后获得的待转换词组中各待转换词的词性，还可统计各词相应的词长，其中，词性是反映词的内容所属类型的数据，词性包括形容词、介词、谓词和名词等12种词性。词长是词所包含的字符的数量。预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式。提取设备可设置分词得到的各待转换词的词长阀值，使得分词得到的各待转换词的词长均不超过词长阀值。

举例说明，提取设备对词序列“我/今天/很/高兴”确定各词相应的词性后得到“黎明a/今天b/很c/高兴d”，其中a表示人名，b表示状语，c表示副词，d表示谓语等。提取设备对词序列“我/今天/很/高兴”确定各词相应的词长后得到“我1/今天2/很1/高兴2”，其中数字表示词长。

步骤S12，将所述待转换词组中各待转换词转换成对应的词向量，将各所述待转换词与对应的词向量关联存储在预置词向量库。

提取设备根据待转换词组中各待转换词的内容、词性与词长，将该词向量化，得到该词相应的词向量，从而得到待转换词相应的词向量。其中，提取设备可以利用机器学习模型将词转化为词向量，机器学习模型可以为word2vec模型等。

具体地，提取设备可以预先设置编码方式，通过该编码方式将词性编码为词性向量，将词长编码为词长向量，然后将内容向量、词性向量和词长向量进行组合得到相应词所对应的词向量，得到词向量序列。其中，编码方式比如One-Hot编码或者整数编码等。内容向量、词性向量和词长向量组合的方式可以是直接拼接或者是通过连接向量间接拼接。可以理解，在拼接过程中对内容向量、词性向量和词长向量的拼接顺序不作限定。

将各待转换词与对应的词向量关联存储在预置词向量库，可根据待转换词在预置词向量库查找到对应的词向量，也可以根据词向量查找到对应的待转换词。

在本实施例中，通过获取待转换的语料文本，将所述语料文本进行分词，获得分词后的待转换词组；将所述待转换词组中各待转换词转换成对应的词向量，将各所述待转换词与对应的词向量关联存储在预置词向量库，为后续将待提取文本转换为向量化数据并将其作为生成模型的输入以减少模型运算量，提高文本关键词提取效率提供保障。

提取设备获取待提取文本后，对待提取文本进行分词，得到组成待提取文本的各词，再将各词向量化，得到各词各自对应的词向量，从而得到对应的词向量组，其中，待提取文本的分词方式与待转换的语料文本的分词方式一致，相关分词方式已在前文解释，此处不赘述。可通过查询预置词向量库，获取组成待提取文本的各词对应的词向量，将待提取文本的各词转换为对应的词向量；也可以通过与待转换词相同的词向量转化方式对待提取文本进行向量化，此处不赘述。

步骤S20，根据预置的最优生成模型从所述词向量组中提取目标关键词向量；

预置的最优生成模型指包含最优模型参数的生成模型，即训练好的生成模型，在生成模型的训练阶段，以生成模型和判别模型共同组成生成式对抗网络，在生成式对抗网络实现生成模型和判别模型的模型训练。生成式对抗网络要解决的问题是如何从训练样本中学习出新样本，常见的应用是根据真实图片生成新图片。

本实施例中的生成模型为经过训练后具有关键词向量提取功能的机器学习模型，判别模型为经过训练后具有将真实关键词向量与生成模型提取的预测关键词向量进行区分的判别功能的机器学习模型，机器学习模型可通过样本学习具备前述提取功能或判别功能，机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。

本实施例中，提取设备将词向量组输入最优生成模型，利用最优生成模型中隐层的模型参数对词向量组进行运算，得到运算结果，即生成最优生成模型提取的目标关键词向量，其中，利用隐层的模型参数对词向量进行的运算可以是线性变换、非线性变换或者卷积变换等。

一实施方式中，提取设备可以按照词向量组中各词向量的先后顺序，通过最优生成模型的隐层依次地对词向量组中各词向量进行运算，循环地将前次的运算结果和当前词向量作为当次运算的输入值，进行当次运算，直至最后一次运算为止。可以理解，由于第一次处理时不存在前次运算，所以第一次运算时的输入值为第一个词向量。举例说明，待提取文本对应的词向量组为X1、X2、X3、X4、X5。最优生成模型的隐层可按照X1-X5的顺序或者X5-X1的顺序依次地对各词向量进行运算。比如，先将X1作为输入进行运算，得到运算结果Y1，然后将Y1和X2作为输入进行运算，得到运算结果Y2，然后将Y2和X3作为输入进行运算，得到运算结果Y3，依次类推，直至得到最后一个词向量X5相应的运算结果Y5。

步骤S30，根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词。

目标关键词向量即最优生成模型从输入的词向量组中提取的/预测的待提取文本的关键词向量，目标关键词即最优生成模型提取的/预测的待提取文本的关键词。

一实施方式中，通过查询预置词向量库，获取组成待提取文本的各词对应的词向量，将待提取文本的各词转换为对应的词向量，此时，根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词这一步骤具体包括：查询预置词向量库，基于预置词向量库存储的词与对应向量的关联关系，从预置词向量库中获取目标关键词向量对应的目标关键词，完成目标关键词向量的转化。

另一实施方式中，通过与待转换词相同的词向量转化方式对待提取文本进行向量化，其中，待转换词与待提取文本转化后的词向量表示方式为分布式表示(Distributedrepresentation)词向量表示方法，此时，根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词这一步骤具体包括：

步骤S31，遍历所述预置词向量库中所有的预置词向量，分别计算各所述预置词向量与所述目标关键词向量的欧氏距离；

Distributed representation词向量表示方法表示的词向量使得相关或者相似的词，其数学含义表现为向量距离的接近。例如，“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。

Distributed representation词向量表示方法的原理包括：通过训练将某种语言的特定文本中的每一个词映射成一个固定长度的向量，将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上引入“距离”，则可根据词向量之间的距离来判断它们对应的词之间的(词法、语义上的)相似性。

本实施方式中，以欧氏距离来衡量向量之间的距离，间接衡量向量对应的词的语义的相似性，即语义相同或相似的词语词向量距离相近。通过分别计算目标关键词向量与各预置词向量间的欧氏距离，确定预置词向量库中与目标关键词向量最接近的一个或多个预置词向量，进而确定目标关键词向量对应的目标关键词。

欧氏距离是指词向量在各维度上差值的平方和的算术平方根，以公式表示为：

其中，D(X，Y)指X词向量与Y词向量的欧氏距离，n为向量维度，x、y为各维度的X词向量与Y词向量。

步骤S32，从所有的预置词向量中获取与所述目标关键词向量之间欧氏距离最小的匹配词向量，并从所述预置词向量库中获取所述匹配词向量对应的匹配词，所述匹配词为目标关键词。

欧氏距离最小，向量越接近，与目标关键词向量之间欧氏距离最小的预置词向量为与目标关键词向量最接近的词向量，其对应的词即为目标关键词。

本实施例通过获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；根据预置的最优生成模型从所述词向量组中提取目标关键词向量，即通过将待提取文本转换为向量化数据，并将其作为生成模型的输入，可减少模型运算量，提高文本关键词提取效率；根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词，实现对待提取文本的文本关键词的提取。

进一步地，如图3，在本发明文本关键词提取方法的第二实施例中，所述步骤S20之前包括：

步骤S21，根据预置词向量库将预置的训练文本转换为对应的训练词向量组，并获取所述训练词向量组中的真实关键词向量；

预置的训练文本，即预置的用于训练生成模型和判别模型的训练样本，提取设备可直接从互联网上拉取训练样本，也可从语料库获得训练样本。提取设备获取训练文本后，对训练文本进行分词，得到组成训练文本的各训练词，再将各训练词向量化，得到各训练词各自对应的训练词向量，从而得到对应的训练词向量组，其中，训练文本的分词方式与待转换的语料文本的分词方式一致，相关分词方式已在前文解释，此处不赘述。

可通过查询预置词向量库，获取组成训练文本的各训练词对应的训练词向量，将训练文本的各训练词转换为对应的训练词向量，获得训练词向量组；也可通过与待转换词相同的词向量转化方式对训练文本进行向量化，此处不赘述。

训练词向量组是实际输入到生成模型和判别模型以进行训练模型的样本数据，训练词向量组包括多个训练词向量。

可由用户输入训练样本的真实关键词，提取设备将真实关键词向量化获得真实关键词向量；也可从在抓取/获取训练样本时，获取关键词标签，作为训练样本的真实关键词，提取设备将真实关键词向量化获得真实关键词向量。

生成模型用于从文本中提取关键词，即预测文本关键词，判别模型用于判断生成模型输出的是不是真实关键词。生成模型和判别模型均为神经网络模型，初始模型参数随机设定，并没有进行优化，随后，这两个模型一起对抗训练，生成模型产生预测的文本关键词给判别模型进行判别，判别模型判断生成模型输出的是不是真实关键词，在这两个模型训练的过程中，不断优化模型参数，两个模型的能力越来越强，最终达到稳态。

步骤S22，将所述训练词向量组输入到最新生成模型中，并由所述最新生成模型输出从所述训练词向量组中提取预测关键词向量；

在模型训练过程中，模型参数不断优化更新，最新生成模型指本次输入训练词向量时、具有最新模型参数的生成模型，最新判别模型指本次输入训练词向量时、具有最新模型参数的判别模型。

初始化模型的模型参数随机设定，并没有进行优化，因此生成模型第一次经过内部神经网络计算出的预测关键词向量是随机的。预测关键词向量即生成模型经过内部运算从训练词向量组中选取的一个或多个关键词向量。

步骤S23，将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，并由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率；

判别模型的训练数据中包括两类输入，一类是训练文本对应的训练词向量组及训练文本的真实关键词向量，另一类是训练文本及生成模型生成的预测关键词向量，判别模型的目标是将真实关键词向量与预测关键词向量进行区分。

最新判别模型对预测关键词向量与真实关键词向量的匹配概率进行计算，具体地，所述步骤S23中将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，与由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率之间包括：

步骤S231，分别计算各预测关键词向量与每个真实关键词向量的欧氏距离；

用欧氏距离表征词向量对应词语的相似度，欧氏距离越小，预测关键词向量与真实关键词向量对应的词语语义更接近，则预测关键词向量与真实关键词向量更匹配。

步骤S232，统计与预设个数真实关键词向量的欧氏距离小于预设值的匹配预测词向量的数目，所述预设个数至少为一个；

以预设个数为一个为例对本实施例进行解释，即统计与任一真实关键词向量的欧氏距离小于预设值的匹配预测词向量的数目。对于一个待提取文本/训练文本，真实关键词向量和预测关键词向量都可能有多个，各个预测关键词向量只要与任意一个真实关键词向量匹配，就相当于该预测关键词向量与真实关键词向量匹配。

预设值可以在模型训练过程中，经内部损失函数及参数优化运算获得，也可以为模型初始预设的值。

欧氏距离小于预设值，即预测关键词向量与真实关键词向量匹配的阈值条件，匹配预测词向量即与预设个数真实关键词向量的欧氏距离小于预设值的预测关键词向量，在本实施例中，匹配预测词向量与真实关键词向量匹配。

步骤S233，基于所述匹配预测词向量的数目计算所述预测关键词向量与所述真实关键词向量的匹配概率。

在一实施方式中，匹配预测词向量的数目与所有预测关键词向量数目的比值为匹配概率；在另一实施方式中，匹配预测词向量的数目与所有真实关键词向量数目的比值为匹配概率。

步骤S24，若所述匹配概率大于预设阈值，则所述最新生成模型为预置的最优生成模型。

若所述匹配概率大于预设阈值，则说明最新生成模型的模型参数已取得最优参数，则所述最新生成模型为预置的最优生成模型，用于后续的待提取文本的关键词提取。

进一步地，所述步骤S23之后包括：

步骤S25，若所述匹配概率小于预设阈值，则根据所述匹配概率计算获得所述最新生成模型和所述最新判别模型各自的损失函数；

步骤S26，根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化，以获得模型参数优化更新后的最新生成模型和最新判别模型；

最新判别模型的损失函数如下所示：

-((1-y)log(1-D(G(z))))-ylog(D(x))

其中，y为生成模型输出的匹配概率，G(z)是生成模型的输出，D(x)为判别模型的输出。

最新判别模型的损失函数的含义在于：尽可能将与真实关键词向量匹配的预测关键词向量标为y＝1，将与真实关键词向量不匹配的预测关键词向量标为y＝0，通过上述函数对最新判别模型中神经网络的参数进行优化。

当更新完判别模型的参数后，再更新生成模型的参数。

生成模型的损失函数如下所示：

(1-y)log(1-D(G(z)))

其中，y为生成模型输出的匹配概率，G(z)是生成模型的输出。

生成模型需要尽可能生成预测关键词向量，使得判别模型无法将其判别为假。在这种情况下，生成模型便能够生成具有较高可信度的预测关键词向量。在得到生成模型的损失函数后，通过生成模型的损失函数对生成模型的神经网络中的参数进行优化。损失函数用于描述模型的生成能力或判别能力，损失函数越小，模型的生成能力或判别能力越高，通过损失函数对神经网络中的参数求导，使损失函数最小化，以求得较优的模型参数。

其中，步骤S26中所述根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化的步骤包括：

步骤S261，根据所述最新生成模型和所述最新判别模型各自的损失函数，通过ADAM算法对所述最新生成模型和所述最新判别模型各自的模型参数进行优化。

ADAM优化方法(Adaptive Moment Estimation)即自适应时刻估计方法，能计算每个参数的自适应学习率。在实际应用中，ADAM方法效果良好，与其他自适应学习率算法相比，其收敛速度更快，学习效果更为有效，而且可以纠正其他优化技术中存在的问题，如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。

步骤S27，执行所述将所述训练词向量组输入到最新生成模型中的步骤。

在对生成模型和判别模型进行优化后，利用优化后的生成模型和判别模型执行所述将所述训练词向量组输入到最新生成模型中的步骤，直至判别模型输出匹配概率大于预设阈值，迭代终止。

此外，本发明还提供一种与上述文本关键词提取方法各步骤对应的文本关键词提取装置。

参照图4，图4为本发明文本关键词提取装置第一实施例的功能模块示意图。

在本实施例中，本发明文本关键词提取装置包括：

第一向量转换模块10，用于获取待提取文本，根据预置词向量库将所述待提取文本转换为对应的词向量组；

关键词生成模块20，用于根据预置的最优生成模型从所述词向量组中提取目标关键词向量；

第二向量转换模块30，用于根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词，提取所述目标关键词作为所述待提取文本的文本关键词。

进一步地，所述第二向量转换模块30，还用于遍历所述预置词向量库中所有的预置词向量，分别计算各所述预置词向量与所述目标关键词向量的欧氏距离；从所有的预置词向量中获取与所述目标关键词向量之间欧氏距离最小的匹配词向量，并从所述预置词向量库中获取所述匹配词向量对应的匹配词，所述匹配词为目标关键词。

进一步地，所述文本关键词提取装置包括：

训练模块，用于根据预置词向量库将预置的训练文本转换为对应的训练词向量组，并获取所述训练词向量组中的真实关键词向量；将所述训练词向量组输入到最新生成模型中，并由所述最新生成模型输出从所述训练词向量组中提取预测关键词向量；将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，并由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率；若所述匹配概率大于预设阈值，则所述最新生成模型为预置的最优生成模型。

进一步地，所述训练模块，还用于若所述匹配概率小于预设阈值，则根据所述匹配概率计算获得所述最新生成模型和所述最新判别模型各自的损失函数；根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化，以获得模型参数优化更新后的最新生成模型和最新判别模型；执行所述将所述训练词向量组输入到最新生成模型中的步骤。

进一步地，所述训练模块，还用于根据所述最新生成模型和所述最新判别模型各自的损失函数，通过ADAM算法对所述最新生成模型和所述最新判别模型各自的模型参数进行优化。

进一步地，所述文本关键词提取装置还包括：

分词模块，用于获取待转换的语料文本，将所述语料文本进行分词，获得分词后的待转换词组；

向量转换模块，用于将所述待转换词组中各待转换词转换成对应的词向量，将各所述待转换词与对应的词向量关联存储在预置词向量库。

进一步地，所述训练模块，还用于分别计算各预测关键词向量与每个真实关键词向量的欧氏距离；统计与预设个数真实关键词向量的欧氏距离小于预设值的匹配预测词向量的数目，所述预设个数至少为一个；基于所述匹配预测词向量的数目计算所述预测关键词向量与所述真实关键词向量的匹配概率。

本发明还提出一种存储介质，其上存储有计算机程序。所述存储介质可以是图1的文本关键词提取设备中的存储器201，也可以是如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘中的至少一种，所述存储介质包括若干指令用以使得一台具有处理器的设备(可以是手机，计算机，服务器，网络设备或本发明实施例中的文本关键词提取设备等)执行本发明各个实施例所述的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者服务端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者服务端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者服务端中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本关键词提取方法，其特征在于，所述文本关键词提取方法包括以下步骤：

2.如权利要求1所述的文本关键词提取方法，其特征在于，所述根据所述预置词向量库，将所述目标关键词向量转换为对应的目标关键词的步骤包括：

3.如权利要求1所述的文本关键词提取方法，其特征在于，所述根据预置的最优生成模型从所述词向量组中提取目标关键词向量的步骤之前包括：

4.如权利要求3所述的文本关键词提取方法，其特征在于，所述由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率的步骤之后包括：

5.如权利要求4所述的文本关键词提取方法，其特征在于，所述根据所述最新生成模型和所述最新判别模型各自的损失函数对所述最新生成模型和所述最新判别模型各自的模型参数进行优化的步骤包括：

6.如权利要求1所述的文本关键词提取方法，其特征在于，所述根据预置词向量库将所述待提取文本转换为对应的词向量组的步骤之前包括：

7.如权利要求3所述的文本关键词提取方法，其特征在于，所述将所述真实关键词向量和所述预测关键词向量输入到最新判别模型中，与由所述最新判别模型输出所述预测关键词向量与所述真实关键词向量的匹配概率之间包括：

8.一种文本关键词提取装置，其特征在于，所述文本关键词提取装置包括：

9.一种文本关键词提取设备，其特征在于，所述文本关键词提取设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本关键词提取程序，其中所述文本关键词提取程序被所述处理器执行时，实现如权利要求1至7中任一项所述的文本关键词提取方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有文本关键词提取程序，其中所述文本关键词提取程序被处理器执行时，实现如权利要求1至7中任一项所述的文本关键词提取方法的步骤。