CN111611807B - 一种基于神经网络的关键词提取方法、装置及电子设备 - Google Patents

一种基于神经网络的关键词提取方法、装置及电子设备 Download PDF

Info

Publication number
CN111611807B
CN111611807B CN202010418346.9A CN202010418346A CN111611807B CN 111611807 B CN111611807 B CN 111611807B CN 202010418346 A CN202010418346 A CN 202010418346A CN 111611807 B CN111611807 B CN 111611807B
Authority
CN
China
Prior art keywords
text
extracted
keyword
candidate word
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010418346.9A
Other languages
English (en)
Other versions
CN111611807A (zh
Inventor
刘绍华
尤焕英
佘春东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010418346.9A priority Critical patent/CN111611807B/zh
Publication of CN111611807A publication Critical patent/CN111611807A/zh
Application granted granted Critical
Publication of CN111611807B publication Critical patent/CN111611807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种基于神经网络的关键词提取方法、装置及电子设备,其中方法包括:获取待提取关键词的文本;对待提取关键词的文本进行预处理,得到候选词;将待提取关键词的文本和各候选词,分别输入BERT中,得到待提取关键词的文本的第一特征向量以及各候选词的第一特征向量;将待提取关键词的文本的第一特征向量以及各候选词的第一特征向量,分别输入预先训练好的神经网络中,得到待提取关键词的文本的第二特征向量以及各候选词的第二特征向量;计算各候选词与待提取关键词的文本之间的相似度,基于计算得到的相似度,提取待提取关键词的文本中的关键词。本发明实施例,能够提高提取文本中关键词的准确程度。

Description

一种基于神经网络的关键词提取方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于神经网络的关键词提取方法、装置及电子设备。
背景技术
关键词是一段文本中具有代表性的文字,是一篇文章主题的简要概括。关键词能够反映一篇文档/文本的主题内容,帮助人们快速定位该文档/文本的主题与思想。除此之外,关键词在文献检索、文本分类、推荐系统等方面都有重要的应用价值。由于人工标注文档/文本的关键词非常耗时与困难,因此,关键词的自动提取已经成为NLP(NaturalLanguage Processing,自然语言处理)领域研究的一个热门方向。
现有针对文本的关键词提取方法为:使用TF-IDF(Term frequency–Inversedocument frequency,词频-逆文档频率)统计方法对文本的关键词进行提取。TF-IDF提取文本关键词的实现过程为:对待提取关键词的文本进行分词处理,然后,针对每一分词,分别计算每一分词对应的词频和逆文档频率,进而计算每一分词对应的词频和逆文档频率的乘积,并作为该分词在文本中的权重,按照权重从大到小的顺序,将排序靠前的T个分词作为要提取的目标关键词,T可以为任意大于等于一的整数。
现有使用TF-IDF统计方法对文本的关键词进行提取的方法,是基于每一分词在文本中出现的频率以及逆文档频率进行提取的,针对一些词语重复较少的文本,特别是一些短文本,可能会导致所提取的关键词与文本的匹配度比较低的情况,进而导致最终所提取的关键词不够准确。
发明内容
本发明实施例的目的在于提供一种基于神经网络的关键词提取方法、装置及电子设备,以提高提取文本中关键词的准确程度。具体技术方案如下:
第一方面,本发明实施例提供了一种基于神经网络的关键词提取方法,所述方法包括:
获取待提取关键词的文本;
对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词;
将所述待提取关键词的文本和各所述候选词,分别输入基于转换器的双向编码器BERT中,得到所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量;
将所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量;其中,所述预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的;
基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度;
基于各所述候选词与所述待提取关键词的文本之间的相似度,提取所述待提取关键词的文本中的关键词。
可选地,所述对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词的步骤,包括:
对所述待提取关键词的文本进行分词处理,得到多个词语;
利用预设停用词表对所述多个词语进行过滤,得到过滤后的词语;
将所述过滤后的词语确定为候选词;
或者,将所述过滤后的词语中具有预设词性的词语确定为候选词;其中,所述预设词性包括:名词、动词和形容词。
可选地,所述神经网络的训练过程,包括:
构建初始神经网络模型;
将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入所述初始神经网络模型;
利用所述初始神经网络模型,得到各所述样本候选词对应的类别标签;
基于各所述样本候选词对应的类别标签与所述真值标签的差异,计算损失函数;
对损失函数进行最小化处理,得到最小化损失函数;
根据最小化损失函数,确定初始神经网络模型中各模块的权重参数;
基于所述权重参数对所述初始神经网络模型中的参数进行更新,训练得到所述神经网络。
可选地,所述损失函数的表达式为:
Figure BDA0002495877370000031
其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的关键词,
Figure BDA0002495877370000032
表示神经网络的结构参数,
Figure BDA0002495877370000033
表示基于神经网络的结构参数
Figure BDA0002495877370000034
的损失函数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率,
Figure BDA0002495877370000035
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000036
的相似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词集合,
Figure BDA0002495877370000037
表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000038
的相似度。
可选地,所述基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度的步骤,包括:
基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,使用如下表达式,计算各所述候选词与所述待提取关键词的文本之间的相似度:
Figure BDA0002495877370000041
其中,
Figure BDA0002495877370000042
表示候选词h与待提取关键词的文本t基于所述神经网络的结构参数
Figure BDA0002495877370000043
的相似度,
Figure BDA0002495877370000044
表示待提取关键词的文本t对应的第二特征向量,
Figure BDA0002495877370000045
表示候选词h对应的第二特征向量,
Figure BDA0002495877370000046
Figure BDA0002495877370000047
的转置。
第二方面,本发明实施例提供了一种基于神经网络的关键词提取装置,所述装置包括:
获取模块,用于获取待提取关键词的文本;
预处理模块,用于对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词;
第一特征提取模块,用于将所述待提取关键词的文本和各所述候选词,分别输入基于转换器的双向编码器BERT中,得到所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量;
第二特征提取模块,用于将所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量;其中,所述预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的;
计算模块,用于基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度;
关键词提取模块,用于基于各所述候选词与所述待提取关键词的文本之间的相似度,提取所述待提取关键词的文本中的关键词。
可选地,所述预处理模块,包括:
分词子模块,用于对所述待提取关键词的文本进行分词处理,得到多个词语;
过滤子模块,用于利用预设停用词表对所述多个词语进行过滤,得到过滤后的词语;
第一确定子模块,用于将所述过滤后的词语确定为候选词;
第二确定子模块,用于将所述过滤后的词语中具有预设词性的词语确定为候选词;其中,所述预设词性包括:名词、动词和形容词。
可选地,所述装置还包括:
构建模块,用于构建初始神经网络模型;
第一训练模块,用于将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入所述初始神经网络模型;
第一获得模块,用于利用所述初始神经网络模型,得到各所述样本候选词对应的类别标签;
计算模块,用于基于各所述样本候选词对应的类别标签与所述真值标签的差异,计算损失函数;
第二获得模块,用于对损失函数进行最小化处理,得到最小化损失函数;
确定模块,用于根据最小化损失函数,确定初始神经网络模型中各模块的权重参数;
第二训练模块,用于基于所述权重参数对所述初始神经网络模型中的参数进行更新,训练得到所述神经网络。
可选地,所述损失函数的表达式为:
Figure BDA0002495877370000051
其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的关键词,
Figure BDA0002495877370000061
表示神经网络的结构参数,
Figure BDA0002495877370000062
表示基于神经网络的结构参数
Figure BDA0002495877370000063
的损失函数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率,
Figure BDA0002495877370000064
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000065
的相似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词集合,
Figure BDA0002495877370000066
表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000067
的相似度。
可选地,所述计算模块,具体用于:
基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,使用如下表达式,计算各所述候选词与所述待提取关键词的文本之间的相似度:
Figure BDA0002495877370000068
其中,
Figure BDA0002495877370000069
表示候选词h与待提取关键词的文本t基于所述神经网络的结构参数
Figure BDA00024958773700000610
的相似度,
Figure BDA00024958773700000611
表示待提取关键词的文本t对应的第二特征向量,
Figure BDA00024958773700000612
表示候选词h对应的第二特征向量,
Figure BDA00024958773700000613
Figure BDA00024958773700000614
的转置。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的一种基于神经网络的关键词提取方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的一种基于神经网络的关键词提取方法的步骤。
本发明实施例有益效果:
本发明实施例提供的一种基于神经网络的关键词提取方法、装置及电子设备,可以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于神经网络的关键词提取方法的流程示意图;
图2为本发明实施例提供的一种文本预处理的实施方式流程图;
图3为本发明实施例提供的一种网络训练实施方式流程图;
图4为本发明实施例提供的一种网络训练结构示意图;
图5为本发明实施例提供的一种基于神经网络的关键词提取装置的结构示意图;
图6为本发明实施例提供的一种文本预处理装置的结构示意图;
图7为本发明实施例提供的一种网络训练装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有使用TF-IDF统计方法对文本的关键词进行提取的方法中,可能会导致所提取的关键词与文本的匹配度比较低的情况,进而导致最终所提取的关键词不够准确的问题,本发明实施例提供了一种基于神经网络的关键词提取方法,该方法包括:
获取待提取关键词的文本;
对待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词;
将待提取关键词的文本和各候选词,分别输入基于转换器的双向编码器BERT中,得到待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量;
将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量;其中,预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的;
基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度;
基于各候选词与待提取关键词的文本之间的相似度,提取待提取关键词的文本中的关键词。
本发明实施例提供的一种基于神经网络的关键词提取方法,可以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。
下面进行具体说明,如图1所示,图1为本发明实施例提供的一种基于神经网络的关键词提取方法流程示意图,该方法可以包括:
S101,获取待提取关键词的文本。
关键词是一段文本中具有代表性的文字,是一篇文章主题的简要概括。本发明实施例可以针对任何需要提取关键词的文本进行关键词的提取,该文本可以是具有完整、系统含义的一个句子或多个句子的组合,例如,可以是扩展名为txt、doc、docx或wps等对应的文本。
实际应用中,文本可以划分为短文本和长文本。优选地,本发明实施例提供的基于神经网络的关键词提取方法,在短文本中提取得到的关键词与文本之间的匹配度更高。
S102,对待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词。
本发明实施例在获取待提取关键词的文本后,可以对待提取关键词的文本进行预处理,进而得到待提取关键词的文本对应的候选词。该预处理可以是对待提取关键词的文本进行分词、以及对分词的过滤等操作。
S103,将待提取关键词的文本和各候选词,分别输入基于转换器的双向编码器BERT中,得到待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量。
BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码器),是一种以Transformers(转换器)为主要框架的双向编码表征模型。Transformers简单来说是一个将一组序列转换成另一组序列的黑盒子,这个黑盒子内部由编码器和解码器组成,编码器负责编码输入序列,然后解码器负责将编码器的输出转换为另一组序列。BERT是一种预训练语言表示的方法,可以在大型文本语料库上训练通用的语言理解模型,进而直接使用BERT预训练模型提取文本或文本序列的特征向量。
本发明实施例中,可以将待提取关键词的文本和各候选词,分别输入BERT预训练模型中,进而得到表示待提取关键词文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量。示例性的,得到的待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,都可以为1×786维的特征向量。
S104,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量。
本发明实施例中,将得到表示待提取关键词文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,以获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量。
其中,预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的。样本候选词对应的真值标签,用于表示该候选词是否是对应样本文本的关键词。示例性的,样本候选词对应的真值标签可以使用1或0表示,例如,候选词是对应样本文本的关键词,可以使用标签1表示,候选词不是对应样本文本的关键词,可以使用标签0表示。
S105,基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度。
在得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量后,可以分别计算各候选词与待提取关键词的文本之间的相似度,该相似度表示了候选词与待提取关键词的文本之间的匹配程度。
作为本发明实施例一种可选的实施方式,可以基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,使用如下表达式,计算各候选词与待提取关键词的文本之间的相似度:
Figure BDA0002495877370000111
其中,
Figure BDA0002495877370000112
表示候选词h与待提取关键词的文本t基于所述神经网络的结构参数
Figure BDA0002495877370000113
的相似度,
Figure BDA0002495877370000114
表示待提取关键词的文本t对应的第二特征向量,
Figure BDA0002495877370000115
表示候选词h对应的第二特征向量,
Figure BDA0002495877370000116
Figure BDA0002495877370000117
的转置。
Figure BDA0002495877370000118
Figure BDA0002495877370000119
是将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量作为输入,通过预先训练好的神经网络,得到的待提取关键词的文本t对应的语义特征向量和候选词h对应的语义特征向量,该待提取关键词的文本t对应的语义特征向量和候选词h对应的语义特征向量,是基于神经网络的结构参数
Figure BDA00024958773700001110
通过语义运算得到的。
具体的,计算各候选词与待提取关键词的文本之间的相似度,还可以是计算候选词对应的第二特征向量,与待提取关键词的文本对应的第二特征向量之间的欧式距离,或正切距离等等。
S106,基于各候选词与待提取关键词的文本之间的相似度,提取待提取关键词的文本中的关键词。
在计算各候选词与待提取关键词的文本之间的相似度后,可以将各候选词与待提取关键词的文本之间的相似度按照大小顺序排序,然后将排序靠前的M个候选词,确定为待提取关键词的文本对应的关键词,M可以为任意大于等于一的整数。具体M的取值,本领域技术人员可根据实际需求进行设置。
本发明实施例提供的一种基于神经网络的关键词提取方法,可以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。
作为本发明实施例一种可选的实施方式,如图2所示,本发明实施例提供了一种对待提取关键词的文本进行预处理的实施方式,该实施方式可以包括:
S201,对待提取关键词的文本进行分词处理,得到多个词语。
实际应用中,对文本进行分词可以借助Python语言版本的开源分词工具jieba来实现,具体的分词过程可参见现有技术的实现,本发明实施例在此不再赘述。对待提取关键词的文本进行分词处理,可以得到多个词语。
S202,利用预设停用词表对多个词语进行过滤,得到过滤后的词语。
停用词指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。针对不同的用途,所需要的停用词表可能不同,停用词通常是一些出现频率很高或者无实意的词,例如:“的”,“我”,“而且”,“并”等。
在对待提取关键词的文本进行分词处理之后,得到多个词语,实际应用中所得到的词语可能存在停用词,该停用词不可能是待提取关键词文本的关键词,则需要将这些停用词过滤掉。
本发明实施例中,利用预设停用词表对多个词语进行过滤,得到过滤后的词语。该预设的停用词表可以是本领域的通用停用词表,也可以是在通用停用词表基础上根据语料或其他特点增加或删除一些词之后得到的停用词表。具体的,本领域技术人员可根据实际需求进行设置。
S203,将过滤后的词语确定为候选词。
本发明一种实施方式中,可以直接将过滤后的词语确定为候选词。
S204,将过滤后的词语中具有预设词性的词语确定为候选词。
本发明一种实施方式中,还可以将过滤后的词语中具有预设词性的词语确定为候选词,该预设词性可以包括:名词、动词和形容词。
本发明实施例中,对待提取关键词的文本进行分词处理,然后,对分词得到的词语进行过滤,进一步将过滤后的词语或过滤后的词语中具有预设词性的词语确定为候选词,缩小了关键词提取的范围,以便能够快速的提取到目标关键词。
作为本发明实施例一种可选的实施方式,如图3所示,神经网络的训练过程,可以包括:
S301,构建初始神经网络模型。
作为本发明实施例一种可选的实施方式,所构建的初始神经网络模型可以是3层ResNet(Deep Residual Network,深度残差网络)网络,包括输入层,隐藏层以及输出层。示例性的,输入层为各输入特征向量,输入特征向量的大小可以为1×786,隐藏层可以为N层,输出层可以为1×128维的输出特征向量,N的取值本领域技术人员可根据实际需求进行设置。
示例性的,将输入特征向量记为x,输出特征向量记为y,隐藏层表示为lj,j=2,3,…,N,N表示隐藏层的数量,Wj表示第j层隐藏层的权重矩阵,bj表示第j层隐藏层的偏差,则神经网络结构中的第一层可以表示为:
l1=W1x+b1
其中,l1表示第1层隐藏层,W1表示第1层隐藏层的权重矩阵,b1表示第1层隐藏层的偏差。
在网络传输的过程中,网络中间层(或称隐藏层)的表达式可以表示为:
lj=f(Wjlj-1+bj)+lj-1,j=1,2,…,N-1
网络的输出层可以表示为:
y=f(WNlN-1+bN)
其中,WN表示第N层隐藏层的权重矩阵,lN-1表示第N-1层隐藏层,bN表示第N层隐藏层的偏差,f(g)表示激活函数,示例性的,可以采用双切函数tanh作为激活函数,该激活函数可以表示为:
Figure BDA0002495877370000141
S302,将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入初始神经网络模型。
本发明实施例中,在训练神经网络模型时,可以预先构建样本数据集合,该样本数据集合中可以包含样本文本,样本候选词,以及样本候选词对应的真值标签,样本候选词对应的真值标签,用于表示该候选词是否是对应样本文本的关键词。然后,可以通过上述步骤S101-S103的实施方式,得到样本文本对应的第一特征向量,样本候选词对应的第一特征向量,进而根据根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到神经网络。
S303,利用初始神经网络模型,得到各样本候选词对应的类别标签。
示例性的,如图4所示,图4为本发明实施例提供的一种网络训练结构示意图。将样本文本和样本候选词,分别输入基于转换器的双向编码器BERT中,得到样本文本对应的第一特征向量,样本候选词对应的第一特征向量,特征向量的大小均为1×786维。然后,将得到的样本文本对应的第一特征向量,样本候选词对应的第一特征向量作为输入,利用初始神经网络模型,对得到的样本文本对应的第一特征向量和样本候选词对应的第一特征向量分别进行降维处理,得到1×256维的样本文本对应的第一特征向量,和1×256维的样本候选词对应的第一特征向量。进而,将1×256维的样本文本对应的第一特征向量和1×256维的样本候选词对应的第一特征向量,输入至3层ResNet网络,输出1×128维的输出特征向量,进一步计算得到P(样本候选词|样本),即样本文本的关键词为样本候选词的概率。
S304,基于各样本候选词对应的类别标签与真值标签的差异,计算损失函数。
示例性的,在神经网络的训练过程中,预先构建的样本数据集合可以表示为:{(t1,k1),(t2,k2),…},(t1,k1)表示样本文本t1的关键词为k1对应的关键词对,假设每个关键词对是相互独立的,那么样本数据集合的联合概率可以表示为:∏i p(ki|ti),p(ki|ti)表示样本文本t1的关键词为k1的概率,进一步的可以基于各样本候选词对应的类别标签与真值标签的差异,使用softmax函数建立概率模型,进而计算损失函数。其中,使用softmax函数建立的概率模型可以表示为:
Figure BDA0002495877370000151
Figure BDA0002495877370000152
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000153
的概率模型。
损失函数的表达式可以为:
Figure BDA0002495877370000161
其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的关键词,
Figure BDA0002495877370000162
表示神经网络的结构参数,
Figure BDA0002495877370000163
表示基于神经网络的结构参数
Figure BDA0002495877370000164
的损失函数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率,
Figure BDA0002495877370000165
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000166
的相似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词集合,
Figure BDA0002495877370000167
表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000168
的相似度。
S305,对损失函数进行最小化处理,得到最小化损失函数。
S306,根据最小化损失函数,确定初始神经网络模型中各模块的权重参数。
S307,基于权重参数对初始神经网络模型中的参数进行更新,训练得到神经网络。
上述步骤S305~S307中,对损失函数进行最小化处理,得到最小化损失函数,根据最小化损失函数,确定初始神经网络模型中各模块的权重参数,基于权重参数对初始神经网络模型中的参数进行更新,训练得到神经网络。此过程的详细实现过程,可参见现有技术的实现,本发明实施例在此不再赘述。
相应于上述方法实施例,本发明实施例提供了一种基于神经网络的关键词提取装置,如图5所示,该装置可以包括:
获取模块401,用于获取待提取关键词的文本。
预处理模块402,用于对待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词。
第一特征提取模块403,用于将待提取关键词的文本和各候选词,分别输入基于转换器的双向编码器BERT中,得到待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量。
第二特征提取模块404,用于将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量;其中,预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的。
计算模块405,用于基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度。
关键词提取模块406,用于基于各候选词与待提取关键词的文本之间的相似度,提取待提取关键词的文本中的关键词。
本发明实施例提供的一种基于神经网络的关键词提取装置,可以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。
需要说明的是,本发明实施例的装置是与图1所示的一种基于神经网络的关键词提取方法对应的装置,图1所示的一种基于神经网络的关键词提取方法的所有实施例均适用于该装置,且均能达到相同的有益效果。
可选地,如图6所示,上述预处理模块402,包括:
分词子模块4021,用于对待提取关键词的文本进行分词处理,得到多个词语。
过滤子模块4022,用于利用预设停用词表对多个词语进行过滤,得到过滤后的词语。
第一确定子模块4023,用于将过滤后的词语确定为候选词。
第二确定子模块4024,用于将过滤后的词语中具有预设词性的词语确定为候选词;其中,预设词性包括:名词、动词和形容词。
可选地,如图7所示,上述一种基于神经网络的关键词提取装置还可以包括:
构建模块501,用于构建初始神经网络模型。
第一训练模块502,用于将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入初始神经网络模型。
第一获得模块503,用于利用初始神经网络模型,得到各样本候选词对应的类别标签。
计算模块504,用于基于各样本候选词对应的类别标签与真值标签的差异,计算损失函数。
第二获得模块505,用于对损失函数进行最小化处理,得到最小化损失函数。
确定模块506,用于根据最小化损失函数,确定初始神经网络模型中各模块的权重参数。
第二训练模块507,用于基于权重参数对初始神经网络模型中的参数进行更新,训练得到神经网络。
可选地,上述损失函数的表达式为:
Figure BDA0002495877370000191
其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的关键词,
Figure BDA0002495877370000192
表示神经网络的结构参数,
Figure BDA0002495877370000193
表示基于神经网络的结构参数
Figure BDA0002495877370000194
的损失函数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率,
Figure BDA0002495877370000195
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000196
的相似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词集合,
Figure BDA0002495877370000197
表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数
Figure BDA0002495877370000198
的相似度。
可选地,上述计算模块405,具体用于:
基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,使用如下表达式,计算各候选词与待提取关键词的文本之间的相似度:
Figure BDA0002495877370000199
其中,
Figure BDA00024958773700001910
表示候选词h与待提取关键词的文本t基于神经网络的结构参数
Figure BDA00024958773700001911
的相似度,
Figure BDA00024958773700001912
表示待提取关键词的文本t对应的第二特征向量,
Figure BDA00024958773700001913
表示候选词h对应的第二特征向量,
Figure BDA00024958773700001914
Figure BDA00024958773700001915
的转置。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现本发明实施例所提供的一种基于神经网络的关键词提取方法的步骤。
本发明实施例提供的一种电子设备,可以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一一种基于神经网络的关键词提取方法的步骤,以达到相同的有益效果。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一一种基于神经网络的关键词提取方法,以达到相同的有益效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD(Digital Versatile Disc,数字多功能光盘))、或者半导体介质(例如SSD(Solid StateDisk,固态硬盘))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于神经网络的关键词提取方法,其特征在于,所述方法包括:
获取待提取关键词的文本;
对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词;
将所述待提取关键词的文本和各所述候选词,分别输入基于转换器的双向编码器BERT中,得到所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量;其中,所述待提取关键词的文本对应的第一特征向量,用于表示待提取关键词文本的初始语义,所述候选词对应的第一特征向量,用于表示候选词的初始语义;
将所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量;其中,所述预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的,所述样本候选词对应的真值标签,用于表示该候选词是否是对应样本文本的关键词;
基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度;
基于各所述候选词与所述待提取关键词的文本之间的相似度,提取所述待提取关键词的文本中的关键词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词的步骤,包括:
对所述待提取关键词的文本进行分词处理,得到多个词语;
利用预设停用词表对所述多个词语进行过滤,得到过滤后的词语;
将所述过滤后的词语确定为候选词;
或者,将所述过滤后的词语中具有预设词性的词语确定为候选词;其中,所述预设词性包括:名词、动词和形容词。
3.根据权利要求1或2所述的方法,其特征在于,所述神经网络的训练过程,包括:
构建初始神经网络模型;
将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入所述初始神经网络模型;
利用所述初始神经网络模型,得到各所述样本候选词对应的类别标签;
基于各所述样本候选词对应的类别标签与所述真值标签的差异,计算损失函数;
对损失函数进行最小化处理,得到最小化损失函数;
根据最小化损失函数,确定初始神经网络模型中各模块的权重参数;
基于所述权重参数对所述初始神经网络模型中的参数进行更新,训练得到所述神经网络。
4.根据权利要求3所述的方法,其特征在于,所述损失函数的表达式为:
Figure FDA0003685597150000021
其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的关键词,
Figure FDA0003685597150000022
表示神经网络的结构参数,
Figure FDA0003685597150000023
表示基于神经网络的结构参数
Figure FDA0003685597150000024
的损失函数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率,
Figure FDA0003685597150000025
表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数
Figure FDA0003685597150000026
的相似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词集合,
Figure FDA0003685597150000027
表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数
Figure FDA0003685597150000031
的相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度的步骤,包括:
基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,使用如下表达式,计算各所述候选词与所述待提取关键词的文本之间的相似度:
Figure FDA0003685597150000032
其中,
Figure FDA0003685597150000033
表示候选词h与待提取关键词的文本t基于所述神经网络的结构参数
Figure FDA0003685597150000034
的相似度,
Figure FDA0003685597150000035
表示待提取关键词的文本t对应的第二特征向量,
Figure FDA0003685597150000036
表示候选词h对应的第二特征向量,
Figure FDA0003685597150000037
Figure FDA0003685597150000038
的转置。
6.一种基于神经网络的关键词提取装置,其特征在于,所述装置包括:
获取模块,用于获取待提取关键词的文本;
预处理模块,用于对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候选词;
第一特征提取模块,用于将所述待提取关键词的文本和各所述候选词,分别输入基于转换器的双向编码器BERT中,得到所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量;其中,所述待提取关键词的文本对应的第一特征向量,用于表示待提取关键词文本的初始语义,所述候选词对应的第一特征向量,用于表示候选词的初始语义;
第二特征提取模块,用于将所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量;其中,所述预先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签训练得到的,所述样本候选词对应的真值标签,用于表示该候选词是否是对应样本文本的关键词;
计算模块,用于基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度;
关键词提取模块,用于基于各所述候选词与所述待提取关键词的文本之间的相似度,提取所述待提取关键词的文本中的关键词。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块,包括:
分词子模块,用于对所述待提取关键词的文本进行分词处理,得到多个词语;
过滤子模块,用于利用预设停用词表对所述多个词语进行过滤,得到过滤后的词语;
第一确定子模块,用于将所述过滤后的词语确定为候选词;
第二确定子模块,用于将所述过滤后的词语中具有预设词性的词语确定为候选词;其中,所述预设词性包括:名词、动词和形容词。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
构建模块,用于构建初始神经网络模型;
第一训练模块,用于将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应的真值标签,输入所述初始神经网络模型;
第一获得模块,用于利用所述初始神经网络模型,得到各所述样本候选词对应的类别标签;
计算模块,用于基于各所述样本候选词对应的类别标签与所述真值标签的差异,计算损失函数;
第二获得模块,用于对损失函数进行最小化处理,得到最小化损失函数;
确定模块,用于根据最小化损失函数,确定初始神经网络模型中各模块的权重参数;
第二训练模块,用于基于所述权重参数对所述初始神经网络模型中的参数进行更新,训练得到所述神经网络。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202010418346.9A 2020-05-18 2020-05-18 一种基于神经网络的关键词提取方法、装置及电子设备 Active CN111611807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418346.9A CN111611807B (zh) 2020-05-18 2020-05-18 一种基于神经网络的关键词提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418346.9A CN111611807B (zh) 2020-05-18 2020-05-18 一种基于神经网络的关键词提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111611807A CN111611807A (zh) 2020-09-01
CN111611807B true CN111611807B (zh) 2022-12-09

Family

ID=72201506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418346.9A Active CN111611807B (zh) 2020-05-18 2020-05-18 一种基于神经网络的关键词提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111611807B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328655A (zh) * 2020-11-02 2021-02-05 中国平安人寿保险股份有限公司 文本标签挖掘方法、装置、设备及存储介质
CN112395875A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 一种关键词提取方法、装置、终端以及存储介质
CN112735413A (zh) * 2020-12-25 2021-04-30 浙江大华技术股份有限公司 一种基于摄像装置的指令分析方法、电子设备和存储介质
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN113515939B (zh) * 2021-04-27 2024-04-16 西安理工大学 一种勘察报告文本关键信息提取系统和提取方法
CN113204965A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 关键词提取方法、装置、计算机设备及可读存储介质
CN114912449B (zh) * 2022-07-18 2022-09-30 山东大学 基于代码描述文本的技术特征关键词抽取方法与系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744835B (zh) * 2014-01-02 2016-12-07 上海大学 一种基于主题模型的文本关键词提取方法
CN104268292B (zh) * 2014-10-23 2018-03-16 广州智索信息科技有限公司 画像系统的标签词库更新方法
CN106649434B (zh) * 2016-09-06 2020-10-13 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN108133045B (zh) * 2018-01-12 2020-07-24 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN109190111B (zh) * 2018-08-07 2023-09-08 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109446517B (zh) * 2018-10-08 2022-07-05 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质
CN109597878B (zh) * 2018-11-13 2020-06-05 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN110162785A (zh) * 2019-04-19 2019-08-23 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
CN110362678A (zh) * 2019-06-04 2019-10-22 哈尔滨工业大学(威海) 一种自动提取中文文本关键词的方法与装置
CN110399803B (zh) * 2019-07-01 2022-04-22 北京邮电大学 一种车辆检测方法及装置
CN110706055A (zh) * 2019-08-22 2020-01-17 平安科技(深圳)有限公司 商品信息推送方法及装置、存储介质、计算机设备
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111159389A (zh) * 2019-12-31 2020-05-15 重庆邮电大学 基于专利要素的关键词提取方法、终端、可读存储介质

Also Published As

Publication number Publication date
CN111611807A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN111274394B (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
CN111914067B (zh) 中文文本匹配方法及系统
CN109918660B (zh) 一种基于TextRank的关键词提取方法和装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN112836039B (zh) 基于深度学习的语音数据处理方法和装置
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN114416981A (zh) 一种长文本的分类方法、装置、设备及存储介质
Hung Vietnamese keyword extraction using hybrid deep learning methods
CN112417155A (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
CN113688633A (zh) 一种提纲确定方法及装置
Tang et al. Casegnn: Graph neural networks for legal case retrieval with text-attributed graphs
CN114692610A (zh) 关键词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant