CN108121700A - 一种关键词提取方法、装置及电子设备 - Google Patents

一种关键词提取方法、装置及电子设备 Download PDF

Info

Publication number
CN108121700A
CN108121700A CN201711393043.0A CN201711393043A CN108121700A CN 108121700 A CN108121700 A CN 108121700A CN 201711393043 A CN201711393043 A CN 201711393043A CN 108121700 A CN108121700 A CN 108121700A
Authority
CN
China
Prior art keywords
keyword
sentence
training text
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711393043.0A
Other languages
English (en)
Other versions
CN108121700B (zh
Inventor
陈伟
王亮
吴友政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711393043.0A priority Critical patent/CN108121700B/zh
Publication of CN108121700A publication Critical patent/CN108121700A/zh
Application granted granted Critical
Publication of CN108121700B publication Critical patent/CN108121700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种关键词提取方法、装置及电子设备,包括:对待处理文本进行分词,得到多个分词,确定每个分词的词向量;根据每个分词的词向量及训练好的BLSTM网络,确定每个分词的标签概率向量;针对待处理文本的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词的分类标签;将每个句子中分类标签为预设分类标签的分词确定为该句子的关键词;将待处理文本中每个句子的关键词,作为待处理文本的关键词。本发明实施例通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中人工构建特征的工作,提高关键词提取的泛化能力。

Description

一种关键词提取方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种关键词提取方法、装置及电子设备。
背景技术
关键词是能反映文本主题的词或者短语,是人们快速了解文本内容和把握文本主题的重要依据。例如,在新闻报道中,通过关键词可以把握新闻报道的主题和关键内容等。在论文中,通过关键词可以明确论文的领域和研究主题等。目前,关键词提取技术已经被广泛地应用于信息检索和文本分类等领域。互联网进入Web2.0时代,许多网站向用户推荐他们感兴趣的对象,如视频、新闻、书籍等,也需要运用关键词提取技术,在满足用户的同时也可以更细粒度、更科学地投放内容,达到双赢。
目前的关键词提取方法中,一般分为两步:选取候选关键词和推荐关键词。其中,选取候选关键词时,需要先判定出候选关键词的边界,例如通过N-gram网络确定候选关键词时,需要确定N的取值,即认为候选关键词与N元词串的内部关联有关。推荐关键词时,需要在候选关键词中选出关键词,例如通过有监督方法将关键词的推荐问题转换为二分类问题,即判断每个候选关键词是否为关键词。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:通过有监督方法需要人工构建大量的特征,以便训练一个性能较好的网络。然而人工构建特征,需要针对不同的领域构建不同的特征,泛化能力差且需要花费大量的时间和精力,并且人工构建特征的好坏直接影响训练网络的好坏。
发明内容
本发明实施例的目的在于提供一种关键词提取方法、装置及电子设备,以省去现有技术中人工构建特征的工作,并提高关键词提取的泛化能力。具体技术方案如下:
为达到上述目的,第一方面,本发明实施例公开了一种关键词提取方法,该方法包括:
对待处理文本进行分词,得到所述待处理文本对应的多个分词,并确定每个分词的词向量;
根据所述每个分词的词向量以及已训练好的双向长短期记忆BLSTM网络,确定所述每个分词的标签概率向量;其中,所述BLSTM网络是根据训练文本和所述训练文本的关键词在所述训练文本中的标注结果,对初始BLSTM网络训练后得到的;所述每个分词的标签概率向量是由所述每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
针对所述待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
将所述待处理文本中所述每个句子对应的关键词,作为所述待处理文本的关键词。
可选地,训练BLSTM网络的步骤包括:
获取训练文本和所述训练文本的关键词,其中,所述训练文本的关键词在所述训练文本中已至少被标注一次;根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本;
对所述补充标注后的训练文本进行分词,得到所述补充标注后的训练文本对应的多个分词,并确定所述补充标注后的训练文本对应的每个分词的词向量;
将所述补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定所述补充标注后的训练文本对应的每个分词的标签概率向量;
针对所述补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
将所述补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词;
将所述补充标注后的训练文本中所述每个句子对应的训练关键词,作为所述训练文本的训练关键词;
根据所述训练文本的训练关键词,确定训练好的BLSTM网络。
可选地,所述根据所述训练文本的关键词和测试关键词,确定训练好的BLSTM网络,包括:
根据所述训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;
根据所述测试集的关键词和测试关键词,计算所述当前初始BLSTM网络对应的F值,当所述F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,所述F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为所述测试关键词在所述测试集中被标注的次数,M2为所述测试关键词中是所述测试集的关键词的测试关键词在所述测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为所述测试集的关键词在所述测试集中被标注的次数。
可选地,所述根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本,包括:
计算所述训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在所述训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,所述训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示所述训练文本的第i个关键词,i=1,...,M,M为所述训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在所述训练文本中被标注的次数,TotalNum(Wi)表示Wi在所述训练文本中出现的次数。
可选地,所述确定每个分词的词向量,包括:
通过word2vec训练得到每个分词的词向量。
可选地,所述将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词,包括:
将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词;
其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
第二方面,本发明实施例公开了一种关键词提取装置,该装置包括:
第一词向量确定模块,用于对待处理文本进行分词,得到所述待处理文本对应的多个分词,并确定每个分词的词向量;
第一标签概率向量确定模块,用于根据所述每个分词的词向量以及已训练好的BLSTM网络,确定所述每个分词的标签概率向量;其中,所述BLSTM网络是根据训练文本和所述训练文本的关键词在所述训练文本中的标注结果,对初始BLSTM网络训练后得到的;所述每个分词的标签概率向量是由所述每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
第一分类标签确定模块,用于针对所述待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第一关键词确定模块,用于将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
第二关键词确定模块,用于将所述待处理文本中所述每个句子对应的关键词,作为所述待处理文本的关键词;
可选地,所述装置还包括:
获取模块,用于获取训练文本和所述训练文本的关键词,其中,所述训练文本的关键词在所述训练文本中已至少被标注一次;根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本;
第二词向量确定模块,用于对所述补充标注后的训练文本进行分词,得到所述补充标注后的训练文本对应的多个分词,并确定所述补充标注后的训练文本对应的每个分词的词向量;
第二标签概率向量确定模块,用于将所述补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定所述补充标注后的训练文本对应的每个分词的标签概率向量;
第二分类标签确定模块,用于针对所述补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第三关键词确定模块,用于将所述补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词;
第四关键词确定模块,用于将所述补充标注后的训练文本中所述每个句子对应的训练关键词,作为所述训练文本的训练关键词;
BLSTM网络确定模块,用于根据所述训练文本的训练关键词,确定训练好的BLSTM网络。
可选地,所述BLSTM网络确定模块,具体用于根据所述训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;根据所述测试集的关键词和测试关键词,计算所述当前初始BLSTM网络对应的F值,当所述F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,所述F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为所述测试关键词在所述测试集中被标注的次数,M2为所述测试关键词中是所述测试集的关键词的测试关键词在所述测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为所述测试集的关键词在所述测试集中被标注的次数。
可选地,所述获取模块,具体用于计算所述训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在所述训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,所述训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示所述训练文本的第i个关键词,i=1,...,M,M为所述训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在所述训练文本中被标注的次数,TotalNum(Wi)表示Wi在所述训练文本中出现的次数。
可选地,所述第一词向量确定模块,具体用于通过word2vec训练得到每个分词的词向量。
可选地,所述第一关键词确定模块,具体用于将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词;
其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如上第一方面所述的关键词提取的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上第一方面所述的关键词提取的方法步骤。
第五方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上第一方面所述的关键词提取的方法步骤。
本发明实施例提供的关键词提取方法、装置及电子设备,通过对待处理文本进行分词,得到所述待处理文本对应的多个分词,并确定每个分词的词向量;再根据所述每个分词的词向量以及已训练好的BLSTM网络,确定所述每个分词的标签概率向量;然后针对所述待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将所述待处理文本中所述每个句子对应的关键词,作为所述待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种关键词提取方法的流程示意图;
图2为本发明实施例提供的一种BLSTM网络的训练方法的流程示意图;
图3为本发明实施例提供的一种关键词提取装置的结构示意图;
图4为本发明实施例提供的一种关键词提取装置的另一结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的关键词提取方法,可用于提取任意文本的关键词,例如,该文本可以是论文、新闻报道对应的文本等。
图1为本发明实施例提供的一种关键词提取方法的流程示意图,该方法包括以下步骤:
S101,对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量。
待处理文本可以是包含一个或多个词的句子、包含多个句子的段落或包含多个段落的文章。其中,可以将待处理文本的每个句子看作是由连续的字组成的字序列。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。对待处理文本进行分词的目的在于:将待处理文本按照一定的规范组合为词序列后,在词序列中提取关键词。
一种实现方式中,可以采用基于字符串匹配的方法对待处理文本进行分词,该方法也被称为机械分词法,其按照一定的策略将待处理文本的字序列与一个“充分大的”词典中的词条进行匹配,若在词典中找到待处理文本的某个字符或某几个字符组成的字符串,则匹配成功,即识别出一个词。
例如,待处理文本中的一个句子为“我喜欢中国女排”,通过机械分词法对该句子进行分词后,可以得到该句子对应的分词分别为:我、喜欢、中国、女排。可以理解的是,上述实现方式中,对待处理文本进行分词得到所有分词,意味着待处理文本中的每个字都包含在某个分词中。当然,对待处理文本进行分词的方法并不限于此。
一种实现方式中,确定每个分词的词向量,可以包括:通过word2vec训练得到每个分词的词向量。
word2vec是Google在2013年开源的用于将词表征为实数词向量的高效工具。具体的,word2vec通过CBoW网络或Skip-gram网络将词映射为一个K维向量,K维向量一般为高维向量,如K可以取值为400或其他数值比较大的整数。CBoW模型或Skip-gram模型均假设一个词与周围若干个词有关联,且不考虑周围若干词的顺序关系,因而通过word2vec训练得到的词向量中包含了词的句法和语义特征。
S102,根据每个分词的词向量以及已训练好的双向长短期记忆(Bi-directionalLong Short-Term Memory,BLSTM)网络,确定每个分词的标签概率向量。
由汉语的特点可知,关键词可以是一个单独的分词,如关键词“中国”,关键词也可以是相邻的几个分词组合构成的词,如关键词“中国女排”就是由相邻的“中国”和“女排”这两个分词构成的词。本实施例中,可以将关键词的提取问题看作是序列标注问题。具体地,在获得待处理文本的多个分词后,可以对每个分词标注上一个标签,确定每个分词的类别。这里的“类别”是指一个分词是否为关键词或是否为关键词中的某一部分。
针对待处理文本,可以设定多个分类标签,如设定5个分类标签,其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部,O标签为非关键词。这里仅以上述为例,在实际应用中,可根据需要设定分类标签的个数和具体类别。
本实施例中,对每个分词标注标签可以分两个步骤进行:首先,确定出每个分词对应于所有分类标签的概率;然后,确定出每个分词对应的标签。步骤S102即为第一个步骤。
上述的BLSTM网络是根据训练文本和该训练文本的关键词在该训练文本中的标注结果,对初始BLSTM网络训练后得到的。训练BLSTM网络的方法将在下文中详细描述,这里不再赘述。每个分词的标签概率向量是由每个分词对应于多个分类标签中每个分类标签的概率组成的向量。如分词“中国”对应于上述的W、B、I、E、O这5个分类标签的概率组成的向量为[0.7,0.8,0.2,0.1,0.2]。在训练好BLSTM网络后,通过将待处理文本的每个分词的词向量输入已训练好的BLSTM网络,即可确定每个分词的标签概率向量。
一种实现方式中,可以以句子为单位,将待处理文本的一个句子输入到已训练好的BLSTM网络中,即将一个句子中的每个分词的词向量输入到已训练好的BLSTM网络,从而确定该句子中每个分词的标签概率向量,这样,可以提高BLSTM网络的运算效率,也便于在进一步针对每个句子确定该句子中每个分词的标签。可以理解的是,同一个分词包含在不同的句子中时,不同句子中该分词的标签概率向量可能是不同的。
S103,针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行条件随机场(Conditional Random Field,CRF)解码,确定该句子中每个分词对应的分类标签。
CRF是一个典型的判别式预测模型,通过条件随机场P(Y|X)和输入序列(即观测序列)X,求条件概率最大的输出序列Y*,即对观测序列X进行标注。CRF的预测算法是维特比(Viterbi)算法,这是一种动态优化算法,可以通过已知的观测序列,和已知的状态转移概率计算出概率最大的状态转换路径,将该路径作为最优路径,该最优路径对应的观测序列X中的每个元素的状态构成了输出序列Y*。
本实施例中,根据待处理文本中的每个句子中每个分词的标签概率向量,对该句子进行CRF解码后,能够确定出该句子中第一个分词到最后一个分词的标签,例如,对“我喜欢中国女排”这个句子进行CRF解码后,确定出其中的分词“我”、“喜欢”、“中国”、“女排”对应的标签分别为O、O、B、E。
S104,将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词。
一种实现方式中,将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词,可以包括:
将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词;其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
例如,一个句子“我是程序员”中的3个分词:我、是、程序员,如果经过步骤S103确定的分类标签分别为O、O、W,则将“程序员”作为该句子对应的关键词。又如一个句子“我喜欢中国女排”中的4个分词:我、喜欢、中国、女排,如果经过步骤S103确定的分类标签分别为O、O、B、E,则将“中国女排”作为该句子对应的关键词。
上述实现方式中,还可以包括:只要一个句子中相邻的多个分词中第一个分词的分类标签为B,最后一个分词的分类标签为E,中间的每个分词的分类标签均为I,则将该相邻的多个分词组合构成的词确定为该句子的关键词。
可以理解的是,当一个句子中每个分词的分类标签均不是预设分类标签时,则该句子就不对应有关键词。
可以理解的是,通过步骤S104确定出待处理文本中每个句子对应的关键词,也就意味着将每个句子对应的关键词都标注出来了。
S105,将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。
可以理解的是,若多个句子中均包含了同一个分词,则只要该分词是其中一个句子的关键词,就将该分词作为待处理文本的关键词。通过步骤S105确定出待处理文本的关键词,也就意味着将待处理文本的关键词都标注出来了。
本发明实施例提供的关键词提取方法,通过对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;再根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;然后针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
图1所示实施例中,步骤S102中的BLSTM网络的训练方法,如图2所示,该方法包括:
S201,获取训练文本和训练文本的关键词;根据训练文本的关键词和该关键词在训练文本中的标注结果,对训练文本的关键词进行补充标注,得到补充标注后的训练文本。
训练文本可以是任意的文本,本实施例对训练文本的内容所对应的领域并不限定。训练文本的关键词可以是通过人工标注出的关键词,且训练文本的关键词在训练文本中已至少被标注一次。由于人工在训练文本中标注关键词有一定的主观性,容易导致在训练文本中漏标关键词。如果漏标关键词,将会影响训练BLSTM网络的结果。因而,本实施例中,在获得训练文本及其关键词的同时,也可以获得关键词在训练文本中的标注结果,即获得关键词在训练文本中被标注为关键词的次数以及关键词在训练文本中被标注为关键词的位置。可以理解的是,关键词在训练文本中被标注为关键词的次数必然不超过该关键词在训练文本中出现的次数。例如,训练文本的关键词为“中国”,该关键词在训练文本中已被标注为关键词的次数为70次,而该关键词在训练文本中出现的次数为100次。
一种实现方式中,根据训练文本的关键词和该关键词在训练文本中的标注结果,对训练文本的关键词进行补充标注,得到补充标注后的训练文本,可以包括:
计算训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示训练文本的第i个关键词,i=1,...,M,M为训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在训练文本中被标注的次数,TotalNum(Wi)表示Wi在训练文本中出现的次数。
从上述实现方式中可以看出,并不是对训练文本中所有漏标的关键词都进行补充标注,而是通过计算任一关键词的接受率,当任一关键词的接受率大于第三阈值时,即当该关键词在训练文本中被标注的次数较多时,那么认为该关键词在训练文本中较为重要,可以在训练文本中对未被标注的该关键词进行补充标注。这样可以在一定程度上削弱人工标注关键词的主观性。需要说明的是,上述实现方式中的补充标注,是指在训练文本中对所有出现了但并未被标注的接受率大于第三阈值的任一关键词进行补充标注。其中,第三阈值可根据实际需要进行设定。
例如,训练文本的关键词“中国”在训练文本中出现的次数为100次,其中,已被标注的次数为70次,那么该关键词的接受率为70%,设定第三阈2为50%,则在训练文本中对“中国”进行补充标注,即对出现了但未被标注的30次“中国”进行补充标注。
S202,对补充标注后的训练文本进行分词,得到补充标注后的训练文本对应的多个分词,并确定补充标注后的训练文本对应的每个分词的词向量。
步骤S202的实现方式可以采用步骤S101的实现方式,这里不再赘述。
S203,将补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定补充标注后的训练文本对应的每个分词的标签概率向量。
步骤S203的实现方式可以采用步骤S102的实现方式,这里不再赘述。需要说明的是,步骤S102中的已训练好的BLSTM网络是通过图2所示方法对初始BLSTM网络进行训练后得到的。对初始BLSTM网络进行训练的过程也就是确定初始BLSTM网络中各参数的最优值的过程。该最优值可以是与用户实际要求所匹配的最优值,即达到用户要求的参数值即为最优值,而不一定是数学意义上最优。
S204,针对补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签。
S205,将补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词。
S206,将补充标注后的训练文本中每个句子对应的训练关键词,作为训练文本的训练关键词。
步骤S204-S206的实现方式可以分别采用步骤S103-S105的实现方式,这里不再赘述。
可以理解的是,通过步骤S205确定出补充标注后的训练文本中每个句子对应的测试关键词,也就意味着将每个句子对应的测试关键词都标注出来了。从而也就将补充标注后的训练文本的测试关键词都标注出来了。
S207,根据训练文本的训练关键词,确定训练好的BLSTM网络。
经过上述步骤S201-S206后,可以确定出训练文本的训练关键词,也就可以确定出对应于该训练关键词的当前初始BLSTM网络的参数值。
为了检验对初始BLSTM网络进行训练后的训练结果,即为了检验上述当前初始BLSTM网络在提取关键词的准确性,一种实现方式中,根据训练文本的训练关键词,确定训练好的BLSTM网络,可以包括:
根据所述训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;
根据测试集的关键词和测试关键词,计算初始BLSTM网络对应的F值,当F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为测试关键词在测试集中被标注的次数,M2为测试关键词中是测试集的关键词的测试关键词在测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为测试集的关键词在测试集中被标注的次数。
F值是统计学中对precision和recall的加权调和平均值,是信息检索领域的常用的一个评价标准,常用于评价分类模型的好坏。F值的表达式为:其中,β为权重参数。本实施例中,设定β=1,表示正确率和召回率的权重相同。
上述测试集包含了用于检验上述训练结果的测试语料。具体的,根据当前初始BLSTM网络提取测试集的测试关键词的实现方式可以与图1所示实施例中提取待处理文本的关键词的实现方式类似。不同的是,图1中是将待处理文本的分词的词向量输入已训练好的BLSTM网络,而本实现方式中,是将测试集的分词的词向量输入上述当前初始BLSTM网络。根据当前初始BLSTM网络提取到测试集的测试关键词,也就意味着获得了测试关键词在测试集中的测试标注结果。
本实现方式中,测试集的关键词和该关键词在测试集中的标注结果是已知的。以下通过举例说明上述的计算初始BLSTM网络对应的F值的过程:
例如,测试集中有两个关键词“中国”、“女排”。这两个关键词在测试集的已知标注结果为:关键词“中国”被标注了100次,关键词“女排”被标注了100次。测试集的测试关键词为“中国”、“女排”、“世界杯”,这三个测试关键词在测试集的测试标注结果为:测试关键词“中国”被标注了85次,测试关键词“女排”被标注了75次,测试关键词“世界杯”被标注了20次。那么,测试关键词在测试集中被标注的次数M1=85+75+20=180次,测试关键词中是测试集的关键词的测试关键词在测试集中被标注的次数M2=85+75=160次,测试集的关键词在测试集中被标注的次数M0=100+100=200次。则正确率precision=M2/M1=88.8%,召回率recall=M2/M0=80%。
在实际应用中,为了训练出初始BLSTM网络的参数的最优值,可以执行多次图2所示的方法,在每一次执行中,通过调整初始BLSTM网络的参数,以使初始BLSTM网络对应的F值大于第二阈值。具体的,在每一次执行中,可以将步骤S204所确定的训练文本的每个分词的分类标签与步骤S203中的该分词的标准分类标签进行对比,根据对比结果调整初始BLSTM网络的参数的参数,以使初始BLSTM网络对应的F值大于第二阈值。第二阈值可根据实际需要进行设定。当然,步骤203中的“将训练文本的每个分词对应的标准分类标签输入初始BLSTM网络”的步骤可以只在第一次执行图2所述方法时进行一次即可。而且上述训练文本的每个分词对应的标准分类标签可以是由人工对训练文本的每个分词贴上的分类标签,即通过人工为每个分词划分分类标签。
通过图2所示方法对初始BLSTM网络进行训练后,获得初始BLSTM网络的最优参数值,使得初始BLSTM网络对应的F值大于第二阈值。该训练好的BLSTM网络可用于提取待处理文本的关键词。
图3为本发明实施例提供的一种关键词提取装置的结构示意图,该装置包括:
第一词向量确定模块301,用于对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;
第一标签概率向量确定模块302,用于根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;其中,BLSTM网络是根据训练文本和训练文本的关键词在训练文本中的标注结果,对初始BLSTM网络训练后得到的;每个分词的标签概率向量是由每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
第一分类标签确定模块303,用于针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第一关键词确定模块304,用于将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
第二关键词确定模块305,用于将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。
本发明实施例提供的关键词提取装置,通过对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;再根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;然后针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
一种实现方式中,第一词向量确定模块302,具体用于通过word2vec训练得到每个分词的词向量。
一种实现方式中,第一关键词确定模块304,具体用于将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词。
其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
图4为本发明实施例提供的一种关键词提取装置的另一结构示意图,包括:
获取模块401,用于获取训练文本和训练文本的关键词,其中,训练文本的关键词在训练文本中已至少被标注一次;根据训练文本的关键词和该关键词在训练文本中的标注结果,对训练文本的关键词进行补充标注,得到补充标注后的训练文本;
第二词向量确定模块402,用于对补充标注后的训练文本进行分词,得到补充标注后的训练文本对应的多个分词,并确定补充标注后的训练文本对应的每个分词的词向量;
第二标签概率向量确定模块403,用于将补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定补充标注后的训练文本对应的每个分词的标签概率向量;
第二分类标签确定模块404,用于针对补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第三关键词确定模块405,用于将补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词;
第四关键词确定模块406,用于将补充标注后的训练文本中每个句子对应的训练关键词,作为训练文本的训练关键词;
BLSTM网络确定模块407,用于根据训练文本的训练关键词,确定训练好的BLSTM网络。
一种实现方式中,BLSTM网络确定模块407,具体用于根据训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;根据测试集的关键词和测试关键词,计算当前初始BLSTM网络对应的F值,当F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为测试关键词在测试集中被标注的次数,M2为测试关键词中是测试集的关键词的测试关键词在测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为测试集的关键词在测试集中被标注的次数。
一种实现方式中,获取模块401,具体用于计算训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示训练文本的第i个关键词,i=1,...,M,M为训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在训练文本中被标注的次数,TotalNum(Wi)表示Wi在训练文本中出现的次数。
通过图4所示装置对初始BLSTM网络进行训练后,获得初始BLSTM网络的最优参数值,使得初始BLSTM网络对应的F值大于第二阈值。该训练好的BLSTM网络可用于提取待处理文本的关键词。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;
根据每个分词的词向量以及已训练好的双向长短期记忆网络BLSTM网络,确定每个分词的标签概率向量;其中,BLSTM网络是根据训练文本和训练文本的关键词在训练文本中的标注结果,对初始BLSTM网络训练后得到的;每个分词的标签概率向量是由每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行条件随机场CRF解码,确定该句子中每个分词对应的分类标签;
将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。
上述电子设备提到的通信总线504可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口502用于上述电子设备与其他设备之间的通信。
存储器503可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器501可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;再根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;然后针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的关键词提取方法。
本发明实施例提供的计算机可读存储介质内存储的指令,当其在计算机上运行时,对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;再根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;然后针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的关键词提取方法。
本发明实施例提供的包含指令的计算程序产品,当其在计算机上运行时,处对待处理文本进行分词,得到待处理文本对应的多个分词,并确定每个分词的词向量;再根据每个分词的词向量以及已训练好的BLSTM网络,确定每个分词的标签概率向量;然后针对待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;最后将每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;将待处理文本中每个句子对应的关键词,作为待处理文本的关键词。本发明实施例,通过BLSTM网络和CRF解码搭建神经网络训练出网络,能够省去传统方法中需要人工构建特征的工作,提高关键词提取的泛化能力。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/电子设备/存储介质/计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种关键词提取方法,其特征在于,包括:
对待处理文本进行分词,得到所述待处理文本对应的多个分词,并确定每个分词的词向量;
根据所述每个分词的词向量以及已训练好的双向长短期记忆BLSTM网络,确定所述每个分词的标签概率向量;其中,所述BLSTM网络是根据训练文本和所述训练文本的关键词在所述训练文本中的标注结果,对初始BLSTM网络训练后得到的;所述每个分词的标签概率向量是由所述每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
针对所述待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行条件随机场CRF解码,确定该句子中每个分词对应的分类标签;
将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
将所述待处理文本中所述每个句子对应的关键词,作为所述待处理文本的关键词。
2.根据权利要求1所述的方法,其特征在于,训练BLSTM网络的步骤包括:
获取训练文本和所述训练文本的关键词,其中,所述训练文本的关键词在所述训练文本中已至少被标注一次;根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本;
对所述补充标注后的训练文本进行分词,得到所述补充标注后的训练文本对应的多个分词,并确定所述补充标注后的训练文本对应的每个分词的词向量;
将所述补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定所述补充标注后的训练文本对应的每个分词的标签概率向量;
针对所述补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
将所述补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词;
将所述补充标注后的训练文本中所述每个句子对应的训练关键词,作为所述训练文本的训练关键词;
根据所述训练文本的训练关键词,确定训练好的BLSTM网络。
3.根据权利要求2所述的方法,其特征在于,所述根据所述训练文本的训练关键词,确定训练好的BLSTM网络,包括:
根据所述训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;
根据所述测试集的关键词和测试关键词,计算所述当前初始BLSTM网络对应的F值,当所述F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,所述F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为所述测试关键词在所述测试集中被标注的次数,M2为所述测试关键词中是所述测试集的关键词的测试关键词在所述测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为所述测试集的关键词在所述测试集中被标注的次数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本,包括:
计算所述训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在所述训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,所述训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示所述训练文本的第i个关键词,i=1,...,M,M为所述训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在所述训练文本中被标注的次数,TotalNum(Wi)表示Wi在所述训练文本中出现的次数。
5.根据权利要求1所述的方法,其特征在于,所述将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词,包括:
将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词;
其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
6.一种关键词提取装置,其特征在于,包括:
第一词向量确定模块,用于对待处理文本进行分词,得到所述待处理文本对应的多个分词,并确定每个分词的词向量;
第一标签概率向量确定模块,用于根据所述每个分词的词向量以及已训练好的BLSTM网络,确定所述每个分词的标签概率向量;其中,所述BLSTM网络是根据训练文本和所述训练文本的关键词在所述训练文本中的标注结果,对初始BLSTM网络训练后得到的;所述每个分词的标签概率向量是由所述每个分词对应于多个分类标签中每个分类标签的概率组成的向量;
第一分类标签确定模块,用于针对所述待处理文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第一关键词确定模块,用于将所述每个句子中分类标签为预设分类标签的分词确定为该句子对应的关键词;
第二关键词确定模块,用于将所述待处理文本中所述每个句子对应的关键词,作为所述待处理文本的关键词。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取训练文本和所述训练文本的关键词,其中,所述训练文本的关键词在所述训练文本中已至少被标注一次;根据所述训练文本的关键词和该关键词在所述训练文本中的标注结果,对所述训练文本的关键词进行补充标注,得到补充标注后的训练文本;
第二词向量确定模块,用于对所述补充标注后的训练文本进行分词,得到所述补充标注后的训练文本对应的多个分词,并确定所述补充标注后的训练文本对应的每个分词的词向量;
第二标签概率向量确定模块,用于将所述补充标注后的训练文本对应的每个分词的词向量和每个分词对应的标准分类标签输入初始BLSTM网络,确定所述补充标注后的训练文本对应的每个分词的标签概率向量;
第二分类标签确定模块,用于针对所述补充标注后的训练文本中的每个句子,根据该句子中每个分词的标签概率向量,对该句子进行CRF解码,确定该句子中每个分词对应的分类标签;
第三关键词确定模块,用于将所述补充标注后的训练文本中的每个句子中分类标签为预设分类标签的分词确定为该句子对应的训练关键词;
第四关键词确定模块,用于将所述补充标注后的训练文本中所述每个句子对应的训练关键词,作为所述训练文本的训练关键词;
BLSTM网络确定模块,用于根据所述训练文本的训练关键词,确定训练好的BLSTM网络。
8.根据权利要求7所述的装置,其特征在于,
所述BLSTM网络确定模块,具体用于根据所述训练关键词对应的当前初始BLSTM网络提取测试集的测试关键词;根据所述测试集的关键词和测试关键词,计算所述当前初始BLSTM网络对应的F值,当所述F值大于第二阈值时,确定当前初始BLSTM网络为训练好的BLSTM网络;
其中,所述F值通过以下公式计算:
F值=2×precision×recall/(precision+recall);
其中,precision为正确率,precision=M2/M1,M1为所述测试关键词在所述测试集中被标注的次数,M2为所述测试关键词中是所述测试集的关键词的测试关键词在所述测试集中被标注的次数;recall为召回率,recall=M2/M0,M0为所述测试集的关键词在所述测试集中被标注的次数。
9.根据权利要求7所述的装置,其特征在于,
所述获取模块,具体用于计算所述训练文本的每个关键词的接受率;如果任一关键词的接受率大于第三阈值,则在所述训练文本中对所有未被标注的该关键词进行补充标注,得到补充标注后的训练文本;其中,所述训练文本的每个关键词的接受率通过以下公式计算:
ReceiveRate(Wi)=LabelNum(Wi)/TotalNum(Wi);
其中,Wi表示所述训练文本的第i个关键词,i=1,...,M,M为所述训练文本的关键词的个数;ReceiveRate(Wi)表示Wi的接受率,LabelNum(Wi)表示Wi在所述训练文本中被标注的次数,TotalNum(Wi)表示Wi在所述训练文本中出现的次数。
10.根据权利要求6所述的装置,其特征在于,
所述第一关键词确定模块,具体用于将每个句子中分类标签为W的分词确定为该句子的关键词;将每个句子中分类标签依次为BE的相邻两个分词组合构成的词确定为该句子的关键词;将每个句子中分类标签依次为BIE的相邻三个分词组合构成的词确定为该句子的关键词;
其中,W标签为关键词,B标签为关键词的首部,I标签为关键词的中间部分,E标签为关键词的尾部。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201711393043.0A 2017-12-21 2017-12-21 一种关键词提取方法、装置及电子设备 Active CN108121700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711393043.0A CN108121700B (zh) 2017-12-21 2017-12-21 一种关键词提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711393043.0A CN108121700B (zh) 2017-12-21 2017-12-21 一种关键词提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108121700A true CN108121700A (zh) 2018-06-05
CN108121700B CN108121700B (zh) 2021-06-25

Family

ID=62230815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393043.0A Active CN108121700B (zh) 2017-12-21 2017-12-21 一种关键词提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108121700B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117777A (zh) * 2018-08-03 2019-01-01 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109359300A (zh) * 2018-10-12 2019-02-19 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110069595A (zh) * 2019-03-07 2019-07-30 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110096572A (zh) * 2019-04-12 2019-08-06 平安普惠企业管理有限公司 一种样本生成方法、装置及计算机可读介质
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110826318A (zh) * 2019-10-14 2020-02-21 浙江数链科技有限公司 物流信息识别的方法、设备、计算机设备和存储介质
CN110969016A (zh) * 2018-09-27 2020-04-07 普天信息技术有限公司 分词处理方法及装置
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111428500A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 命名实体识别方法及装置
CN111444710A (zh) * 2019-01-15 2020-07-24 阿里巴巴集团控股有限公司 分词方法及分词装置
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、系统及存储介质
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN113535948A (zh) * 2021-06-02 2021-10-22 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070102522A1 (en) * 2001-06-08 2007-05-10 Psc Scanning, Inc. Add-on capture rate in a barcode scanning system
CN102289514A (zh) * 2011-09-07 2011-12-21 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器
CN102521227A (zh) * 2011-10-18 2012-06-27 中国科学院自动化研究所 基于用户信息建模的图像标注增强方法
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN103514194A (zh) * 2012-06-21 2014-01-15 富士通株式会社 确定语料与实体的相关性的方法和装置及分类器训练方法
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070102522A1 (en) * 2001-06-08 2007-05-10 Psc Scanning, Inc. Add-on capture rate in a barcode scanning system
CN102289514A (zh) * 2011-09-07 2011-12-21 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器
CN102521227A (zh) * 2011-10-18 2012-06-27 中国科学院自动化研究所 基于用户信息建模的图像标注增强方法
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN103514194A (zh) * 2012-06-21 2014-01-15 富士通株式会社 确定语料与实体的相关性的方法和装置及分类器训练方法
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YI LUAN等: "Scientific Information Extraction with Semi-supervised Neural Tagging", 《HTTPS://ARXIV.ORG/PDF/1708.06075.PDF》 *
付宇新: "基于DBpedia Spolight的高效命名实体识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈伟: "基于BiLSTM_CRF的关键词自动抽取", 《计算机科学》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109117777B (zh) * 2018-08-03 2022-07-01 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN109117777A (zh) * 2018-08-03 2019-01-01 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109271631B (zh) * 2018-09-12 2023-01-24 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN110969016A (zh) * 2018-09-27 2020-04-07 普天信息技术有限公司 分词处理方法及装置
CN110969016B (zh) * 2018-09-27 2023-06-23 普天信息技术有限公司 分词处理方法及装置
CN109359300A (zh) * 2018-10-12 2019-02-19 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
WO2020074017A1 (zh) * 2018-10-12 2020-04-16 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
CN111428500A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 命名实体识别方法及装置
CN111428500B (zh) * 2019-01-09 2023-04-25 阿里巴巴集团控股有限公司 命名实体识别方法及装置
CN111444710B (zh) * 2019-01-15 2023-04-18 阿里巴巴集团控股有限公司 分词方法及分词装置
CN111444710A (zh) * 2019-01-15 2020-07-24 阿里巴巴集团控股有限公司 分词方法及分词装置
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110069595A (zh) * 2019-03-07 2019-07-30 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110069595B (zh) * 2019-03-07 2023-11-07 平安科技(深圳)有限公司 语料标签确定方法、装置、电子设备及存储介质
CN110096572B (zh) * 2019-04-12 2023-09-15 成都美满科技有限责任公司 一种样本生成方法、装置及计算机可读介质
CN110096572A (zh) * 2019-04-12 2019-08-06 平安普惠企业管理有限公司 一种样本生成方法、装置及计算机可读介质
CN110188158B (zh) * 2019-05-06 2022-12-27 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、系统及存储介质
CN110826318A (zh) * 2019-10-14 2020-02-21 浙江数链科技有限公司 物流信息识别的方法、设备、计算机设备和存储介质
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN113378556B (zh) * 2020-02-25 2023-07-14 华为技术有限公司 提取文本关键字的方法及装置
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN113535948B (zh) * 2021-06-02 2022-08-16 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113535948A (zh) * 2021-06-02 2021-10-22 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN108121700B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108121700A (zh) 一种关键词提取方法、装置及电子设备
Ma et al. Simplify the usage of lexicon in Chinese NER
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN112232058B (zh) 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN104731768B (zh) 一种面向中文新闻文本的事件地点抽取方法
CN105224648A (zh) 一种实体链接方法与系统
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN104809176A (zh) 藏语实体关系抽取方法
CN110837556A (zh) 摘要生成方法、装置、终端设备及存储介质
CN106796600A (zh) 相关项目的计算机实现的标识
CN111967264B (zh) 一种命名实体识别方法
CN109508378A (zh) 一种样本数据处理方法及装置
CN105005616B (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN112100365A (zh) 双阶段文本摘要方法
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Yin et al. Sentiment lexical-augmented convolutional neural networks for sentiment analysis
CN107066548A (zh) 一种双维度分类提取网页链接的方法
CN107908757A (zh) 网站分类方法及系统
CN110598787B (zh) 一种基于自定步长学习的软件bug分类方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant