CN113268995A - 中文学术关键词抽取方法、装置和存储介质 - Google Patents

中文学术关键词抽取方法、装置和存储介质 Download PDF

Info

Publication number
CN113268995A
CN113268995A CN202110814460.8A CN202110814460A CN113268995A CN 113268995 A CN113268995 A CN 113268995A CN 202110814460 A CN202110814460 A CN 202110814460A CN 113268995 A CN113268995 A CN 113268995A
Authority
CN
China
Prior art keywords
keywords
candidate
title
keyword
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110814460.8A
Other languages
English (en)
Other versions
CN113268995B (zh
Inventor
杜军平
王岳
薛哲
徐欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110814460.8A priority Critical patent/CN113268995B/zh
Publication of CN113268995A publication Critical patent/CN113268995A/zh
Application granted granted Critical
Publication of CN113268995B publication Critical patent/CN113268995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种中文学术关键词抽取方法、装置和存储介质,该方法包括以下步骤:从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成输入的学术语料的动态字向量;基于所述动态字向量获得动态字向量输入序列输入至BiLSTM‑CRF序列标注模型,得到输入序列对应的标签序列的得分,基于得分获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;基于候选关键词集中候选关键词的标题相似度和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。

Description

中文学术关键词抽取方法、装置和存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种中文学术关键词抽取方法、装置,尤其涉及一种融合预训练模型和复合统计量的中文学术关键词抽取方法、装置和存储介质。
背景技术
随着移动互联网、大数据等科学技术的迅猛发展,学术文献数据库中的科技文章数量呈现指数级增长。如何从这些学术文本数据中挖掘出有价值的内容(例如科技术语、科技实体、实体关系等)成为当前备受关注的研究领域。为了从学术文本数据中挖掘科技术语、科技实体、实体关系,首先需要从大量的学术文本数据集中抽取出代表性的学术关键词, 即进行关键词抽取,这是科技大数据信息抽取和文本挖掘的首要步骤,关键词抽取对于科技大数据信息检索、本体构建、知识图谱的关键基础问题的解决具有十分重要的意义。
目前存在多种基于统计的无监督关键词抽取方法,包括:基于TFIDF(TermFrequency–Inverse Document Frequency,词频逆向文档频率)的关键词提取方法、YAKE(Yet Another Keyword Extractor)算法、TextRank(文本排序)算法、TopicRank(主题排序)算法、MultipartiteRank算法、EmbedRank算法和SIFRank算法等。基于 TFIDF的方法是基于统计的无监督关键词抽取方法中最基本的版本。YAKE算法基于从单个文档中提取的统计文本特征来选择文本中最相关的关键词,不必依赖于字典和外部语料库。TextRank算法是第一个基于图网络的关键短语抽取算法。TopicRank算法是将候选关键词聚类为主题,将其作为完全图中的顶点并计算顶点得分,选择排名最高的主题来生成关键词。MultipartiteRank将主题信息编码到多重图结构中,在单个图中表示候选关键短语和主题,使用他们来共同提高候选关键词的排名,并将一种关键短语选择优先度纳入模型,提升了关键词抽取的效果。EmbedRank利用词性标签(POS tags)抽取候选短语,计算候选短语嵌入向量和文章嵌入向量的余弦相似度,利用相似度将候选短语排序。SIFRank结合了句子嵌入模型SIF(Smooth Inverse Frequency)和自回归预训练语言模型ELMo(Embeddings fromLanguage Models),提高了其在长短文档上的关键词抽取性能。
传统的这些无监督关键词抽取方法主要是基于统计特征或图,如TFIDF和TextRank,这些方法通常在分词和词性标注的基础上使用正则表达式或NGram从文本语料中抽取候选关键词集合,然后它们结合统计特征或图对集合中的关键词进行打分,输出排名前n的关键词。这些传统的无监督关键词抽取方法使用的正则抽取方法在切换数据集时有可能需要人工修改匹配规则,Ngram方法会引入大量的错误关键词,二者都受到分词质量的影响。此外,常见的无监督方法也未能挖掘语料中隐含的语义特征。
当前,深度学习方法也逐渐应用于关键词抽取任务中,常见方法使用词嵌入构造词向量,使用循环神经网络(RNN)对原始语料中的关键词进行序列标注。其中,CorrRNN基于编码-解码(encoder-decoder)结构,在引入关键短语(keyphrase)限制条件的情况下进行训练,可以保证后续关键词抽取结果的多样性。但是,单纯使用深度学习方法无法区分关键词的重要程度,抽取的结果不能进一步筛选,只能全部输出,没有结合关键词抽取任务中依然有效的统计特征,而且也没有解决一词多义的问题。
因此,如何提供一种更加有效的学术关键词抽取方法来提高关键词提取的准确性,还是一个有待解决的问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种中文学术关键词抽取方法和装置,通过融合预训练模型和复合统计量来实现中文学术文本数据中关键词的有效获取,大大提高了候选关键词的质量,并提高了学术关键词提取的准确性。
本发明的一个方面,提供了一种中文学术关键词抽取方法,该方法包括以下步骤:
从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成所述学术语料的动态字向量;
将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;
基于候选关键词集中候选关键词的标题相关相似度特性和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
在本发明一些实施方式中,所述包含外部语义信息的预训练模型为RoBerta模型;
所述将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序包括:将动态字向量的序列输入至BiLSTM模型,获得各字向量对应的标签概率分布,并生成向量输入序列对应的标签序列;将所述标签序列输入至条件随机场CRF模型,获得标签序列的排序,并基于标签序列的排序获得最优标签序列。
在本发明一些实施方式中,所述基于候选关键词集中候选关键词的标题相关相似度特征和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词,包括:
基于各候选关键词和学术文本标题的最长公共子串长度确定标题匹配长度,在标题匹配长度不为0的情况下基于标题匹配长度与候选关键词长度之比计算当前候选关键词的标题相似度,在候选关键词的长度小于预定阈值的情况下,标题相似度设为0;
对于标题匹配长度为0,长度大于预定阈值的候选关键词,基于其与标题相关词的共现关系计算关联标题相似度;
基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征;
计算候选关键词的TFIDF特征;
基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
在本发明一些实施例中,基于候选关键词位置信息构造词位置特性;
所述基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词,包括:
利用所述词位置特性作为候选关键词的权重过滤掉部分候选关键词;以及
对于未过滤掉的候选关键词,基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
在本发明一些实施例中,基于如下公式计算关联标题相似度:
Figure DEST_PATH_IMAGE001
其中,S i,d 表示文档d中的第i个关键词的关联标题相似度,E(V i )表示关键词节点V i 的边集,S k,d 表示了文档d中节点k的标题相似度,W(k,i)和W(k,l)是节点ki或k与l的边权重;
所述基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征包括:在当前关键词与标题的匹配长度不为0,且候选关键词长度大于或等于预定值的情况下,以当前候选关键词的标题相似度作为当前候选关键词的标题相关相似度特征;在当前关键词与标题的匹配长度不为0,且候选关键词长度小于预定值的情况下,以当前候选关键词的关联标题相似度作为当前候选关键词的标题相关相似度特征;在其他情况下,当前候选关键词的标题相关相似度特征为0。
在本发明一些实施例中,所述边权重满足以下公式:
Figure 275173DEST_PATH_IMAGE002
n p,d 表示关键词p在文档d中的词频,n q,d 表示关键词q在文档d中的词频,pos p,u 表示关键词p的第u个出现位置, pos q,v 表示关键词q的第v个出现位置,
Figure DEST_PATH_IMAGE003
表示关键词p, q的共现次数。
在本发明一些实施例中,所述基于所述标题相似度相关特征和TFIDF特征来计算所有候选关键词的权重包括:基于如下公式来计算所有候选关键词的权重:
Figure 525764DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
是两个特征的权重系数,
Figure 285910DEST_PATH_IMAGE006
是词位置权重特征的阈值,Score i,d 为候选关键词的权重,T i,d 表示TFIDF权重;T i,d 满足以下公式:
Figure DEST_PATH_IMAGE007
其中,n i,d 是关键词i在文档d中的词频,
Figure 490626DEST_PATH_IMAGE008
表示学术语料库中的文档总数,
Figure DEST_PATH_IMAGE009
表示语料库中包含关键词i的文档总数;P i,d 满足以下公式:
Figure 892788DEST_PATH_IMAGE010
其中,n i,d 是关键词i在文档d中的词频,pos i,k 表示关键词i的第k个出现位置。
在本发明一些实施方式中,所述方法还包括:利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
本发明的另一方面,提供了一种中文学术关键词抽取装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的又一方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。
本发明实施例的融合了预训练模型和复合统计量的中文学术关键词抽取方法和装置,同时融合了学术文本的语义和统计特征,以及预训练模型携带的外部语义信息,提高了关键词抽取的质量,提高了学术关键词提取的准确性。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例的中文学术关键词抽取方法的流程示意图。
图2为本发明另一实施例的中文学术关键词抽取方法的处理流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
关键词抽取对于科技大数据信息检索、本体构建、知识图谱的关键基础问题的解决具有十分重要的意义。本发明针对现有关键词抽取技术中存在的问题,采用了一种融合了预训练模型和复合统计量的中文学术关键词提取技术。该技术可由候选关键词提取模块和候选关键词评分模块实现。在候选关键词提取模块中,可使用包含外部语义信息的预训练模型(如RoBerta预训练模型)生成学术术语的字向量,然后对字向量使用BiLSTM-CRF序列标注模型,来标记学术文本的每个字以提取候选关键词,该方法能够从原始文档中提取大量候选关键词。由于集成了预训练模型的语义信息,与传统方法相比,该方法能够解决一词多义的问题,可以提高候选关键词的质量,该方法还可以避免额外的分词和数据清理操作以及单词分割和词性标记操作,可以直接完成从字符构造单词的过程,并防止候选关键词提取的性能受到单词分割质量的影响。在候选关键词评分模块中,提出了适合学术文本的标题相似度特征,结合词频、文档频率、词位和词长对候选关键词进行排序,从而提高了关键词提取的性能。
图1所示为本发明一实施例中融合了预训练模型和复合统计量的中文学术关键词抽取方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S110,从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成输入的学术语料的动态字向量。
该步骤可由候选关键词提取模块实现。作为示例,所述预训练模型为RoBerta预训练模型。RoBerta模型是在BERT模型基础上改进得到的一种中文文本预训练模型,使用包含外部语义信息的RoBerta预训练模型能够生成输入语料的动态字向量表示。
相比于现有通过word2vec模型来从数据集中生成的静态字向量的方式,RoBERTa模型使用基于自注意力机制的双向转换器(双向Transformer)作为特征抽取手段,有效的利用了上下文的语义信息。RoBerta生成的动态字向量能够解决一词多义问题。
本发明实施例中,对于数据规模较小下游任务,在训练过程中可以对预训练模型的参数进行微调,于是可以将外部的语义信息融合到具体任务中。在训练过程中对RoBerta模型进行微调可以更好的适应学术语料数据集。
由于RoBerta预训练模型为现有技术已经存在的模型,本发明不再详细描述。
步骤S120,将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集。
该步骤同样可由候选关键词提取模块实现。
BiLSTM-CRF序列标注模型是融合了RoBERTa预训练模型和双向长短期记忆网络(Bidirectional Long Short Term Memory,BiLSTM)构造的序列标注模型,该模型既结合了外部的语义信息,还使用长短期记忆网络结合了一个句子中两个方向的语义特征。由于RoBERTa模型中的双向转换器(双向Transformer)基于自注意力机制,因此RoBerta模型在计算过程中会削弱语料中的位置信息。为了确保可以更好地利用位置信息,本发明使用BiLSTM层来捕获观察序列的语义依赖关系。单向LSTM可以在句子序列中的一个方向上获得历史信息,但是在标记候选关键词的过程中,单词的标记与字符所属的上下文有关。所以,本发明中使用双向LSTM对两个方向的输入向量进行处理,这样可以同时获取前向和后向信息进行标签预测。
此外,由于BiLSTM仅包含字向量之间的关系,不包含标签之间的关系,因此仅根据BiLSTM的预测结果对标签进行直接决策是不可靠的。对此,本发明还使用CRF(ConditionalRandom Field,条件随机场)来捕获标签之间的关系,从而在训练过程中计算出最佳的标签序列。
更具体地,在步骤S110生成字向量后,在t时刻向BiLSTM层输入字向量x t ,BiLSTM层会输出x t 的标签概率分布c t 。对于输入序列(句子序列)X=(x 1 , x 2 ,… x t ,…, x n ),BiLSTM会输出P n*k =[c 1 , c 2 , …, c t , …, c n ],中P为n*k大小的概率矩阵,n是单词个数,k是标签个数,P n*k 中的元素P i,j 表示第i个单词的第j个标签的概率,对于模型的标签序列y=[y 1 , y 2 ,…, y t , …, y n ],可使用如下标签序列得分公式计算最优标签序列:
Figure 100002_DEST_PATH_IMAGE011
其中,s(X,y)为标签序列的概率(得分),A为转移概率矩阵,
Figure 815DEST_PATH_IMAGE012
代表标签y i 转移到标签y i+1 的转移概率。
Figure DEST_PATH_IMAGE013
表示第i个位置softmax 输出标签为y i 的概率,对每个训练样本X,求出每个可能的标签序列
Figure 666283DEST_PATH_IMAGE014
的得分
Figure DEST_PATH_IMAGE015
,对其归一化得到:
Figure 358295DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
表示对
Figure 32990DEST_PATH_IMAGE018
使用softmax进行归一化,
Figure DEST_PATH_IMAGE019
表示所有可能的标签路径
基于标签序列的得分,就可以从中选出得分最高的一些标签序列来选择候选关键词,由此得到包括这些候选关键词的候选关键词集。
本发明实施例中通过利用BiLSTM-CRF序列标注模型来从学术文本中标注出候选关键词,可以提高候选关键词的质量,还可以避免额外的分词和数据清洗操作以及单词分割和词性标记操作。
此外,为了进一步提高候选关键词抽取的性能,本发明实施例的中文学术关键词抽取方法还包括以下步骤:利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
在训练集的构造过程中,若只使用单个文档的标签标注对应文档中的关键词会导致较大幅度的性能下降。这是由于同一词在各个文档不会一直都是关键词,这会导致训练集中的同一关键词有时被标注为关键词,有时不被标注为关键词,这会影响模型对数据集的学习,导致序列标注性能的下降。为了解决这个问题,本发明还进一步构造了全局标签集合,该集合包含了在各个文档标签集中出现频率小于预定数量的标签,使用全局标签集对各文档进行额外的标注操作,以此来构造训练集。这种做法虽然导致每篇文档提取的候选关键词增多,但提高了候选关键词抽取的性能。本发明实施例中,冗余的候选关键词问题可以使用后续候选关键词打分模块来解决。
步骤S130,基于候选关键词集中候选关键词的标题相似度和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
本步骤可由候选关键词评分模块实现。
仅使用序列标注模型直接从文档中抽取出关键词之后,这些关键词中可包括很多冗余关键词,这些冗余关键词或许在其他论文中是目标关键词,但它们在当前论文中并不重要。大量的冗余关键词会导致抽取精度的下降。为了缓解这个问题,本发明将序列标注提供的关键词抽取结果作为高质量的候选关键词集。然后使用多种统计量构造统计特征来为候选关键词打分并排序,按照排序抽取出前面预定排名内的候选关键词作为目标关键词。
在下面的示例中,将使用4种统计量来构造2种统计特征为候选关键词打分,抽取出排名前n的候选关键词作为目标关键词。这4种统计量可包括:标题匹配长度、关键词长度、词频和文档频率,基于这4种统计量构造的统计特征包括标题相似度统计特征和TFIDF统计特征。在此给出的统计量和统计特征仅为示例,在本发明的构思下,也可以对上述统计量和统计特征进行些许调整,均在本发明的范围内。下面对基于示例性统计量和统计特征对候选关键词的排序过程进行描述。
1. 标题相关相似度特征
在本发明实施例中,利用标题相关相似度特征来表示候选关键词与标题的相关程度,主要使用公共字符串匹配长度与关键词长度的组合进行计算,与标题相似的词一般能够反映学术文本的中心内容,能够作为候选关键词抽取的标准。此外,标题相关相似度特征还与关键词与标题相关词存在的共现关系有关。
在标题匹配长度不为0的情况下,该标题相关相似度特征为标题相似度特征,在标题匹配长度为0的情况下,该标题相关相似度特征为关联标题相似度特征。
根据对论文作者标记的关键词和论文标题的探索,发明人发现候选关键词与标题的相似度越高,该关键词就有更大几率成为目标关键词。基于上述发现,本发明提出了适于学术文本(如学术论文)的标题相似性特征。通过计算各候选关键词和本文标题的最长公共子字符串的长度可获得各候选关键词对应的标题匹配长度。为了避免复杂关键词的影响,本发明使用标题匹配长度与候选关键词长度之比来构造标题相似度。例如,在标题匹配长度不为0的情况下,标题相似度的计算公式如下:
Figure 992594DEST_PATH_IMAGE020
其中,S i,d 表示标题相似度,t d 表示文档d的论文标题,M(w i ,t d )表示关键词w i 和标题t d 的最长公共子串长度(即标题匹配长度),L(w i )表示关键词w i 的长度。通过使用M(w i ,t d )和L(w i )这2个统计量的组合,可以避免复杂的关键词获得过高的匹配权重,从而可以提升关键词抽取的准确度。如果直接使用公式M(w i ,t d )/L(w i )会导致一些常见的短关键词获得太大的权重,因此,本发明中还将长度小于等于预定长度阈值(如2)的关键词的标题相似度设置为0。
此外,根据对数据集的观察,发明人发现虽然一些技术关键词与标题完全不同,但这些关键词往往与标题相关词存在大量的共现关系,在语义上,这些关键词往往是对标题相关词的解释和拓展。因此,对于标题匹配长度为0,长度大于等于预定阈值(如3)的候选关键词,为了强化这些关键词的权重,本发明基于共现词对在窗口内的平均距离构建词图,给出共现词边权计算公式如下:
Figure DEST_PATH_IMAGE021
其中,W(p,q) 表示关键词pq之间的边权重,n p,d 表示关键词p在文档d中的词频,n q,d 表示关键词q在文档d中的词频,pos p,u 表示关键词p的第u个出现位置, pos q,v 表示关键词q的第v个出现位置,
Figure 360121DEST_PATH_IMAGE022
表示关键词p, q的共现次数。对于标题相似度为0,长度大于等于3的候选关键词,可使用受PageRank启发的以下权重分配公式为这些候选关键词计算关联标题相似度:
Figure DEST_PATH_IMAGE023
其中,E(V i )表示关键词节点V i 的边集, W(k,i)和W(k,l)分别表示k,i节点之间或k,l节点之间的边权重,S k,d 表示文档d中节点k的标题相似度。与迭代计算关键词节点权重的现有PageRank算法不同的是,本发明只需要迭代一次来将标题相似度作为权重分配给存在共现关系的长关键词即可。
综上可知,总体的标题相关相似度计算公式如下:
Figure 539430DEST_PATH_IMAGE024
2. TFIDF(词频逆向文档频率)特征
本发明实施例中,计算候选关键词的TFIDF权重作为第二个统计特征,基于TFIDF抽取候选关键词的方式可以理解为:一个词语在该文本中出现的频率高,且在其他文本中出现的次数少,则认为该词语有较高概率成为文本的关键词。本发明实施例中,可基于如下公式计算TFIDF特征:
Figure DEST_PATH_IMAGE025
其中,T i,d 表示TFIDF特征,n id 是关键词i在文档d中的出现次数(词频),n kd 是关键词k在文档d中的出现次数,tf i,d 表示关键词i在文档d中出现的频率,idf i 表示关键词i在文档集合中的逆文档频率,
Figure 611291DEST_PATH_IMAGE026
表示学术语料库中的文档总数,
Figure DEST_PATH_IMAGE027
表示语料库中包含关键词i的文档总数。本公式中,利用词频tf i,d 、逆文档频率idf i 这两个统计量来构造TFIDF特征简单而有效,可以提升关键词抽取结果的精度。
在获得候选关键词的TFIDF特征和标题相关相似度特征之后,使用这两个特征可以计算所有候选关键词的权重,并以此权重对关键词进行排序。
例如,可以采用以下公式来对候选关键词进行打分排序:
Figure 192445DEST_PATH_IMAGE028
其中,Score i,d 为候选关键词的权重(或称分数),
Figure DEST_PATH_IMAGE029
是两个特征的权重系数,
Figure 966759DEST_PATH_IMAGE030
是词位置权重特征的阈值,并设置为0.01。对于文档d中的关键词
Figure DEST_PATH_IMAGE031
,计算候选关键词得分Score i,d 后,可以依据候选关键词得分对候选关键词进行排序,并提取排名在前预定名次内(如排名前n)的关键词作为最终结果,即目标关键词。
除了上述标题相关相似度特征和TFIDF特征之外,本发明还可以进一步地使用候选词位置信息构造词位置特征,为越早出现的关键词赋予更高的权重,为了实现这一点,本发明将关键词在文章中出现位置的倒数作为词位置权重:
Figure 367785DEST_PATH_IMAGE032
其中,P id 表示关键词i在文档d中的词位置权重,n id 表示关键词i在文档d中的词频,pos i,k 表示关键词i的第k个出现位置,该公式同时考虑了词频统计量的影响,候选关键词出现的越频繁就越有可能获得更高的权重。
在考虑词位置特征的情况下,本发明在获得候选关键词的TFIDF特征和标题相关相似度特征之后,使用TFIDF特征和标题相关相似度特征这两个特征来计算所有候选关键词的权重,并使用词位置特征过滤掉了出现在后面且频率太低的一些候选关键词。此时,候选关键词的分数计算公式如下:
Figure DEST_PATH_IMAGE033
其中,Score i,d 为候选关键词的权重(或称分数),
Figure 384282DEST_PATH_IMAGE029
是两个特征的权重系数,
Figure 288784DEST_PATH_IMAGE030
是词位置权重特征的阈值,并设置为0.01。对于文档d中的关键词
Figure 591590DEST_PATH_IMAGE031
,计算候选关键词得分Score i,d 。基于词位置特征过滤掉分数为0的候选关键词后,通过对其余关键词进行排序,并提取排名在前预定名次内(如排名前n)的关键词作为最终结果,可以获得最终的目标关键词。在本发明实施例中,基于如图2所示,基于词位置特征对候选关键词的过滤,可以在基于标题相关相似度和TFIDF特征对所有候选关键词打分后进行。本发明也可以在基于标题相关相似度和TFIDF特征对候选关键词打分之前基于词位置特征对候选关检测进行过滤,然后基于标题相关相似度和TFIDF特征对过滤后剩余的候选关键词进行打分。
如上所述,本文提出的学术关键词提取方法由候选关键词抽取和候选关键词评分两部分组成,在候选关键词抽取上,使用RoBerta预训练模块生成动态字向量,并使用BiLSTM-CRF序列标注模块从原始语料中抽取出有效的候选关键词集合。RoBERT预训练模型本身引入了外部语义信息,能够结合上下文动态的生成语料的向量表示,相比传统的Ngram方法能大大提高候选关键词的质量,还避免了额外的分词和数据清洗操作。在候选关键词的评分中,本发明提出了新统计特性:学术文本的标题相关相似性特征,使用候选关键词和文本标题的共同长度来计算标题相似性特征权重,然后使用候选关键词之间的共现关系图将权重扩展到其他词节点。本发明使用多种关键词统计信息构建标题相关相似度特征,位置特征和TF-IDF特征来对候选关键词进行评分和排序,基于排序筛选后从而获得目标关键词。本发明提出的模型由于同时融合了预训练模型的外部语义信息和统计特征,大大提高了学术关键词抽取的准确性。
与上述方法相应地,本发明还提供了一种融合了预训练模型和复合统计量的中文学术关键词抽取装置,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述边缘计算服务器部署方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如光盘、U盘、软盘、硬盘等。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中文学术关键词抽取方法,其特征在于,该方法包括以下步骤:
从学术文本数据集中获得学术语料,输入至包含外部语义信息的预训练模型,生成所述学术语料的动态字向量;
将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;
基于候选关键词集中候选关键词的标题相关相似度特性和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述包含外部语义信息的预训练模型为RoBerta模型;
所述将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序包括:
将动态字向量的序列输入至BiLSTM模型,获得各字向量对应的标签概率分布,并生成向量输入序列对应的标签序列;
将所述标签序列输入至条件随机场CRF模型,获得标签序列的排序,并基于标签序列的排序获得最优标签序列。
3.根据权利要求2所述的方法,其特征在于,所述基于候选关键词集中候选关键词的标题相关相似度特征和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词,包括:
基于各候选关键词和学术文本标题的最长公共子串长度确定标题匹配长度,在标题匹配长度不为0的情况下基于标题匹配长度与候选关键词长度之比计算当前候选关键词的标题相似度,在候选关键词的长度小于预定阈值的情况下,标题相似度设为0;
对于标题匹配长度为0,长度大于预定阈值的候选关键词,基于其与标题相关词的共现关系计算关联标题相似度;
基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征;
计算候选关键词的TFIDF特征;
基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于候选关键词位置信息构造词位置特性;
所述基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词,包括:
利用所述词位置特性作为候选关键词的权重过滤掉部分候选关键词;以及
对于未过滤掉的候选关键词,基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
5.根据权利要求4所述的方法,其特征在于,
基于如下公式计算关联标题相似度:
Figure 988690DEST_PATH_IMAGE001
其中,S i,d 表示文档d中的第i个关键词的关联标题相似度,E(V i )表示关键词节点V i 的边集,S k,d 表示了文档d中节点k的标题相似度,W(k,i)和W(k,l)是节点ki或k与l的边权重;
所述基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征包括:在当前关键词与标题的匹配长度不为0,且候选关键词长度大于或等于预定值的情况下,以当前候选关键词的标题相似度作为当前候选关键词的标题相关相似度特征;在当前关键词与标题的匹配长度不为0,且候选关键词长度小于预定值的情况下,以当前候选关键词的关联标题相似度作为当前候选关键词的标题相关相似度特征;在其他情况下,当前候选关键词的标题相关相似度特征为0。
6.根据权利要求5所述的方法,其特征在于,
所述边权重满足以下公式:
Figure DEST_PATH_IMAGE002
n p,d 表示关键词p在文档d中的词频,n q,d 表示关键词q在文档d中的词频,pos p,u 表示关键词p的第u个出现位置, pos q,v 表示关键词q的第v个出现位置,
Figure 764885DEST_PATH_IMAGE003
表示关键词p, q的共现次数。
7.根据权利要求4所述的方法,其特征在于,
所述基于所述标题相似度相关特征和TFIDF特征来计算所有候选关键词的权重包括:基于如下公式来计算所有候选关键词的权重:
Figure 747884DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
是两个特征的权重系数,
Figure 736569DEST_PATH_IMAGE007
是词位置权重特征的阈值,Score i,d 为候选关键词的权重,T i,d 表示文档d中的第i个关键词的TFIDF权重;T i,d 满足以下公式:
Figure 19782DEST_PATH_IMAGE009
其中,n i,d 是关键词i在文档d中的词频,
Figure DEST_PATH_IMAGE010
表示学术语料库中的文档总数,
Figure DEST_PATH_IMAGE011
表示语料库中包含关键词i的文档总数;P i,d 满足以下公式:
Figure DEST_PATH_IMAGE012
其中,n i,d 是关键词i在文档d中的词频,pos i,k 表示关键词i的第k个出现位置。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
9.一种中文学术关键词抽取装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。
CN202110814460.8A 2021-07-19 2021-07-19 中文学术关键词抽取方法、装置和存储介质 Active CN113268995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110814460.8A CN113268995B (zh) 2021-07-19 2021-07-19 中文学术关键词抽取方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110814460.8A CN113268995B (zh) 2021-07-19 2021-07-19 中文学术关键词抽取方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN113268995A true CN113268995A (zh) 2021-08-17
CN113268995B CN113268995B (zh) 2021-11-19

Family

ID=77236762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110814460.8A Active CN113268995B (zh) 2021-07-19 2021-07-19 中文学术关键词抽取方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN113268995B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备
CN113822072A (zh) * 2021-09-24 2021-12-21 广州博冠信息科技有限公司 关键词抽取方法、装置及电子设备
CN113934837A (zh) * 2021-09-14 2022-01-14 达而观数据(成都)有限公司 基于预训练模型的关键短语生成方法、装置及储存介质
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115129815A (zh) * 2022-06-28 2022-09-30 上海应用技术大学 融合改进yake和神经网络的文本相似度计算方法
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN115687576A (zh) * 2022-12-29 2023-02-03 安徽大学 一种主题约束表示的关键词抽取方法及装置
CN115687579A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 文档标签生成及匹配方法、装置和计算机设备
CN115827815A (zh) * 2022-11-17 2023-03-21 西安电子科技大学广州研究院 基于小样本学习的关键词提取方法及装置
CN117235121A (zh) * 2023-11-15 2023-12-15 华北电力大学 一种能源大数据查询方法和系统
CN117669513A (zh) * 2024-01-30 2024-03-08 江苏古卓科技有限公司 一种基于人工智能的数据管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270181A (zh) * 2020-11-03 2021-01-26 北京明略软件系统有限公司 序列标注方法、系统、计算机可读存储介质及计算机设备
US20210034966A1 (en) * 2019-07-29 2021-02-04 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for natural language processing and storage medium
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034966A1 (en) * 2019-07-29 2021-02-04 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for natural language processing and storage medium
CN112270181A (zh) * 2020-11-03 2021-01-26 北京明略软件系统有限公司 序列标注方法、系统、计算机可读存储介质及计算机设备
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴俊等: "基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究", 《情报学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备
CN113934837A (zh) * 2021-09-14 2022-01-14 达而观数据(成都)有限公司 基于预训练模型的关键短语生成方法、装置及储存介质
CN113822072A (zh) * 2021-09-24 2021-12-21 广州博冠信息科技有限公司 关键词抽取方法、装置及电子设备
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115114915B (zh) * 2022-05-25 2024-04-12 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115129815A (zh) * 2022-06-28 2022-09-30 上海应用技术大学 融合改进yake和神经网络的文本相似度计算方法
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN115687579A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 文档标签生成及匹配方法、装置和计算机设备
CN115827815A (zh) * 2022-11-17 2023-03-21 西安电子科技大学广州研究院 基于小样本学习的关键词提取方法及装置
CN115827815B (zh) * 2022-11-17 2023-12-29 西安电子科技大学广州研究院 基于小样本学习的关键词提取方法及装置
CN115687576A (zh) * 2022-12-29 2023-02-03 安徽大学 一种主题约束表示的关键词抽取方法及装置
CN117235121A (zh) * 2023-11-15 2023-12-15 华北电力大学 一种能源大数据查询方法和系统
CN117235121B (zh) * 2023-11-15 2024-02-20 华北电力大学 一种能源大数据查询方法和系统
CN117669513A (zh) * 2024-01-30 2024-03-08 江苏古卓科技有限公司 一种基于人工智能的数据管理系统及方法
CN117669513B (zh) * 2024-01-30 2024-04-12 江苏古卓科技有限公司 一种基于人工智能的数据管理系统及方法

Also Published As

Publication number Publication date
CN113268995B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
US20200019611A1 (en) Topic models with sentiment priors based on distributed representations
AU2023248112A1 (en) Method and system for key phrase extraction and generation from text
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
Chou et al. Boosted web named entity recognition via tri-training
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
JP2006227823A (ja) 情報処理装置及びその制御方法
CN113486155B (zh) 一种融合固定短语信息的中文命名方法
El-Barbary Arabic news classification using field association words
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
CN113590738A (zh) 一种基于内容与情感的网络敏感信息的检测方法
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant