CN113268995A - 中文学术关键词抽取方法、装置和存储介质 - Google Patents
中文学术关键词抽取方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113268995A CN113268995A CN202110814460.8A CN202110814460A CN113268995A CN 113268995 A CN113268995 A CN 113268995A CN 202110814460 A CN202110814460 A CN 202110814460A CN 113268995 A CN113268995 A CN 113268995A
- Authority
- CN
- China
- Prior art keywords
- keywords
- candidate
- title
- keyword
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims description 46
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 230000002441 reversible effect Effects 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000036961 partial effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种中文学术关键词抽取方法、装置和存储介质,该方法包括以下步骤:从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成输入的学术语料的动态字向量;基于所述动态字向量获得动态字向量输入序列输入至BiLSTM‑CRF序列标注模型,得到输入序列对应的标签序列的得分,基于得分获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;基于候选关键词集中候选关键词的标题相似度和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种中文学术关键词抽取方法、装置,尤其涉及一种融合预训练模型和复合统计量的中文学术关键词抽取方法、装置和存储介质。
背景技术
随着移动互联网、大数据等科学技术的迅猛发展,学术文献数据库中的科技文章数量呈现指数级增长。如何从这些学术文本数据中挖掘出有价值的内容(例如科技术语、科技实体、实体关系等)成为当前备受关注的研究领域。为了从学术文本数据中挖掘科技术语、科技实体、实体关系,首先需要从大量的学术文本数据集中抽取出代表性的学术关键词, 即进行关键词抽取,这是科技大数据信息抽取和文本挖掘的首要步骤,关键词抽取对于科技大数据信息检索、本体构建、知识图谱的关键基础问题的解决具有十分重要的意义。
目前存在多种基于统计的无监督关键词抽取方法,包括:基于TFIDF(TermFrequency–Inverse Document Frequency,词频逆向文档频率)的关键词提取方法、YAKE(Yet Another Keyword Extractor)算法、TextRank(文本排序)算法、TopicRank(主题排序)算法、MultipartiteRank算法、EmbedRank算法和SIFRank算法等。基于 TFIDF的方法是基于统计的无监督关键词抽取方法中最基本的版本。YAKE算法基于从单个文档中提取的统计文本特征来选择文本中最相关的关键词,不必依赖于字典和外部语料库。TextRank算法是第一个基于图网络的关键短语抽取算法。TopicRank算法是将候选关键词聚类为主题,将其作为完全图中的顶点并计算顶点得分,选择排名最高的主题来生成关键词。MultipartiteRank将主题信息编码到多重图结构中,在单个图中表示候选关键短语和主题,使用他们来共同提高候选关键词的排名,并将一种关键短语选择优先度纳入模型,提升了关键词抽取的效果。EmbedRank利用词性标签(POS tags)抽取候选短语,计算候选短语嵌入向量和文章嵌入向量的余弦相似度,利用相似度将候选短语排序。SIFRank结合了句子嵌入模型SIF(Smooth Inverse Frequency)和自回归预训练语言模型ELMo(Embeddings fromLanguage Models),提高了其在长短文档上的关键词抽取性能。
传统的这些无监督关键词抽取方法主要是基于统计特征或图,如TFIDF和TextRank,这些方法通常在分词和词性标注的基础上使用正则表达式或NGram从文本语料中抽取候选关键词集合,然后它们结合统计特征或图对集合中的关键词进行打分,输出排名前n的关键词。这些传统的无监督关键词抽取方法使用的正则抽取方法在切换数据集时有可能需要人工修改匹配规则,Ngram方法会引入大量的错误关键词,二者都受到分词质量的影响。此外,常见的无监督方法也未能挖掘语料中隐含的语义特征。
当前,深度学习方法也逐渐应用于关键词抽取任务中,常见方法使用词嵌入构造词向量,使用循环神经网络(RNN)对原始语料中的关键词进行序列标注。其中,CorrRNN基于编码-解码(encoder-decoder)结构,在引入关键短语(keyphrase)限制条件的情况下进行训练,可以保证后续关键词抽取结果的多样性。但是,单纯使用深度学习方法无法区分关键词的重要程度,抽取的结果不能进一步筛选,只能全部输出,没有结合关键词抽取任务中依然有效的统计特征,而且也没有解决一词多义的问题。
因此,如何提供一种更加有效的学术关键词抽取方法来提高关键词提取的准确性,还是一个有待解决的问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种中文学术关键词抽取方法和装置,通过融合预训练模型和复合统计量来实现中文学术文本数据中关键词的有效获取,大大提高了候选关键词的质量,并提高了学术关键词提取的准确性。
本发明的一个方面,提供了一种中文学术关键词抽取方法,该方法包括以下步骤:
从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成所述学术语料的动态字向量;
将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;
基于候选关键词集中候选关键词的标题相关相似度特性和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
在本发明一些实施方式中,所述包含外部语义信息的预训练模型为RoBerta模型;
所述将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序包括:将动态字向量的序列输入至BiLSTM模型,获得各字向量对应的标签概率分布,并生成向量输入序列对应的标签序列;将所述标签序列输入至条件随机场CRF模型,获得标签序列的排序,并基于标签序列的排序获得最优标签序列。
在本发明一些实施方式中,所述基于候选关键词集中候选关键词的标题相关相似度特征和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词,包括:
基于各候选关键词和学术文本标题的最长公共子串长度确定标题匹配长度,在标题匹配长度不为0的情况下基于标题匹配长度与候选关键词长度之比计算当前候选关键词的标题相似度,在候选关键词的长度小于预定阈值的情况下,标题相似度设为0;
对于标题匹配长度为0,长度大于预定阈值的候选关键词,基于其与标题相关词的共现关系计算关联标题相似度;
基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征;
计算候选关键词的TFIDF特征;
基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
在本发明一些实施例中,基于候选关键词位置信息构造词位置特性;
所述基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词,包括:
利用所述词位置特性作为候选关键词的权重过滤掉部分候选关键词;以及
对于未过滤掉的候选关键词,基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
在本发明一些实施例中,基于如下公式计算关联标题相似度:
其中,S i,d 表示文档d中的第i个关键词的关联标题相似度,E(V i )表示关键词节点V i 的边集,S k,d 表示了文档d中节点k的标题相似度,W(k,i)和W(k,l)是节点k与i或k与l的边权重;
所述基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征包括:在当前关键词与标题的匹配长度不为0,且候选关键词长度大于或等于预定值的情况下,以当前候选关键词的标题相似度作为当前候选关键词的标题相关相似度特征;在当前关键词与标题的匹配长度不为0,且候选关键词长度小于预定值的情况下,以当前候选关键词的关联标题相似度作为当前候选关键词的标题相关相似度特征;在其他情况下,当前候选关键词的标题相关相似度特征为0。
在本发明一些实施例中,所述边权重满足以下公式:
n p,d 表示关键词p在文档d中的词频,n q,d 表示关键词q在文档d中的词频,pos p,u 表示关键词p的第u个出现位置, pos q,v 表示关键词q的第v个出现位置,表示关键词p, q的共现次数。
在本发明一些实施例中,所述基于所述标题相似度相关特征和TFIDF特征来计算所有候选关键词的权重包括:基于如下公式来计算所有候选关键词的权重:
其中,n i,d 是关键词i在文档d中的词频,pos i,k 表示关键词i的第k个出现位置。
在本发明一些实施方式中,所述方法还包括:利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
本发明的另一方面,提供了一种中文学术关键词抽取装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的又一方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。
本发明实施例的融合了预训练模型和复合统计量的中文学术关键词抽取方法和装置,同时融合了学术文本的语义和统计特征,以及预训练模型携带的外部语义信息,提高了关键词抽取的质量,提高了学术关键词提取的准确性。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例的中文学术关键词抽取方法的流程示意图。
图2为本发明另一实施例的中文学术关键词抽取方法的处理流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
关键词抽取对于科技大数据信息检索、本体构建、知识图谱的关键基础问题的解决具有十分重要的意义。本发明针对现有关键词抽取技术中存在的问题,采用了一种融合了预训练模型和复合统计量的中文学术关键词提取技术。该技术可由候选关键词提取模块和候选关键词评分模块实现。在候选关键词提取模块中,可使用包含外部语义信息的预训练模型(如RoBerta预训练模型)生成学术术语的字向量,然后对字向量使用BiLSTM-CRF序列标注模型,来标记学术文本的每个字以提取候选关键词,该方法能够从原始文档中提取大量候选关键词。由于集成了预训练模型的语义信息,与传统方法相比,该方法能够解决一词多义的问题,可以提高候选关键词的质量,该方法还可以避免额外的分词和数据清理操作以及单词分割和词性标记操作,可以直接完成从字符构造单词的过程,并防止候选关键词提取的性能受到单词分割质量的影响。在候选关键词评分模块中,提出了适合学术文本的标题相似度特征,结合词频、文档频率、词位和词长对候选关键词进行排序,从而提高了关键词提取的性能。
图1所示为本发明一实施例中融合了预训练模型和复合统计量的中文学术关键词抽取方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S110,从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成输入的学术语料的动态字向量。
该步骤可由候选关键词提取模块实现。作为示例,所述预训练模型为RoBerta预训练模型。RoBerta模型是在BERT模型基础上改进得到的一种中文文本预训练模型,使用包含外部语义信息的RoBerta预训练模型能够生成输入语料的动态字向量表示。
相比于现有通过word2vec模型来从数据集中生成的静态字向量的方式,RoBERTa模型使用基于自注意力机制的双向转换器(双向Transformer)作为特征抽取手段,有效的利用了上下文的语义信息。RoBerta生成的动态字向量能够解决一词多义问题。
本发明实施例中,对于数据规模较小下游任务,在训练过程中可以对预训练模型的参数进行微调,于是可以将外部的语义信息融合到具体任务中。在训练过程中对RoBerta模型进行微调可以更好的适应学术语料数据集。
由于RoBerta预训练模型为现有技术已经存在的模型,本发明不再详细描述。
步骤S120,将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集。
该步骤同样可由候选关键词提取模块实现。
BiLSTM-CRF序列标注模型是融合了RoBERTa预训练模型和双向长短期记忆网络(Bidirectional Long Short Term Memory,BiLSTM)构造的序列标注模型,该模型既结合了外部的语义信息,还使用长短期记忆网络结合了一个句子中两个方向的语义特征。由于RoBERTa模型中的双向转换器(双向Transformer)基于自注意力机制,因此RoBerta模型在计算过程中会削弱语料中的位置信息。为了确保可以更好地利用位置信息,本发明使用BiLSTM层来捕获观察序列的语义依赖关系。单向LSTM可以在句子序列中的一个方向上获得历史信息,但是在标记候选关键词的过程中,单词的标记与字符所属的上下文有关。所以,本发明中使用双向LSTM对两个方向的输入向量进行处理,这样可以同时获取前向和后向信息进行标签预测。
此外,由于BiLSTM仅包含字向量之间的关系,不包含标签之间的关系,因此仅根据BiLSTM的预测结果对标签进行直接决策是不可靠的。对此,本发明还使用CRF(ConditionalRandom Field,条件随机场)来捕获标签之间的关系,从而在训练过程中计算出最佳的标签序列。
更具体地,在步骤S110生成字向量后,在t时刻向BiLSTM层输入字向量x t ,BiLSTM层会输出x t 的标签概率分布c t 。对于输入序列(句子序列)X=(x 1 , x 2 ,… x t ,…, x n ),BiLSTM会输出P n*k =[c 1 , c 2 , …, c t , …, c n ],中P为n*k大小的概率矩阵,n是单词个数,k是标签个数,P n*k 中的元素P i,j 表示第i个单词的第j个标签的概率,对于模型的标签序列y=[y 1 , y 2 ,…, y t , …, y n ],可使用如下标签序列得分公式计算最优标签序列:
其中,s(X,y)为标签序列的概率(得分),A为转移概率矩阵,代表标签y i 转移到标签y i+1 的转移概率。表示第i个位置softmax 输出标签为y i 的概率,对每个训练样本X,求出每个可能的标签序列的得分,对其归一化得到:
基于标签序列的得分,就可以从中选出得分最高的一些标签序列来选择候选关键词,由此得到包括这些候选关键词的候选关键词集。
本发明实施例中通过利用BiLSTM-CRF序列标注模型来从学术文本中标注出候选关键词,可以提高候选关键词的质量,还可以避免额外的分词和数据清洗操作以及单词分割和词性标记操作。
此外,为了进一步提高候选关键词抽取的性能,本发明实施例的中文学术关键词抽取方法还包括以下步骤:利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
在训练集的构造过程中,若只使用单个文档的标签标注对应文档中的关键词会导致较大幅度的性能下降。这是由于同一词在各个文档不会一直都是关键词,这会导致训练集中的同一关键词有时被标注为关键词,有时不被标注为关键词,这会影响模型对数据集的学习,导致序列标注性能的下降。为了解决这个问题,本发明还进一步构造了全局标签集合,该集合包含了在各个文档标签集中出现频率小于预定数量的标签,使用全局标签集对各文档进行额外的标注操作,以此来构造训练集。这种做法虽然导致每篇文档提取的候选关键词增多,但提高了候选关键词抽取的性能。本发明实施例中,冗余的候选关键词问题可以使用后续候选关键词打分模块来解决。
步骤S130,基于候选关键词集中候选关键词的标题相似度和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
本步骤可由候选关键词评分模块实现。
仅使用序列标注模型直接从文档中抽取出关键词之后,这些关键词中可包括很多冗余关键词,这些冗余关键词或许在其他论文中是目标关键词,但它们在当前论文中并不重要。大量的冗余关键词会导致抽取精度的下降。为了缓解这个问题,本发明将序列标注提供的关键词抽取结果作为高质量的候选关键词集。然后使用多种统计量构造统计特征来为候选关键词打分并排序,按照排序抽取出前面预定排名内的候选关键词作为目标关键词。
在下面的示例中,将使用4种统计量来构造2种统计特征为候选关键词打分,抽取出排名前n的候选关键词作为目标关键词。这4种统计量可包括:标题匹配长度、关键词长度、词频和文档频率,基于这4种统计量构造的统计特征包括标题相似度统计特征和TFIDF统计特征。在此给出的统计量和统计特征仅为示例,在本发明的构思下,也可以对上述统计量和统计特征进行些许调整,均在本发明的范围内。下面对基于示例性统计量和统计特征对候选关键词的排序过程进行描述。
1. 标题相关相似度特征
在本发明实施例中,利用标题相关相似度特征来表示候选关键词与标题的相关程度,主要使用公共字符串匹配长度与关键词长度的组合进行计算,与标题相似的词一般能够反映学术文本的中心内容,能够作为候选关键词抽取的标准。此外,标题相关相似度特征还与关键词与标题相关词存在的共现关系有关。
在标题匹配长度不为0的情况下,该标题相关相似度特征为标题相似度特征,在标题匹配长度为0的情况下,该标题相关相似度特征为关联标题相似度特征。
根据对论文作者标记的关键词和论文标题的探索,发明人发现候选关键词与标题的相似度越高,该关键词就有更大几率成为目标关键词。基于上述发现,本发明提出了适于学术文本(如学术论文)的标题相似性特征。通过计算各候选关键词和本文标题的最长公共子字符串的长度可获得各候选关键词对应的标题匹配长度。为了避免复杂关键词的影响,本发明使用标题匹配长度与候选关键词长度之比来构造标题相似度。例如,在标题匹配长度不为0的情况下,标题相似度的计算公式如下:
其中,S i,d 表示标题相似度,t d 表示文档d的论文标题,M(w i ,t d )表示关键词w i 和标题t d 的最长公共子串长度(即标题匹配长度),L(w i )表示关键词w i 的长度。通过使用M(w i ,t d )和L(w i )这2个统计量的组合,可以避免复杂的关键词获得过高的匹配权重,从而可以提升关键词抽取的准确度。如果直接使用公式M(w i ,t d )/L(w i )会导致一些常见的短关键词获得太大的权重,因此,本发明中还将长度小于等于预定长度阈值(如2)的关键词的标题相似度设置为0。
此外,根据对数据集的观察,发明人发现虽然一些技术关键词与标题完全不同,但这些关键词往往与标题相关词存在大量的共现关系,在语义上,这些关键词往往是对标题相关词的解释和拓展。因此,对于标题匹配长度为0,长度大于等于预定阈值(如3)的候选关键词,为了强化这些关键词的权重,本发明基于共现词对在窗口内的平均距离构建词图,给出共现词边权计算公式如下:
其中,W(p,q) 表示关键词p与q之间的边权重,n p,d 表示关键词p在文档d中的词频,n q,d 表示关键词q在文档d中的词频,pos p,u 表示关键词p的第u个出现位置, pos q,v 表示关键词q的第v个出现位置,表示关键词p, q的共现次数。对于标题相似度为0,长度大于等于3的候选关键词,可使用受PageRank启发的以下权重分配公式为这些候选关键词计算关联标题相似度:
其中,E(V i )表示关键词节点V i 的边集, W(k,i)和W(k,l)分别表示k,i节点之间或k,l节点之间的边权重,S k,d 表示文档d中节点k的标题相似度。与迭代计算关键词节点权重的现有PageRank算法不同的是,本发明只需要迭代一次来将标题相似度作为权重分配给存在共现关系的长关键词即可。
综上可知,总体的标题相关相似度计算公式如下:
2. TFIDF(词频逆向文档频率)特征
本发明实施例中,计算候选关键词的TFIDF权重作为第二个统计特征,基于TFIDF抽取候选关键词的方式可以理解为:一个词语在该文本中出现的频率高,且在其他文本中出现的次数少,则认为该词语有较高概率成为文本的关键词。本发明实施例中,可基于如下公式计算TFIDF特征:
其中,T i,d 表示TFIDF特征,n id 是关键词i在文档d中的出现次数(词频),n kd 是关键词k在文档d中的出现次数,tf i,d 表示关键词i在文档d中出现的频率,idf i 表示关键词i在文档集合中的逆文档频率,表示学术语料库中的文档总数,表示语料库中包含关键词i的文档总数。本公式中,利用词频tf i,d 、逆文档频率idf i 这两个统计量来构造TFIDF特征简单而有效,可以提升关键词抽取结果的精度。
在获得候选关键词的TFIDF特征和标题相关相似度特征之后,使用这两个特征可以计算所有候选关键词的权重,并以此权重对关键词进行排序。
例如,可以采用以下公式来对候选关键词进行打分排序:
其中,Score i,d 为候选关键词的权重(或称分数),是两个特征的权重系数,是词位置权重特征的阈值,并设置为0.01。对于文档d中的关键词,计算候选关键词得分Score i,d 后,可以依据候选关键词得分对候选关键词进行排序,并提取排名在前预定名次内(如排名前n)的关键词作为最终结果,即目标关键词。
除了上述标题相关相似度特征和TFIDF特征之外,本发明还可以进一步地使用候选词位置信息构造词位置特征,为越早出现的关键词赋予更高的权重,为了实现这一点,本发明将关键词在文章中出现位置的倒数作为词位置权重:
其中,P id 表示关键词i在文档d中的词位置权重,n id 表示关键词i在文档d中的词频,pos i,k 表示关键词i的第k个出现位置,该公式同时考虑了词频统计量的影响,候选关键词出现的越频繁就越有可能获得更高的权重。
在考虑词位置特征的情况下,本发明在获得候选关键词的TFIDF特征和标题相关相似度特征之后,使用TFIDF特征和标题相关相似度特征这两个特征来计算所有候选关键词的权重,并使用词位置特征过滤掉了出现在后面且频率太低的一些候选关键词。此时,候选关键词的分数计算公式如下:
其中,Score i,d 为候选关键词的权重(或称分数),是两个特征的权重系数,是词位置权重特征的阈值,并设置为0.01。对于文档d中的关键词,计算候选关键词得分Score i,d 。基于词位置特征过滤掉分数为0的候选关键词后,通过对其余关键词进行排序,并提取排名在前预定名次内(如排名前n)的关键词作为最终结果,可以获得最终的目标关键词。在本发明实施例中,基于如图2所示,基于词位置特征对候选关键词的过滤,可以在基于标题相关相似度和TFIDF特征对所有候选关键词打分后进行。本发明也可以在基于标题相关相似度和TFIDF特征对候选关键词打分之前基于词位置特征对候选关检测进行过滤,然后基于标题相关相似度和TFIDF特征对过滤后剩余的候选关键词进行打分。
如上所述,本文提出的学术关键词提取方法由候选关键词抽取和候选关键词评分两部分组成,在候选关键词抽取上,使用RoBerta预训练模块生成动态字向量,并使用BiLSTM-CRF序列标注模块从原始语料中抽取出有效的候选关键词集合。RoBERT预训练模型本身引入了外部语义信息,能够结合上下文动态的生成语料的向量表示,相比传统的Ngram方法能大大提高候选关键词的质量,还避免了额外的分词和数据清洗操作。在候选关键词的评分中,本发明提出了新统计特性:学术文本的标题相关相似性特征,使用候选关键词和文本标题的共同长度来计算标题相似性特征权重,然后使用候选关键词之间的共现关系图将权重扩展到其他词节点。本发明使用多种关键词统计信息构建标题相关相似度特征,位置特征和TF-IDF特征来对候选关键词进行评分和排序,基于排序筛选后从而获得目标关键词。本发明提出的模型由于同时融合了预训练模型的外部语义信息和统计特征,大大提高了学术关键词抽取的准确性。
与上述方法相应地,本发明还提供了一种融合了预训练模型和复合统计量的中文学术关键词抽取装置,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述边缘计算服务器部署方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如光盘、U盘、软盘、硬盘等。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种中文学术关键词抽取方法,其特征在于,该方法包括以下步骤:
从学术文本数据集中获得学术语料,输入至包含外部语义信息的预训练模型,生成所述学术语料的动态字向量;
将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序,基于排序获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;
基于候选关键词集中候选关键词的标题相关相似度特性和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述包含外部语义信息的预训练模型为RoBerta模型;
所述将动态字向量的序列输入至BiLSTM-CRF序列标注模型,得到输入序列对应的标签序列的排序包括:
将动态字向量的序列输入至BiLSTM模型,获得各字向量对应的标签概率分布,并生成向量输入序列对应的标签序列;
将所述标签序列输入至条件随机场CRF模型,获得标签序列的排序,并基于标签序列的排序获得最优标签序列。
3.根据权利要求2所述的方法,其特征在于,所述基于候选关键词集中候选关键词的标题相关相似度特征和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词,包括:
基于各候选关键词和学术文本标题的最长公共子串长度确定标题匹配长度,在标题匹配长度不为0的情况下基于标题匹配长度与候选关键词长度之比计算当前候选关键词的标题相似度,在候选关键词的长度小于预定阈值的情况下,标题相似度设为0;
对于标题匹配长度为0,长度大于预定阈值的候选关键词,基于其与标题相关词的共现关系计算关联标题相似度;
基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征;
计算候选关键词的TFIDF特征;
基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于候选关键词位置信息构造词位置特性;
所述基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词,包括:
利用所述词位置特性作为候选关键词的权重过滤掉部分候选关键词;以及
对于未过滤掉的候选关键词,基于所述标题相似度特征和TFIDF特征来计算所有候选关键词的权重,基于计算的候选关键词的权重对候选关键词进行排序,并基于排序结果获得目标关键词。
5.根据权利要求4所述的方法,其特征在于,
基于如下公式计算关联标题相似度:
其中,S i,d 表示文档d中的第i个关键词的关联标题相似度,E(V i )表示关键词节点V i 的边集,S k,d 表示了文档d中节点k的标题相似度,W(k,i)和W(k,l)是节点k与i或k与l的边权重;
所述基于所述标题相似度和/或关联标题相似度确定标题相关相似度特征包括:在当前关键词与标题的匹配长度不为0,且候选关键词长度大于或等于预定值的情况下,以当前候选关键词的标题相似度作为当前候选关键词的标题相关相似度特征;在当前关键词与标题的匹配长度不为0,且候选关键词长度小于预定值的情况下,以当前候选关键词的关联标题相似度作为当前候选关键词的标题相关相似度特征;在其他情况下,当前候选关键词的标题相关相似度特征为0。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用全局标签集合构造训练集,所述全局标签集合中包括在各个文档标签集中出现频率小于预定数量的标签。
9.一种中文学术关键词抽取装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814460.8A CN113268995B (zh) | 2021-07-19 | 2021-07-19 | 中文学术关键词抽取方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814460.8A CN113268995B (zh) | 2021-07-19 | 2021-07-19 | 中文学术关键词抽取方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268995A true CN113268995A (zh) | 2021-08-17 |
CN113268995B CN113268995B (zh) | 2021-11-19 |
Family
ID=77236762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814460.8A Active CN113268995B (zh) | 2021-07-19 | 2021-07-19 | 中文学术关键词抽取方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268995B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113822072A (zh) * | 2021-09-24 | 2021-12-21 | 广州博冠信息科技有限公司 | 关键词抽取方法、装置及电子设备 |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN114297388A (zh) * | 2021-12-31 | 2022-04-08 | 天津光电通信技术有限公司 | 一种文本关键词提取方法 |
CN115114915A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
CN115129815A (zh) * | 2022-06-28 | 2022-09-30 | 上海应用技术大学 | 融合改进yake和神经网络的文本相似度计算方法 |
CN115186665A (zh) * | 2022-09-15 | 2022-10-14 | 北京智谱华章科技有限公司 | 一种基于语义的无监督学术关键词提取方法及设备 |
CN115687576A (zh) * | 2022-12-29 | 2023-02-03 | 安徽大学 | 一种主题约束表示的关键词抽取方法及装置 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN117235121A (zh) * | 2023-11-15 | 2023-12-15 | 华北电力大学 | 一种能源大数据查询方法和系统 |
CN117669513A (zh) * | 2024-01-30 | 2024-03-08 | 江苏古卓科技有限公司 | 一种基于人工智能的数据管理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270181A (zh) * | 2020-11-03 | 2021-01-26 | 北京明略软件系统有限公司 | 序列标注方法、系统、计算机可读存储介质及计算机设备 |
US20210034966A1 (en) * | 2019-07-29 | 2021-02-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for natural language processing and storage medium |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
-
2021
- 2021-07-19 CN CN202110814460.8A patent/CN113268995B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034966A1 (en) * | 2019-07-29 | 2021-02-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for natural language processing and storage medium |
CN112270181A (zh) * | 2020-11-03 | 2021-01-26 | 北京明略软件系统有限公司 | 序列标注方法、系统、计算机可读存储介质及计算机设备 |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
Non-Patent Citations (1)
Title |
---|
吴俊等: "基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究", 《情报学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN113822072A (zh) * | 2021-09-24 | 2021-12-21 | 广州博冠信息科技有限公司 | 关键词抽取方法、装置及电子设备 |
CN114297388A (zh) * | 2021-12-31 | 2022-04-08 | 天津光电通信技术有限公司 | 一种文本关键词提取方法 |
CN115114915A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
CN115114915B (zh) * | 2022-05-25 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
CN115129815A (zh) * | 2022-06-28 | 2022-09-30 | 上海应用技术大学 | 融合改进yake和神经网络的文本相似度计算方法 |
CN115186665A (zh) * | 2022-09-15 | 2022-10-14 | 北京智谱华章科技有限公司 | 一种基于语义的无监督学术关键词提取方法及设备 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN115827815B (zh) * | 2022-11-17 | 2023-12-29 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN115687576A (zh) * | 2022-12-29 | 2023-02-03 | 安徽大学 | 一种主题约束表示的关键词抽取方法及装置 |
CN117235121A (zh) * | 2023-11-15 | 2023-12-15 | 华北电力大学 | 一种能源大数据查询方法和系统 |
CN117235121B (zh) * | 2023-11-15 | 2024-02-20 | 华北电力大学 | 一种能源大数据查询方法和系统 |
CN117669513A (zh) * | 2024-01-30 | 2024-03-08 | 江苏古卓科技有限公司 | 一种基于人工智能的数据管理系统及方法 |
CN117669513B (zh) * | 2024-01-30 | 2024-04-12 | 江苏古卓科技有限公司 | 一种基于人工智能的数据管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113268995B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
US20200019611A1 (en) | Topic models with sentiment priors based on distributed representations | |
AU2023248112A1 (en) | Method and system for key phrase extraction and generation from text | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US20080168056A1 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
Chou et al. | Boosted web named entity recognition via tri-training | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN108491375B (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
CN113486155B (zh) | 一种融合固定短语信息的中文命名方法 | |
El-Barbary | Arabic news classification using field association words | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
CN113590738A (zh) | 一种基于内容与情感的网络敏感信息的检测方法 | |
CN112214511A (zh) | 一种基于wtp-wcd算法的api推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |