CN109992774A - 基于词属性注意力机制的关键短语识别方法 - Google Patents
基于词属性注意力机制的关键短语识别方法 Download PDFInfo
- Publication number
- CN109992774A CN109992774A CN201910225532.8A CN201910225532A CN109992774A CN 109992774 A CN109992774 A CN 109992774A CN 201910225532 A CN201910225532 A CN 201910225532A CN 109992774 A CN109992774 A CN 109992774A
- Authority
- CN
- China
- Prior art keywords
- word
- sequence
- speech
- key phrase
- hidden state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于词属性注意力机制的关键短语识别方法,属于自然语言处理与机器学习领域。主要为了解决现有关键短语识别方法无法识别文本中未出现的关键短语的问题。本发明首先利用词嵌入学习将输入文本的词和词性标签转化为向量;其次利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态;然后基于词属性注意力机制对单词序列的隐藏状态进行权值分配,并计算上下文向量;随后通过RNN解码器解码上下文向量并逐字生成可变长度序列;最后通过beam search算法生成关键短语。在567,830篇科研文章和新闻刊物上进行实验,结果表明本发明能达到较好的关键短语识别效果,进一步提升了识别的正确率。
Description
技术领域
本发明涉及基于词属性注意力机制的关键短语识别方法,属于自然语言处理与机器学习领域。
背景技术
关键短语识别作为自然语言处理领域的重要研究领域之一,是从文档中提取出代表文档主题或亮点的关键短语,以加速理解、浏览和组织文档。常用的关键短语识别方法可以分为基于有监督学习的提取方法、基于无监督学习的提取方法以及基于循环神经网络编码-解码提取方法(RNN encoder-decoder)。
1.基于有监督学习的提取方法
基于有监督学习的提取方法是将关键短语识别问题抽象为二分类任务或序列标记任务。基于二分类的方法一般过程是先从文本中提取候选短语,再通过分类器将候选短语划分为关键短语和非关键短语两类,以筛选出关键短语。基于序列标注的方法是对文本中的词或字依次打上标签,并通过标签来区分文本中的词或字是否属于关键短语。
2.基于无监督学习的提取方法
基于无监督学习的提取方法主要是基于图排序的方法,其一般过程是先基于文本构建单词共现图,图中的节点由词或候选短语构成,边表示节点在一定窗口范围内的共现概率,然后利用随机游走算法度量单词或短语的重要性,并依据重要性对节点进行排序,最后将前N个词组合成多个短语或者直接选取前N个短语作为候选短语。
上述两类方法均是从文本中抽取候选短语并进行判断。然而,在实际应用中,关键短语是基于文本的语义生成的,即关键短语可能不在原文中出现。因此传统的先抽取、再判断的方法无法识别出原文中未出现的关键短语,即面临样本外问题。
3.基于循环神经网络编码-解码模型的方法(RNN-encoder-decoder)
基于循环神经网络编码-解码模型的方法利用深度语言模型在语言生成方面的优势,为缓解样本外问题,提升关键短语识别的效果提供了新的思路。该方法使用传统的注意力机制,通过学习和理解文本的语义内容,生成关键短语,但该方法忽略了词或短语的句法标签对于关键短语识别的重要作用,因此识别效果仍有提升空间。
综上所述,从现有传统类型方法可知,由于关键短语是表达文本核心内容和亮点的简短而符合语言规则的表示,故信息(词或短语)筛选和句法标签的使用对关键短语识别任务起着至关重要的作用,但目前基于深度神经网络的关键短语识别方法未考虑这个特点,且传统关键短语识别方法面临样本外问题,故其样本外的关键短语识别准确率较低,同时无法捕捉文本背后的真实语义,而基于循环神经网络编码-解码模型的方法忽略了词和短语的句法标签,因此识别准确率仍有存在提升空间。
发明内容
本发明的目的是针对现有关键短语识别方法无法识别文本中未出现的关键短语的问题,提出了基于词属性注意力机制的关键短语识别方法。
本发明的设计原理为:首先,利用词嵌入学习将输入文本的词和词性标签转化为向量;其次,利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态;然后,基于词属性注意力机制对单词序列的隐藏状态进行权值分配,并计算上下文向量;随后,通过RNN 解码器解码上下文向量并逐字生成可变长度序列;最后,通过beam search 算法生成关键短语。
本发明的技术方案是通过如下步骤实现的:
步骤1,利用词嵌入学习将输入文本的词和词性标签转化为向量。
步骤2,利用RNN-encoder对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态。
步骤2.1,使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码。
步骤2.2,使用一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码。
步骤3,基于词属性注意力机制对单词序列进行权值分配。
步骤3.1,通过计算解码器隐藏状态与单词隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量。
步骤3.2,使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量。
步骤3.3,使用单词序列隐藏状态的文本、词性权重向量动态计算每个输出词的上下文向量。
步骤4,RNN解码器通过解码上下文向量并逐字生成可变长度序列。
步骤5,通过beam search算法生成关键短语。
有益效果
相比于传统的有监督和无监督方法,本发明可以使用循环神经网络编码- 解码模型学习和理解文本内容,从而一定程度避免了样本外问题。
相比于基于传统注意力机制的RNN-encoder-decoder关键短语识别方法,本发明在RNN-encoder-decoder基础上结合了语义信息,利用预训练模型和语法标签信息丰富了文本表示信息,并融合注意力机制和复制机制,进一步提升关键短语识别效果。
附图说明
图1为本发明基于词属性注意力机制的关键短语识别方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
实验数据来自科研文章和新闻刊物,共计567,830篇文章。其中,测试集包括Inspec、Karpivin、NUS、SemEval-2010以及DUC-2001中的部分内容。关键短语识别部分实验数据见表1。
表1关键短语识别部分实验数据(条)
模型参数见表2:
表2关键短语识别模型参数
实验采用F1值评价关键短语提取的结果,F1值计算方法为:
其中,P表示精确率(precision),计算公式为:
R表示召回率(recall),计算公式为:
式中,TP是将关键短语识别为关键的数目,FN是将关键短语识别为非关键的数目,FP是将非关键短语识别为关键的数目,TN是将非关键短语识别为关键的数目。
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 7,64位;服务器的具体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
本次实验的具体流程为:
步骤1,利用词嵌入学习将输入文本的词和词性标签序列转化为向量。
步骤2,利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态。
步骤2.1,使用一个独立的前向RNN(GRU)组成编码器,并对单词序列x=(x1,x2,…,xn)进行编码,输出单词序列隐藏状态h=(h1,h2,…,hn)。
步骤2.2,使用另一个独立的前向RNN(GRU)组成编码器,并对词性标签序列进行编码,输出词性标签序列隐藏状态
步骤3,基于词属性注意力机制对单词序列进行权值分配。
步骤3.1,计算解码器隐藏状态si-1和单词序列隐藏状态hj之间的相关性,获得单词序列隐藏状态的文本权重向量αij,计算过程为:αij= softmax(vTtanh(Whhj+Wssi-1+b)),式中,v、Wh、Ws和b为待学习的参数。
步骤3.2,使用词性标签隐藏状态获得单词序列隐藏状态的词性权重向量βj,计算过程为:式中,vp、和 bp为待学习的参数。
步骤3.3,使用单词序列隐藏状态的文本权重向量αij和词性标签权重向量βj动态计算每个输出词的上下文向量ci,从而实现融合语言知识标签和注意力模型。上下文向量ci计算过程为:
步骤4,通过RNN解码器解码上下文向量并逐字生成可变长度序列y= (y1,y2,…,yi),其中解码器状态更新的公式si=f(yi-1,si-1,c)。通过结合复制机制,预测每个新单词yi的概率公式由两部分组成:p(yi|y1,…,i-1,x)= pg(yi|·)+pc(yi|·),其中,第一项是生成项的概率,第二项是从源文本复制它的概率。
步骤5,通过beam search算法生成关键短语。
测试结果:实验基于词属性注意力机制的关键短语识别方法,对567,830 篇来自科研文章和新闻刊物的文章进行了关键短语识别,取得了较好的识别效果。在实验数据集中的前5,10,15和50个预测的F1值见表3。
表3关键短语识别实验结果
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于词属性注意力机制的关键短语识别方法,其特征在于所述方法包括如下步骤:
步骤1,利用词嵌入学习将输入文本的词和标签转化为向量。
步骤2,利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态,首先使用一个独立的前向RNN(GRU)组成的编码器对单词序列进行编码,然后使用另一个独立的前向RNN(GRU)组成的编码器对词性标签序列进行编码,最后得到单词序列和词性标签序列的隐藏状态;
步骤3,基于词属性注意力机制对单词序列进行权值分配,首先,通过计算解码器隐藏状态与单词序列隐藏状态之间的相关性获得单词序列隐藏状态的文本权重向量,然后,使用词性标签序列隐藏状态获得单词序列隐藏状态的词性权重向量,最后,使用单词序列隐藏状态的文本权重向量和词性权重向量动态计算每个输出词的上下文向量;
步骤4,RNN解码器通过解码上下文向量并逐字生成可变长度序列;
步骤5,通过beam search算法生成关键短语。
2.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤2中使用两个独立的前向RNN(GRU)编码器分别对单词序列x=(x1,x2,…,xn)、词标签序列h=(h1,h2,…,hn)进行编码,以获得单词序列的隐藏状态和词性标签序列的隐藏状态
3.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤3中使用αij=softmax(vTtanh(Whhj+Wssi-1+b))计算解码器隐藏状态si-1和单词序列隐藏状态hj之间的相关性,同时使用 计算单词序列隐藏状态的词性权重向量βj,其中,hj为单词序列隐藏状态,为词性标签序列隐藏状态,v、vp、Wh、Ws、b和bp为待学习的参数。
4.根据权利要求1所述的基于词属性注意力机制的关键短语识别方法,其特征在于:步骤3中使用单词序列隐藏状态的文本权重向量αij和词性标签权重向量βj动态计算每个输出词的上下文向量ci,从而实现融合语言知识标签和注意力模型。上下文向量计算过程为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910225532.8A CN109992774A (zh) | 2019-03-25 | 2019-03-25 | 基于词属性注意力机制的关键短语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910225532.8A CN109992774A (zh) | 2019-03-25 | 2019-03-25 | 基于词属性注意力机制的关键短语识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109992774A true CN109992774A (zh) | 2019-07-09 |
Family
ID=67131093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910225532.8A Pending CN109992774A (zh) | 2019-03-25 | 2019-03-25 | 基于词属性注意力机制的关键短语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992774A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781306A (zh) * | 2019-10-31 | 2020-02-11 | 山东师范大学 | 一种英文文本的方面层情感分类方法及系统 |
CN114138966A (zh) * | 2021-11-30 | 2022-03-04 | 四川大学 | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013102396A1 (zh) * | 2012-01-05 | 2013-07-11 | 腾讯科技(深圳)有限公司 | 一种自动给文档添加标签的方法、装置以及计算机存储介质 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN109325114A (zh) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | 一种融合统计特征与Attention机制的文本分类算法 |
-
2019
- 2019-03-25 CN CN201910225532.8A patent/CN109992774A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013102396A1 (zh) * | 2012-01-05 | 2013-07-11 | 腾讯科技(深圳)有限公司 | 一种自动给文档添加标签的方法、装置以及计算机存储介质 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN109325114A (zh) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | 一种融合统计特征与Attention机制的文本分类算法 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
Non-Patent Citations (1)
Title |
---|
曾道建 等: "基于序列到序列模型的法律问题关键词抽取", 《清华大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781306A (zh) * | 2019-10-31 | 2020-02-11 | 山东师范大学 | 一种英文文本的方面层情感分类方法及系统 |
CN110781306B (zh) * | 2019-10-31 | 2022-06-28 | 山东师范大学 | 一种英文文本的方面层情感分类方法及系统 |
CN114138966A (zh) * | 2021-11-30 | 2022-03-04 | 四川大学 | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804495B (zh) | 一种基于增强语义的自动文本摘要方法 | |
Park et al. | KNU Korean sentiment lexicon: Bi-LSTM-based method for building a Korean sentiment lexicon | |
CN109214003B (zh) | 基于多层注意力机制的循环神经网络生成标题的方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN113178193A (zh) | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 | |
CN111209749A (zh) | 一种将深度学习应用于中文分词的方法 | |
Zhao et al. | Multi-level fusion of wav2vec 2.0 and bert for multimodal emotion recognition | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
Zhu et al. | Robust spoken language understanding with unsupervised asr-error adaptation | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
Mohan et al. | Sarcasm detection using bidirectional encoder representations from transformers and graph convolutional networks | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN109992774A (zh) | 基于词属性注意力机制的关键短语识别方法 | |
Yan et al. | Implicit emotional tendency recognition based on disconnected recurrent neural networks | |
Xu et al. | Diversity-controllable and accurate audio captioning based on neural condition | |
CN113157855B (zh) | 一种融合语义与上下文信息的文本摘要方法及系统 | |
Zhuang et al. | Research and Application of Artificial Intelligence Large Language Models Based on Feature Enhancement | |
Wan et al. | Natural Language-to-SQL based on relationship extraction | |
Lê et al. | On the Vietnamese name entity recognition: A deep learning method approach | |
Yolchuyeva | Novel NLP Methods for Improved Text-To-Speech Synthesis | |
Trieu et al. | Improving moore’s sentence alignment method using bilingual word clustering | |
CN112926318A (zh) | 一种基于句法分析的网购评论新情感词提取方法 | |
Zhang et al. | High-order graph-based neural dependency parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190709 |
|
RJ01 | Rejection of invention patent application after publication |