CN112364624A

CN112364624A - 基于深度学习语言模型融合语义特征的关键词提取方法

Info

Publication number: CN112364624A
Application number: CN202011216875.7A
Authority: CN
Inventors: 刘洪涛; 苏宁
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-12
Anticipated expiration: 2040-11-04
Also published as: CN112364624B

Abstract

本发明请求保护一种基于深度学习语言模型融合语义特征的关键词提取方法，属于于文本处理中的关键词提取研究领域，对于目标文本，首先使用文本处理工具对其进行处理，仅保留其中的形容词和名词，作为目标文本的候选关键词，然后将这些候选关键词输入到预训练语言模型，得到每个候选关键词的向量表示，接着将目标文档进行分句处理，按句子为单位，同样输入到预训练语言模型中，得到每个句子的向量表示，对于每个候选关键词，计算其与文本中每个句子的相似度之和的均值，作为该候选关键词的最终得分，最后根据候选关键词的得分高低排序，得到文本的关键词。

Description

基于深度学习语言模型融合语义特征的关键词提取方法

技术领域

本发明属于自然语言处理中的关键词提取研究领域，尤其是指一种基于深度学习语言模型融合语义特征的关键词提取方法。

背景技术

关键词提取是指从文档中提取一组具有代表性的词语，是一项文本信息处理的基础任务，也是自然语言处理领域的一项重要课题，从文档中所提取的关键词可以看作是文档的一种简洁摘要，是快速获取文档主题内容的重要方式，可以用作文档的分类、聚类、生成摘要、以及推荐等，对于自然语言处理的许多领域而言都是至关重要的，在当前这个信息爆炸的时代，关键词提取能够帮助人们快速从海量的信息中找出重点。

一篇文档的关键词(keyword)通常是几个词或者短语，作为对该文档主要内容的提要。关键词是人们快速了解文档内容、把握主题的重要方式。关键词广泛应用于新闻报道、科技论文等领域，以方便人们高效地管理和检索文档。随着网络时代信息爆炸式的增长，关键词成为用户在海量信息中检索感兴趣内容的主要工具，诞生了如Google、百度等基于关键词的搜索引擎公司。在社会科学中，历史文档中关键词使用频度、内在含义等方面的变化也成为研究人类社会、文化和政治观念演变的重要途径。目前，许多网站向用户提供了为感兴趣的对象(如链接、图片、视频、书籍和电影等)自由标注标签的功能，便于用户分享、管理、收藏和检索对象。与关键词类似，大部分标签是词或者短语，常常表示用户对标注对象主题的理解和概括。

在传统科技论文库和新闻库中，人们一般请专家为待标注对象标注关键词。然而随着信息技术和社会的高速发展，每时每刻都有大量文档等信息产生。人工标注如此海量的信息已经变得不现实。社会迫切需求计算机能够为文档自动标注关键词。因此，关键词自动标注逐渐成为自然语言处理和信息检索的热点研究问题。目前，关键词自动标注技术已广泛应用于搜索引擎、新闻服务、电子图书馆等领域，在全文检索、文本分类、信息过滤和文档摘要等任务中发挥着重要作用。一方面，群体智慧产生了丰富的信息，如维基百科等知识库的建立，为关键词标注提供了更加丰富的知识和信息。另一方面，为了方便用户标注标签，网站通常建立标签自动推荐系统为用户推荐标签，这也为关键词自动标注提供了广阔舞台。与此同时，海量信息处理也为关键词自动标注技术提出了新的挑战，关键词是信息时代人们管理、检索资源的重要手段和便捷工具，关键词自动标注技术是人们在海量信息中遨游的重要依赖，而标签推荐技术也与关键词标注有着重要联系。

本发明针对传统关键词提取存在的语义缺失问题，伴随深度学习技术的快速发展，结合了深度学习相关技术来解决词语之间的语义缺失问题。用自然语言处理的言语模型训练得到的词向量能够表示文本词语之间的语义相似度。本发明在现有的深度学习技术上将深度学习词向量模型融入自动关键词提取的生成过程中，结合词向量来解决语义的缺失问题，并研究基于语义的自动关键词提取算法，从而得到基于语义词向量的自动关键词提取。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于深度学习语言模型融合语义特征的关键词提取方法。本发明的技术方案如下：

一种基于深度学习语言模型融合语义特征的关键词提取方法，其包括以下步骤：

S1、给定一篇目标文档d，首先使用自然语言文本处理工具对文档d进行分词处理和词性标注，选择其中的名词或名词性短语作为候选关键词，得到一个候选关键词集合W＝{w₁,w₂,...,w_n}，其中w_n表示第n个候选关键词；同时将目标文档按句子进行拆分，得到句子集合D＝{s₁,s₂,...,s_m}，其中s_m表示第m个句子；

S2、将目标文档的句子集合输入预训练模型，得到句子集合中每个句子s_j的向量表示Vs_j；

S3、利用预训练语言模型获取每个候选关键词w_i的向量表示Vw_i；

S4、针对每个候选关键词，计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分；

S5、根据每个候选词得分的高低降序排列，根据需要选取前N个作为目标文档的关键词。

进一步的，所述步骤S1具体包括：

S11、对于目标文档，对其中的每一个词，使用自然语言文本处理工具对其进行词性标注，以键值对的形式('词语','词性')；

S12、遍历目标文档的键值对集合，仅保留其中的名词和名词性短语，构成目标文档的候选关键词集合。

进一步的，所述步骤S2将目标文档的句子集合输入预训练模型，得到句子集合中每个句子s_j的向量表示Vs_j，具体包括：

针对句子集合中的每个句子s_j，将其输入到公开的预训练语言模型中，使用公开的预训练模型加载公开的模型数据，得到句子的向量表示Vs_j。

进一步的，所述步骤S3利用预训练语言模型获取每个候选关键词w_i的向量表示Vw_i；

针对候选关键词集合中的每个候选关键词w_i将其输入到公开的预训练语言模型中，使用公开的预训练模型加载公开的模型数据，得到候选关键词的向量表示Vw_i

进一步的，所述步骤S4的余弦距离计算公式为：

本发明的优点及有益效果如下：

1.本发明方法利用预训练语言模型，引入外部语义知识信息到关键词提取任务中，保证了关键词提取的性能。

2.本发明方法对于长文本和短文本都有较好的效果。

3.本发明方法具有良好的领域无关性。

4.本发明方法利用预训练语言模型，获取候选关键词的向量表示和文档中每一个句子的向量表示，针对每个候选关键词，计算其与文档中每个句子的距离的均值，作为该候选关键词对于当前文档的得分，根据得分的高低作为其与文档语义上的相关程度，最后判断其是否为文档的关键词，这个过程对应了权利要求的步骤S1到S5，也是本发明方法的创新所在。

5.本发明方法进一步充分利用了预训练语言模型，简化了传统方法的计算过程的同时提升了关键词提取的准确度

附图说明

图1是本发明提供优选实施例一种基于深度学习语言模型融合语义特征的关键词提取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，一种基于深度学习语言模型融合语义特征的关键词提取方法，其基本实施过程如下：

步骤S1、给定一篇目标文档d，首先使用自然语言文本处理工具对文档d进行分词处理和词性标注，选择其中的名词或名词性短语作为候选关键词，得到一个候选关键词集合W＝{w₁,w₂,...,w_n}；同时将目标文档按句子进行拆分，得到句子集合D＝{s₁,s₂,...,s_n}。

步骤S2、将目标文档的句子集合输入预训练模型，得到句子集合中每个句子s_j的向量表示Vs_j。

步骤S3、利用预训练语言模型获取每个候选关键词w_i的向量表示Vw_i，向量的维度与句子向量的维度保持一致。

步骤S4、针对每个候选关键词，计算其与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分。其余弦距离计算公式为：

步骤S5、根据每个候选词得分的高低降序排列，根据需要选取前N个作为目标文档的关键词。

上述实施例方法，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，包括以下步骤：

S1、给定一篇目标文档d，首先使用自然语言文本处理工具对文档d进行分词处理和词性标注，选择其中的名词或名词性短语作为候选关键词，得到一个候选关键词集合W＝{w₁,w₂,...,w_n}；其中w_n表示第n个关键词，同时将目标文档按句子进行拆分，得到句子集合D＝{s₁,s₂,...,s_m}，其中s_m表示第m个句子；

2.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，所述步骤S2将目标文档的句子集合输入预训练模型，得到句子集合中每个句子s_j的向量表示Vs_j，具体包括：

预训练模型是自然语言处理领域中常见的公开的模型，可以直接使用也可以进一步训练，直接使用模型和训练好的模型数据；

针对句子集合中的每个句子s_j，将其输入到公开的预训练语言模型Sentence-BERT中，使用公开的预训练模型加载公开的模型数据，得到句子的向量表示Vs_j。

4.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，所述步骤S3利用预训练语言模型获取每个候选关键词w_i的向量表示Vw_i；

针对候选关键词集合中的每个候选关键词w_i将其输入到公开的预训练语言模型Sentence-BERT中，使用公开的预训练模型加载公开的模型数据，得到候选关键词的向量表示Vw_i。

5.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，所述步骤S4的余弦距离计算公式为：