CN112364624A - 基于深度学习语言模型融合语义特征的关键词提取方法 - Google Patents

基于深度学习语言模型融合语义特征的关键词提取方法 Download PDF

Info

Publication number
CN112364624A
CN112364624A CN202011216875.7A CN202011216875A CN112364624A CN 112364624 A CN112364624 A CN 112364624A CN 202011216875 A CN202011216875 A CN 202011216875A CN 112364624 A CN112364624 A CN 112364624A
Authority
CN
China
Prior art keywords
sentence
keyword
candidate
model
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011216875.7A
Other languages
English (en)
Other versions
CN112364624B (zh
Inventor
刘洪涛
苏宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011216875.7A priority Critical patent/CN112364624B/zh
Publication of CN112364624A publication Critical patent/CN112364624A/zh
Application granted granted Critical
Publication of CN112364624B publication Critical patent/CN112364624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于深度学习语言模型融合语义特征的关键词提取方法,属于于文本处理中的关键词提取研究领域,对于目标文本,首先使用文本处理工具对其进行处理,仅保留其中的形容词和名词,作为目标文本的候选关键词,然后将这些候选关键词输入到预训练语言模型,得到每个候选关键词的向量表示,接着将目标文档进行分句处理,按句子为单位,同样输入到预训练语言模型中,得到每个句子的向量表示,对于每个候选关键词,计算其与文本中每个句子的相似度之和的均值,作为该候选关键词的最终得分,最后根据候选关键词的得分高低排序,得到文本的关键词。

Description

基于深度学习语言模型融合语义特征的关键词提取方法
技术领域
本发明属于自然语言处理中的关键词提取研究领域,尤其是指一种基于深度学习语言模型融合语义特征的关键词提取方法。
背景技术
关键词提取是指从文档中提取一组具有代表性的词语,是一项文本信息处理的基础任务,也是自然语言处理领域的一项重要课题,从文档中所提取的关键词可以看作是文档的一种简洁摘要,是快速获取文档主题内容的重要方式,可以用作文档的分类、聚类、生成摘要、以及推荐等,对于自然语言处理的许多领域而言都是至关重要的,在当前这个信息爆炸的时代,关键词提取能够帮助人们快速从海量的信息中找出重点。
一篇文档的关键词(keyword)通常是几个词或者短语,作为对该文档主要内容的提要。关键词是人们快速了解文档内容、把握主题的重要方式。关键词广泛应用于新闻报道、科技论文等领域,以方便人们高效地管理和检索文档。随着网络时代信息爆炸式的增长,关键词成为用户在海量信息中检索感兴趣内容的主要工具,诞生了如Google、百度等基于关键词的搜索引擎公司。在社会科学中,历史文档中关键词使用频度、内在含义等方面的变化也成为研究人类社会、文化和政治观念演变的重要途径。目前,许多网站向用户提供了为感兴趣的对象(如链接、图片、视频、书籍和电影等)自由标注标签的功能,便于用户分享、管理、收藏和检索对象。与关键词类似,大部分标签是词或者短语,常常表示用户对标注对象主题的理解和概括。
在传统科技论文库和新闻库中,人们一般请专家为待标注对象标注关键词。然而随着信息技术和社会的高速发展,每时每刻都有大量文档等信息产生。人工标注如此海量的信息已经变得不现实。社会迫切需求计算机能够为文档自动标注关键词。因此,关键词自动标注逐渐成为自然语言处理和信息检索的热点研究问题。目前,关键词自动标注技术已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,在全文检索、文本分类、信息过滤和文档摘要等任务中发挥着重要作用。一方面,群体智慧产生了丰富的信息,如维基百科等知识库的建立,为关键词标注提供了更加丰富的知识和信息。另一方面,为了方便用户标注标签,网站通常建立标签自动推荐系统为用户推荐标签,这也为关键词自动标注提供了广阔舞台。与此同时,海量信息处理也为关键词自动标注技术提出了新的挑战,关键词是信息时代人们管理、检索资源的重要手段和便捷工具,关键词自动标注技术是人们在海量信息中遨游的重要依赖,而标签推荐技术也与关键词标注有着重要联系。
本发明针对传统关键词提取存在的语义缺失问题,伴随深度学习技术的快速发展,结合了深度学习相关技术来解决词语之间的语义缺失问题。用自然语言处理的言语模型训练得到的词向量能够表示文本词语之间的语义相似度。本发明在现有的深度学习技术上将深度学习词向量模型融入自动关键词提取的生成过程中,结合词向量来解决语义的缺失问题,并研究基于语义的自动关键词提取算法,从而得到基于语义词向量的自动关键词提取。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于深度学习语言模型融合语义特征的关键词提取方法。本发明的技术方案如下:
一种基于深度学习语言模型融合语义特征的关键词提取方法,其包括以下步骤:
S1、给定一篇目标文档d,首先使用自然语言文本处理工具对文档d进行分词处理和词性标注,选择其中的名词或名词性短语作为候选关键词,得到一个候选关键词集合W={w1,w2,...,wn},其中wn表示第n个候选关键词;同时将目标文档按句子进行拆分,得到句子集合D={s1,s2,...,sm},其中sm表示第m个句子;
S2、将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj
S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi
S4、针对每个候选关键词,计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分;
S5、根据每个候选词得分的高低降序排列,根据需要选取前N个作为目标文档的关键词。
进一步的,所述步骤S1具体包括:
S11、对于目标文档,对其中的每一个词,使用自然语言文本处理工具对其进行词性标注,以键值对的形式('词语','词性');
S12、遍历目标文档的键值对集合,仅保留其中的名词和名词性短语,构成目标文档的候选关键词集合。
进一步的,所述步骤S2将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj,具体包括:
针对句子集合中的每个句子sj,将其输入到公开的预训练语言模型中,使用公开的预训练模型加载公开的模型数据,得到句子的向量表示Vsj。
进一步的,所述步骤S3利用预训练语言模型获取每个候选关键词wi的向量表示Vwi
针对候选关键词集合中的每个候选关键词wi将其输入到公开的预训练语言模型中,使用公开的预训练模型加载公开的模型数据,得到候选关键词的向量表示Vwi
进一步的,所述步骤S4的余弦距离计算公式为:
Figure BDA0002760698350000031
本发明的优点及有益效果如下:
1.本发明方法利用预训练语言模型,引入外部语义知识信息到关键词提取任务中,保证了关键词提取的性能。
2.本发明方法对于长文本和短文本都有较好的效果。
3.本发明方法具有良好的领域无关性。
4.本发明方法利用预训练语言模型,获取候选关键词的向量表示和文档中每一个句子的向量表示,针对每个候选关键词,计算其与文档中每个句子的距离的均值,作为该候选关键词对于当前文档的得分,根据得分的高低作为其与文档语义上的相关程度,最后判断其是否为文档的关键词,这个过程对应了权利要求的步骤S1到S5,也是本发明方法的创新所在。
5.本发明方法进一步充分利用了预训练语言模型,简化了传统方法的计算过程的同时提升了关键词提取的准确度
附图说明
图1是本发明提供优选实施例一种基于深度学习语言模型融合语义特征的关键词提取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,一种基于深度学习语言模型融合语义特征的关键词提取方法,其基本实施过程如下:
步骤S1、给定一篇目标文档d,首先使用自然语言文本处理工具对文档d进行分词处理和词性标注,选择其中的名词或名词性短语作为候选关键词,得到一个候选关键词集合W={w1,w2,...,wn};同时将目标文档按句子进行拆分,得到句子集合D={s1,s2,...,sn}。
步骤S2、将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj
步骤S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi,向量的维度与句子向量的维度保持一致。
步骤S4、针对每个候选关键词,计算其与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分。其余弦距离计算公式为:
Figure BDA0002760698350000051
步骤S5、根据每个候选词得分的高低降序排列,根据需要选取前N个作为目标文档的关键词。
上述实施例方法,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,包括以下步骤:
S1、给定一篇目标文档d,首先使用自然语言文本处理工具对文档d进行分词处理和词性标注,选择其中的名词或名词性短语作为候选关键词,得到一个候选关键词集合W={w1,w2,...,wn};其中wn表示第n个关键词,同时将目标文档按句子进行拆分,得到句子集合D={s1,s2,...,sm},其中sm表示第m个句子;
S2、将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj
S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi
S4、针对每个候选关键词,计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分;
S5、根据每个候选词得分的高低降序排列,根据需要选取前N个作为目标文档的关键词。
2.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S1具体包括:
S11、对于目标文档,对其中的每一个词,使用自然语言文本处理工具对其进行词性标注,以键值对的形式('词语','词性');
S12、遍历目标文档的键值对集合,仅保留其中的名词和名词性短语,构成目标文档的候选关键词集合。
3.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S2将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj,具体包括:
预训练模型是自然语言处理领域中常见的公开的模型,可以直接使用也可以进一步训练,直接使用模型和训练好的模型数据;
针对句子集合中的每个句子sj,将其输入到公开的预训练语言模型Sentence-BERT中,使用公开的预训练模型加载公开的模型数据,得到句子的向量表示Vsj。
4.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S3利用预训练语言模型获取每个候选关键词wi的向量表示Vwi
针对候选关键词集合中的每个候选关键词wi将其输入到公开的预训练语言模型Sentence-BERT中,使用公开的预训练模型加载公开的模型数据,得到候选关键词的向量表示Vwi。
5.根据权利要求1所述的一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,所述步骤S4的余弦距离计算公式为:
Figure FDA0002760698340000021
CN202011216875.7A 2020-11-04 2020-11-04 基于深度学习语言模型融合语义特征的关键词提取方法 Active CN112364624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011216875.7A CN112364624B (zh) 2020-11-04 2020-11-04 基于深度学习语言模型融合语义特征的关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011216875.7A CN112364624B (zh) 2020-11-04 2020-11-04 基于深度学习语言模型融合语义特征的关键词提取方法

Publications (2)

Publication Number Publication Date
CN112364624A true CN112364624A (zh) 2021-02-12
CN112364624B CN112364624B (zh) 2023-09-26

Family

ID=74513531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011216875.7A Active CN112364624B (zh) 2020-11-04 2020-11-04 基于深度学习语言模型融合语义特征的关键词提取方法

Country Status (1)

Country Link
CN (1) CN112364624B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883289A (zh) * 2021-04-16 2021-06-01 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113486155A (zh) * 2021-07-28 2021-10-08 国际关系学院 一种融合固定短语信息的中文命名方法
CN114428851A (zh) * 2021-12-29 2022-05-03 北京百度网讯科技有限公司 摘要生成方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU HONGTAO: "Expansion of Sentiment Lexicon Based on Label Propagation", 《2019 15TH INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRIDS (SKG)》 *
王思丽: "基于深度学习的领域本体概念自动获取方法研究", 《信息系统》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113222772B (zh) * 2021-04-08 2023-10-31 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN112883289A (zh) * 2021-04-16 2021-06-01 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN112883289B (zh) * 2021-04-16 2022-05-06 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113486155A (zh) * 2021-07-28 2021-10-08 国际关系学院 一种融合固定短语信息的中文命名方法
CN113486155B (zh) * 2021-07-28 2022-05-20 国际关系学院 一种融合固定短语信息的中文命名方法
CN114428851A (zh) * 2021-12-29 2022-05-03 北京百度网讯科技有限公司 摘要生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112364624B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN112364624B (zh) 基于深度学习语言模型融合语义特征的关键词提取方法
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
Joby Expedient information retrieval system for web pages using the natural language modeling
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN112528053A (zh) 多媒体库分类检索管理系统
CN110196910B (zh) 一种语料分类的方法及装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN106021234A (zh) 标签提取方法及系统
US20100169318A1 (en) Contextual representations from data streams
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
Sukumar et al. Semantic based sentence ordering approach for multi-document summarization
Kambau et al. Concept-based multimedia information retrieval system using ontology search in cultural heritage
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
Ibrahim et al. Large-scale text-based video classification using contextual features
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法
Alhamid et al. Detection and visualization of Arabic emotions on social emotion map
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Seenivasan ETL in a World of Unstructured Data: Advanced Techniques for Data Integration
Dimitrakis et al. On Finding the Relevant User Reviews for Advancing Conversational Faceted Search.
CN112241463A (zh) 一种基于融合文本语义与图片信息的搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant