CN114970523B - 一种基于文本语义增强的主题提示式关键词提取方法 - Google Patents

一种基于文本语义增强的主题提示式关键词提取方法 Download PDF

Info

Publication number
CN114970523B
CN114970523B CN202210560651.0A CN202210560651A CN114970523B CN 114970523 B CN114970523 B CN 114970523B CN 202210560651 A CN202210560651 A CN 202210560651A CN 114970523 B CN114970523 B CN 114970523B
Authority
CN
China
Prior art keywords
text
theme
topic
module
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210560651.0A
Other languages
English (en)
Other versions
CN114970523A (zh
Inventor
陈骁
张元庆
陈登
梁婷婷
吕跃华
沈凯
殷昱煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang science and technology information research institute
Original Assignee
Zhejiang science and technology information research institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang science and technology information research institute filed Critical Zhejiang science and technology information research institute
Priority to CN202210560651.0A priority Critical patent/CN114970523B/zh
Publication of CN114970523A publication Critical patent/CN114970523A/zh
Application granted granted Critical
Publication of CN114970523B publication Critical patent/CN114970523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文本语义增强的主题提示式关键词提取方法。本发明首先收集某个领域的短文本数据集,通过分句模块将文本进行分句,对每个句子进行文本增强构造相似文本对。其次将相似文本对进行合并得到增强文本,对增强文本进行分词,将分词后的文本提取一个文本主题。然后将文本主题向量化,再匹配一个初始化的既定主题,既定主题通过主题模板生成模块生成对应的主题提示模板。最后主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示;找到与文本向量最相似的几个词语,将最相似的词语识别为最能描述整个文本的词。本发明将文本增强技术以及提示学习融入到关键词抽取中,提升了对短文本关键词抽取能力。

Description

一种基于文本语义增强的主题提示式关键词提取方法
技术领域
本发明涉及人工智能自然语言处理技术领域,尤其是涉及一种文本语义增强的关键词提取方法。
背景技术
人工智能的发展给人们的生活带来了许多的便利,其中,自然语言处理领域也跟随着人工智能技术的变革逐渐影响着人们的方方面面;尤其在当下这个快节奏的生活里,对于文本的关键词提取技术渐渐深入人心。关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类和文本分类等方面有着重要的应用。
关键词提取算法一般分为有监督和无监督两类:
有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且词表需要及时维护。
相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成且需要持续维护的词表,也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如TF-IDF算法,TextRank算法和主题模型算法(包括LSA,LSI,LDA等)。
但随着社交媒体、新媒体、自媒体的快速发展,我们目前面临全新的文本数据。与传统媒体的数据不同,新媒体与社交媒体的数据往往表现在更短的文本长度,但目前大多数关键词抽取方法都基于长文本的模型,在文本长度较短的新媒体数据上的表现差强人意。同时一些基于预训练语言模型的关键词抽取技术都是所有类型的文本数据进行预训练,但是迁移到下游任务时对一些对垂直领域的数据,如对体育新闻,政治时报等没有很强的鲁棒性,往往表现不佳。这是因为预训练时所学习到的主题、关键词分布是基于整体数据集的,抽取出的关键词比较宽泛,跟下游任务数据集的关键词分布有不少偏差。
发明内容
本发明提供了一种基于文本语义增强的主题提示式关键词提取方法,该方法能有效解决短文本关键词抽取以及预训练模型难以拟合下游任务数据的难题,为后续的工程应用提供新的思路。
为了解决上述问题,本发明包含以下步骤:
步骤一,收集某个领域的短文本数据集,可以是短文评论,文章标题等。
步骤二,通过分句模块将文本进行分句,再通过文本语义增强模块对每个句子进行文本增强构造相似文本对。
步骤三,将相似文本对进行合并得到增强文本,再使用分词模块对增强文本进行分词。
步骤四,将分词后的文本通过主题建模模块提取一个文本主题。
步骤五,通过主题匹配模块将文本主题向量化,再匹配一个初始化的既定主题。
步骤六,既定主题通过主题模板生成模块生成对应的主题提示模板。
步骤七,主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示。
步骤八:使用关键词搜索模块找到与文本向量最相似的几个词语,将最相似的词语识别为最能描述整个文本的词。
进一步,在步骤一中,所述某个领域数据集诸如:体育新闻,科技短讯等垂直领域,具体可使用汽车之家的口碑评论数据,大部分是长度不超过70的短文本数据。
进一步,在步骤二中,所述构造文本语义增强模块是指的通过simBert模型(基于预训练语言模型的文本语义相似度召回模型)生成增强的文本。
进一步,在步骤三中,所述分词模块具体来说是一种基于词典分词的算法,该算法是按照一定的策略将待匹配的字符串和一个已建立好的特征领域词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。
进一步,在步骤四中,所述主题建模模块具体指的是通过隐含狄利克雷分布(LDA)模型,进行初步的主题词建模,送入后续的主题匹配模板模块。
进一步,在步骤五中,所述主题匹配模块首先将文本主题向量化,再与给定的既定主题向量中匹配最接近的既定主题。
进一步,在步骤六中,所述主题模板生成模块结合既定主题生成目标领域的提示模板,用于激活下游预训练语言模型(Bert)的知识。
进一步,在步骤七中,所述文本向量生成模块具体指一个预训练语言模型(Bert)。
进一步,在步骤八中,所述关键词查找模块是在向量空间中查找与当前文本向量最接近的词汇。
本发明的有益效果:本发明将文本增强技术以及提示学习融入到关键词抽取中,优化了模型对短文本关键词抽取能力,同时充分利用了预训练语言模型的知识。
附图说明
图1为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图;
图2为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的具体流程步骤示意图;
图3为本发明实施例的使用主题提示模板进行关键词预测时的输入和输出示意图;
图4为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的模块系统的示意图。
具体实施方式
为了使本发明地目的、技术方案和优点更加清楚,下面对本发明实施方案做进一步详细描述。
本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图如图1和图2所示,具体包括以下步骤:
步骤一:收集中文短文本数据集并进行分句,具体为汽车之家的口碑评论数据,有20000+条以上的数据,大部分是长度不超过70的短文本数据。
Figure BDA0003653843570000031
Figure BDA0003653843570000041
步骤二:文本语义增强模块通过simbert模型生成相似的文本,生成过程具体来说分成两部分:
第一块是构建Seq2Seq任务,也就是通过输入文本去预测对应相似文本;
第二块是构建语义相似度任务,根据文本对应的CLS向量来计算相似度。
Figure BDA0003653843570000042
步骤三:分词模块是一种基于词典分词的正向最大匹配算法,具体来说可分为:
步骤(1):从左向右可重叠地取语句的m个字符作为匹配字符子串,其中,m为机器词典中最长词语的字符数;
步骤(2):当原句中m个字符的子串与词典的所有词进行匹配,若匹配成功,则将这个匹配字符串作为一个词语;
步骤(3):若匹配不成功,则将m个字符的最后一个字符去掉,用m-1个字符作为新的匹配字段。即m=m-1(m>1),重复1~3步骤,直到切分出所有的词为止。
分词后再根据目标邻域的停用词表去除非必要词汇。
Figure BDA0003653843570000043
步骤四:主题建模模块使用隐藏狄利克雷分布将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题,最后根据主题分布进行主题聚类。隐藏狄利克雷分布以文档集合作为输入,最终训练出两个结果向量,即P(单词|主题)和P(主题|文档)这两个概率分布。
Figure BDA0003653843570000051
步骤五:主题匹配模块首先维护一张既定主题表:包含k个既定主题,参数k的值根据实际需求进行自定义设置,以及每个主题对应的向量映射表。匹配过程如下:
步骤(1):步骤四生成的主题词通过一个预训练语言模型(Bert)生成主题词的向量表征;
步骤(2):通过相似度计算,查找在既定主题空间中与主题词向量表征最接近的既定主题向量;
步骤(3):查找向量映射表,将搜索到的主题向量映射为中文表示的既定主题。
既定主题 既定主题向量
汽车 V1
房产 V2
石油 V3
军工 V4
主题词 主题词向量 既定主题向量 既定主题
油耗高速 (Vi+Vj)/2 V1(0.8)V4(0.2) 汽车
步骤六:主题模板生成模块结合既定主题生成提示(prompt)模板,提示模板生成可分为三种:人工构造模板,自动生成模板以及隐空间中的模板。本发明主要采用人工构造模板中的前缀模板(prefix prompt)。结合上文搜索的既定主题,构造“{input slot},本文主题为{topic k},关键词有{answer slot1}{answer slot2}”作为提示模板,其中inputslot作为输入文本的slot,topic k为步骤五生成的既定主题,answer slot1和answerslot2分别为该段文本的关键词1和关键词2。
Figure BDA0003653843570000061
步骤七:文本向量生成模块将配置好的模板输入预训练语言模型(Bert),得到输出的每个answer slot向量。
Answer slot answer向量
answer slot1 As1
answer slot2 As2
使用主题提示模板进行关键词预测时的输入和输出过程如图3所示:首先将原始本文和相似文本进行合并得到增强文本对,再输入预训练语言模型(Bert),其中[inputslot]作为输入位置,[cls]作为增强文本对向量的表征,[mask]则为需要预测的关键词(即,[answer slot])。最后得到概率较高的k个候选关键词。
步骤八:关键词查找模块依次计算answer slot1和answer solt2向量与词汇表中各向量的相似性,相似性计算公式使用余弦相似度计算。选取相似度最高的top n个向量作为关键词向量,因此共生成2*n个关键词向量,最后再将关键词向量通过查找embeddinglookup table映射为中文关键词,最终这些关键词作为整个文本的关键词。
answer向量 相似关键词
As1 车辆,油耗,省油
As2 接受,接收,不错
最后本发明实施例的模块系统的示意图如图4所示。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。最后通过对实验结果的展示和分析,本发明有效得解决了垂直领域短文本关键词抽取的问题。

Claims (10)

1.一种基于文本语义增强的主题提示式关键词提取方法,其特征在于该方法包括以下步骤:
步骤一,收集某个领域的短文本数据集;
步骤二,通过分句模块将文本进行分句,再通过文本语义增强模块对每个句子进行文本增强构造相似文本对;
步骤三,将相似文本对进行合并得到增强文本,再使用分词模块对增强文本进行分词;
步骤四,将分词后的文本通过主题建模模块提取一个文本主题;
步骤五,通过主题匹配模块将文本主题向量化,再匹配一个初始化的既定主题;
步骤六,既定主题通过主题模板生成模块生成对应的主题提示模板;
步骤七,主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示;
步骤八:使用关键词搜索模块找到与文本向量最相似的几个词语,将最相似的词语识别为最能描述整个文本的词。
2.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:步骤一中,所述的短文本数据集,包括短文评论,文章标题。
3.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤二中,所述文本语义增强模块采用基于预训练语言模型的文本语义相似度召回模型。
4.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤三中,所述分词模块是一种基于词典分词的算法,该算法是按照一定的策略将待匹配的字符串和一个已建立好的特征领域词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。
5.根据权利要求4所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:基于词典分词的算法具体执行以下步骤:
步骤(1):从左向右可重叠地取语句的m个字符作为匹配字符子串,其中,m为机器词典中最长词语的字符数;
步骤(2):当原句中m个字符的子串与词典的所有词进行匹配,若匹配成功,则将这个匹配字符串作为一个词语;
步骤(3):若匹配不成功,则将m个字符的最后一个字符去掉,用m-1个字符作为新的匹配字段;重复步骤(1)~(3),直到切分出所有的词为止。
6.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤四中,所述主题建模模块采用LDA模型,进行初步的主题词建模,送入后续的主题匹配模板模块。
7.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤五中,所述主题匹配模块首先将文本主题向量化,再与给定的既定主题向量中匹配最接近的既定主题。
8.根据权利要求7所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤五中,所述匹配过程如下:
步骤(1):将步骤四生成的主题词通过一个预训练语言模型生成主题词的向量表征;
步骤(2):通过相似度计算,查找在既定主题空间中与主题词向量表征最接近的既定主题向量;
步骤(3):查找向量映射表,将搜索到的主题向量映射为中文表示的既定主题。
9.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤七中,所述文本向量生成模块具体指一个预训练语言模型。
10.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法,其特征在于:在步骤八中,所述关键词查找模块是在向量空间中查找与当前文本向量最接近的词汇。
CN202210560651.0A 2022-05-20 2022-05-20 一种基于文本语义增强的主题提示式关键词提取方法 Active CN114970523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210560651.0A CN114970523B (zh) 2022-05-20 2022-05-20 一种基于文本语义增强的主题提示式关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210560651.0A CN114970523B (zh) 2022-05-20 2022-05-20 一种基于文本语义增强的主题提示式关键词提取方法

Publications (2)

Publication Number Publication Date
CN114970523A CN114970523A (zh) 2022-08-30
CN114970523B true CN114970523B (zh) 2022-11-29

Family

ID=82985470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210560651.0A Active CN114970523B (zh) 2022-05-20 2022-05-20 一种基于文本语义增强的主题提示式关键词提取方法

Country Status (1)

Country Link
CN (1) CN114970523B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7416508B1 (ja) 2023-04-28 2024-01-17 株式会社Memory Lab 情報処理システム、情報処理プログラム及び情報処理方法
CN117319750B (zh) * 2023-08-16 2024-07-05 浙江印象软件有限公司 直播信息的实时显示方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN113673223A (zh) * 2021-08-25 2021-11-19 北京智通云联科技有限公司 一种基于语义相似性的关键词抽取方法及系统
CN113987175A (zh) * 2021-10-25 2022-01-28 清华大学深圳国际研究生院 一种基于医学主题词表增强表征的文本多标签分类方法
CN114239555A (zh) * 2021-12-24 2022-03-25 上海畅圣计算机科技有限公司 一种关键词提取模型的训练方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870575A (zh) * 2014-03-19 2014-06-18 北京百度网讯科技有限公司 一种提取领域关键词的方法及装置
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN113673223A (zh) * 2021-08-25 2021-11-19 北京智通云联科技有限公司 一种基于语义相似性的关键词抽取方法及系统
CN113987175A (zh) * 2021-10-25 2022-01-28 清华大学深圳国际研究生院 一种基于医学主题词表增强表征的文本多标签分类方法
CN114239555A (zh) * 2021-12-24 2022-03-25 上海畅圣计算机科技有限公司 一种关键词提取模型的训练方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Keyword Assisted Embedded Topic Model;Bahareh Harandizadeh等;《WSDM ’22》;20220225;第372-380页 *

Also Published As

Publication number Publication date
CN114970523A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107451126B (zh) 一种近义词筛选方法及系统
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN117171333B (zh) 一种电力文件问答式智能检索方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN112860889A (zh) 一种基于bert的多标签分类方法
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113988054B (zh) 一种面向煤矿安全领域的实体识别方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN117591635A (zh) 一种用于大模型问答的文本分割检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant