CN110807326A - 结合gpu-dmm与文本特征的短文本关键词提取方法 - Google Patents

结合gpu-dmm与文本特征的短文本关键词提取方法 Download PDF

Info

Publication number
CN110807326A
CN110807326A CN201911016268.3A CN201911016268A CN110807326A CN 110807326 A CN110807326 A CN 110807326A CN 201911016268 A CN201911016268 A CN 201911016268A CN 110807326 A CN110807326 A CN 110807326A
Authority
CN
China
Prior art keywords
word
short text
weight
topic
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911016268.3A
Other languages
English (en)
Other versions
CN110807326B (zh
Inventor
高望
朱珣
邓宏涛
王煜伟
曾凡琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianghan University
Original Assignee
Jianghan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianghan University filed Critical Jianghan University
Priority to CN201911016268.3A priority Critical patent/CN110807326B/zh
Publication of CN110807326A publication Critical patent/CN110807326A/zh
Application granted granted Critical
Publication of CN110807326B publication Critical patent/CN110807326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合GPU‑DMM与文本特征的短文本关键词提取方法,涉及短文本关键词提取方法。本方法是:①对获取的短文本语料数据集进行预处理;②抽取预处理短文本的词性序列搭配;③基于TF‑IDF算法和词语长度计算关键词的TF‑IDF权重;④使用GPU‑DMM模型对短文本语料数据集主题建模,并抽取出主题—词矩阵,根据主题—词矩阵计算关键词的主题权重;⑤根据TF‑IDF权重和主题权重加权叠加得到加权关键词权重,并按照权重排序结果输出关键词序列。本方法融合了GPU‑DMM主题模型与词性序列、词语长度和TF‑IDF文本特征,可以显著提高关键词提取效果;在准确率、召回率和F值三个评价指标上都要优于基准方法。

Description

结合GPU-DMM与文本特征的短文本关键词提取方法
技术领域
本发明涉及短文本关键词提取方法,尤其涉及一种结合GPU-DMM与文本特征的短文本关键词提取方法;具体地说,本发明是结合GPU-DMM主题模型与词语长度、词性序列等文本特征的一种新的短文本关键词提取方法。
背景技术
随着社交媒体的兴起,短文本己成为网络上信息传递的主要载体。例如微博、朋友圈、网页的标题、搜索片段、电商评论、Facebook等网站的主要内容都是以短文本的形式呈现。因此,短文本关键词提取已经成为了短文本信息抽取领域内一个非常重要的研究方向。正如文档摘要在长文本(新闻、博客等)中所起到的作用一致,关键词可以准确的反映出短文本的核心内容,这是人们快速理解文档内容和掌握短文本主题的重要途径。此外,短文本关键词提取在自然语言处理领域的短文本聚类和短文本分类任务中有积极作用,在自动问答,主题跟踪和智能客服等信息检索领域也具有重要的应用价值。
然而,由于短文本句法语义分析复杂,字词歧义丰富,语言表达多样灵活,使得基于短文本的关键词提取异常困难,并存在着主题相关性问题,即很难保证抽取的关键词与短文本主题相关。已有基于主题模型的短文本关键词提取方法大都采用LDA模型进行主题识别,以解决短文本和关键词之间的主题相关性问题,从而提高短文本的关键词抽取效果。LDA模型在抽取以传统新闻文档为代表的长文本主题时取得了良好的效果,这是因为长文本的文本长度较长,词语共现信息丰富。但是,由于短文本具有长度短、噪音大和词共现信息极度缺乏等特点,直接利用LDA进行短文本主题抽取效果较差,从而影响关键词提取效果,这是本发明要解决的关键问题。
发明内容
本发明的目的就在于克服现有技术存在缺点和不足,提供一种结合GPU-DMM与文本特征的短文本关键词提取方法。
本发明的目的是这样实现的:
利用在短文本主题抽取方面效果较好的GPU-DMM模型,并结合TF-IDF、词语长度和词性序列,用于短文本关键词的提取,与传统方法比较起来,本发明能够有效的提高短文本关键词提取的效果。
具体地说,本方法包括以下步骤:
①对获取的短文本语料数据集进行预处理;
②抽取预处理短文本的词性序列搭配并判断是否满足词性序列条件;
③基于TF-IDF算法和词语长度计算关键词的TF-IDF权重;
④使用GPU-DMM模型对短文本语料数据集主题建模,并抽取出主题—词矩阵,根据主题—词矩阵计算关键词的主题权重;
⑤根据TF-IDF权重和主题权重加权叠加得到加权关键词权重,并按照权重排序结果输出关键词序列。
本发明具有如下优点和积极效果:
本方法融合了GPU-DMM主题模型与词性序列、词语长度和TF-IDF文本特征,可以显著提高关键词提取效果;
实验结果表明,本方法在准确率、召回率和F值三个评价指标上都要优于基准方法。
附图说明
图1是本方法的步骤图;
图2是本发明实施例中与基准方法的准确率、召回率和F值比较示意图。
英译汉
1、GPU-DMM:Generalized Pólya urn-Dirichlet Multinomial Mixture,短文生成模型。
2、LDA:Latent Dirichlet Allocation,是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
3、TF-IDF:Term Frequency–Inverse Document Frequency,是一种在自然语言处理领域常用的加权方法,TF表示词频,IDF表示逆文本频率指数。
具体实施方式
下面结合附图和实施例详细说明:
一、方法
如图1,本方法包括下列步骤:
①对获取的短文本语料数据集进行预处理-1
所述的预处理包括分词、词性标注、过滤掉非中文字符和停用词;
②抽取预处理短文本的词性序列搭配并判断是否满足词性序列条件-2
首先判断短文本中是否存在多个名词连接构成的词性序列搭配,根据语料人工标注结果认定当一个短文本是由多个名词连接构成时,当关键词权重与所处位置成反比关系时,输出关键词序列,否则,实施步骤③;
③基于TF-IDF算法和词语长度计算关键词的TF-IDF权重-3
根据语料人工标注结果,认定在汉语中,一个词语的长度越长,则表示该词所承载的信息量越大,同时该词成为专有名词的可能性就越大,相对于长度较短的词语,其重要性越高;因此,如公式(1)所示,对传统TF-IDF算法做出了如下改进:
其中,Wt TFIDF表示词t的TF-IDF权重值,LEN(t)表示词t的长度,nt表示词t在语料数据集中出现的次数,V表示语料数据集中词语的总数,
Figure BDA0002245813150000032
表示语料数据集中所有词语的出现次数之和,D表示语料数据集中所有短文本的总数;
④使用GPU-DMM模型对短文本语料数据集主题建模,并抽取出主题—词矩阵,根据主题—词矩阵计算关键词的主题权重-4
在使用GPU-DMM模型抽取短文本语料数据集主题时,对于每篇短文本,每次循环迭代的过程中都需要采样出一个主题,其条件概率受到其他短文本的主题标签影响,如公式(2)所示:
Figure BDA0002245813150000033
其中,zd表示短文本d的主题,-d表示相关变量去除掉短文本d及其所包含的所有词语,mk表示主题为k的短文本数量,α和β表示预先指定的狄利克雷分布的先验参数,K表示主题总数,
Figure BDA0002245813150000041
表示词t在短文本d中出现的次数,
Figure BDA0002245813150000042
表示在词语t在主题k罐子中出现的次数;
如公式(3)所示,主题—词矩阵Φ通过点估计进行近似计算:
其中,
Figure BDA0002245813150000044
表示词t分配至主题k的概率,设短文本d的主题为k,则其中词t的主题权重值Wt TOPIC
Figure BDA0002245813150000045
⑤根据TF-IDF权重和主题权重加权叠加得到加权关键词权重,并按照权重排序结果输出关键词序列-5
如公式(4)所示,在计算得出词t的TF-IDF权重和主题权重之后,词t的加权关键词权重Wt由TF-IDF权重和主题权重加权叠加计算:
Wt=λ×Wt TFIDF+(1-λ)×Wt TOPIC (4)
其中λ是权重平衡参数;
最后,根据短文本中所有词的加权关键词权重从高到低依次输出关键词序列。
二、实验结果
本方法和基准方法通过实验比较可以验证本方法的高效性。本发明使用20000条搜索引擎查询短文本作为实验所用的数据集,并聘请4名自然语言处理研究方向的硕士研究生标注其中5000条短文本用来评估不同方法的性能。本方法利用搜狗公开数据集89万条查询短文本训练CPU-DMM主题模型,模型的参数设置为:K=2200,α=50/K,β=0.01,λ=0.7。本方法通过准确率、召回率、F值和基准方法TF-IDF、LDA、TextRank比较短文本关键词提取性能。实验结果如图2所示,本发明的实验效果要优于3种基准方法。这是因为本发明综合考虑了GPU-DMM主题模型和文本特征,从而使得关键词提取效果更加精确。
三、声明
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种结合GPU-DMM与文本特征的短文本关键词提取方法,其特征在于:
①对获取的短文本语料数据集进行预处理;
②抽取预处理短文本的词性序列搭配并判断是否满足词性序列条件;
③基于TF-IDF算法和词语长度计算关键词的TF-IDF权重;
④使用GPU-DMM模型对短文本语料数据集主题建模,并抽取出主题—词矩阵,根据主题—词矩阵计算关键词的主题权重;
⑤根据TF-IDF权重和主题权重加权叠加得到加权关键词权重,并按照权重排序结果输出关键词序列。
2.按权利要求1所述的短文本关键词提取方法,其特征在于所述的步骤①:
所述的预处理包括分词、词性标注、过滤掉非中文字符和停用词。
3.按权利要求1所述的短文本关键词提取方法,其特征在于所述的步骤②:
首先判断短文本中是否存在多个名词连接构成的词性序列搭配,根据语料人工标注结果认定当一个短文本是由多个名词连接构成时,当关键词权重与所处位置成反比关系时,输出关键词序列,否则,实施步骤③。
4.按权利要求1所述的短文本关键词提取方法,其特征在于所述的步骤③:
语料人工标注结果认定在汉语中,一个词语的长度越长,则表示该词所承载的信息量越大,同时该词成为专有名词的可能性就越大,相对于长度较短的词语,其重要性越高;因此,如公式(1)所示:
Figure FDA0002245813140000011
其中,Wt TFIDF表示词t的TF-IDF权重值,LEN(t)表示词t的长度,nt表示词t在语料数据集中出现的次数,V表示语料数据集中词语的总数,
Figure FDA0002245813140000012
表示语料数据集中所有词语的出现次数之和,D表示语料数据集中所有短文本的总数。
5.按权利要求1所述的短文本关键词提取方法,其特征在于所述的步骤④:
在使用GPU-DMM模型抽取短文本语料数据集主题时,对于每篇短文本,每次循环迭代的过程中都需要采样出一个主题,其条件概率受到其他短文本的主题标签影响,如公式(2)所示:
其中,zd表示短文本d的主题,-d表示相关变量去除掉短文本d及其所包含的所有词语,mk表示主题为k的短文本数量,α和β表示预先指定的狄利克雷分布的先验参数,K表示主题总数,
Figure FDA0002245813140000022
表示词t在短文本d中出现的次数,
Figure FDA0002245813140000023
表示在词语t在主题k罐子中出现的次数;
如公式(3)所示,主题—词矩阵Φ通过点估计进行近似计算:
Figure FDA0002245813140000024
其中,
Figure FDA0002245813140000025
表示词t分配至主题k的概率,设短文本d的主题为k,则其中词t的主题权重值Wt TOPIC
Figure FDA0002245813140000026
6.按权利要求1所述的短文本关键词提取方法,其特征在于所述的步骤⑤:
如公式(4)所示,在计算得出词t的TF-IDF权重和主题权重之后,词t的加权关键词权重Wt由TF-IDF权重和主题权重加权叠加计算:
Wt=λ×Wt TFIDF+(1-λ)×Wt TOPIC (4)
其中λ是权重平衡参数;
最后,根据短文本中所有词的加权关键词权重从高到低依次输出关键词序列。
CN201911016268.3A 2019-10-24 2019-10-24 结合gpu-dmm与文本特征的短文本关键词提取方法 Active CN110807326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911016268.3A CN110807326B (zh) 2019-10-24 2019-10-24 结合gpu-dmm与文本特征的短文本关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911016268.3A CN110807326B (zh) 2019-10-24 2019-10-24 结合gpu-dmm与文本特征的短文本关键词提取方法

Publications (2)

Publication Number Publication Date
CN110807326A true CN110807326A (zh) 2020-02-18
CN110807326B CN110807326B (zh) 2023-04-28

Family

ID=69489047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911016268.3A Active CN110807326B (zh) 2019-10-24 2019-10-24 结合gpu-dmm与文本特征的短文本关键词提取方法

Country Status (1)

Country Link
CN (1) CN110807326B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN111930885A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本话题的抽取方法、装置及计算机设备
CN112528026A (zh) * 2020-12-17 2021-03-19 北京沃东天骏信息技术有限公司 关键词识别方法、装置、设备及介质
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114492433A (zh) * 2022-01-27 2022-05-13 南京烽火星空通信发展有限公司 一种自动化选择合适关键词组合抽取文本的方法
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统
CN115238676A (zh) * 2022-08-03 2022-10-25 中国电信股份有限公司 招标需求热点识别方法、装置、存储介质及电子设备
CN116484856A (zh) * 2023-02-15 2023-07-25 北京数美时代科技有限公司 一种文本的关键词提取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHENLIANG LI,ETC.: "Topic Modeling for Short Texts with Auxiliary Word Embeddings" *
TING CHEN,ETC.: "Web Service Recommendation Based on Word Embedding and Topic Model" *
张随远;薛源海;俞晓明;刘悦;程学旗;: "多文档短摘要生成技术研究" *
贾强;冯锡炜;王志峰;朱睿;秦航;: "基于改进的TF-IDF文本特征词提取算法研究" *
钱爱兵,等: "基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN111680168B (zh) * 2020-05-29 2024-06-28 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN111930885A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本话题的抽取方法、装置及计算机设备
CN111930885B (zh) * 2020-07-03 2023-08-04 北京新联财通咨询有限公司 文本话题的抽取方法、装置及计算机设备
CN112528026A (zh) * 2020-12-17 2021-03-19 北京沃东天骏信息技术有限公司 关键词识别方法、装置、设备及介质
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN114492433A (zh) * 2022-01-27 2022-05-13 南京烽火星空通信发展有限公司 一种自动化选择合适关键词组合抽取文本的方法
CN114492433B (zh) * 2022-01-27 2024-08-30 南京烽火星空通信发展有限公司 一种自动化选择关键词组合抽取文本的方法
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统
CN115238676A (zh) * 2022-08-03 2022-10-25 中国电信股份有限公司 招标需求热点识别方法、装置、存储介质及电子设备
CN116484856A (zh) * 2023-02-15 2023-07-25 北京数美时代科技有限公司 一种文本的关键词提取方法、装置、电子设备及存储介质
CN116484856B (zh) * 2023-02-15 2023-11-17 北京数美时代科技有限公司 一种文本的关键词提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110807326B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN110807326B (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
Wu et al. Sentiment word co-occurrence and knowledge pair feature extraction based LDA short text clustering algorithm
Tan et al. Unsupervised query segmentation using generative language models and wikipedia
Yan et al. Named entity recognition by using XLNet-BiLSTM-CRF
CN112861990B (zh) 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN103049435A (zh) 文本细粒度情感分析方法及装置
Bagalkotkar et al. A novel technique for efficient text document summarization as a service
Hinze et al. Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Guo et al. Expert-guided contrastive opinion summarization for controversial issues
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Anoop et al. A topic modeling guided approach for semantic knowledge discovery in e-commerce
Sharma et al. Shallow Neural Network and Ontology-Based Novel Semantic Document Indexing for Information Retrieval.
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Spasojevic et al. Dawt: Densely annotated wikipedia texts across multiple languages
Vaseeharan et al. Review on sentiment analysis of twitter posts about news headlines using machine learning approaches and naïve bayes classifier
Zhao et al. Micro-blog Keyword Extraction Method Based on Graph Model and Semantic Space.
Gupta et al. Document summarisation based on sentence ranking using vector space model
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
Alashri et al. Lexi-augmenter: Lexicon-based model for tweets sentiment analysis
Xue et al. Sentiment analysis based on weibo comments
Yan Research on keyword extraction based on abstract extraction
CN118170899B (zh) 基于aigc的媒体新闻稿件生成方法以及相关装置
Gao A combined rule-based and machine learning approach for blackout analysis using natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant