CN112163421A - 一种基于N-Gram的新型关键词提取方法 - Google Patents

一种基于N-Gram的新型关键词提取方法 Download PDF

Info

Publication number
CN112163421A
CN112163421A CN202011072560.XA CN202011072560A CN112163421A CN 112163421 A CN112163421 A CN 112163421A CN 202011072560 A CN202011072560 A CN 202011072560A CN 112163421 A CN112163421 A CN 112163421A
Authority
CN
China
Prior art keywords
character string
text
double
character
gram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011072560.XA
Other languages
English (en)
Other versions
CN112163421B (zh
Inventor
陈骏轩
苏劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011072560.XA priority Critical patent/CN112163421B/zh
Publication of CN112163421A publication Critical patent/CN112163421A/zh
Application granted granted Critical
Publication of CN112163421B publication Critical patent/CN112163421B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于N‑Gram的新型关键词提取方法,包含以下步骤:S1,获取用户输入的第一文本;S2,定义N=1,对所述第一文本进行N‑Gram分割,得到单字符合集,计算每个单字符的出现概率;S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;S4,定义N=2;S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。

Description

一种基于N-Gram的新型关键词提取方法
技术领域
本发明涉及关键词提取领域,具体指有一种基于N-Gram的新型关键词提取方法。
背景技术
关键词是用于表达文献主题内容,也是文本信息最重要、最具有概括性的词汇合集。高质量的关键词有助于被读者检索到与其预期关联性强的文本,并且帮助读者快速、大致地了解某个文本的语义。
在传统的关键词提取方法中,通常采用N-Gram算法对文本进行短语分割,之后计算每个短语出现的概率,简单的通过其概率得到关键词。这样的提取方法存在以下缺陷:
1、采用N-Gram算法通常需要定义N=1、2、3…M,从而将文本划分成单个字符的短语、2个字符的短语、3个字符的短语、…M个字符的短语,其短语数量非常庞大,计算时间长;
2、采用N-Gram算法只能单纯地计算各个短语的出现频率,在大部分文本中,例如“的”、“是”等常用的中文字符出现的概率本身较高,但是其单独包含的信息量少,且与文本的语义内容关联性低,不适合使用该短语作为关键词。
针对上述的现有技术存在的问题设计一种基于N-Gram的新型关键词提取方法是本发明研究的目的。
发明内容
针对上述现有技术存在的问题,本发明在于提供一种基于N-Gram的新型关键词提取方法,能够有效解决上述现有技术存在的问题。
本发明的技术方案是:
一种基于N-Gram的新型关键词提取方法,包含以下步骤:
S1,获取用户输入的第一文本;
S2,定义N=1,对所述第一文本进行N-Gram分割,得到单字符合集,计算每个单字符的出现概率;
S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
S4,定义N=2,对所述第二文本进行N-Gram分割,得到双字符串合集,计算每个双字符串的出现概率;
S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
进一步地,所述第一数量为5-30。
进一步地,步骤S6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义M为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前M-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2M个扩展字符串,其中m为0-M的任意整数。
进一步地,所述M为0-5的任意整数。
进一步地,所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率P,根据P的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展。
进一步地,所述第二数量为10-20。
因此,本发明提供以下的效果和/或优点:
本发明通过该方法可以通过N-Gram的分割计算单字符、双字符的出现概率,并提取出现概率最高的单、双字符。同时,通过剔除不含单字符合集、不含双字符合集的句子,得到第三文本,可以大大缩减计算次数,减少无关语句对计算造成的影响。最后已第三文本进行扩展,可以得到更加适合的关键词。
本发明通过对双字符串合集进行扩展,可以得到双字符串增加前后若干字符的多字符串扩展合集,其包含有双字符串前后的重要信息,方便读者阅读其包含的前后信息。提高关键词的内容含量。
应当明白,本发明的上文的概述和下面的详细说明是示例性和解释性的,并且意在提供对如要求保护的本发明的进一步的解释。
附图说明
图1为本方法的流程示意图。
具体实施方式
为了便于本领域技术人员理解,现将实施例结合附图对本发明的结构作进一步详细描述:
参考图1,一种基于N-Gram的新型关键词提取方法,包含以下步骤:
S1,获取用户输入的第一文本;
例如输入“傅里叶变换的目的是可将时域上的信号转变为频域(即频率域)上的信号,随着域的不同,对同一个事物的了解角度也就随之改变,因此在时域中某些不好处理的地方,在频域就可以较为简单的处理。”
S2,定义N=1,对所述第一文本进行N-Gram分割,得到单字符合集,计算每个单字符的出现概率;
通过上述文本,经过N=1的N-Gram分割后得到:“傅,里,叶,变,换,的…在,频,域,就,可,以,较,为,简,单,的,处,理。”这样一个单字符合集。
S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
S4,定义N=2,对所述第二文本进行N-Gram分割,得到双字符串合集,计算每个双字符串的出现概率;
S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
进一步地,所述第一数量为5-30。
进一步地,步骤S6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义M为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前M-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2M个扩展字符串,其中m为0-M的任意整数,所述M为0-5的任意整数。
进一步地,所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率P,根据P的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展,所述第二数量为10-20。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属于本发明的涵盖范围。

Claims (6)

1.一种基于N-Gram的新型关键词提取方法,其特征在于:包含以下步骤:
S1,获取用户输入的第一文本;
S2,定义N=1,对所述第一文本进行N-Gram分割,得到单字符合集,计算每个单字符的出现概率;
S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;
S4,定义N=2,对所述第二文本进行N-Gram分割,得到双字符串合集,计算每个双字符串的出现概率;
S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;
S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。
2.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法,其特征在于:所述第一数量为5-30。
3.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法,其特征在于:步骤S6中,所述加入每个双字符串对应所述第三文本中的外围字符具体为:
定义M为大于等于零的整数,加入每个双字符串的前端对应所述第三文本中的前M-m个字符并且加入每个双字符串的后端对应所述第三文本中的后m个字符得到2M个扩展字符串,其中m为0-M的任意整数。
4.根据权利要求3所述的一种基于N-Gram的新型关键词提取方法,其特征在于:所述M为0-5的任意整数。
5.根据权利要求1所述的一种基于N-Gram的新型关键词提取方法,其特征在于:所述计算并提取出现权重最高的第二数量的多字符串扩展具体为:
计算并提取出现概率最高的第二数量的多字符串扩展;
提取每个多字符串中属于所述单字符合集的单字符,累加所述每个单字符的出现概率P,根据P的大小定义所述多字符串扩展的出现权重;
提取出现权重最高的第二数量的多字符串扩展。
6.根据权利要求5所述的一种基于N-Gram的新型关键词提取方法,其特征在于:所述第二数量为10-20。
CN202011072560.XA 2020-10-09 2020-10-09 一种基于N-Gram的关键词提取方法 Expired - Fee Related CN112163421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011072560.XA CN112163421B (zh) 2020-10-09 2020-10-09 一种基于N-Gram的关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011072560.XA CN112163421B (zh) 2020-10-09 2020-10-09 一种基于N-Gram的关键词提取方法

Publications (2)

Publication Number Publication Date
CN112163421A true CN112163421A (zh) 2021-01-01
CN112163421B CN112163421B (zh) 2022-05-17

Family

ID=73866349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011072560.XA Expired - Fee Related CN112163421B (zh) 2020-10-09 2020-10-09 一种基于N-Gram的关键词提取方法

Country Status (1)

Country Link
CN (1) CN112163421B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744837A (zh) * 2014-01-23 2014-04-23 北京优捷信达信息科技有限公司 基于关键词抽取的多文本对照方法
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
US20170293597A1 (en) * 2016-04-07 2017-10-12 Khalifa University Of Science, Technology And Research Methods and systems for data processing
CN107861949A (zh) * 2017-11-22 2018-03-30 珠海市君天电子科技有限公司 文本关键词的提取方法、装置及电子设备
CN108052500A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于语义分析的文本关键信息提取方法及装置
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与系统
CN109214445A (zh) * 2018-08-27 2019-01-15 陆柒(北京)科技有限公司 一种基于人工智能的多标签分类方法
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111339753A (zh) * 2020-02-25 2020-06-26 北京林业大学 一种自适应中文新词识别方法与系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744837A (zh) * 2014-01-23 2014-04-23 北京优捷信达信息科技有限公司 基于关键词抽取的多文本对照方法
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
US20170293597A1 (en) * 2016-04-07 2017-10-12 Khalifa University Of Science, Technology And Research Methods and systems for data processing
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与系统
CN107861949A (zh) * 2017-11-22 2018-03-30 珠海市君天电子科技有限公司 文本关键词的提取方法、装置及电子设备
CN108052500A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于语义分析的文本关键信息提取方法及装置
CN109214445A (zh) * 2018-08-27 2019-01-15 陆柒(北京)科技有限公司 一种基于人工智能的多标签分类方法
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111339753A (zh) * 2020-02-25 2020-06-26 北京林业大学 一种自适应中文新词识别方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TANATORN TANANTONG 等: "Extraction of Trend Keywords from Thai Twitters using N-Gram Word Combination", 《IEEE》 *
孙兴东 等: "一种基于聚类的微博关键词提取方法的研究与实现", 《信息网络安全》 *

Also Published As

Publication number Publication date
CN112163421B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN106611041A (zh) 一种新的文本相似度求解方法
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN106528621A (zh) 一种改进的密度文本聚类算法
CN104750820A (zh) 一种语料库的过滤方法及装置
CN106570112A (zh) 基于改进的蚁群算法实现文本聚类
CN106610954A (zh) 基于统计学的文本特征词汇提取方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN106610953A (zh) 基于基尼指数求解文本相似度的方法
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
Suleiman et al. Arabic text keywords extraction using word2vec
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112115256A (zh) 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN112163421B (zh) 一种基于N-Gram的关键词提取方法
CN111178009A (zh) 一种基于特征词加权的文本多语种识别方法
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110609997B (zh) 生成文本的摘要的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220517