CN114490941B - 一种基于预加载权重词性组合的中文关键短语抽取的方法 - Google Patents

一种基于预加载权重词性组合的中文关键短语抽取的方法 Download PDF

Info

Publication number
CN114490941B
CN114490941B CN202210100205.1A CN202210100205A CN114490941B CN 114490941 B CN114490941 B CN 114490941B CN 202210100205 A CN202210100205 A CN 202210100205A CN 114490941 B CN114490941 B CN 114490941B
Authority
CN
China
Prior art keywords
phrase
weight
text
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210100205.1A
Other languages
English (en)
Other versions
CN114490941A (zh
Inventor
夏立
钱柏丞
周晶
相若晨
李颜戎
杨学鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fenghuo Tiandi Communication Technology Co ltd
Original Assignee
Nanjing Fenghuo Tiandi Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fenghuo Tiandi Communication Technology Co ltd filed Critical Nanjing Fenghuo Tiandi Communication Technology Co ltd
Priority to CN202210100205.1A priority Critical patent/CN114490941B/zh
Publication of CN114490941A publication Critical patent/CN114490941A/zh
Application granted granted Critical
Publication of CN114490941B publication Critical patent/CN114490941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:S1、对文本预处理;S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则。该种基于预加载权重词性组合的中文关键短语抽取的方法,通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。

Description

一种基于预加载权重词性组合的中文关键短语抽取的方法
技术领域
本发明涉及人工智能自然语言处理技术领域,具体为一种基于预加载权重词性组合的中文关键短语抽取的方法。
背景技术
目标文本(句、段、篇)的关键词通常是几个词或者短语,作为对该文本主要内容的提要,关键词是人们快速了解文本内容、把握主题的重要方式。关键词广泛应用于人们需要高效管理和检索文档的领域,例如搜索引擎、新闻报道、学术论文等。同时,关键词抽取也是NLP领域重要的核心技术之一,是NLP多项能力的奠基技术,例如:文本检索、文本分类、文本摘要等。
当前比较常用的关键词抽取的方法有TF-IDF、Textrank、Embedding相似度等,但是上述几种方法都存在一定的缺陷,如TF-IDF简单易操作,且速度非常快,但是其只是从词频角度挖掘信息,并不能体现文本的深层语义信息;Textrank虽然可以设计词共现窗口,解决一定的上下文语义问题,但是其计算量大,速度慢,且窗口能包含的信息有限;Embedding相似度的方法虽然可以解决语义理解的问题,但是基于不同语料训练出的embedding向量不同,且需要大量语料训练,同时最为致命的是基于embedding的方法,不仅可解释性差,而且后期finetune的空间小,且计算速度慢,实用性差。因此,我们对此做出改进,提出一种基于预加载权重词性组合的中文关键短语抽取的方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
作为本发明的一种优选技术方案,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
作为本发明的一种优选技术方案,S2.1中每个词的权重值weight计算公式为:
weight=count*word_idf/total_length。
作为本发明的一种优选技术方案,S2.3中候选短语权重的计算公式为:
cpw=sum_w*length_w*pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
作为本发明的一种优选技术方案,S2.4中LDA主题权重cpw+的计算公式为:
cpw+=topic_w*topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
作为本发明的一种优选技术方案,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
作为本发明的一种优选技术方案,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
本发明的有益效果是:
该种基于预加载权重词性组合的中文关键短语抽取的方法,通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。另外,为了增强语义理解能力和计算速度,本发明通过基于同分布文本训练的预训练模型,不仅能够针对业务文本切词更加精准,而且可以直接加载相关权重文件,极大提升计算速度,让模型更为实用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明建立的短语抽取模型示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
其中,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
其中,S2.1中每个词的权重值weight计算公式为:
weight=count*word_idf/total_length。
其中,S2.3中候选短语权重的计算公式为:
cpw=sum_w*length_w*pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
其中,S2.4中LDA主题权重cpw+的计算公式为:
cpw+=topic_w*topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
其中,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
其中,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
本发明可有效解决现有技术中关键词抽取方法中存在的偏向于词频统计,不能理解语义信息,不能突出主题;计算速度慢,计算量大,严重影响效率;可解释性差,模型finetune优化困难等问题。通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。另外,为了增强语义理解能力和计算速度,本发明通过基于同分布文本训练的预训练模型,不仅能够针对业务文本切词更加精准,而且可以直接加载相关权重文件,极大提升计算速度,让模型更为实用。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果;
其中S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.1中每个词的权重值weight计算公式为:
weight = count * word_idf / total_length。
3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.3中候选短语权重的计算公式为:
cpw = sum_w * length_w * pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.4中LDA主题权重cpw +的计算公式为:
cpw += topic_w * topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
6.根据权利要求5所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
CN202210100205.1A 2022-01-27 2022-01-27 一种基于预加载权重词性组合的中文关键短语抽取的方法 Active CN114490941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210100205.1A CN114490941B (zh) 2022-01-27 2022-01-27 一种基于预加载权重词性组合的中文关键短语抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210100205.1A CN114490941B (zh) 2022-01-27 2022-01-27 一种基于预加载权重词性组合的中文关键短语抽取的方法

Publications (2)

Publication Number Publication Date
CN114490941A CN114490941A (zh) 2022-05-13
CN114490941B true CN114490941B (zh) 2024-04-09

Family

ID=81475871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210100205.1A Active CN114490941B (zh) 2022-01-27 2022-01-27 一种基于预加载权重词性组合的中文关键短语抽取的方法

Country Status (1)

Country Link
CN (1) CN114490941B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926320A (zh) * 2021-03-24 2021-06-08 山东亿云信息技术有限公司 一种基于主题词优化的文本关键内容智能抽取方法及系统
CN113221559A (zh) * 2021-05-31 2021-08-06 浙江大学 利用语义特征的科技创新领域中文关键短语抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2480988A1 (en) * 2009-09-25 2012-08-01 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926320A (zh) * 2021-03-24 2021-06-08 山东亿云信息技术有限公司 一种基于主题词优化的文本关键内容智能抽取方法及系统
CN113221559A (zh) * 2021-05-31 2021-08-06 浙江大学 利用语义特征的科技创新领域中文关键短语抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合统计学和TextRank的生物医学文献关键短语抽取;魏;孙先朋;;计算机应用与软件;20170630(第06期);第27-30页 *

Also Published As

Publication number Publication date
CN114490941A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
Thaokar et al. Test model for summarizing hindi text using extraction method
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Awajan Keyword extraction from Arabic documents using term equivalence classes
CN109062895B (zh) 一种智能语义处理方法
Jayasiriwardene et al. Keyword extraction from Tweets using NLP tools for collecting relevant news
John et al. A supervised keyphrase extraction system
Suleiman et al. Arabic text keywords extraction using word2vec
Mahdaouy et al. A study of association measures and their combination for Arabic MWT extraction
Momtaz et al. Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents.
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Setiawan et al. The use of dynamic n-gram to enhance tf-idf features extraction for bahasa indonesia cyberbullying classification
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
Doostmohammadi et al. Perkey: A persian news corpus for keyphrase extraction and generation
Balog et al. The university of amsterdam at weps2
Bahloul et al. ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction
CN114490941B (zh) 一种基于预加载权重词性组合的中文关键短语抽取的方法
Husain et al. A language Independent Approach to develop Urdu stemmer
Showrov et al. Keyword extraction from bengali news
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
Farooq et al. Comparing Different Techniques of Urdu Text Summarization
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant