CN114490941B - 一种基于预加载权重词性组合的中文关键短语抽取的方法 - Google Patents
一种基于预加载权重词性组合的中文关键短语抽取的方法 Download PDFInfo
- Publication number
- CN114490941B CN114490941B CN202210100205.1A CN202210100205A CN114490941B CN 114490941 B CN114490941 B CN 114490941B CN 202210100205 A CN202210100205 A CN 202210100205A CN 114490941 B CN114490941 B CN 114490941B
- Authority
- CN
- China
- Prior art keywords
- phrase
- weight
- text
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000009472 formulation Methods 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:S1、对文本预处理;S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则。该种基于预加载权重词性组合的中文关键短语抽取的方法,通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。
Description
技术领域
本发明涉及人工智能自然语言处理技术领域,具体为一种基于预加载权重词性组合的中文关键短语抽取的方法。
背景技术
目标文本(句、段、篇)的关键词通常是几个词或者短语,作为对该文本主要内容的提要,关键词是人们快速了解文本内容、把握主题的重要方式。关键词广泛应用于人们需要高效管理和检索文档的领域,例如搜索引擎、新闻报道、学术论文等。同时,关键词抽取也是NLP领域重要的核心技术之一,是NLP多项能力的奠基技术,例如:文本检索、文本分类、文本摘要等。
当前比较常用的关键词抽取的方法有TF-IDF、Textrank、Embedding相似度等,但是上述几种方法都存在一定的缺陷,如TF-IDF简单易操作,且速度非常快,但是其只是从词频角度挖掘信息,并不能体现文本的深层语义信息;Textrank虽然可以设计词共现窗口,解决一定的上下文语义问题,但是其计算量大,速度慢,且窗口能包含的信息有限;Embedding相似度的方法虽然可以解决语义理解的问题,但是基于不同语料训练出的embedding向量不同,且需要大量语料训练,同时最为致命的是基于embedding的方法,不仅可解释性差,而且后期finetune的空间小,且计算速度慢,实用性差。因此,我们对此做出改进,提出一种基于预加载权重词性组合的中文关键短语抽取的方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
作为本发明的一种优选技术方案,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
作为本发明的一种优选技术方案,S2.1中每个词的权重值weight计算公式为:
weight=count*word_idf/total_length。
作为本发明的一种优选技术方案,S2.3中候选短语权重的计算公式为:
cpw=sum_w*length_w*pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
作为本发明的一种优选技术方案,S2.4中LDA主题权重cpw+的计算公式为:
cpw+=topic_w*topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
作为本发明的一种优选技术方案,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
作为本发明的一种优选技术方案,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
本发明的有益效果是:
该种基于预加载权重词性组合的中文关键短语抽取的方法,通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。另外,为了增强语义理解能力和计算速度,本发明通过基于同分布文本训练的预训练模型,不仅能够针对业务文本切词更加精准,而且可以直接加载相关权重文件,极大提升计算速度,让模型更为实用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明建立的短语抽取模型示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
其中,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
其中,S2.1中每个词的权重值weight计算公式为:
weight=count*word_idf/total_length。
其中,S2.3中候选短语权重的计算公式为:
cpw=sum_w*length_w*pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
其中,S2.4中LDA主题权重cpw+的计算公式为:
cpw+=topic_w*topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
其中,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
其中,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
本发明可有效解决现有技术中关键词抽取方法中存在的偏向于词频统计,不能理解语义信息,不能突出主题;计算速度慢,计算量大,严重影响效率;可解释性差,模型finetune优化困难等问题。通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。另外,为了增强语义理解能力和计算速度,本发明通过基于同分布文本训练的预训练模型,不仅能够针对业务文本切词更加精准,而且可以直接加载相关权重文件,极大提升计算速度,让模型更为实用。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果;
其中S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.1中每个词的权重值weight计算公式为:
weight = count * word_idf / total_length。
3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.3中候选短语权重的计算公式为:
cpw = sum_w * length_w * pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.4中LDA主题权重cpw +的计算公式为:
cpw += topic_w * topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
6.根据权利要求5所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100205.1A CN114490941B (zh) | 2022-01-27 | 2022-01-27 | 一种基于预加载权重词性组合的中文关键短语抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100205.1A CN114490941B (zh) | 2022-01-27 | 2022-01-27 | 一种基于预加载权重词性组合的中文关键短语抽取的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114490941A CN114490941A (zh) | 2022-05-13 |
CN114490941B true CN114490941B (zh) | 2024-04-09 |
Family
ID=81475871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210100205.1A Active CN114490941B (zh) | 2022-01-27 | 2022-01-27 | 一种基于预加载权重词性组合的中文关键短语抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490941B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926320A (zh) * | 2021-03-24 | 2021-06-08 | 山东亿云信息技术有限公司 | 一种基于主题词优化的文本关键内容智能抽取方法及系统 |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2480988A1 (en) * | 2009-09-25 | 2012-08-01 | Shady Shehata | Methods and systems for extracting keyphrases from natural text for search engine indexing |
-
2022
- 2022-01-27 CN CN202210100205.1A patent/CN114490941B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926320A (zh) * | 2021-03-24 | 2021-06-08 | 山东亿云信息技术有限公司 | 一种基于主题词优化的文本关键内容智能抽取方法及系统 |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
融合统计学和TextRank的生物医学文献关键短语抽取;魏;孙先朋;;计算机应用与软件;20170630(第06期);第27-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114490941A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
Thaokar et al. | Test model for summarizing hindi text using extraction method | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN109522547B (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
Sabuna et al. | Summarizing Indonesian text automatically by using sentence scoring and decision tree | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
CN109062895B (zh) | 一种智能语义处理方法 | |
Jayasiriwardene et al. | Keyword extraction from Tweets using NLP tools for collecting relevant news | |
John et al. | A supervised keyphrase extraction system | |
Suleiman et al. | Arabic text keywords extraction using word2vec | |
Mahdaouy et al. | A study of association measures and their combination for Arabic MWT extraction | |
Momtaz et al. | Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents. | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Setiawan et al. | The use of dynamic n-gram to enhance tf-idf features extraction for bahasa indonesia cyberbullying classification | |
Roy et al. | An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection | |
Doostmohammadi et al. | Perkey: A persian news corpus for keyphrase extraction and generation | |
Balog et al. | The university of amsterdam at weps2 | |
Bahloul et al. | ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction | |
CN114490941B (zh) | 一种基于预加载权重词性组合的中文关键短语抽取的方法 | |
Husain et al. | A language Independent Approach to develop Urdu stemmer | |
Showrov et al. | Keyword extraction from bengali news | |
CN111209737B (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
Farooq et al. | Comparing Different Techniques of Urdu Text Summarization | |
Li et al. | Keyphrase extraction and grouping based on association rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |