CN116502637A - 一种结合上下文语义的文本关键词提取方法 - Google Patents
一种结合上下文语义的文本关键词提取方法 Download PDFInfo
- Publication number
- CN116502637A CN116502637A CN202310524608.3A CN202310524608A CN116502637A CN 116502637 A CN116502637 A CN 116502637A CN 202310524608 A CN202310524608 A CN 202310524608A CN 116502637 A CN116502637 A CN 116502637A
- Authority
- CN
- China
- Prior art keywords
- context
- word
- center
- weight
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000012512 characterization method Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 101150106671 COMT gene Proteins 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种结合上下文语义的文本关键词提取方法,其特征在于,包括以下步骤:S1:获取文本数据,对数值和时间类型数据进行泛化处理;S2:对文本数据进行预处理得到预处理文本;S3:从预处理文本中提取多个中心词,并根据预设的滑动窗口大小建立模型,获取各中心词在预处理文本中的上下文词;S4:根据各中心词和上下文词,构建多个中心词表和中心词表的上下文表征矩阵;S5:对各上下文表征矩阵进行降维处理,提取各中心词表内词语的上下文语义特征向量;S6:根据上下文语义特征向量得到各中心词的关键词权重;S7:将关键词权重超过阈值的中心词确定为要提取的关键词,与现有技术相比,本发明具有提高关键词提取准确性等优点。
Description
技术领域
本发明涉及关键词提取领域,尤其是涉及一种结合上下文语义的文本关键词提取方法。
背景技术
关键词Keyword即关键性的词语。从本质上来讲,关键词是描述文章本质的词语,在信息检索领域,通过关键词来区别不同文章,而在自然语言处理领域,关键词常用来提取文章的本质意思,或者进一步来对长文本进行自动摘要来提取中心思想,是自然语言处理领域的关键性技术。
现在的关键词提取技术主要是利用机器学习的有监督的提取和无监督的提取。有监督的提取需要对人工标注的待分析文本进行训练,人工预处理的代价较高。而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取,因此适用性较强。关键词的无监督提取主要分为三大类:基于统计特征的TF-IDF、基于词图模型的TextRank和基于主题模型的LDA。
LDA最主要的假设是词袋Bag of Words假设,指通过交换文章内词的顺序而不影响模型训练的结果,模型结果与词的顺序无关。很显然,如果不考虑词的顺序将丧失很多语义层面的意义,比如「谢霆锋是谁的儿子」和「谢霆锋的儿子是谁」两句话词袋基本相同但语义层面的含义完全不同。TF-IDF作为关键词提取的经典算法,虽然速度很快,但是仅从词频角度挖掘信息,并不能体现文本的深层语义信息。TextRank基本思想来自PageRank,本质是找「重要性传递」。但是由于其没有TF-IDF里考虑整个语料库的思想,仅考虑文档内部的结构信息时,导致一些在各个文档的出现频率均较高且不属于停止词的词语最终的得分较高,最后的结果也不理想。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种结合上下文语义的文本关键词提取方法。
本发明的目的可以通过以下技术方案来实现:
一种结合上下文语义的文本关键词提取方法,包括以下步骤:
S1:获取文本数据,对数值和时间类型数据进行泛化处理;
S2:对文本数据进行中文分词和词性标注,并进行停用词过滤和词性过滤,得到预处理文本;
S3:从利用TFIDF算法和TextRank算法从预处理文本中提取多个中心词,并根据预设的滑动窗口大小建立模型,获取各中心词在预处理文本中的上下文词;
S4:根据各中心词和上下文词,构建多个中心词表和中心词表的上下文表征矩阵;
S5:对各上下文表征矩阵进行降维处理,提取各中心词表内词语的上下文语义特征向量;
S6:根据上下文语义特征向量得到各中心词的关键词权重;
S7:将关键词权重超过阈值的中心词确定为要提取的关键词。
进一步地,所述的中心词表通过获取权值排列前1000的词语构建。
更进一步地,所述的上下文表征矩阵具体包括:对出现在同一语句中、同一段落中、同一篇章中的任意两词语wi和wi建立关联,构建上下文表征矩阵:
CoMat(wi,wj)=
{CoMat(wi,wj)sequence,
CoMat(wi,wj)paragraph,
CoMat(wi,wj)chapter},
1≤i,j≤2000
其中,CoMat(wi,wj)sequence为语句级上下文表征矩阵,CoMat(wi,j)paragraph为段落级上下文表征矩阵,CoMat(wi,wj)chapter为篇章级共现矩阵,i为矩阵行索引,j为列索引,分别用于表示词语wi和wi的索引,所述的上下文表征矩阵中的元素表示行、列索引指向的词语wi和wi的联合概率CoMat(wi,wj)=probjoint(wi,j)。
进一步地,所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括:
基于上下文语义特征向量中的键向量,得到每个中心词对应上下文语义特征的第一权重得分;
基于第一权重得分集合与上下文语义特征向量中的值向量,得到每个中心词对应上下文语义特征的第二权重得分;
基于第二权重得分集合与预设的第一权重系数和第二权重系数,分别得到每个中心词对应上下文语义特征的第三权重得分和第四权重得分;
分别根据第三权重得分和第四权重得分,确定每个中心词的第一权重关联程度和第二权重关联程度;
利用第一权重关联程度和第二权重关联程度,生成各中心词的关键词权重的置信度,得到其概率分布,并将方差作为各中心词的关键词权。
进一步地,所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括:
根据上下文语义特征向量,从中心词表内选取对应中心词的上下文词;
将上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;
计算每个上下文词在Huffman树中的概率;
将中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
更进一步地,所述的计算每个上下文词在Huffman树中的概率具体包括:
确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。
更进一步地,所述的逐个计算路径中的节点的概率,具体包括:对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积,若该节点为左节点,则节点的概率为点积的sigmoid函数;若该节点为右节点,则节点的概率为1减去其对应的所述左节点的概率。
进一步地,步骤S3之前,还包括:从语料中利用Word2Vec技术训练词向量,并根据业务需求调整所述滑动窗口的大小。
与现有技术相比,本发明具有以下优点:
1)本发明根据预设的滑动窗口大小建立模型,获取各中心词在预处理文本中的上下文词,构建多个中心词表和中心词表的上下文表征矩阵并提取各中心词表内词语的上下文语义特征向量,有效结合上下文信息和语义信息,在提取关键词时更加合理,提高了关键词的准确性;
2)本发明结合TFIDF算法和TextRank算法作为文本的特征,与单一的关键词提取算法相比,本方法更进一步地提高了关键词提取的准确性,避开了TFIDF只考虑相同词的词频弊端、TextRank没有考虑语言环境下语料库不足的弊端以及LDA只考虑词袋的弊端,取得了优异的提取关键词效果。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明提供一种结合上下文语义的文本关键词提取方法,包括以下步骤:
S1:获取文本数据,对数值和时间类型数据进行泛化处理;
S2:对文本数据进行中文分词和词性标注,并进行停用词过滤和词性过滤,得到预处理文本;
S3:从利用TFIDF算法和TextRank算法从预处理文本中提取多个中心词,并根据预设的滑动窗口大小建立模型,获取各中心词在预处理文本中的上下文词;
S4:根据各中心词和上下文词,构建多个中心词表和中心词表的上下文表征矩阵;
S5:对各上下文表征矩阵进行降维处理,提取各中心词表内词语的上下文语义特征向量;
S6:根据上下文语义特征向量得到各中心词的关键词权重;
S7:将关键词权重超过阈值的中心词确定为要提取的关键词。
中心词表通过获取权值排列前1000的词语构建,上下文表征矩阵具体包括:对出现在同一语句中、同一段落中、同一篇章中的任意两词语wi和wi建立关联,构建上下文表征矩阵:
CoMat(wi,wj)=
{CoMat(wi,wj)sequence,
CoMt(wi,wj)paragraph,
CoMat(wi,wj)chapter},
1≤i,j≤2000
其中,CoMat(wi,wj)sequence为语句级上下文表征矩阵,CoMat(wi,wj)paragraph为段落级上下文表征矩阵,CoMat(wi,wj)chapter为篇章级共现矩阵,i为矩阵行索引,j为列索引,分别用于表示词语wi和wi的索引,上下文表征矩阵中的元素表示行、列索引指向的词语wi和wi的联合概率CoMat(wi,wj)=probjoint(wi,wj)。
本实施例中,根据上下文语义特征向量得到各中心词的关键词权重具体包括:
基于上下文语义特征向量中的键向量,得到每个中心词对应上下文语义特征的第一权重得分;基于第一权重得分集合与上下文语义特征向量中的值向量,得到每个中心词对应上下文语义特征的第二权重得分;基于第二权重得分集合与预设的第一权重系数和第二权重系数,分别得到每个中心词对应上下文语义特征的第三权重得分和第四权重得分;分别根据第三权重得分和第四权重得分,确定每个中心词的第一权重关联程度和第二权重关联程度;利用第一权重关联程度和第二权重关联程度,生成各中心词的关键词权重的置信度,得到其概率分布,并将方差作为各中心词的关键词权。
作为另一种方法,根据上下文语义特征向量得到各中心词的关键词权重也可以如下实现:根据上下文语义特征向量,从中心词表内选取对应中心词的上下文词;将上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;计算每个上下文词在Huffman树中的概率;将中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
具体地,其中计算每个上下文词在Huffman树中的概率具体包括:确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。逐个计算路径中的节点的概率具体包括:对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积,若该节点为左节点,则节点的概率为点积的sigmoid函数;若该节点为右节点,则节点的概率为1减去其对应的所述左节点的概率。
另外,本实施例中,在步骤S3之前,还包括从语料中利用Word2Vec技术训练词向量,并根据业务需求调整所述滑动窗口的大小。
本发明通过提取词语的上下文语义表征,判断语句上下文语义表征与关键词组语义表征的相似度,抽取相似度大于设定值的语句组成公告文本摘要,摘要内容与用户输入关键词关联度高;可有效去除用户不关注的“冗余”信息,可以提高用户工作效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种结合上下文语义的文本关键词提取方法,其特征在于,包括以下步骤:
S1:获取文本数据,对数值和时间类型数据进行泛化处理;
S2:对文本数据进行中文分词和词性标注,并进行停用词过滤和词性过滤,得到预处理文本;
S3:利用TFIDF算法和TextRank算法从预处理文本中提取多个中心词,并根据预设的滑动窗口大小建立模型,获取各中心词在预处理文本中的上下文词;
S4:根据各中心词和上下文词,构建多个中心词表和中心词表的上下文表征矩阵;
S5:对各上下文表征矩阵进行降维处理,提取各中心词表内词语的上下文语义特征向量;
S6:根据上下文语义特征向量得到各中心词的关键词权重;
S7:将关键词权重超过阈值的中心词确定为要提取的关键词。
2.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的中心词表通过获取权值排列前1000的词语构建。
3.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的上下文表征矩阵具体包括:对出现在同一语句中、同一段落中、同一篇章中的任意两词语wi和wi建立关联,构建上下文表征矩阵:
CoMat(wi,wj)=
{CoMat(wi,wj)sequence,
CoMat(wi,wj)paragraph,
CoMat(wi,wj)chapter},
1≤i,j≤2000
其中,CoMat(wi,wj)sequence为语句级上下文表征矩阵,CoMat(wi,wj)paragraph为段落级上下文表征矩阵,CoMat(wi,wj)chapter为篇章级共现矩阵,i为矩阵行索引,j为列索引,分别用于表示词语wi和wi的索引,所述的上下文表征矩阵中的元素表示行、列索引指向的词语wi和wi的联合概率CoMat(wi,wj)=probjoint(wi,wj)。
4.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括:
基于上下文语义特征向量中的键向量,得到每个中心词对应上下文语义特征的第一权重得分;
基于第一权重得分集合与上下文语义特征向量中的值向量,得到每个中心词对应上下文语义特征的第二权重得分;
基于第二权重得分集合与预设的第一权重系数和第二权重系数,分别得到每个中心词对应上下文语义特征的第三权重得分和第四权重得分;
分别根据第三权重得分和第四权重得分,确定每个中心词的第一权重关联程度和第二权重关联程度;
利用第一权重关联程度和第二权重关联程度,生成各中心词的关键词权重的置信度,得到其概率分布,并将方差作为各中心词的关键词权。
5.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括:
根据上下文语义特征向量,从中心词表内选取对应中心词的上下文词;
将上下文词构成一个Huffman树的叶节点,获取每个上下文词的Huffman编码;
计算每个上下文词在Huffman树中的概率;
将中心词的每个上下文词的概率相乘,得到所述中心词的关键词权重。
6.根据权利要求5所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的计算每个上下文词在Huffman树中的概率具体包括:
确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点;逐个计算路径中的节点的概率;将路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。
7.根据权利要求6所述的一种结合上下文语义的文本关键词提取方法,其特征在于,所述的逐个计算路径中的节点的概率,具体包括:对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积,若该节点为左节点,则节点的概率为点积的sigmoid函数;若该节点为右节点,则节点的概率为1减去其对应的所述左节点的概率。
8.根据权利要求7所述的一种结合上下文语义的文本关键词提取方法,其特征在于,步骤S3之前,还包括:从语料中利用Word2Vec技术训练词向量,并根据业务需求调整所述滑动窗口的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524608.3A CN116502637A (zh) | 2023-05-11 | 2023-05-11 | 一种结合上下文语义的文本关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524608.3A CN116502637A (zh) | 2023-05-11 | 2023-05-11 | 一种结合上下文语义的文本关键词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502637A true CN116502637A (zh) | 2023-07-28 |
Family
ID=87328228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310524608.3A Withdrawn CN116502637A (zh) | 2023-05-11 | 2023-05-11 | 一种结合上下文语义的文本关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502637A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118227796A (zh) * | 2024-05-23 | 2024-06-21 | 国家计算机网络与信息安全管理中心 | 长文本特定内容自动分类与阈值优化方法及其系统 |
-
2023
- 2023-05-11 CN CN202310524608.3A patent/CN116502637A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118227796A (zh) * | 2024-05-23 | 2024-06-21 | 国家计算机网络与信息安全管理中心 | 长文本特定内容自动分类与阈值优化方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
JP3682529B2 (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN110222172B (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN109902290B (zh) | 一种基于文本信息的术语提取方法、系统和设备 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111984782B (zh) | 藏文文本摘要生成方法和系统 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN110866102A (zh) | 检索处理方法 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230728 |