CN115408523A - 基于摘要提取和关键字提取的中长文本分类方法和系统 - Google Patents
基于摘要提取和关键字提取的中长文本分类方法和系统 Download PDFInfo
- Publication number
- CN115408523A CN115408523A CN202211061622.6A CN202211061622A CN115408523A CN 115408523 A CN115408523 A CN 115408523A CN 202211061622 A CN202211061622 A CN 202211061622A CN 115408523 A CN115408523 A CN 115408523A
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- model
- vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于摘要提取和关键字提取的中长文本分类方法和系统,方法包括以下步骤:基于TextRank算法,提取文本摘要;识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果:本申请能够将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果,通过与传统的BiLSTM模型进行对比,本申请准确率(precision)、召回率(recall)和F1值(F1‑score)均较高。
Description
技术领域
本发明涉及文本分类技术领域,具体涉及基于摘要提取和关键字提取的中长文本分类方法和系统。
背景技术
新闻是人们获取信息、了解时事热点的重要途径。随着用户碎片化的使用场景逐渐增多,大量新闻文本信息均以短文本的形式呈现并进行传播。与长文本相比,新闻短文本的内容具有词汇不规范、特征维度稀疏和语义模糊的问题,因此现有的文本分类方法直接应用于新闻短文本分类中效果不佳。
文本分类分为短文本分类和中长文本分类。在中长文本分类中,文本中词容量比较大且文本中存在大量冗余数据,如果全部作为文本的特征输入,不但耗时较长,并且分类效果也比较差,可以通过提取长文本关键特征的方法保留关键特征,同时减少无关词语的占比。长文本的特征可以从关键子句和关键词两个方面提取。关键子句可以有效的保留文本的中心特征句和特征句子词之间的联系,关键词词组则保留了关键子句忽略的特征词语,可以作为特征的补充。
传统文本分类算法通常基于向量空间模型,该方法将文本数据用特征词及权值构成的向量表示。但使用该方法在表示新闻短文本时,高维稀疏问题与语义缺失问题则更加严重。
因此,针对问题,需要提出一种更优的基于摘要提取和关键字提取的中长文本分类方法和系统,以解决高维稀疏问题与语义缺失问题。
发明内容
有鉴于此,本发明的目的在于提出一种改进的基于摘要提取和关键字提取的中长文本分类方法和系统,以提高测试的覆盖率和灵活性。
基于上述目的,一方面,本发明提供了基于摘要提取和关键字提取的中长文本分类方法,其中该方法包括以下步骤:
基于TextRank算法,提取文本摘要,获得文本摘要数据集;
识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,Text Rank在构建图的时候将节点由网页改成了句子,并为节点之间的边引入了权值,其中权值表示两个句子的相似程度,构建的是一个带权无向图,权值计算公式如下:
其中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻的词对本词的贡献程度。In(Vi)是整个文本中,共现关系包含句子i的所有词的集合;Out(Vj)是句子j的共现关系中所包含的所有词的集合;wji表示句子i和句子j的相似度,可以通过句子i和句子j的词向量求余弦相似度获得;WS(Vj)表示上次迭代结束后句子j的权重。d是阻尼系数。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量时,将文本中的每个句子分别看作一个节点,如果两个句子有相似性,则认为这两个句子对应的节点之间存在一条无向有权边。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,具体包括:
将给定的文本分成单组句子;
利用jieba分词工具句子进行分词,并过滤掉停用词,得到句子的分词结果;
加载GloVe词嵌入模型,将分词结果转换成词向量。
在根据本发明的基于摘要提取和关键字提取的的中长文本分类方法的一些实施例中,基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,具体还包括:
将句子中所有的词向量求和,得到句子向量;
计算句子之间的余弦相似度,建立句子之间的相似度矩阵;
基于TextRank算法,迭代传播各节点的权重,直至收敛,获得句子的排名;
选取排名前N的句子作为文本的摘要;用作后续模型的输入。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,所述将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量的方法,具体包括:
获取所提取的摘要,利用jieba分词工具对给定的文本进行分词,并过滤掉停用词,得到文本的分词结果;
加载GloVe词嵌入模型,将分词结果转换成词向量;
将给定摘要对应的词向量和对应的分类类别,输入到BiLSTM模型中进行模型训练;
训练好的模型的BiLSTM层得到的向量作为摘要对应的全局语义的特征。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量的方法,具体包括:
对于给定的文本全文,利用jieba进行分词和词性标注,并过滤掉停用词,只保留指定词性的单词;
加载GloVe词嵌入模型,将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C(wv)},其中C(wi)表示词wi的词向量,v是文本中所有所有保留下来的词的数量;
直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练。然后利用训练好的模型,选出文档对应的概率最大的主题,然后选择概率最大的主题下的前k个词(w1,w2,w3,…wk,)及其对应的概率(p1,p2,p3,…pk,)。将概率值进行归一化作为k个词的权重信息;
从GloVe词嵌入模型的结果,获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C(w3),…C(wk)),利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和,作为文本的关键词特征信息。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,具体包括:
将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接;拼接之后的词向量融合了全局的语义特征和关键词特征。
在根据本发明的基于摘要提取和关键字提取的中长文本分类方法的一些实施例中,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,具体还包括:
将拼接之后的向量输入到全连接神经网络进行分类。
本发明的另一方面,还提供了基于摘要提取和关键字提取的中长文本分类系统,其中包括:
文本摘要获取模块,基于TextRank算法,提取文本摘要,获得文本摘要数据集;
全局语义识别模块,识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
关键词向量转换模块,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
分类结果获取模块,获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
本发明至少具有以下有益技术效果:本发明建立了一种基于文本摘要抽取和主题词抽取进行中长文本分类的方法。在训练阶段,首先,利用TextRank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练。在测试阶段,利用TextRank算法,提取文本摘要,随后将文本摘要数据输入到训练好的BiLSTM模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络模型得到最后的分类结果。
本申请能够将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果,通过与传统的BiLSTM模型进行对比,本申请准确率(precision)、召回率(recall)和F1值(F1-score)均较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
在图中:
图1示出了根据本发明的基于摘要提取和关键字提取的中长文本分类方法的实现流程示意图;
图2示出了基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法的实现流程示意图;
图3示出了将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量的方法的实现流程示意图;
图4示出了BiLSTM模型训练的过程示意图;
图5示出了BiLSTM模型测试和推断的过程示意图;
图6示出了基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量的方法的实现流程示意图;
图7示出了输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法的实现流程示意图;
图8示出了基于BiLSTM和LDA的文本分类训练过程的流程示意图;
图9示出了基于BiLSTM和LDA的文本分类的测试和推断过程的流程示意图;
图10示出了基于摘要提取和关键字提取的中长文本分类系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
本发明建立了一种基于文本摘要抽取和主题词抽取进行中长文本分类的方法。在训练阶段,首先,利用TextRank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练。在测试阶段,利用TextRank算法,提取文本摘要,随后将文本摘要数据输入到训练好的BiLSTM模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络模型得到最后的分类结果。
本申请能够将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果,通过与传统的BiLSTM模型进行对比,本申请准确率(precision)、召回率(recall)和F1值(F1-score)均较高。
本发明实施例提供了基于摘要提取和关键字提取的中长文本分类方法,如图1所示,所述基于摘要提取和关键字提取的中长文本分类方法,具体包括:
步骤S10,基于TextRank算法,提取文本摘要,获得文本摘要数据集;
步骤S20,识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
步骤S30,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
步骤S40,获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
同时,本申请分为训练阶段和测试阶段,首先,利用TextRank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练。在测试阶段,利用TextRank算法,提取文本摘要,随后将文本摘要数据输入到训练好的BiLSTM模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络模型得到最后的分类。
需要说明的是,Text Rank算法源于PageRank算法,PageRank算法通过将网页与其链接的网页之间构成图关系,每一个网页作为一个节点,而链接作为边,通过迭代计算筛选权值大的节点,也就是链接比较多的网页,一般用于网站排名。Text Rank算法将文本中的词或者句子类比成PageRank算法中的网页,构建词或者句子之间的图关系,通过类似的迭代计算可以得到相应文本中句子的重要度排名,因此可以很方便的得出句子中的关键子句。
Text Rank在构建图的时候将节点由网页改成了句子,并为节点之间的边引入了权值,其中权值表示两个句子的相似程度,构建的是一个带权无向图,权值计算公式(1)如下:
其中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻的词对本词的贡献程度。In(Vi)是整个文本中,共现关系包含句子i的所有词的集合;Out(Vj)是句子j的共现关系中所包含的所有词的集合;wji表示句子i和句子j的相似度,可以通过句子i和句子j的词向量求余弦相似度获得;WS(Vj)表示上次迭代结束后句子j的权重。d是阻尼系数。
示例性的,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量时,将文本中的每个句子分别看作一个节点,如果两个句子有相似性,则认为这两个句子对应的节点之间存在一条无向有权边,衡量句子之间相似性的公式(2)如下:
本发明实施例提供了基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,如图2所示,所述基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,具体包括:
步骤S101,将给定的文本分成单组句子;
步骤S102,利用jieba分词工具句子进行分词,并过滤掉停用词,得到句子的分词结果;
步骤S103,加载GloVe词嵌入模型,将分词结果转换成词向量。
步骤S104,将句子中所有的词向量求和,得到句子向量;
步骤S105,计算句子之间的余弦相似度,建立句子之间的相似度矩阵;
步骤S106,基于TextRank算法,迭代传播各节点的权重,直至收敛,获得句子的排名;
步骤S107,选取排名前N的句子作为文本的摘要;用作后续模型的输入。
示例性的,在步骤S105中,计算句子之间的余弦相似度时,利用公式(2)计算句子之间的余弦相似度,而在步骤S106中,基于TextRank算法,迭代传播各节点的权重是通过公式(1)实现TextRank算法。
本发明实施例提供了将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量的方法,如图3所示,所述将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量的方法,具体包括:
步骤S201,获取所提取的摘要,利用jieba分词工具对给定的文本进行分词,并过滤掉停用词,得到文本的分词结果;
步骤S202,加载GloVe词嵌入模型,将分词结果转换成词向量;
步骤S203,将给定摘要对应的词向量和对应的分类类别,输入到BiLSTM模型中进行模型训练;
步骤S204,训练好的模型的BiLSTM层得到的向量作为摘要对应的全局语义的特征。
示例性的,如图4所示,示出了BiLSTM模型训练的过程,如图5所示,示出了BiLSTM模型测试和推断的过程。
本发明实施例提供了基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量的方法,如图6所示,所述基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量的方法,具体包括:
步骤S301,对于给定的文本全文,利用jieba进行分词和词性标注,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;
步骤S302,加载GloVe词嵌入模型,将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C(wv)},其中C(wi)表示词wi的词向量,v是文本中所有所有保留下来的词的数量;
步骤S303,直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练。然后利用训练好的模型,选出文档对应的概率最大的主题,然后选择概率最大的主题下的前k个词(w1,w2,w3,…wk,)及其对应的概率(p1,p2,p3,…pk,)。将概率值进行归一化作为k个词的权重信息;
步骤S304,从GloVe词嵌入模型的结果,获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C(w3),…C(wk)),利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和,作为文本的关键词特征信息。
示例性的,在步骤S303中,将概率值进行归一化作为k个词的权重信息,其公式(3)如下:
其中,qi就是pi归一化以后的值,(q1,q2,q3,…qk,)即为前k个词的权重大小。
示例性的,对词向量进行加权求和,作为文本的关键词特征信息的计算公式(4)如下:
本发明实施例提供了输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,如图7所示,所述输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,具体包括:
步骤S401,将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接;拼接之后的词向量融合了全局的语义特征和关键词特征;
示例性的,如图8所示,示出了基于BiLSTM和LDA的文本分类训练过程,而图9示出了基于BiLSTM和LDA的文本分类的测试和推断过程。
步骤S402,将拼接之后的向量输入到全连接神经网络进行分类。为评估本发明方法在新闻文本分类中的效果,采用搜狐新闻分类数据集,与传统的BiLSTM模型进行对比实验。评价指标包括准确率(precision)、召回率(recall)和F1值(F1-score),得出模型的对比结果如下表:
可以看出本发明提出的算法在准确率、召回率和F1值上都优于传统的BiLSTM模型,本申请能够将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果,通过与传统的BiLSTM模型进行对比,本申请准确率(precision)、召回率(recall)和F1值(F1-score)均较高。
本发明实施例提供了基于摘要提取和关键字提取的中长文本分类系统,如图10所示,所述基于摘要提取和关键字提取的中长文本分类系统,具体包括:
文本摘要获取模块100,基于TextRank算法,提取文本摘要,获得文本摘要数据集;
全局语义识别模块200,识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
关键词向量转换模块300,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
分类结果获取模块400,获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
需要说明的是,Text Rank算法源于PageRank算法,PageRank算法通过将网页与其链接的网页之间构成图关系,每一个网页作为一个节点,而链接作为边,通过迭代计算筛选权值大的节点,也就是链接比较多的网页,一般用于网站排名。Text Rank算法将文本中的词或者句子类比成PageRank算法中的网页,构建词或者句子之间的图关系,通过类似的迭代计算可以得到相应文本中句子的重要度排名,因此可以很方便的得出句子中的关键子句。
本发明实施例还提供的一种计算机设备,该计算机设备包括显示屏、存储器、处理器以及计算机程序,其中所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于摘要提取和关键字提取的中长文本分类方法的步骤。
所述基于摘要提取和关键字提取的中长文本分类的方法,具体包括:
基于TextRank算法,提取文本摘要,获得文本摘要数据集;
识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
可以理解的是,在本发明提供的优选实施例中,该计算机设备还可以为笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)、手机等可以进行通信的设备。
本发明实施提供的一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于摘要提取和关键字提取的中长文本分类方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。例如,上述计算机程序可以被分割成上述各个系统实施例提供的基于摘要提取和关键字提取的的中长文本分类系统的单元或模块。
本领域技术人员可以理解,上述终端设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据基于摘要提取和关键字提取的中长文本分类系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明建立了一种基于文本摘要抽取和主题词抽取进行中长文本分类的方法。在训练阶段,首先,利用TextRank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练。在测试阶段,利用TextRank算法,提取文本摘要,随后将文本摘要数据输入到训练好的BiLSTM模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络模型得到最后的分类结果。
本申请能够将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果,通过与传统的BiLSTM模型进行对比,本申请准确率(precision)、召回率(recall)和F1值(F1-score)均较高。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种基于摘要提取和关键字提取的中长文本分类方法,其特征在于,所述基于摘要提取和关键字提取的中长文本分类方法包括以下步骤:
基于TextRank算法,提取文本摘要,获得文本摘要数据集;
识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
3.根据权利要求2所述的方法,其特征在于,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量时,将文本中的每个句子分别看作一个节点,如果两个句子有相似性,则认为这两个句子对应的节点之间存在一条无向有权边。
4.根据权利要求1至3任一项所述的方法,其特征在于,基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,具体包括:
将给定的文本分成单组句子;
利用jieba分词工具句子进行分词,并过滤掉停用词,得到句子的分词结果;
加载GloVe词嵌入模型,将分词结果转换成词向量。
5.根据权利要求4所述的方法,其特征在于,基于TextRank算法,提取文本摘要,获得文本摘要数据集的方法,具体还包括:
将句子中所有的词向量求和,得到句子向量;
计算句子之间的余弦相似度,建立句子之间的相似度矩阵;
基于TextRank算法,迭代传播各节点的权重,直至收敛,获得句子的排名;
选取排名前N的句子作为文本的摘要;用作后续模型的输入。
6.根据权利要求5所述的方法,其特征在于,所述将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量的方法,具体包括:
获取所提取的摘要,利用jieba分词工具对给定的文本进行分词,并过滤掉停用词,得到文本的分词结果;
加载GloVe词嵌入模型,将分词结果转换成词向量;
将给定摘要对应的词向量和对应的分类类别,输入到BiLSTM模型中进行模型训练;
训练好的模型的BiLSTM层得到的向量作为摘要对应的全局语义的特征。
7.根据权利要求6所述的方法,其特征在于,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量的方法,具体包括:
对于给定的文本全文,利用jieba进行分词和词性标注,并过滤掉停用词,只保留指定词性的单词;
加载GloVe词嵌入模型,将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C(wv)},其中C(wi)表示词wi的词向量,v是文本中所有所有保留下来的词的数量;
直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练,然后利用训练好的模型,选出文档对应的概率最大的主题,然后选择概率最大的主题下的前k个词(w1,w2,w3,…wk,)及其对应的概率(p1,p2,p3,…pk,);将概率值进行归一化作为k个词的权重信息;
从GloVe词嵌入模型的结果,获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C(w3),…C(wk)),利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和,作为文本的关键词特征信息。
8.根据权利要求7所述的方法,其特征在于,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,具体包括:
将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接;拼接之后的词向量融合了全局的语义特征和关键词特征。
9.根据权利要求8所述的方法,其特征在于,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果的方法,具体还包括:
将拼接之后的向量输入到全连接神经网络进行分类。
10.一种基于权利要求1-9任一所述基于摘要提取和关键字提取的中长文本分类方法的基于摘要提取和关键字提取的中长文本分类系统,其特征在于,所述基于摘要提取和关键字提取的中长文本分类系统包括:
文本摘要获取模块,基于TextRank算法,提取文本摘要,获得文本摘要数据集;
全局语义识别模块,识别文本摘要数据集,将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;
关键词向量转换模块,基于LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提取的关键词转换为关键词向量;
分类结果获取模块,获取全局语义的特征向量和关键词向量,将全局语义的特征向量和关键词向量进行拼接,输入到全连接神经网络进行分类模型的训练,得到最后的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061622.6A CN115408523A (zh) | 2022-08-31 | 2022-08-31 | 基于摘要提取和关键字提取的中长文本分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061622.6A CN115408523A (zh) | 2022-08-31 | 2022-08-31 | 基于摘要提取和关键字提取的中长文本分类方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115408523A true CN115408523A (zh) | 2022-11-29 |
Family
ID=84163199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211061622.6A Pending CN115408523A (zh) | 2022-08-31 | 2022-08-31 | 基于摘要提取和关键字提取的中长文本分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115408523A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
-
2022
- 2022-08-31 CN CN202211061622.6A patent/CN115408523A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
CN116050397B (zh) * | 2023-03-07 | 2023-05-30 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959270B (zh) | 一种基于深度学习的实体链接方法 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110674317B (zh) | 一种基于图神经网络的实体链接方法及装置 | |
CN112395506A (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN111221944B (zh) | 文本意图识别方法、装置、设备和存储介质 | |
US11874862B2 (en) | Community question-answer website answer sorting method and system combined with active learning | |
CN111967264B (zh) | 一种命名实体识别方法 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN111782759B (zh) | 一种问答处理方法、装置及计算机可读存储介质 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN113641833B (zh) | 服务需求匹配方法及装置 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN115408523A (zh) | 基于摘要提取和关键字提取的中长文本分类方法和系统 | |
CN113505196A (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN115757786A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN113792131A (zh) | 一种关键词的提取方法、装置、电子设备及存储介质 | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN113282742B (zh) | 摘要获取方法以及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |