CN110413986A - 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 - Google Patents
一种改进词向量模型的文本聚类多文档自动摘要方法及系统 Download PDFInfo
- Publication number
- CN110413986A CN110413986A CN201910291940.3A CN201910291940A CN110413986A CN 110413986 A CN110413986 A CN 110413986A CN 201910291940 A CN201910291940 A CN 201910291940A CN 110413986 A CN110413986 A CN 110413986A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- vector
- term vector
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种改进词向量模型的文本聚类多文档自动摘要方法及系统,Hierarchical Softmax的CBOW属于大规模模型训练,基于此本文通过将TesorFlow深度学习框架引入词向量模型训练中,通过流式处理计算解决对于大规模训练集的时间效率问题,进行句向量表示时先引入了TF‑IDF,再计算待抽取语义单元的语义相似度,设定了加权参数来综合考虑,生成了“语义加权”的句向量;有益效果:综合考虑了语义、深度学习、机器学习的优劣性,应用了密度聚类和卷积神经网络算法,智能化程度较高,可以快速地抽取与中心内容相关度高的语句作为文本的摘要,在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果,可能将是该领域以后的主要研究方向,此外本发明系统基于本发明方法为文档摘要的自动抽取提供工具。
Description
技术领域
本发明涉及自然语言处理领域,具体来说,涉及一种改进词向量模型的文本聚类多文档自动摘要方法及系统。
背景技术
互联网属于传媒领域。又称国际网络,互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。通常internet泛指互联网,而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”,在这基础上发展出覆盖全世界的全球性互联网络称互联网,即是互相连接一起的网络结构。互联网并不等同万维网,万维网只是一建基于超文本相互链接而成的全球性系统,且是互联网所能提供的服务其中之一。
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文档数据内容也呈现出指数级增长的趋势。互联网上的文档数据中包含了丰富的信息,如何有效的阅读和筛选对我们有用的信息已经成为我们关注的重点。自动文档摘要技术对文档信息进行压缩表示,帮助用户更好的浏览和吸收互联网上的海量信息。
但目前句子融合、句子压缩和语言生成的相关技术还不够成熟,导致生成的摘要存在语法错误、逻辑不连贯或上下文衔接生硬等问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种改进词向量模型的文本聚类多文档自动摘要方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种改进词向量模型的文本聚类多文档自动摘要方法及系统,文本预处理步骤:将原始文档的内容按句子进行分词,去除停用词,去其他无意义词;
改进词向量模型步骤:基于HierarchicalSoftmax的CBOW模型属于大规模模型训练,先建立深度学习框架TensorFlow,再运行算法;本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型;
句向量表示与聚类步骤:句向量基于维度平均值,并引入参数加权的 TF-IDF算法得到句子的加权向量;根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本,该子主题聚类文本中的句子同属于一类语义主题;
文章摘要句抽取,生成摘要步骤:当获取到子主题聚类文本后,采用的是卷积神经网络的机器学习算法从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要;
进一步的,改进词向量模型步骤,建立深度学习框架TensorFlow;
其次基于HierarchicalSoftmax的CBOW模型算法的流程,主要步骤如下:
输入:基于CBOW的预料训练样本,词向量的维度大小M,CBOW的上下文大小2c,步长为η
投影:将输入的2c个向量做求和累加,即
输出:霍夫曼树的内部节点模型参数θ,所有的词向量ω
①基于语料训练样本建立霍夫曼树,从输入层到隐藏层(投影层),这一步比较简单,就是对ω周围的2c个词向量求和取平均即可,即:
②随机初始化模型参数θ,所有的词向量ω
③进行梯度上升迭代过程,对于训练集中的每一个样本 (context(ω),ω)作如下处理:
e=0,计算
forj=2to,计算:
对于(context(ω),ω)中的每一个词向量xi(共2c个)进行更新:
xi=xi+e
如果梯度收敛,则结束梯度迭代,否则回到步骤3继续迭代。
3.进一步的,关于句向量表示与聚类步骤:
对于句子的向量表示的主要步骤有:(1)基于维度平均值,公式如下:
其中为句子i的第k维权重值,为句子中第j个特征词的第k维值, N表示句子包含的特征词的数量;
(2)引入TF-IDF以及对TF-IDF进行参数加权得到词语的权值,公式为:
Score(ti,d)=(α+β)×γ×Weight(ti,d)
其中,ti为文本d的第i词,Weight(ti,d)表示文本d中的第词语的TF-IDF 值,α表示词ti的段落位置参数,β表示词ti与标题相关的加权参数,γ为无意义词加权系数,
TF-IDF为逆文档词频加权值,计算公式为:
TF-IDF=TF(词频)*IDF(逆文档频率)
(4)句子的加权向量表示为:
进一步的,关于聚类的主要步骤,聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度;
(1)余弦相似度计算公式:
(2)聚类算法选用的是密度聚类,其经典的DBSCN聚类算法步骤为:
①初始化核心对象集合Ω=φ,初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分C=φ;
②对于j=1,2,...m,按下面的步骤找出所有的核心对象:
a)通过距离度量方式,找到样本xj的∈-邻域子样本集Nε(xj);
b)如果子样本集样本个数满足|Nε(xj)|≥MinPts,将样本xj加入核心对象样本集合:Ω=Ω∪{xj};
③如果核心对象集合Ω=φ,则算法结束,否则转入步骤4;
④在核心对象Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合 Ck={o},更新未访问样本集合Γ=Γ-{o};
⑤如果当前簇核心对象队列Ωcur=φ,则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,…,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤3;
⑥在当前簇核心队列Ωcur中取出一个核心对象o′,通过邻域距离阀值ε找出所有的∈-邻域子样本集Nε(o′).令Δ=Nε(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5。
进一步的,关于文章摘要句抽取,生成摘要步骤;采用的是卷积神经网络从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要,主要分为两部分:
(1)读取聚类后的文本对其进行编码;
对于给定的文本集合D,包含句子序列{S1,S2,…,Sn},选择其中20%的句子生成文本摘要,对文本集合D中所有句子进行评分,并且预测文中的句子是否属于摘要,标记tL∈{0,1},本文使用有监督训练的目的是最大化标记所有的句子,设定输入文本集合D以及模型参数θ:
设定j表示词向量的维数,s是包含序列(ω1,ω2,…,ωm)的句子,可用它表示成列矩阵ω∈Rm×j,设定ω和K∈Rf×j之间的宽度作为f的卷积:
其中,符号·是hadamard积,表示对应的两元素进行现相乘,α代表的是偏差值,代表的是第i个特征中的第k个元素;
文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示,这些列表一起构成了文档的向量,设定文本D={s1,s2,…,sn},参数是h时刻的隐状态,按以下方法进行调整:
ih=sigmoid(Wi·[ph-1;sh]+bi)
fh=sigmoid(Wf·[ph-1;sh]+bf)
ph=tanh(ih·fh)
其中,符号是·两元素的乘积,Wi、Wf为语义组合的自适应选择向量,参数bi、bf作为删除的历史向量;
(2)从文本中选择中心句,进行摘要的抽取,输出。
设定h时刻编码程序的隐状态为(p1,p2,…,pm),对应的抽取程序的隐状态为
通过当前的编码状态与对应编码状态关联,系统能够着重抽取相关性较高的中心句:
其中,MLP代表的是多层神经网络
用h时刻的隐状态与状态的连接作为程序的输入,然后获取符合文本摘要的句子并且设置它的状态;
最后,将抽取出的符合条件的句子作为多文本的摘要,进行输出展示。
与现有技术相比,本发明具有以下有益效果:本发明提供一种改进词向量模型的文本聚类多文档自动摘要抽取方法及系统,所述方法在抽取句子生成摘要的时候,将深度学习技术引入HierarchicalSoftmax的CBOW模型训练中能够高效快速的得到词向量模型,进行句向量表示,先引入了TF-IDF,再计算待抽取语义单元的语义相似度,设定了加权参数来综合考虑,生成了“语义加权”的句向量,最后采用卷积神经网络这种机器学习的算法抽取摘要句,经过大量训练,使得生成的摘要能更好的反应文档所表述的主题,本发明方法不进行语义压缩、句子融合和语言生成,以句子来作为摘要抽取语义单元,有效减低所生成摘要的语法错误,使得摘要信息的表达语义连贯,衔接顺畅,不仅如此本发明方法综合考虑了语义、深度学习、机器学习的优劣性,智能化程度较高,可以快速地抽取与中心内容相关度高的语句作为文本的摘要,在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果,可能将是该领域以后的主要研究方向,此外本发明系统基于本发明方法为文档摘要的自动抽取提供工具。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统的流程框图;
图2是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统的TensorFlow的数据模型训练流程图;
图3是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中Hierarchical Softmax的CBOW模型流程示意图;
图4是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中句向量算法流程图;
图5是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中算法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
请参阅图1-5,根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统,其步骤为
第一步:预处理;
第二步:改进词向量模型训练;
第三步:句向量表示与聚类;
第四步:文章摘要句抽取,生成摘要;
第一步的预处理方式为:(1)中文分词,经过分词处理后的文本句子被切分成具有独立分割与处理意义的词单元,经过文本分词处理后的语料才能进行词向量训练,本文通过jieba分词工具将语料库进行文本分词;
(2)去除停用词,停用词是指对表示文章主题没有实际意义的经常大量出现在所有文章中的词语,比如经常使用的助词和语气词:的、地、得、了、嘛等等,为了提高语料训练的速度同时减少对表示文章主题无意义的词在提取摘要过程中的干扰,本文对经过中文分词和词性标注后的文本进行去除停用词工作;
(3)去除其他无意义词,其他无关意义词指停用词表之外的对表示文章主题无意义的词语,比如一些指示性词:总之、综上所述、因此等等,去除掉这些词,能够减少系统处理无意义的工作时间,提高系统的运行速度,提高最终摘要生成的效率和准确率;
第二步的改进词向量模型训练为:(1)深度学习框架TensorFlow不需要任何编译时间能够更快的迭代,因此能够使大量数据集的模型训练不需要太多时间,并且具有较高的效率,如图2基于TensorFlow的数据模型训练流程;
(2)如图3基于HierarchicalSoftmax的CBOW模型流程示意图
基于HierarchicalSoftmax的CBOW模型算法流程,梯度迭代使用了随机梯度上升法,模型主要步骤如下:
输入:基于CBOW的预料训练样本,词向量的维度大小M,CBOW的上下文大小2c,步长为
投影:将输入的2c个向量做求和累加,即
输出:霍夫曼树的内部节点模型参数θ,所有的词向量ω
①基于语料训练样本建立霍夫曼树,从输入层到隐藏层(投影层),这一步比较简单,就是对ω周围的2c个词向量求和取平均即可,即:
②随机初始化模型参数θ,所有的词向量ω
③进行梯度上升迭代过程,对于训练集中的每一个样本(context(ω),ω)作如下处理:
e=0,计算
For j=2tolω,计算:
对于(context(ω),ω)中的每一个词向量xi(共2c个)进行更新:
xi=xi+e
如果梯度收敛,则结束梯度迭代,否则回到步骤3继续迭代,
关于基于HierarchicalSoftmax的CBOW模型算法的原理和公式的一些解释
考虑Huffman树中的某个叶子节点,假设它对应词典D中的词ω,记
pω:从根结点出发到达ω对应叶子结点的路径,
lω:路径pω中包含结点的个数,
路径pω中的lω个结点,其中表示根结点,表示词ω对应的结点,
词ω的Huffman编码,它由lω-1位编码构成,dj ω表示路径pω中第j个结点对应的编码(根结点不对应编码),
路径pω中非叶子结点对应的向量,θj ω表示路径pω中第j个非叶子结点对应的向量,
从二分类的角度来考虑问题,除根结点外,树中每个结点都对应了一个取值为0或1的Huffman编码,将编码为1的结点定义为负类,而将编码为0 的结点定义为正类,易知,一个结点被分为正类的概率是
被分为负类的概率是
对于词典D中的任意词ω,Huffman树中必存在一条从根结点到词ω对应结点的路径pω(且这条路径是惟一的),路径pω上必存在lω-1个分支,将每个分支看做一次二分类,每一次分类就产生一个概率,将这些概率乘起来就是所需的p(ω|(context(ω)),
p(ω|(context(ω))的整体表达式为:
其中
于是可得到CBOW模型的目标函数为:
应当要使目标函数最大化,采用梯度上升法,随机梯度上升法的做法是:每取一个样本(context(ω),ω),就对目标函数中的所有(相关)参数做一次刷新,目标函数L(ω,j)关于θj-1 ω与xω的梯度计算为:
可计算得到模型参数θ和所有的词向量ω,
基于Word2vec词向量训练后,将得到利用特征词上下文信息进行的词向量表示,该词向量将用于语义相似度计算、句向量表示、聚类等问题中,
第三步的句向量表示及聚类为:
(1)句向量的表示,由前面得到了文档中各个词语的词向量,而句子是由词语组成,结合改进的词向量对句子进行向量表示,其算法流程图如图5,
本发明对于句子的向量表示是基于维度平均值,公式如下:
该公式表示将句子中的特征词向量对应维度去和球平均得到该句子向量对应维度的权重值,其中为句子i的第k维权重值,为句子中第j个特征词的第k维值,N表示句子包含的特征词的数量;
每一维度的权重值基于初始词语权重值的综合考虑,引入TF-IDF以及对 TF-IDF进行参数加权得到词语的权值,公式为:
Score(ti,d)=(α+β)×γ×Weight(ti,d)
其中,ti为文本d的第i词,Weight(ti,d)表示文本d中的第词语的TF-IDF 值
α表示词ti的段落位置参数,如果词语出现在段首则α值为1.85,如果词出现在段尾则α值为1.07,如果词段首段尾均出现则α值为2.92,否则其他情况α值设置为1.08,
β表示词与ti标题相关的加权参数,一般标题是作者总结文章所述内容的短语因此如果正文中的词语与标题相同或者高度相关则认为该词是较为重要的有效词,β参数为与标题词的语义相关度,该语义相关度基于Word2vec词向量进行相似度计算得到;
γ为无意义词加权系数,我们认为停用词,指示性词,以及助词、虚词、副词等对文章主题词相关度不大,因此若ti为这些无意义词则γ为0,否则γ为 1,
TF-IDF为逆文档词频加权值,计算公式为:
TF-IDF=TF(词频)*IDF(逆文档频率)
句子Si由若干特征词语构成Si=(t1,t2,…,tN),每个词语对应经过 Word2vec训练得到的M维词向量wi=(v1,v2,…,vM)
句子的加权向量表示为:
得到改进词向量表示的句向量,即可进行聚类步骤;
(2)聚类,本发明的聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度,
聚类算法选用的是密度聚类,其经典的DBSCN聚类算法步骤为:
①初始化核心对象集合Ω=φ,初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分C=φ;
②对于j=1,2,...m,按下面的步骤找出所有的核心对象:
a)通过距离度量方式,找到样本xj的∈-邻域子样本集Nε(xj);
b)如果子样本集样本个数满足|Nε(xj)|≥MinPts,将样本xj加入核心对象样本集合:Ω=Ω∪{xj},
③如果核心对象集合Ω=φ,则算法结束,否则转入步骤4;
④在核心对象Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o};
⑤如果当前簇核心对象队列Ωcur=φ,则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,…,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤3,
⑥在当前簇核心队列Ωcur中取出一个核心对象o′,通过邻域距离阀值ε找出所有的∈-邻域子样本集Nε(o′),令Δ=Nε(o′)∩Γ,更新当前簇样本集合 Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5,
能得到输出结果为:簇划分C={C1,C2,…,Ck},
改进词向量表示的句向量经过密度聚类后便得到若干子主题聚类文本,该子主题聚类文本中的句子同属于一类语义主题;
第四步文章摘要句抽取,生成摘要,当获取到子主题聚类文本后,下面的任务就是从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要,本发明采用的是卷积神经网络,主要分为两部分:
(1)读取聚类后的文本对其进行编码;
(2)从文本中选择中心句,进行摘要的抽取,输出,
对于给定的文本集合D,包含句子序列{S1,S2,…,Sn},选择其中20%的句子生成文本摘要,对文本集合D中所有句子进行评分,并且预测文中的句子是否属于摘要,标记tL∈{0,1},本文使用有监督训练的目的是最大化标记所有的句子,设定输入文本集合D以及模型参数:
设定j表示词向量的维数,s是包含序列(ω1,ω2,…,ωm)的句子,可用它表示成列矩阵ω∈Rm×j,设定ω和K∈Rf×j之间的宽度作为f的卷积:
其中,符号·是hadamard积,表示对应的两元素进行现相乘,α代表的是偏差值,代表的是第i个特征中的第k个元素;
文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示,这些列表一起构成了文档的向量,设定文本D={s1,s2,…,sn},参数ph是 h时刻的隐状态,按以下方法进行调整:
ih=sigmoid(Wi·[ph-1;sh]+bi)
fh=sigmoid(Wf·[ph-1;sh]+bf)
ph=tanh(ih·fh)
其中,符号·是两元素的乘积,Wi、Wf为语义组合的自适应选择向量,参数bi、bf作为删除的历史向量;
程序抽取中心句的时候需要综合考虑摘要句与文本内容中心的相关性以及相关冗余特性等因素;
设定h时刻编码程序的隐状态为(p1,p2,…,pm),对应的抽取程序的隐状态为
通过当前的编码状态与对应编码状态关联,系统能够着重抽取相关性较高的中心句:
其中,MLP代表的是多层神经网络
用h时刻的隐状态与状态的连接作为程序的输入,然后获取符合文本摘要的句子并且设置它的状态;
最后,将抽取出的符合条件的句子作为多文本的摘要,进行输出展示;
进一步的,本发提供一种考虑语义的文本聚类多文档自动摘要抽取系统;所述系统加载有考虑语义的文本聚类多文档自动摘要抽取方法功能程序的计算机或者服务器。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种改进词向量模型的文本聚类多文档自动摘要方法,其特征在于,文本预处理步骤:将原始文档的内容按句子进行分词,去除停用词,去其他无意义词;改进词向量模型步骤:基于HierarchicalSoftmax的CBOW模型属于大规模模型训练,先建立深度学习框架TensorFlow,再运行算法;本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型;
句向量表示与聚类步骤:句向量基于维度平均值,并引入参数加权的TF-IDF算法得到句子的加权向量;根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本,该子主题聚类文本中的句子同属于一类语义主题;
文章摘要句抽取,生成摘要步骤:当获取到子主题聚类文本后,采用的是卷积神经网络的机器学习算法从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要;
进一步的,改进词向量模型步骤,建立深度学习框架TensorFlow;
其次基于HierarchicalSoftmax的CBOW模型算法的流程,主要步骤如下:
输入:基于CBOW的预料训练样本,词向量的维度大小M,CBOW的上下文大小2c,步长为η
投影:将输入的2c个向量做求和累加,即
输出:霍夫曼树的内部节点模型参数θ,所有的词向量ω
①基于语料训练样本建立霍夫曼树,从输入层到隐藏层(投影层),这一步比较简单,就是对ω周围的2c个词向量求和取平均即可,即:
②随机初始化模型参数θ,所有的词向量ω
③进行梯度上升迭代过程,对于训练集中的每一个样本(context(ω),ω)作如下处理:
e=0,计算
forj=2to,计算:
对于(context(ω),ω)中的每一个词向量xj(共2c个)进行更新:
xi=xi+e
如果梯度收敛,则结束梯度迭代,否则回到步骤3继续迭代。
2.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统,其特征在于,关于句向量表示与聚类步骤:
对于句子的向量表示的主要步骤有:(1)基于维度平均值,公式如下:
其中为句子i的第k维权重值,为句子中第j个特征词的第k维值,N表示句子包含的特征词的数量;
(2)引入TF-IDF以及对TF-IDF进行参数加权得到词语的权值,公式为:
Score(ti,d)=(α+β)×y×Weght(ti,d)
其中,ti为文本d的第i词,Weight(ti,d)表示文本d中的第词语的TF-IDF值,α表示词ti的段落位置参数,β表示词ti与标题相关的加权参数,γ为无意义词加权系数,
TF-IDF为逆文档词频加权值,计算公式为:
TF-IDF=TF(词频|*|DF(逆文档频率)
句子的加权向量表示为:
3.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统,其特征在于,关于聚类的主要步骤,聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度;
(1)余弦相似度计算公式:
(2)聚类算法选用的是密度聚类,其经典的DBSCN聚类算法步骤为:
①初始化核心对象集合Ω=φ,初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分C=φ;
②对于j=1,2,..m,按下面的步骤找出所有的核心对象:
a)通过距离度量方式,找到样本xj的∈-邻域子样本集Nε(xj);
b)如果子样本集样本个数满足|Nε(xj)|≥MinPts,将样本xj加入核心对象样本集合:Ω=Ω∪{xj};
③如果核心对象集合Ω=φ,则算法结束,否则转入步骤4;
④在核心对象Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o};
⑤如果当前簇核心对象队列Ωcur=φ,则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,…,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤3;
⑥在当前簇核心队列Ωcur中取出一个核心对象o′,通过邻域距离阀值ε找出所有的∈-邻域子样本集Nε(o′)令Δ=Nε(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5。
4.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统,其特征在于,关于文章摘要句抽取,生成摘要步骤;采用的是卷积神经网络从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要,主要分为两部分:(1)读取聚类后的文本对其进行编码;
对于给定的文本集合D,包含句子序列{S1,S2,…,Sn},选择其中20%的句子生成文本摘要,对文本集合D中所有句子进行评分,并且预测文中的句子是否属于摘要,标记tL∈{0,1},本文使用有监督训练的目的是最大化标记所有的句子,设定输入文本集合D以及模型参数θ:
设定j表示词向量的维数,s是包含序列(ω1,ω2,…,ωm)的句子,可用它表示成列矩阵ω∈Rm×j,设定ω和K∈Rf×j之间的宽度作为f的卷积:
其中,符号·是hadamard积,表示对应的两元素进行现相乘,α代表的是偏差值,代表的是第i个特征中的第k个元素;
文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示,这些列表一起构成了文档的向量,设定文本D={s1,s2,…,sn},参数是h时刻的隐状态,按以下方法进行调整:
ph=tanh(ih·fh)
其中,符号是·两元素的乘积,为语义组合的自适应选择向量,参数bi、bf作为删除的历史向量;
(2)从文本中选择中心句,进行摘要的抽取,输出。
5.设定h时刻编码程序的隐状态为(p1,p2,…,pm),对应的抽取程序的隐状态为
通过当前的编码状态与对应编码状态关联,系统能够着重抽取相关性较高的中心句:
其中,MLP代表的是多层神经网络
用h时刻的隐状态与状态的连接作为程序的输入,然后获取符合文本摘要的句子并且设置它的状态;
最后,将抽取出的符合条件的句子作为多文本的摘要,进行输出展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291940.3A CN110413986B (zh) | 2019-04-12 | 2019-04-12 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291940.3A CN110413986B (zh) | 2019-04-12 | 2019-04-12 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413986A true CN110413986A (zh) | 2019-11-05 |
CN110413986B CN110413986B (zh) | 2023-08-29 |
Family
ID=68357593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910291940.3A Active CN110413986B (zh) | 2019-04-12 | 2019-04-12 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413986B (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN110990569A (zh) * | 2019-11-29 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 文本聚类方法、装置及相关设备 |
CN111079402A (zh) * | 2019-12-31 | 2020-04-28 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
CN111178038A (zh) * | 2019-12-27 | 2020-05-19 | 山东旗帜信息有限公司 | 一种基于潜在语义分析的文档相似度识别方法及装置 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN111723196A (zh) * | 2020-05-21 | 2020-09-29 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN111753067A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本创新性评估方法、装置和设备 |
CN111767720A (zh) * | 2020-07-28 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种标题生成方法、计算机及可读存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN112016323A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN112036176A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 文本聚类方法及装置 |
CN112347758A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
CN112417860A (zh) * | 2020-12-08 | 2021-02-26 | 携程计算机技术(上海)有限公司 | 训练样本增强方法、系统、设备及存储介质 |
CN112434515A (zh) * | 2020-12-01 | 2021-03-02 | 天冕信息技术(深圳)有限公司 | 语句压缩方法、装置、电子设备及可读存储介质 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
CN112784036A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 基于无监督集成学习的抽取式文本摘要方法 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113011133A (zh) * | 2021-02-23 | 2021-06-22 | 吉林大学珠海学院 | 一种基于自然语言处理的单细胞相关技术数据分析方法 |
WO2021128342A1 (zh) * | 2019-12-27 | 2021-07-01 | 西门子(中国)有限公司 | 文档处理的方法和装置 |
CN113157914A (zh) * | 2021-02-04 | 2021-07-23 | 福州大学 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
CN113158079A (zh) * | 2021-04-22 | 2021-07-23 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
CN113268651A (zh) * | 2021-05-27 | 2021-08-17 | 清华大学 | 一种搜索信息的摘要自动生成方法及装置 |
CN113312903A (zh) * | 2021-05-27 | 2021-08-27 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113779246A (zh) * | 2021-08-25 | 2021-12-10 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于句子向量的文本聚类分析方法及系统 |
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN114510923A (zh) * | 2022-01-12 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
CN115034206A (zh) * | 2022-06-20 | 2022-09-09 | 科大国创云网科技有限公司 | 一种客服热点事件发现方法及系统 |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
CN117875268A (zh) * | 2024-03-13 | 2024-04-12 | 山东科技大学 | 一种基于分句编码的抽取式文本摘要生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106372061A (zh) * | 2016-09-12 | 2017-02-01 | 电子科技大学 | 基于语义的短文本相似度计算方法 |
CN107992594A (zh) * | 2017-12-12 | 2018-05-04 | 北京锐安科技有限公司 | 一种文本属性的划分方法、装置、服务器和存储介质 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
-
2019
- 2019-04-12 CN CN201910291940.3A patent/CN110413986B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106372061A (zh) * | 2016-09-12 | 2017-02-01 | 电子科技大学 | 基于语义的短文本相似度计算方法 |
CN107992594A (zh) * | 2017-12-12 | 2018-05-04 | 北京锐安科技有限公司 | 一种文本属性的划分方法、装置、服务器和存储介质 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
Non-Patent Citations (2)
Title |
---|
孙昭颖等: "面向短文本的神经网络聚类算法研究", 《计算机科学》 * |
张卫卫等: "基于LDA模型和Doc2vec的学术摘要聚类方法", 《计算机工程与应用》 * |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN110990569B (zh) * | 2019-11-29 | 2023-11-07 | 百度在线网络技术(北京)有限公司 | 文本聚类方法、装置及相关设备 |
CN110990569A (zh) * | 2019-11-29 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 文本聚类方法、装置及相关设备 |
CN111178038A (zh) * | 2019-12-27 | 2020-05-19 | 山东旗帜信息有限公司 | 一种基于潜在语义分析的文档相似度识别方法及装置 |
WO2021128342A1 (zh) * | 2019-12-27 | 2021-07-01 | 西门子(中国)有限公司 | 文档处理的方法和装置 |
CN111178038B (zh) * | 2019-12-27 | 2023-04-25 | 山东旗帜信息有限公司 | 一种基于潜在语义分析的文档相似度识别方法及装置 |
CN111079402A (zh) * | 2019-12-31 | 2020-04-28 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
CN111753067A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本创新性评估方法、装置和设备 |
CN111723196A (zh) * | 2020-05-21 | 2020-09-29 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN111723196B (zh) * | 2020-05-21 | 2023-03-24 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN111639175B (zh) * | 2020-05-29 | 2023-05-02 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN113807073B (zh) * | 2020-06-16 | 2023-11-14 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111783424B (zh) * | 2020-06-17 | 2024-02-13 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN112036176A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 文本聚类方法及装置 |
CN112036176B (zh) * | 2020-07-22 | 2024-05-24 | 大箴(杭州)科技有限公司 | 文本聚类方法及装置 |
CN111767720A (zh) * | 2020-07-28 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种标题生成方法、计算机及可读存储介质 |
CN111767720B (zh) * | 2020-07-28 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种标题生成方法、计算机及可读存储介质 |
CN112016323B (zh) * | 2020-08-28 | 2024-04-02 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN112016323A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN112507111B (zh) * | 2020-10-20 | 2024-02-06 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112347758A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
CN112347758B (zh) * | 2020-11-06 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
CN112434515A (zh) * | 2020-12-01 | 2021-03-02 | 天冕信息技术(深圳)有限公司 | 语句压缩方法、装置、电子设备及可读存储介质 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112417860A (zh) * | 2020-12-08 | 2021-02-26 | 携程计算机技术(上海)有限公司 | 训练样本增强方法、系统、设备及存储介质 |
CN112612870B (zh) * | 2020-12-11 | 2023-12-01 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法及系统 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
CN112784036A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 基于无监督集成学习的抽取式文本摘要方法 |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
CN113157914B (zh) * | 2021-02-04 | 2022-06-14 | 福州大学 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
CN113157914A (zh) * | 2021-02-04 | 2021-07-23 | 福州大学 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
CN113011133A (zh) * | 2021-02-23 | 2021-06-22 | 吉林大学珠海学院 | 一种基于自然语言处理的单细胞相关技术数据分析方法 |
CN112860898B (zh) * | 2021-03-16 | 2022-05-27 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113158079A (zh) * | 2021-04-22 | 2021-07-23 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
CN113158079B (zh) * | 2021-04-22 | 2022-06-17 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
CN113312903A (zh) * | 2021-05-27 | 2021-08-27 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113312903B (zh) * | 2021-05-27 | 2022-04-19 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113268651A (zh) * | 2021-05-27 | 2021-08-17 | 清华大学 | 一种搜索信息的摘要自动生成方法及装置 |
CN113779246A (zh) * | 2021-08-25 | 2021-12-10 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于句子向量的文本聚类分析方法及系统 |
CN114510923B (zh) * | 2022-01-12 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
WO2023134075A1 (zh) * | 2022-01-12 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN114510923A (zh) * | 2022-01-12 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN115034206A (zh) * | 2022-06-20 | 2022-09-09 | 科大国创云网科技有限公司 | 一种客服热点事件发现方法及系统 |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
CN116501875B (zh) * | 2023-04-28 | 2024-04-26 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
CN117875268A (zh) * | 2024-03-13 | 2024-04-12 | 山东科技大学 | 一种基于分句编码的抽取式文本摘要生成方法 |
CN117875268B (zh) * | 2024-03-13 | 2024-05-31 | 山东科技大学 | 一种基于分句编码的抽取式文本摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110413986B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413986A (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
Zhang et al. | Learning structured representation for text classification via reinforcement learning | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN113641809B (zh) | 一种基于XLNet模型与知识图谱的智能问答方法 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112818113A (zh) | 一种基于异构图网络的文本自动摘要方法 | |
CN110705298A (zh) | 一种改进的前缀树与循环神经网络结合的领域分类方法 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN113377953B (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN112463982B (zh) | 一种基于显隐式实体约束的关系抽取方法 | |
CN117763363A (zh) | 基于知识图谱与提示学习的跨网络学术社区资源推荐方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |