CN108197111A - 一种基于融合语义聚类的文本自动摘要方法 - Google Patents

一种基于融合语义聚类的文本自动摘要方法 Download PDF

Info

Publication number
CN108197111A
CN108197111A CN201810020999.4A CN201810020999A CN108197111A CN 108197111 A CN108197111 A CN 108197111A CN 201810020999 A CN201810020999 A CN 201810020999A CN 108197111 A CN108197111 A CN 108197111A
Authority
CN
China
Prior art keywords
sentence
text
weight
semantic
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810020999.4A
Other languages
English (en)
Other versions
CN108197111B (zh
Inventor
史景伦
洪冬梅
王桂鸿
张福伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Theater Command General Hospital of PLA
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810020999.4A priority Critical patent/CN108197111B/zh
Publication of CN108197111A publication Critical patent/CN108197111A/zh
Application granted granted Critical
Publication of CN108197111B publication Critical patent/CN108197111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于融合语义聚类的文本自动摘要方法,包括:文本预处理步骤,对原始文档进行预处理,并统计关键词在文本中的词频信息;权重计算步骤,融合局部权重,全局权重和引入相关权重来确定关键词在句子中的贡献度;语义分析步骤,将文本矩阵进行奇异值分解,得到语义分析模型,以此计算每个句子的语义向量;聚类步骤,对计算的句子语义向量在语义空间中通过聚类算法得到K个句子簇;句子选择步骤,在每一个句子簇中计算句子权重,根据排名来挑选前n个句子组成摘要,并去除冗余。本发明简单实用,对文本进行特征表示,融入上下文的语义联系,更充分的显示句子之间和词语之间的共现关系,生成的摘要更能契合文本的主题思想。

Description

一种基于融合语义聚类的文本自动摘要方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于融合语义聚类的文本自动摘要方法。
背景技术
随着计算机技术和互联网的发展,信息的传播方式发生了很大变化。网络成为人们获取资源的重要渠道。但另一方面,互联网上文档数据内容呈现出指数增长趋势,使得如何有效解决信息过载和人们快速阅读之间的矛盾显得十分必要。自动文本摘要技术为这一实现提供了可能。
自动文本摘要技术通过计算机利用一系列文本处理技术对冗长的文档进行分析处理,提取文档主要中心思想,生成一段简洁概括性的摘要,帮助用户定位到自己想要的内容。
自动文本摘要技术是自然语言处理领域的研究热点,根据摘要内容生成方式,分为抽取式摘要和生成式摘要。在实际应用场景中,基于规则和统计的文本摘要生成已经存在大量的研究和实验。通常先将文本进行分词,去除停用词等预处理步骤,利用TF-IDF算法构建文本矩阵,计算句子得分,再根据得分挑选作为摘要的句子。但是这样的方法停留在字面上,没有利用上下文的语义关系,生成的摘要缺乏关联性。而目前对于生成式摘要的研究主要集中在引入了深度学习甚至强化学习的方法,但是由于目前相关技术还不够成熟,导致生成的摘要有语法错误,可读性和连贯性差的问题,不能满足用户需求。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于融合语义聚类的文本自动摘要方法,在文本矩阵权重计算过程中考虑上下文联系,加入语义信息,利用LSA语义分析模型进行句子选择,使得生成的摘要更加符合文本主题思想。
本发明的目的可以通过采取如下技术方案达到:
一种基于融合语义聚类的文本自动摘要方法,所述的文本自动摘要方法包括:
文本预处理步骤,将原始文档的内容按句子进行分词,去除停用词,并统计每个关键词的词频信息,即在文档中出现的次数;
权重计算步骤,通过局部权重,全局权重和相关权重来计算关键词项在句子中的贡献度,构成文本矩阵A;
语义分析步骤,利用LSA语义分析模型对文本矩阵A进行奇异值分解,并利用语义模型来计算每一个句子的语义向量;
聚类步骤,将计算出的语义向量通过K-means聚类算法进行聚类,得到K个语义空间的句子簇;
句子选择步骤,在句子簇内分别计算句子节点的权重,根据权重排名抽取前n个句子组成摘要。
进一步地,所述的权重计算步骤包括局部权重计算、全局权重计算和相关权重计算,其中,所述的局部权重计算包括:
1)根据关键词在句子中出出现与否进行二值运算,即出现为1,否则为0;
2)统计出现的关键词的词频nij,即该关键词j在相应句子i中的出现次数,其中,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
3)对高频词进行权重弱化,采用对数公式:Lij=log(1+nij),其中,nij为词频,Lij为权重弱化后的局部权重值,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
所述的全局权重计算包括:
以句子为单位,借鉴逆文本频率来表征:其中,n为文本中所有的句子总数,nj为包含关键词j的句子数目,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数,Gij表示关键词j在句子i的全局权重;
所述的相关权重计算包括:
1)根据局部权重和全局权重计算出关键词j在句子i中的初步权重,公式为其中,Lij和Gij分别为局部权重和全局权重,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
2)根据所得初步权重得到句子表示向量qj=(wj1,wj2,…,wjk),根据余弦相似度分别计算与之左右相邻的句子的相似度,根据公式其中,qi和qj是相邻的句子对,0≤i,j<N,N为句子总数;
3)将相似度代入公式计算关键词j在句子i中的最终相关权重:Rij=λwi-1,j+μwi+1,j,其中λ和μ是与句子i左右相邻的两个句子的相似度,wi-1,j和wi+1,j分别是与句子i左相邻和右相邻的句子,若为第一句和最后一句则为特殊情况,分别取λ=0和μ=0。
进一步地,所述的文本矩阵A中最终权重计算公式为aij=Lij*Gij+Rij,其中,Lij和Gij分别为局部权重和全局权重,Rij为相关权重,aij表示关键词j在句子i中的权重值。
进一步地,所述的语义分析步骤包括:
对文本矩阵A进行奇异值分解后,取最大的前K个奇异值,得到最佳近似矩阵和语义分析模型AK=UKΣKVK T,其中,UK和VK都是正交矩阵,ΣK是对角矩阵。
进一步地,所述的语义分析步骤还包括:
以句子为单位,计算每一个句子的语义向量:Q=ΣK -1UKqT,其中q是文本经过预处理后的关键词权重组成的句子表示向量,ΣK -1是上述对角矩阵的逆矩阵,UK是正交矩阵。
进一步地,所述的聚类步骤包括:
1)设定聚类的K1值,随机生成K1个聚类中心;
2)对于文本矩阵A中的每个句子S计算其到聚类中心的距离,划分到合适的簇;
3)重新计算聚类中心,重复2)直到收敛,最终获得K1个类别的句子簇。
进一步地,所述的聚类步骤中计算句子S到聚类中心距离采用欧式距离法进行计算。
进一步地,所述的聚类步骤中聚类依据是句子与聚类中心的语义向量的相似度。
进一步地,所述的句子选择步骤中在句子簇内分别计算句子节点的权重的公式为:
其中,WS(Vi)是一个句子节点Vi的权重,WS(Vj)是上一次迭代的值,这里以句子i作为无向图的节点Vi;αji和αjk是句子相似度,In(Vi)和Out(Vj)在这里都是除了句子节点Vi以外的所有句子集合,d为阻尼系数,取值0到1,一般取0.85。
进一步地,所述的句子选择步骤中在进行句子选择时,若句子之间相似度超过一定阈值则进行舍弃,以此来去除冗余。
本发明相对于现有技术具有如下的优点及效果:
本发明通过在句子权重计算中加入上下文语义相关信息,更好的体现文本的语义结构,利用LSA语义分析模型,在语义空间计算句子相似度进行聚类,更加充分的表达了文本中词语与句子间的共现关系,最后用textrank算法进行句子选择,并过滤掉相似度过高的句子,有效去除冗余信息,该方法既更合理充分的理解文本语义,又能通过抽取式方法使生成的摘要有较高的可读性和连贯性。
附图说明
图1是本发明中基于融合语义聚类的文本自动摘要方法的流程图;
图2是本发明中的权重计算流程图;
图3是本发明中的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例公开的基于融合语义聚类的文本自动摘要方法包括:文本预处理步骤,权重计算步骤,语义分析步骤,聚类步骤,句子选择步骤。其中:
文本预处理步骤,是对已获得的原始文档内容进行分词,并去除停用词,减少文本噪声,降低与文本主题无关的词汇的影响。原始文档可以来自互联网上文档数据的爬取,特别的,若包含图片和视频其他信息应进行过滤。分词并得到关键词后,统计每一个关键词在文档中出现的次数即词频信息。
权重计算步骤,是将文本表示成一个文本矩阵A。根据已经建立的关键词库,以每个句子为单位,计算关键词在所在句子中的权重。文本矩阵的行向量代表一个词,列向量代表一个句子。权重计算由三部分构成,局部权重计算、全局权重计算和相关权重计算。
其中,局部权重计算包括:
1)关键词若出现在该句子则为1,否则为0;
2)关键词在句子中的词频信息nij,关键词j在相应句子i中的出现次数,其中,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
3)若为高频词,则进行权重弱化:Lij=log(1+nij),其中,nij为词频,Lij为权重弱化后的局部权重值,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数,高频词的定义根据具体的文本中词汇量来设置。比如,文本词汇量为800,出现超过1/5的定义为高频词。
全局权重计算以句子为单位,借鉴逆文本频率来表征:其中,n为文本中所有的句子总数,nj为包含关键词j的句子数目,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数。特别的,未在句子中出现的关键词设置为1,作为对比。
相关权重计算包括:
1)根据局部权重和全局权重计算出关键词j在句子i中的初步权重,公式为其中,Lij和Gij分别为局部权重和全局权重,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
2)根据步骤1)所得初步权重得到句子表示向量qj=(wj1,wj2,…,wjk),根据余弦相似度分别计算与之左右相邻的句子的相似度,根据公式其中,qi和qj是相邻的句子对,0≤i,j<N,N为句子总数;
3)将相似度代入公式计算关键词j在句子i中的最终相关权重:Rij=λwi-1,j+μwi+1,j,其中λ和μ分别为与句子i左右相邻的两个句子的相似度,wi-1,j和wi+1,j分别是与句子i左相邻和右相邻的句子,若为第一句和最后一句则为特殊情况,分别取λ=0和μ=0。
最终文本矩阵A的矩阵权重计算公式为aij=Lij*Gij+Rij,其中,Lij和Gij分别为局部权重和全局权重,Rij为相关权重,aij表示关键词j在句子i中的权重值。
语义分析步骤,对文本矩阵A进行奇异值分解:A=UΣVT,取前K个最大的奇异值,得到AK=UKΣKVK T,其中,UK和VK都是正交矩阵,ΣK是对角矩阵,这是最小二乘意义上的最佳近似矩阵,可以起到一定的降维作用,最大的K个奇异值也反映了文本最重要的主题。
以句子为单位,计算每一个句子的语义向量:Q=ΣK -1UKqT,其中q是文本经过预处理后的关键词权重组成的向量,计算公式如aij,ΣK -1是上述对角矩阵的逆矩阵,UK同上。以句子为单位,可以减少生成的摘要的语法错误和增加可读性连贯性。
聚类步骤,利用的是经典的K-means方法,包含如下步骤:
1)设定聚类的K1值,随机生成K1个聚类中心;
2)对于文本中的每个句子S计算其到聚类中心的距离,划分到合适的簇,采用的距离计算方式是欧氏距离。
3)重复步骤2)直到收敛。最终获得K1个类别的句子簇。
句子选择步骤如下:
对于每一类句子簇,以句子为节点,在簇类计算节点权重;按照权重排名来选择前n个句子组成摘要。
具体的,在簇内计算句子节点权重公式为:
其中,WS(Vi)是一个句子节点Vi的权重,WS(Vj)是上一次迭代的值;αji和αjk是句子间相似度,In(Vi)和Out(Vj)在这里都是除了句子节点Vi以外的所有句子集合,d为阻尼系数,取值0到1,一般取0.85。
具体的,进行句子选择过程中,若句子之间相似度超过一定阈值就舍弃,以此来去除冗余。同时,进行句子排列时按照原句子在文中出现的先后顺序。
本发明通过在文本矩阵权重计算中引入了相关权重,利用上下文句子间的联系,体现句子之间的语义联系,并用LSA语义分析模型获得每个句子的语义表示,以此进行句子分类,得到语义空间上的句子簇。这不同于传统的只是对文本进行矩阵奇异值分解或者简单地用独立句子中的关键词词频信息表示文本,而后进行句子抽取。本发明能充分利用潜在的语义联系,有助于生成更符合文本主题的摘要。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的文本自动摘要方法包括:
文本预处理步骤,将原始文档的内容按句子进行分词,去除停用词,并统计每个关键词的词频信息,即在文档中出现的次数;
权重计算步骤,通过局部权重,全局权重和相关权重来计算关键词项在句子中的贡献度,构成文本矩阵A;
语义分析步骤,利用LSA语义分析模型对文本矩阵A进行奇异值分解,并利用语义模型来计算每一个句子的语义向量;
聚类步骤,将计算出的语义向量通过K-means聚类算法进行聚类,得到K个语义空间的句子簇;
句子选择步骤,在句子簇内分别计算句子节点的权重,根据权重排名抽取前n个句子组成摘要。
2.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的权重计算步骤包括局部权重计算、全局权重计算和相关权重计算,其中,所述的局部权重计算包括:
1)根据关键词在句子中出出现与否进行二值运算,即出现为1,否则为0;
2)统计出现的关键词的词频nij,即该关键词j在相应句子i中的出现次数,其中,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
3)对高频词进行权重弱化,采用对数公式:Lij=log(1+nij),其中,nij为词频,Lij为权重弱化后的局部权重值,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
所述的全局权重计算包括:
以句子为单位,借鉴逆文本频率来表征:其中,n为文本中所有的句子总数,nj为包含关键词j的句子数目,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数,Gij表示关键词j在句子i的全局权重;
所述的相关权重计算包括:
1)根据局部权重和全局权重计算出关键词j在句子i中的初步权重,公式为wij=Lij*Gij,其中,Lij和Gij分别为局部权重和全局权重,0≤j<M,0≤i<N,M和N分别为关键词和文本句子总数;
2)根据所得初步权重得到句子表示向量qj=(wj1,wj2,…,wjk),根据余弦相似度分别计算与之左右相邻的句子的相似度,根据公式其中,qi和qj是相邻的句子对,0≤i,j<N,N为句子总数;
3)将相似度代入公式计算关键词j在句子i中的最终相关权重:Rij=λwi-1,j+μwi+1,j,其中λ和μ是与句子i左右相邻的两个句子的相似度,wi-1,j和wi+1,j分别是与句子i左相邻和右相邻的句子,若为第一句和最后一句则为特殊情况,分别取λ=0和μ=0。
3.根据权利要求2所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,其特征在于,所述的文本矩阵A中最终权重计算公式为aij=Lij*Gij+Rij,其中,Lij和Gij分别为局部权重和全局权重,Rij为相关权重,aij表示关键词j在句子i中的权重值。
4.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的语义分析步骤包括:
对文本矩阵A进行奇异值分解后,取最大的前K个奇异值,得到最佳近似矩阵和语义分析模型AK=UKΣKVK T,其中,UK和VK都是正交矩阵,ΣK是对角矩阵。
5.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的语义分析步骤还包括:
以句子为单位,计算每一个句子的语义向量:Q=ΣK -1UKqT,其中q是文本经过预处理后的关键词权重组成的句子表示向量,ΣK -1是上述对角矩阵的逆矩阵,UK是正交矩阵。
6.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的聚类步骤包括:
1)设定聚类的K1值,随机生成K1个聚类中心;
2)对于文本矩阵A中的每个句子S计算其到聚类中心的距离,划分到合适的簇;
3)重新计算聚类中心,重复2)直到收敛,最终获得K1个类别的句子簇。
7.根据权利要求6所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的聚类步骤中计算句子S到聚类中心距离采用欧式距离法进行计算。
8.根据权利要求6所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的聚类步骤中聚类依据是句子与聚类中心的语义向量的相似度。
9.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的句子选择步骤中在句子簇内分别计算句子节点的权重的公式为:
其中,WS(Vi)是一个句子节点Vi的权重,WS(Vj)是上一次迭代的值,这里以句子i作为无向图的节点Vi;αji和αjk是句子相似度,In(Vi)和Out(Vj)在这里都是除了句子节点Vi以外的所有句子集合,d为阻尼系数,取值0到1。
10.根据权利要求9所述的一种基于融合语义聚类的文本自动摘要方法,其特征在于,所述的句子选择步骤中在进行句子选择时,若句子之间相似度超过一定阈值则进行舍弃,以此来去除冗余。
CN201810020999.4A 2018-01-10 2018-01-10 一种基于融合语义聚类的文本自动摘要方法 Active CN108197111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810020999.4A CN108197111B (zh) 2018-01-10 2018-01-10 一种基于融合语义聚类的文本自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810020999.4A CN108197111B (zh) 2018-01-10 2018-01-10 一种基于融合语义聚类的文本自动摘要方法

Publications (2)

Publication Number Publication Date
CN108197111A true CN108197111A (zh) 2018-06-22
CN108197111B CN108197111B (zh) 2020-12-22

Family

ID=62588494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810020999.4A Active CN108197111B (zh) 2018-01-10 2018-01-10 一种基于融合语义聚类的文本自动摘要方法

Country Status (1)

Country Link
CN (1) CN108197111B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109543187A (zh) * 2018-11-23 2019-03-29 中山大学 电子病历特征的生成方法、装置及存储介质
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110399477A (zh) * 2019-06-20 2019-11-01 全球能源互联网研究院有限公司 一种文献摘要提取方法、设备及可存储介质
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111191024A (zh) * 2018-11-13 2020-05-22 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN111201524A (zh) * 2018-08-30 2020-05-26 谷歌有限责任公司 百分位链接聚类
CN111274388A (zh) * 2020-01-14 2020-06-12 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111274776A (zh) * 2020-01-21 2020-06-12 中国搜索信息科技股份有限公司 一种基于关键词的文章生成方法
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN111680131A (zh) * 2020-06-22 2020-09-18 平安银行股份有限公司 基于语义的文档聚类方法、系统及计算机设备
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111832308A (zh) * 2020-07-17 2020-10-27 苏州思必驰信息科技有限公司 语音识别文本连贯性处理方法和装置
CN112507711A (zh) * 2020-12-04 2021-03-16 南京擎盾信息科技有限公司 文本摘要抽取方法及系统
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113779246A (zh) * 2021-08-25 2021-12-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于句子向量的文本聚类分析方法及系统
CN114970551A (zh) * 2022-07-27 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法、装置和电子设备
CN115114903A (zh) * 2022-06-28 2022-09-27 中国银行股份有限公司 用户故事审核方法及装置
CN115577167A (zh) * 2022-08-29 2023-01-06 建信金融科技有限责任公司 基于Webassembly的内容推荐方法、装置、设备及存储介质
CN115810422A (zh) * 2022-12-07 2023-03-17 深圳市宁远科技股份有限公司 基于ai技术的互联网智能自动诊疗应答系统
CN116501875A (zh) * 2023-04-28 2023-07-28 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RADA MIHALCEA ET AL.: "TextRank: Bringing Order into Texts", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
官宸宇: "面向事件的社交媒体文本自动摘要", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
王英杰: "基于潜在语义分析的文本摘要技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109241526B (zh) * 2018-08-22 2022-11-15 北京慕华信息科技有限公司 一种段落分割方法和装置
CN111201524B (zh) * 2018-08-30 2023-08-25 谷歌有限责任公司 百分位链接聚类
CN111201524A (zh) * 2018-08-30 2020-05-26 谷歌有限责任公司 百分位链接聚类
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN109471933B (zh) * 2018-10-11 2024-05-07 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN111191024B (zh) * 2018-11-13 2023-06-23 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN111191024A (zh) * 2018-11-13 2020-05-22 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN109543187A (zh) * 2018-11-23 2019-03-29 中山大学 电子病历特征的生成方法、装置及存储介质
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN109885683B (zh) * 2019-01-29 2022-12-02 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110399477A (zh) * 2019-06-20 2019-11-01 全球能源互联网研究院有限公司 一种文献摘要提取方法、设备及可存储介质
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111274388A (zh) * 2020-01-14 2020-06-12 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111274388B (zh) * 2020-01-14 2024-05-10 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111274776A (zh) * 2020-01-21 2020-06-12 中国搜索信息科技股份有限公司 一种基于关键词的文章生成方法
CN111476026A (zh) * 2020-03-24 2020-07-31 珠海格力电器股份有限公司 语句向量的确定方法、装置、电子设备及存储介质
CN111680131A (zh) * 2020-06-22 2020-09-18 平安银行股份有限公司 基于语义的文档聚类方法、系统及计算机设备
CN111680131B (zh) * 2020-06-22 2022-08-12 平安银行股份有限公司 基于语义的文档聚类方法、系统及计算机设备
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111832308B (zh) * 2020-07-17 2023-09-08 思必驰科技股份有限公司 语音识别文本连贯性处理方法和装置
CN111832308A (zh) * 2020-07-17 2020-10-27 苏州思必驰信息科技有限公司 语音识别文本连贯性处理方法和装置
CN112507711A (zh) * 2020-12-04 2021-03-16 南京擎盾信息科技有限公司 文本摘要抽取方法及系统
CN112507711B (zh) * 2020-12-04 2023-08-08 南京擎盾信息科技有限公司 文本摘要抽取方法及系统
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及系统
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113157857B (zh) * 2021-03-13 2023-06-02 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113779246A (zh) * 2021-08-25 2021-12-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于句子向量的文本聚类分析方法及系统
CN115114903A (zh) * 2022-06-28 2022-09-27 中国银行股份有限公司 用户故事审核方法及装置
CN115114903B (zh) * 2022-06-28 2024-05-24 中国银行股份有限公司 用户故事审核方法及装置
CN114970551A (zh) * 2022-07-27 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法、装置和电子设备
CN115577167A (zh) * 2022-08-29 2023-01-06 建信金融科技有限责任公司 基于Webassembly的内容推荐方法、装置、设备及存储介质
CN115577167B (zh) * 2022-08-29 2023-11-21 建信金融科技有限责任公司 基于Webassembly的内容推荐方法、装置、设备及存储介质
CN115810422A (zh) * 2022-12-07 2023-03-17 深圳市宁远科技股份有限公司 基于ai技术的互联网智能自动诊疗应答系统
CN115810422B (zh) * 2022-12-07 2023-12-29 深圳市维康致远科技有限公司 基于ai技术的互联网智能自动诊疗应答系统
CN116501875A (zh) * 2023-04-28 2023-07-28 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统
CN116501875B (zh) * 2023-04-28 2024-04-26 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统

Also Published As

Publication number Publication date
CN108197111B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN108197111A (zh) 一种基于融合语义聚类的文本自动摘要方法
Qaroush et al. An efficient single document Arabic text summarization using a combination of statistical and semantic features
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN107229610B (zh) 一种情感数据的分析方法及装置
Ge et al. Improving text classification with word embedding
Li et al. Enhancing diversity, coverage and balance for summarization through structure learning
Wen et al. Research on keyword extraction based on word2vec weighted textrank
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Jafarpour et al. Filter, rank, and transfer the knowledge: Learning to chat
KR20190058935A (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
Yüksel et al. Turkish tweet classification with transformer encoder
CN109815400A (zh) 基于长文本的人物兴趣提取方法
Tiwari et al. Ensemble approach for twitter sentiment analysis
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN114936266A (zh) 基于门控机制的多模态融合谣言早期检测方法及系统
KR102376489B1 (ko) 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
Ghalehtaki et al. A combinational method of fuzzy, particle swarm optimization and cellular learning automata for text summarization
Yeasmin et al. Study of abstractive text summarization techniques
He et al. Twitter summarization based on social network and sparse reconstruction
CN114997288A (zh) 一种设计资源关联方法
Chen et al. Using deep belief nets for Chinese named entity categorization
Zhang et al. Extractive Document Summarization based on hierarchical GRU
Xu A New Sub-topics Clustering Method Based on Semi-supervised Learing.
CN115129819A (zh) 文本摘要模型生产方法及其装置、设备、介质
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231113

Address after: Yuexiu District Guangzhou City, Guangdong province 510010 Liuhua Road No. 111

Patentee after: PEOPLE'S LIBERATION ARMY SOUTHERN THEATER GENERAL Hospital

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

TR01 Transfer of patent right