CN106599029A - 一种中文短文本聚类方法 - Google Patents
一种中文短文本聚类方法 Download PDFInfo
- Publication number
- CN106599029A CN106599029A CN201610952122.XA CN201610952122A CN106599029A CN 106599029 A CN106599029 A CN 106599029A CN 201610952122 A CN201610952122 A CN 201610952122A CN 106599029 A CN106599029 A CN 106599029A
- Authority
- CN
- China
- Prior art keywords
- word
- short text
- weight
- weights
- transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法,解决了短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,提高句子相似度计算的准确度;选择基于密度峰值聚类方法应用到短文本的聚类中,有效地提高聚类方法的效率。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。
背景技术
近年来,由于移动设备的普及与社交媒体平台的更新,社交媒体的表现形式发生了巨大的变化。其变化具体体现在:实现了从长文本向短文本的过渡,重心也从博客、论坛等传统的长文本社交媒体平台向新浪微博、Twitter等短文本社交媒体平台转移。
短文本社交媒体平台的即时性与便利性大大促进了信息量的增长。与传统文本相比,社会网络中的短文本具有文本短、话题多样、垃圾多、带有感情倾向性等特点,给用户快捷地获取客观有用的信息带来了巨大的挑战。中文短文本摘要技术能够将海量的文本信息归类到不同的主题下,有效缓解信息过载问题,同时可在诸多领域得到实际应用,如话题检测与跟踪、交互式问答系统以及舆情监测系统等。
短文本聚类技术通过对大量的短信息进行分析、处理、组织,将短文本集进行划分归类,其本质是句子相似度计算和聚类算法的选择。现有的短文本相似度的计算方法主要包括计算相同词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识。文本的聚类算法主要有k-means,k-means改进方法bisecting k-means、k-means++、层次聚类、训练模型贝叶斯分类器等,这些算法均需通过迭代数次直到结果最优为止。
因此,本发明针对目前社交媒体中短文本信息过载,以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识的问题,提供了一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。
发明内容
本发明的目的是解决目前社交媒体中短文本信息过载,以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识的问题。
为实现上述目的,本发明提供了一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法,包括以下步骤:
利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对所述短文本进行聚类。
所述获得所需要的词向量的步骤包括:将语料库进行预处理,预处理后的语料库利用所述Word2Vec词向量训练模型进行训练;经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。
所述获得短文本集中所有词的权重的步骤包括:将短文本集进行预处理,经过所述预处理后获得词集,根据所述词集的位置关系构建一个有向图;根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重;根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵;给短文本中每个词分配权重初值,再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重;设定阈值,若更新后词的权值与更新前的权值的差值小于阈值,则迭代计算停止;根据所述迭代更新后获得所述短文本集中每个词的权重。
设定阈值,若新后词的权值与更新前的权值的差值大于等于阈值,则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。
根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中,根据以下公式计算短文本集中每两个文本之间的相似度值,所述公式为:
上式中:m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
所述聚类包括以下步骤:根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值;根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值;将所述每个短文本的局部密度和距离值进行归一化处理,获处理之后获得类簇个数和聚类中心;根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。
执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。
所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值,具体公式如下:
局部密度公式
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;
距离公式
上式中:表示的一个降序排序的下标序列,即是
所述根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重的步骤中,利用下述公式计算所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重,具体公式如下:
计算所述短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
上式中:wβ(j)为归一化后的左右熵值之和;
计算词i的覆盖率权重转移到词j的计算公式如下:
上式中:|Out(i)|表示节点i指向的节点的个数。
所述根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵的步骤中包括:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
其中,本发明涉及一种“搬运优化”的短文本相似度计算方法,算法在短文本相似度算法中首先引入语义知识,利用词向量训练模型获得词的向量,构建词与词的语义关系;其次量化词的权重对词移动单元个数的影响,基于图模型,提取词的特征,对这些特征做一整体融合,通过词与词的迭代增强获得词的权重;最后根据“搬运优化”原理计算短文本间的相似度。
本发明的有益效果是:本发明提出一种“搬运优化”的短文本相似度计算方法,则是试图从语义上理解短文本,找到词的潜在语义信息,构建词与词之间的联系,解决短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,量化词的重要性对词移动单元个数的影响,词与词之间相似度对词单元移动距离的影响,两者融合,提高句子相似度计算的准确度;而后,根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准,相似度较大的短文本划分到一个簇中,本发明选择基于密度峰值的聚类方法应用到短文本的聚类中,只需一次遍历,即可将每个短文本分配到所属的类簇,有效地提高聚类方法的效率。
附图说明
图1为本发明实施例提供的一种中文短文本聚类方法流程图;
图2为本发明实施例提供的一种中文短文本聚类方法总体图;
图3为本发明实施例提供的一种利用电场势中熵的理念确定边界区域dc值示意图;
图4为本发明实施例提供的一种图获取类簇个数及聚类中心示意图;
图5为本发明实施例提供的一种每个短文本所属的类簇示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种中文短文本聚类方法流程图。如图1所示,步骤S101:利用Word2Vec词向量训练模型获得所需要的词向量。
步骤S102:利用词权重计算算法获取短文本集中所有词的权重。
步骤S103:根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值。
步骤S104:根据短文本集中每两个文本之间的相似度值对短文本进行聚类。
图2为本发明实施例提供的一种中文短文本聚类方法总体图。如图2所示,本发明实施例提供的一种中文短文本聚类方法涉及到三大步骤:
首先,利用丰富的语料库借助Word2Vec词向量训练模型获得词向量;其次,将实验使用的短文本数据集处理后,利用本发明提出的词权重计算方法获取所有词的权重;最后,将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中。
首先,利用丰富的语料库借助Word2Vec词向量训练模型获得词向量具体步骤如下:
(1)丰富语料库,本发明实施例中所使用的语料库包括中文维基百科数据、全网新闻数据(SogouCA)以及搜狐新闻数据(SogouCS)。
(2)预处理:将语料库进行预处理,预处理包括繁体转简体、分词以及去停用词处理。
(3)Word2Vec模型训练:将预处理后的语料库通过Word2Vec模型进行训练。
具体地,选择Word2vec模型训练获得中文的词向量,词向量为400维,词向量举例如下:
(4)词向量:经过Word2Vec词向量训练模型训练结束后获得语料库中所有词的词向量。
其次,将实验使用的短文本数据集处理后,利用本发明提出的词权重计算方法获取所有词的权重的具体步骤为:
(1)构建词网络:将短文本集进行预处理,其中预处理包括分词、去停用词和去单个字处理,对使用的短文本集预处理后获得词集,根据词的位置关系构建一个有向图G=(V,E),其中,V表示词集对应的节点集合,E为有向边,若某一短文本中词i的下一个词为词j,则存在一条边由词i指向词j。
具体地,短文本集分词、去停用词。数据集共66个,通过人工标注分成3个簇,1-21为第一簇,标记为法律,22-45为第二簇,标记为教育,46-66为第三簇,标记为娱乐,部分结果如下:
(2)融合词的特征计算权值转移矩阵,包括词的IF-IDF转移权重计算、左右熵转移权重计算、覆盖度转移权重计算:根据有向图以及公式分别计算词的IF-IDF转移权重、左右熵转移权重、覆盖度转移权重。具体公式如下:
计算短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
上式中:wβ(j)为归一化后的左右熵值之和;
计算词i的覆盖率权重转移到词j的计算公式如下:
上式中:|Out(i)|表示节点i指向的节点的个数。根据计算出的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重值构建权值转移矩阵,具体公式如下:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)(4)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
(3)计算词权重初值与(4)词与词增强:给短文本中每个此分配权重初值,再根据权重初值以及权值转移矩阵通过迭代计算并利用以下公式获得每个词的权值从而更新词的权重,具体公式如下:
迭代计算获得每个词的权值,公式如下:
上式中:d为阻尼系数,一般取0.85。
(5)收敛条件判断:设定阈值(阈值可设为无限趋于0的数),若更新后的词权值与更新前的权值的差值大于等于阈值,则继续通过词词增强更新词的权值;若更新后的词权值与更新前的权值的差值小于阈值,则迭代停止。
(6)词的权重:通过迭代更新后获得短文本集中每个词的权值。
最后,将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中,具体步骤如下:
(1)短文本之间相似度计算:根据上面两个步骤得到的词向量和词权值,将其应用到本发明所提出的短文本相似度算法中,根据以下公式计算短文本集中每两个文本之间的相似度值,具体公式如下:
上式中:m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
具体地,短文本相似度方法计算短文本之间的相似度,部分结果表如下:
本发明实施例将基于密度峰值的聚类方法应用到短文本聚类中,短文本之间的距离由其之间的相似度值衡量。聚类过程主要包括以下步骤:
(2)确定边界区域值:根据短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值。
具体地,利用电场势中熵的理念确定边界区域dc值,可举例如图3所示。
(3)根据边界区域值、短文本相似度计算局部密度及距离值:根据边界区域值以及两个短文本之间的相似度值计算出每个短文本的局部密度和距离值,计算局部密度和距离值具体的公式如下:
局部密度公式
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;
距离公式
上式中:表示的一个降序排序的下标序列,即是
(4)局部密度、距离归一化处理,确定簇的个数及聚类中心:根据每个短文本的局部密度和距离值进行归一化处理,获处理之后获得更加清晰准确的类簇个数和聚类中心,通过局部密度和距离归一化处理之后,使局部密度和距离处于同一数量级。
具体地:将边界区域dc值、短文本之间相似度的值代入到局部密度计算公式和距离计算公式中,获得每个短文本的局部密度值及距离值,同时将短文本的局部密度值、距离值归一化处理,利用综合衡量指标,通过图获取类簇个数及聚类中心,如图4所示。
迭代一次,获得每个短文本所属的类簇,如图5所示。
本发明实施例中短文本聚类的效果较好,且仅迭代一次,效率较高。
(5)短文本分配到所属簇:根据获得的类簇中点的距离和密度对短文本集中所有的短文本进行分配,将短文本集中所有的短文本分配到满足条件为:密度高于所述原来的短文本集中所有的短文本且距离所述原来的短文本集中所有的短文本相近的短文本所属的类簇中。
本发明通过常规使用于图像检索的EMD(earth mover's distance)算法得出启示:将短文本看作是两个概率分布区域,而将短文本之间相似度的计算转化为如何在最小代价的情况下,将一个短文本中的所有词“搬运”到另一个短文本中对应的词,即转变为“搬运优化”问题;在计算词的转移权重时,考虑到词的重要性对词移动单元的影响,在词的关联网络中融入词的IF-IDF值,词的左右熵值以及词的覆盖率对词权值计算的影响;且在聚类过程中选择迭代次数少的基于密度峰值的聚类算法,从而得出本发明的聚类算法。
本发明的有益效果是:本发明提出一种“搬运优化”的短文本相似度计算方法,则是试图从语义上理解短文本,找到词的潜在语义信息,构建词与词之间的联系,解决短文本文特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,量化词的重要性对词移动单元个数的影响,词与词之间相似度对词单元移动距离的影响,两者融合,提高句子相似度计算的准确度;而后,根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准,相似度较大的短文本划分到一个簇中,本发明选择基于密度峰值的聚类方法应用到短文本的聚类中,只需一次遍历,即可将每个短文本分配到所属的类簇,有效地提高聚类方法的效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种中文短文本聚类方法,其特征在于,包括以下步骤:
利用Word2Vec词向量训练模型获得所需要的词向量;
利用词权重计算算法获取短文本集中所有词的权重;
根据所述词向量和所述所有词的权重通过短文本相似度算法计算所述短文本集中每两个文本之间的相似度值;
根据所述短文本集中每两个文本之间的相似度值对所述短文本进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述获得所需要的词向量的步骤包括:
将语料库进行预处理,所述预处理后的语料库利用所述Word2Vec词向量训练模型进行训练;
经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。
3.根据权利要求1所述的方法,其特征在于,所述获得短文本集中所有词的权重的步骤包括:
将短文本集进行预处理,经过所述预处理后获得词集,根据所述词集的位置关系构建一个有向图;
根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重;
根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵;
给短文本中每个词分配权重初值,再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重;
设定阈值,若更新后词的权值与更新前的权值的差值小于阈值,则迭代计算停止;
根据所述迭代更新后获得所述短文本集中每个词的权重。
4.根据权利要求3所述的方法,其特征在于,设定阈值,若更新后词的权值与更新前的权值的差值大于等于阈值,则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。
5.根据权利要求1所述的方法,其特征在于,根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中,根据以下公式计算短文本集中每两个文本之间的相似度值,所述公式为:
上式中:m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
6.根据权利要求1所述的方法,其特征在于,所述聚类包括以下步骤:
根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值;
根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值;
将所述每个短文本的局部密度和距离值进行归一化处理,获处理之后获得类簇个数和聚类中心;
根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。
7.根据权利要求6所述的方法,其特征在于,执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。
8.根据权利要求6所述的方法,其特征在于,所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值,具体公式如下:
局部密度公式
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;
距离公式
上式中:表示的一个降序排序的下标序列,即是ρq1≥ρq2≥…≥ρqn。
9.根据权利要求3所述的方法,其特征在于,所述根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重的步骤中,利用下述公式计算所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重,具体公式如下:
计算所述短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
上式中:wβ(j)为归一化后的左右熵值之和;
计算词i的覆盖率权重转移到词j的计算公式如下:
上式中:|Out(i)|表示节点i指向的节点的个数。
10.根据权利要求3或9所述的方法,其特征在于,所述根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵的步骤中包括:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610952122.XA CN106599029B (zh) | 2016-11-02 | 2016-11-02 | 一种中文短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610952122.XA CN106599029B (zh) | 2016-11-02 | 2016-11-02 | 一种中文短文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599029A true CN106599029A (zh) | 2017-04-26 |
CN106599029B CN106599029B (zh) | 2021-04-06 |
Family
ID=58590216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610952122.XA Active CN106599029B (zh) | 2016-11-02 | 2016-11-02 | 一种中文短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599029B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273913A (zh) * | 2017-05-11 | 2017-10-20 | 武汉理工大学 | 一种基于多特征融合的短文本相似度计算方法 |
CN107329947A (zh) * | 2017-05-15 | 2017-11-07 | 中国移动通信集团湖北有限公司 | 相似文本的确定方法、装置及设备 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
CN108388674A (zh) * | 2018-03-26 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108563696A (zh) * | 2018-03-22 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN109000645A (zh) * | 2018-04-26 | 2018-12-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂环境目标经典航迹提取方法 |
CN109118113A (zh) * | 2018-08-31 | 2019-01-01 | 传神语联网网络科技股份有限公司 | Etm架构及词移距离 |
CN109145111A (zh) * | 2018-07-27 | 2019-01-04 | 深圳市翼海云峰科技有限公司 | 一种基于机器学习的多特征文本数据相似度计算方法 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109472020A (zh) * | 2018-10-11 | 2019-03-15 | 重庆邮电大学 | 一种特征对齐中文分词方法 |
CN109783816A (zh) * | 2019-01-11 | 2019-05-21 | 河北工程大学 | 短文本聚类方法及终端设备 |
CN109960799A (zh) * | 2019-03-12 | 2019-07-02 | 中南大学 | 一种面向短文本的优化分类方法 |
CN109977203A (zh) * | 2019-03-07 | 2019-07-05 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110347835A (zh) * | 2019-07-11 | 2019-10-18 | 招商局金融科技有限公司 | 文本聚类方法、电子装置及存储介质 |
CN110489529A (zh) * | 2019-08-26 | 2019-11-22 | 哈尔滨工业大学(深圳) | 一种基于句法结构和重排序的对话生成方法 |
CN110489759A (zh) * | 2019-09-12 | 2019-11-22 | 人和未来生物科技(长沙)有限公司 | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 |
CN110941961A (zh) * | 2019-11-29 | 2020-03-31 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN111143508A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种基于通信类短文本的事件检测与跟踪方法及系统 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
CN111159393A (zh) * | 2019-12-30 | 2020-05-15 | 电子科技大学 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN111401031A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种目标文本确定方法、装置及设备 |
WO2020213757A1 (ko) * | 2019-04-17 | 2020-10-22 | 엘지전자 주식회사 | 단어 유사도 판단 방법 |
CN112328796A (zh) * | 2020-11-17 | 2021-02-05 | 中国平安财产保险股份有限公司 | 文本聚类方法、装置、设备及计算机可读存储介质 |
CN112632229A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文本聚类方法及装置 |
CN112650853A (zh) * | 2021-01-13 | 2021-04-13 | 拉卡拉支付股份有限公司 | 短文本聚类方法、装置、电子设备、存储介质及程序产品 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113139061A (zh) * | 2021-05-14 | 2021-07-20 | 东北大学 | 一种基于词向量聚类的案件特征提取方法 |
CN113554053A (zh) * | 2021-05-20 | 2021-10-26 | 重庆康洲大数据有限公司 | 一种比较中药处方相似性的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
CN105447119A (zh) * | 2015-11-16 | 2016-03-30 | 北京京东尚科信息技术有限公司 | 一种文本聚类方法 |
-
2016
- 2016-11-02 CN CN201610952122.XA patent/CN106599029B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
CN105447119A (zh) * | 2015-11-16 | 2016-03-30 | 北京京东尚科信息技术有限公司 | 一种文本聚类方法 |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273913B (zh) * | 2017-05-11 | 2020-04-21 | 武汉理工大学 | 一种基于多特征融合的短文本相似度计算方法 |
CN107273913A (zh) * | 2017-05-11 | 2017-10-20 | 武汉理工大学 | 一种基于多特征融合的短文本相似度计算方法 |
CN107329947A (zh) * | 2017-05-15 | 2017-11-07 | 中国移动通信集团湖北有限公司 | 相似文本的确定方法、装置及设备 |
CN107329947B (zh) * | 2017-05-15 | 2019-07-26 | 中国移动通信集团湖北有限公司 | 相似文本的确定方法、装置及设备 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
CN108197144B (zh) * | 2017-11-28 | 2021-02-09 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
CN108563696B (zh) * | 2018-03-22 | 2021-05-25 | 创新先进技术有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN108563696A (zh) * | 2018-03-22 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN108388674A (zh) * | 2018-03-26 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109000645A (zh) * | 2018-04-26 | 2018-12-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂环境目标经典航迹提取方法 |
CN109145111B (zh) * | 2018-07-27 | 2023-05-26 | 深圳市翼海云峰科技有限公司 | 一种基于机器学习的多特征文本数据相似度计算方法 |
CN109145111A (zh) * | 2018-07-27 | 2019-01-04 | 深圳市翼海云峰科技有限公司 | 一种基于机器学习的多特征文本数据相似度计算方法 |
CN109118113A (zh) * | 2018-08-31 | 2019-01-01 | 传神语联网网络科技股份有限公司 | Etm架构及词移距离 |
CN109472020A (zh) * | 2018-10-11 | 2019-03-15 | 重庆邮电大学 | 一种特征对齐中文分词方法 |
CN109472020B (zh) * | 2018-10-11 | 2022-07-01 | 重庆邮电大学 | 一种特征对齐中文分词方法 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109446520B (zh) * | 2018-10-17 | 2023-08-15 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN109783816B (zh) * | 2019-01-11 | 2023-04-07 | 河北工程大学 | 短文本聚类方法及终端设备 |
CN109783816A (zh) * | 2019-01-11 | 2019-05-21 | 河北工程大学 | 短文本聚类方法及终端设备 |
CN109977203A (zh) * | 2019-03-07 | 2019-07-05 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN109977203B (zh) * | 2019-03-07 | 2021-06-08 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN109960799A (zh) * | 2019-03-12 | 2019-07-02 | 中南大学 | 一种面向短文本的优化分类方法 |
WO2020213757A1 (ko) * | 2019-04-17 | 2020-10-22 | 엘지전자 주식회사 | 단어 유사도 판단 방법 |
US11048872B2 (en) | 2019-04-17 | 2021-06-29 | Lg Electronics Inc. | Method of determining word similarity |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
CN110347835B (zh) * | 2019-07-11 | 2021-08-24 | 招商局金融科技有限公司 | 文本聚类方法、电子装置及存储介质 |
CN110347835A (zh) * | 2019-07-11 | 2019-10-18 | 招商局金融科技有限公司 | 文本聚类方法、电子装置及存储介质 |
CN110489529A (zh) * | 2019-08-26 | 2019-11-22 | 哈尔滨工业大学(深圳) | 一种基于句法结构和重排序的对话生成方法 |
CN110489529B (zh) * | 2019-08-26 | 2021-12-14 | 哈尔滨工业大学(深圳) | 一种基于句法结构和重排序的对话生成方法 |
CN110489759B (zh) * | 2019-09-12 | 2023-02-28 | 人和未来生物科技(长沙)有限公司 | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 |
CN110489759A (zh) * | 2019-09-12 | 2019-11-22 | 人和未来生物科技(长沙)有限公司 | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 |
CN110941961B (zh) * | 2019-11-29 | 2023-08-25 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN110941961A (zh) * | 2019-11-29 | 2020-03-31 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
CN111143508A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种基于通信类短文本的事件检测与跟踪方法及系统 |
CN111143508B (zh) * | 2019-12-06 | 2023-04-28 | 国家计算机网络与信息安全管理中心 | 一种基于通信类短文本的事件检测与跟踪方法及系统 |
CN111159393B (zh) * | 2019-12-30 | 2023-10-10 | 电子科技大学 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
CN111159393A (zh) * | 2019-12-30 | 2020-05-15 | 电子科技大学 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
CN111401031A (zh) * | 2020-03-05 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种目标文本确定方法、装置及设备 |
CN112328796B (zh) * | 2020-11-17 | 2023-06-30 | 中国平安财产保险股份有限公司 | 文本聚类方法、装置、设备及计算机可读存储介质 |
CN112328796A (zh) * | 2020-11-17 | 2021-02-05 | 中国平安财产保险股份有限公司 | 文本聚类方法、装置、设备及计算机可读存储介质 |
CN112632229A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文本聚类方法及装置 |
CN112650853A (zh) * | 2021-01-13 | 2021-04-13 | 拉卡拉支付股份有限公司 | 短文本聚类方法、装置、电子设备、存储介质及程序产品 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN113139061A (zh) * | 2021-05-14 | 2021-07-20 | 东北大学 | 一种基于词向量聚类的案件特征提取方法 |
CN113139061B (zh) * | 2021-05-14 | 2023-07-21 | 东北大学 | 一种基于词向量聚类的案件特征提取方法 |
CN113554053A (zh) * | 2021-05-20 | 2021-10-26 | 重庆康洲大数据有限公司 | 一种比较中药处方相似性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106599029B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599029A (zh) | 一种中文短文本聚类方法 | |
Ma et al. | Simplify the usage of lexicon in Chinese NER | |
Zhang et al. | A quantum-inspired sentiment representation model for twitter sentiment analysis | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
Xia et al. | Distantly supervised lifelong learning for large-scale social media sentiment analysis | |
Wen et al. | Research on keyword extraction based on word2vec weighted textrank | |
CN103092828B (zh) | 基于语义分析和语义关系网络的文本相似度度量方法 | |
CN105243152A (zh) | 一种基于图模型的自动文摘方法 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
Huang et al. | A topic BiLSTM model for sentiment classification | |
CN105608200A (zh) | 一种网络舆论趋势预测分析方法 | |
CN104239512A (zh) | 一种文本推荐方法 | |
CN106874258A (zh) | 一种基于汉字属性向量表示的文本相似性计算方法及系统 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
Lin et al. | Rumor detection with hierarchical recurrent convolutional neural network | |
Li et al. | A novel locality-sensitive hashing relational graph matching network for semantic textual similarity measurement | |
Sun et al. | [Retracted] News Text Classification Method and Simulation Based on the Hybrid Deep Learning Model | |
Ke et al. | A novel approach for cantonese rumor detection based on deep neural network | |
CN109766408A (zh) | 综合词位置因素和词频因素的文本关键词权重计算方法 | |
CN104731811A (zh) | 一种面向大规模动态短文本的聚类信息演化分析方法 | |
Yajian et al. | A short text classification algorithm based on semantic extension | |
Wang et al. | Complaint classification using hybrid-attention GRU neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |