CN106599029B - 一种中文短文本聚类方法 - Google Patents

一种中文短文本聚类方法 Download PDF

Info

Publication number
CN106599029B
CN106599029B CN201610952122.XA CN201610952122A CN106599029B CN 106599029 B CN106599029 B CN 106599029B CN 201610952122 A CN201610952122 A CN 201610952122A CN 106599029 B CN106599029 B CN 106599029B
Authority
CN
China
Prior art keywords
weight
word
short text
value
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610952122.XA
Other languages
English (en)
Other versions
CN106599029A (zh
Inventor
崔莹
曹杰
姚瑞波
叶婷
伍之昂
申冬琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Focus Technology Co Ltd
Original Assignee
Nanjing University of Finance and Economics
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics, Focus Technology Co Ltd filed Critical Nanjing University of Finance and Economics
Priority to CN201610952122.XA priority Critical patent/CN106599029B/zh
Publication of CN106599029A publication Critical patent/CN106599029A/zh
Application granted granted Critical
Publication of CN106599029B publication Critical patent/CN106599029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法,解决了短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,提高句子相似度计算的准确度;选择基于密度峰值聚类方法应用到短文本的聚类中,有效地提高聚类方法的效率。

Description

一种中文短文本聚类方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。
背景技术
近年来,由于移动设备的普及与社交媒体平台的更新,社交媒体的表现形式发生了巨大的变化。其变化具体体现在:实现了从长文本向短文本的过渡,重心也从博客、论坛等传统的长文本社交媒体平台向新浪微博、Twitter等短文本社交媒体平台转移。
短文本社交媒体平台的即时性与便利性大大促进了信息量的增长。与传统文本相比,社会网络中的短文本具有文本短、话题多样、垃圾多、带有感情倾向性等特点,给用户快捷地获取客观有用的信息带来了巨大的挑战。中文短文本摘要技术能够将海量的文本信息归类到不同的主题下,有效缓解信息过载问题,同时可在诸多领域得到实际应用,如话题检测与跟踪、交互式问答系统以及舆情监测系统等。
短文本聚类技术通过对大量的短信息进行分析、处理、组织,将短文本集进行划分归类,其本质是句子相似度计算和聚类算法的选择。现有的短文本相似度的计算方法主要包括计算相同词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识。文本的聚类算法主要有k-means,k-means改进方法bisecting k-means、k-means++、层次聚类、训练模型贝叶斯分类器等,这些算法均需通过迭代数次直到结果最优为止。
因此,本发明针对目前社交媒体中短文本信息过载,以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识的问题,提供了一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。
发明内容
本发明的目的是解决目前社交媒体中短文本信息过载,以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等,这些算法未考虑到短文本的语义知识的问题。
为实现上述目的,本发明提供了一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法,包括以下步骤:
利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对所述短文本进行聚类。
所述获得所需要的词向量的步骤包括:将语料库进行预处理,预处理后的语料库利用所述Word2Vec词向量训练模型进行训练;经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。
所述获得短文本集中所有词的权重的步骤包括:将短文本集进行预处理,经过所述预处理后获得词集,根据所述词集的位置关系构建一个有向图;根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重;根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵;给短文本中每个词分配权重初值,再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重;设定阈值,若更新后词的权值与更新前的权值的差值小于阈值,则迭代计算停止;根据所述迭代更新后获得所述短文本集中每个词的权重。
设定阈值,若新后词的权值与更新前的权值的差值大于等于阈值,则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。
根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中,根据以下公式计算短文本集中每两个文本之间的相似度值,所述公式为:
Figure DEST_PATH_GDA0001208352330000031
Figure DEST_PATH_GDA0001208352330000032
Figure DEST_PATH_GDA0001208352330000033
上式中:m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
所述聚类包括以下步骤:根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值;根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值;将所述每个短文本的局部密度和距离值进行归一化处理,获处理之后获得类簇个数和聚类中心;根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。
执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。
所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值,具体公式如下:
局部密度公式
Figure DEST_PATH_GDA0001208352330000041
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;
距离公式
Figure DEST_PATH_GDA0001208352330000042
上式中:
Figure DEST_PATH_GDA0001208352330000043
表示
Figure DEST_PATH_GDA0001208352330000044
的一个降序排序的下标序列,即是
Figure DEST_PATH_GDA0001208352330000045
所述根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重的步骤中,利用下述公式计算所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重,具体公式如下:
计算所述短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000046
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000047
上式中:wβ(j)为归一化后的左右熵值之和;
计算词i的覆盖率权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000051
上式中:|Out(i)|表示节点i指向的节点的个数。
所述根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵的步骤中包括:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
Figure DEST_PATH_GDA0001208352330000052
其中,本发明涉及一种“搬运优化”的短文本相似度计算方法,算法在短文本相似度算法中首先引入语义知识,利用词向量训练模型获得词的向量,构建词与词的语义关系;其次量化词的权重对词移动单元个数的影响,基于图模型,提取词的特征,对这些特征做一整体融合,通过词与词的迭代增强获得词的权重;最后根据“搬运优化”原理计算短文本间的相似度。
本发明的有益效果是:本发明提出一种“搬运优化”的短文本相似度计算方法,则是试图从语义上理解短文本,找到词的潜在语义信息,构建词与词之间的联系,解决短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,量化词的重要性对词移动单元个数的影响,词与词之间相似度对词单元移动距离的影响,两者融合,提高句子相似度计算的准确度;而后,根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准,相似度较大的短文本划分到一个簇中,本发明选择基于密度峰值的聚类方法应用到短文本的聚类中,只需一次遍历,即可将每个短文本分配到所属的类簇,有效地提高聚类方法的效率。
附图说明
图1为本发明实施例提供的一种中文短文本聚类方法流程图;
图2为本发明实施例提供的一种中文短文本聚类方法总体图;
图3为本发明实施例提供的一种利用电场势中熵的理念确定边界区域dc值示意图;
图4为本发明实施例提供的一种图获取类簇个数及聚类中心示意图;
图5为本发明实施例提供的一种每个短文本所属的类簇示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种中文短文本聚类方法流程图。如图1所示,步骤S101:利用Word2Vec词向量训练模型获得所需要的词向量。
步骤S102:利用词权重计算算法获取短文本集中所有词的权重。
步骤S103:根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值。
步骤S104:根据短文本集中每两个文本之间的相似度值对短文本进行聚类。
图2为本发明实施例提供的一种中文短文本聚类方法总体图。如图2所示,本发明实施例提供的一种中文短文本聚类方法涉及到三大步骤:
首先,利用丰富的语料库借助Word2Vec词向量训练模型获得词向量;其次,将实验使用的短文本数据集处理后,利用本发明提出的词权重计算方法获取所有词的权重;最后,将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中。
首先,利用丰富的语料库借助Word2Vec词向量训练模型获得词向量具体步骤如下:
(1)丰富语料库,本发明实施例中所使用的语料库包括中文维基百科数据、全网新闻数据(SogouCA)以及搜狐新闻数据(SogouCS)。
(2)预处理:将语料库进行预处理,预处理包括繁体转简体、分词以及去停用词处理。
(3)Word2Vec模型训练:将预处理后的语料库通过Word2Vec模型进行训练。
具体地,选择Word2vec模型训练获得中文的词向量,词向量为400维,词向量举例如下:
Figure DEST_PATH_GDA0001208352330000071
(4)词向量:经过Word2Vec词向量训练模型训练结束后获得语料库中所有词的词向量。
其次,将实验使用的短文本数据集处理后,利用本发明提出的词权重计算方法获取所有词的权重的具体步骤为:
(1)构建词网络:将短文本集进行预处理,其中预处理包括分词、去停用词和去单个字处理,对使用的短文本集预处理后获得词集,根据词的位置关系构建一个有向图G=(V,E),其中,V表示词集对应的节点集合,E为有向边,若某一短文本中词i的下一个词为词j,则存在一条边由词i指向词j。
具体地,短文本集分词、去停用词。数据集共66个,通过人工标注分成3个簇,1-21为第一簇,标记为法律,22-45为第二簇,标记为教育,46-66为第三簇,标记为娱乐,部分结果如下:
Figure DEST_PATH_GDA0001208352330000081
(2)融合词的特征计算权值转移矩阵,包括词的IF-IDF转移权重计算、左右熵转移权重计算、覆盖度转移权重计算:根据有向图以及公式分别计算词的IF-IDF转移权重、左右熵转移权重、覆盖度转移权重。具体公式如下:
计算短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000082
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000091
上式中:wβ(j)为归一化后的左右熵值之和;
计算词i的覆盖率权重转移到词j的计算公式如下:
Figure DEST_PATH_GDA0001208352330000092
上式中:|Out(i)|表示节点i指向的节点的个数。根据计算出的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重值构建权值转移矩阵,具体公式如下:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)(4)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
Figure DEST_PATH_GDA0001208352330000093
(3)计算词权重初值与(4)词与词增强:给短文本中每个此分配权重初值,再根据权重初值以及权值转移矩阵通过迭代计算并利用以下公式获得每个词的权值从而更新词的权重,具体公式如下:
迭代计算获得每个词的权值,公式如下:
Figure DEST_PATH_GDA0001208352330000094
上式中:d为阻尼系数,一般取0.85。
(5)收敛条件判断:设定阈值(阈值可设为无限趋于0的数),若更新后的词权值与更新前的权值的差值大于等于阈值,则继续通过词词增强更新词的权值;若更新后的词权值与更新前的权值的差值小于阈值,则迭代停止。
(6)词的权重:通过迭代更新后获得短文本集中每个词的权值。
最后,将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中,具体步骤如下:
(1)短文本之间相似度计算:根据上面两个步骤得到的词向量和词权值,将其应用到本发明所提出的短文本相似度算法中,根据以下公式计算短文本集中每两个文本之间的相似度值,具体公式如下:
Figure DEST_PATH_GDA0001208352330000101
Figure DEST_PATH_GDA0001208352330000102
Figure DEST_PATH_GDA0001208352330000103
上式中:m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
具体地,短文本相似度方法计算短文本之间的相似度,部分结果表如下:
Figure DEST_PATH_GDA0001208352330000104
Figure DEST_PATH_GDA0001208352330000111
本发明实施例将基于密度峰值的聚类方法应用到短文本聚类中,短文本之间的距离由其之间的相似度值衡量。聚类过程主要包括以下步骤:
(2)确定边界区域值:根据短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值。
具体地,利用电场势中熵的理念确定边界区域dc值,可举例如图3所示。
(3)根据边界区域值、短文本相似度计算局部密度及距离值:根据边界区域值以及两个短文本之间的相似度值计算出每个短文本的局部密度和距离值,计算局部密度和距离值具体的公式如下:
局部密度公式
Figure DEST_PATH_GDA0001208352330000112
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;
距离公式
Figure DEST_PATH_GDA0001208352330000113
上式中:
Figure DEST_PATH_GDA0001208352330000114
表示
Figure DEST_PATH_GDA0001208352330000115
的一个降序排序的下标序列,即是
Figure DEST_PATH_GDA0001208352330000116
(4)局部密度、距离归一化处理,确定簇的个数及聚类中心:根据每个短文本的局部密度和距离值进行归一化处理,获处理之后获得更加清晰准确的类簇个数和聚类中心,通过局部密度和距离归一化处理之后,使局部密度和距离处于同一数量级。
具体地:将边界区域dc值、短文本之间相似度的值代入到局部密度计算公式和距离计算公式中,获得每个短文本的局部密度值及距离值,同时将短文本的局部密度值、距离值归一化处理,利用综合衡量指标,通过图获取类簇个数及聚类中心,如图4所示。
迭代一次,获得每个短文本所属的类簇,如图5所示。
本发明实施例中短文本聚类的效果较好,且仅迭代一次,效率较高。
(5)短文本分配到所属簇:根据获得的类簇中点的距离和密度对短文本集中所有的短文本进行分配,将短文本集中所有的短文本分配到满足条件为:密度高于所述原来的短文本集中所有的短文本且距离所述原来的短文本集中所有的短文本相近的短文本所属的类簇中。
本发明通过常规使用于图像检索的EMD(earth mover's distance)算法得出启示:将短文本看作是两个概率分布区域,而将短文本之间相似度的计算转化为如何在最小代价的情况下,将一个短文本中的所有词“搬运”到另一个短文本中对应的词,即转变为“搬运优化”问题;在计算词的转移权重时,考虑到词的重要性对词移动单元的影响,在词的关联网络中融入词的IF-IDF值,词的左右熵值以及词的覆盖率对词权值计算的影响;且在聚类过程中选择迭代次数少的基于密度峰值的聚类算法,从而得出本发明的聚类算法。
本发明的有益效果是:本发明提出一种“搬运优化”的短文本相似度计算方法,则是试图从语义上理解短文本,找到词的潜在语义信息,构建词与词之间的联系,解决短文本文特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,量化词的重要性对词移动单元个数的影响,词与词之间相似度对词单元移动距离的影响,两者融合,提高句子相似度计算的准确度;而后,根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准,相似度较大的短文本划分到一个簇中,本发明选择基于密度峰值的聚类方法应用到短文本的聚类中,只需一次遍历,即可将每个短文本分配到所属的类簇,有效地提高聚类方法的效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种中文短文本聚类方法,其特征在于,包括以下步骤:
利用Word2Vec词向量训练模型从语料库中获得所需要的词向量;
利用词权重计算算法获取短文本集中所有词的权重,包括:将短文本集进行预处理,经过所述预处理后获得词集,根据所述词集的位置关系构建一个有向图;根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重;根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵;给短文本中每个词分配权重初值,再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重;设定阈值,若更新后词的权值与更新前的权值的差值小于阈值,则迭代计算停止;根据所述迭代更新后获得所述短文本集中每个词的权重;
根据所述词向量和所述所有词的权重通过短文本相似度算法计算所述短文本集中每两个文本之间的相似度值;
根据所述短文本集中每两个文本之间的相似度值对所述短文本进行聚类,包括:根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值;根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值;将所述每个短文本的局部密度和距离值进行归一化处理,获得处理之后的类簇个数和聚类中心;根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。
2.根据权利要求1所述的方法,其特征在于,所述获得所需要的词向量的步骤包括:
将语料库进行预处理,所述预处理后的语料库利用所述Word2Vec词向量训练模型进行训练;
经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。
3.根据权利要求1所述的方法,其特征在于,设定阈值,若更新后词的权值与更新前的权值的差值大于等于阈值,则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。
4.根据权利要求1所述的方法,其特征在于,根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中,根据以下公式计算短文本集中每两个文本之间的相似度值,所述公式为:
Figure FDA0002954585120000021
Figure FDA0002954585120000022
Figure FDA0002954585120000023
上式中:n表示短文本集中包含的不同词的个数;m表示短文本t1,t2中包含的不同的词的个数;i、j分别表示短文本t1,t2中的词;Bi为词权重,Wi为词在短文本中所有词权重所占的比重,T′∈Rm×m为权重矩阵,矩阵中的元素T′ij表示从词i到j词移动了i到j个单位,通过计算得到的每个词的权重衡量;c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。
5.根据权利要求1所述的方法,其特征在于,执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。
6.根据权利要求1所述的方法,其特征在于,所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值,具体公式如下:
局部密度公式
Figure FDA0002954585120000024
上式中:dij是指短文本i与短文本j之间的相似度;dc是指边界区域;将待聚类的短文本集表示为
Figure FDA0002954585120000025
则IS={1,2,3…,N}表示与待聚类短文本集对应的指标集;{i}表示第i个短文本;
距离公式
Figure FDA0002954585120000031
上式中:n表示短文本集中包含的不同词的个数;
Figure FDA0002954585120000032
表示
Figure FDA0002954585120000033
的一个降序排序的下标序列,即是
Figure FDA0002954585120000034
7.根据权利要求1所述的方法,其特征在于,所述根据所述有向图,分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重的步骤中,利用下述公式计算所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重,具体公式如下:
计算所述短文本集中的词的IF-IDF转移权重,短文本中词i的IF-IDF的转移权重标记为wα(i),则词i的词频权重转移到词j的计算公式如下:
Figure FDA0002954585120000035
上式中:n表示短文本集中包含的不同词的个数;其中,Out(i)={j|<i,j>∈E};
Figure FDA0002954585120000036
表示短文本的总词组数,wα(k)表示词组;
计算词i的左右熵转移权重,为忽略词频对熵值的影响,采用最大值归一化方法对熵值进行处理,即将左右熵值除以短文本中所有词的词频最大值,词i熵值权重转移到词j的计算公式如下:
Figure FDA0002954585120000037
上式中:wβ(j)为归一化后的左右熵值之和;wβ(k)表示词频最大值;
计算词i的覆盖率权重转移到词j的计算公式如下:
Figure FDA0002954585120000038
上式中:|Out(i)|表示节点i指向的节点的个数。
8.根据权利要求1或7所述的方法,其特征在于,所述根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵的步骤中包括:
构建词之间所述权值转移矩阵P∈Rn×n,Pij的计算公式如下:
Pij=αwα(j,i)+βwβ(j,i)+γwγ(j,i)
subject to:α+β+γ=1
上式中:α、β、γ为调节因子;Pij表示词j的权重分配词i的比重,
Figure FDA0002954585120000041
CN201610952122.XA 2016-11-02 2016-11-02 一种中文短文本聚类方法 Active CN106599029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610952122.XA CN106599029B (zh) 2016-11-02 2016-11-02 一种中文短文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610952122.XA CN106599029B (zh) 2016-11-02 2016-11-02 一种中文短文本聚类方法

Publications (2)

Publication Number Publication Date
CN106599029A CN106599029A (zh) 2017-04-26
CN106599029B true CN106599029B (zh) 2021-04-06

Family

ID=58590216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610952122.XA Active CN106599029B (zh) 2016-11-02 2016-11-02 一种中文短文本聚类方法

Country Status (1)

Country Link
CN (1) CN106599029B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273913B (zh) * 2017-05-11 2020-04-21 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN107329947B (zh) * 2017-05-15 2019-07-26 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN108197144B (zh) * 2017-11-28 2021-02-09 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108563696B (zh) * 2018-03-22 2021-05-25 创新先进技术有限公司 一种发掘潜在风险词的方法、装置及设备
CN108388674B (zh) * 2018-03-26 2021-11-26 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109000645A (zh) * 2018-04-26 2018-12-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂环境目标经典航迹提取方法
CN109145111B (zh) * 2018-07-27 2023-05-26 深圳市翼海云峰科技有限公司 一种基于机器学习的多特征文本数据相似度计算方法
CN109118113B (zh) * 2018-08-31 2021-08-10 传神语联网网络科技股份有限公司 Etm架构及词移距离
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
CN109446520B (zh) * 2018-10-17 2023-08-15 北京神州泰岳软件股份有限公司 用于构建知识库的数据聚类方法及装置
CN111291177A (zh) * 2018-12-06 2020-06-16 中兴通讯股份有限公司 一种信息处理方法、装置和计算机存储介质
CN109783816B (zh) * 2019-01-11 2023-04-07 河北工程大学 短文本聚类方法及终端设备
CN109977203B (zh) * 2019-03-07 2021-06-08 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN109960799B (zh) * 2019-03-12 2021-07-27 中南大学 一种面向短文本的优化分类方法
WO2020213757A1 (ko) * 2019-04-17 2020-10-22 엘지전자 주식회사 단어 유사도 판단 방법
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110347835B (zh) * 2019-07-11 2021-08-24 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN110489529B (zh) * 2019-08-26 2021-12-14 哈尔滨工业大学(深圳) 一种基于句法结构和重排序的对话生成方法
CN110489759B (zh) * 2019-09-12 2023-02-28 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN110941961B (zh) * 2019-11-29 2023-08-25 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111143574A (zh) * 2019-12-05 2020-05-12 大连民族大学 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN111143508B (zh) * 2019-12-06 2023-04-28 国家计算机网络与信息安全管理中心 一种基于通信类短文本的事件检测与跟踪方法及系统
CN111159393B (zh) * 2019-12-30 2023-10-10 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111401031A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 一种目标文本确定方法、装置及设备
CN112328796B (zh) * 2020-11-17 2023-06-30 中国平安财产保险股份有限公司 文本聚类方法、装置、设备及计算机可读存储介质
CN112632229A (zh) * 2020-12-30 2021-04-09 语联网(武汉)信息技术有限公司 文本聚类方法及装置
CN112650853A (zh) * 2021-01-13 2021-04-13 拉卡拉支付股份有限公司 短文本聚类方法、装置、电子设备、存储介质及程序产品
CN112860898B (zh) * 2021-03-16 2022-05-27 哈尔滨工业大学(威海) 一种短文本框聚类方法、系统、设备及存储介质
CN113139061B (zh) * 2021-05-14 2023-07-21 东北大学 一种基于词向量聚类的案件特征提取方法
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
CN105447119A (zh) * 2015-11-16 2016-03-30 北京京东尚科信息技术有限公司 一种文本聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10114823B2 (en) * 2013-11-04 2018-10-30 Ayasdi, Inc. Systems and methods for metric data smoothing
CN105022840B (zh) * 2015-08-18 2018-06-05 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
CN105447119A (zh) * 2015-11-16 2016-03-30 北京京东尚科信息技术有限公司 一种文本聚类方法

Also Published As

Publication number Publication date
CN106599029A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106599029B (zh) 一种中文短文本聚类方法
US10354170B2 (en) Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus
US8930288B2 (en) Learning tags for video annotation using latent subtags
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN108932318B (zh) 一种基于政策资源大数据的智能分析及精准推送方法
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
WO2018068648A1 (zh) 一种信息匹配方法及相关装置
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN103778206A (zh) 一种网络服务资源的提供方法
Hossny et al. Enhancing keyword correlation for event detection in social networks using SVD and k-means: Twitter case study
Chen et al. Popular topic detection in Chinese micro-blog based on the modified LDA model
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114168733B (zh) 一种基于复杂网络的法规检索方法及系统
Vu et al. Detecting emerging rumors by embedding propagation graphs
Huang et al. A Hybrid Clustering Approach for Bag‐of‐Words Image Categorization
Tran et al. Deep news recommendation with contextual user profiling and multifaceted article representation
Qi et al. Big data prediction in location-aware wireless caching: A machine learning approach
Castano et al. A new approach to security system development
Jasti et al. A review on sentiment analysis of opinion mining
Li et al. Classification of mobile APPs with combined information
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis
Lu et al. A novel method for Chinese named entity recognition based on character vector
Zhang et al. Personalized Recommendation Method of Online Education Resources for Tourism Majors Based on Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant