CN104142918A - 基于tf-idf特征的短文本聚类以及热点主题提取方法 - Google Patents
基于tf-idf特征的短文本聚类以及热点主题提取方法 Download PDFInfo
- Publication number
- CN104142918A CN104142918A CN201410378785.6A CN201410378785A CN104142918A CN 104142918 A CN104142918 A CN 104142918A CN 201410378785 A CN201410378785 A CN 201410378785A CN 104142918 A CN104142918 A CN 104142918A
- Authority
- CN
- China
- Prior art keywords
- sample
- idf
- short text
- samples
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题,与此同时本方法还借助可视化技术来对聚类结果进行可视化分析,最后进行热点主题的提取和分析。
Description
技术领域
本发明涉及数字文本挖掘技术,特别是涉及文本的聚类以及相应的热点主题提取的方法。
背景技术
文本聚类多年来一直是研究学者致力于研究、探索和解决的热点问题之一,时至今日,仍有诸多难题亟需解决,例如在进行聚类时,样本不均衡,样本特征维度过高,聚类算法复杂度太大等都带来了极大的挑战。与此同时,伴随着计算机的快速发展,每天都有海量的文本数据生成,随着数据的激增我们进入了大数据的时代,伴随而来的是更多更复杂,更难解决的问题。
发明内容
为了克服上述现有技术存在的问题,本发明提出一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,针对短文本样本,通过提取TF-IDF特征能够有效的进行短文本样本聚类以及相关热点主题的提取,结合并使用了TF-IDF特征、SVD奇异值分解、余弦定理、k-means聚类等技术,能够有效地进行短文本聚类、热点主题提取和数据挖掘与分析。
本发明提出了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:
首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操作:
对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个选择高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操作:
TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现的次数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样本的所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量,
FeatureVector={f1,f2,f3,…,fn}; (1)
公式1中,样本的TF-IDF特征计算公式为:
fn=tf-idf(tn,d,D)=tf(tn,d)*idf(tn,D); (2)
公式2中,tf值计算公式为:
tf(tn,d=NumberofTimes(tn), (3)
公式3中,idf值计算公式为:
其中,公式(2)、(3)、(4)中,D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇,即一个特征;
上述所有样本的TF-IDF特征向量组成矩阵,该矩阵即为样本特征向量空间模型。
所述运用SVD奇异值分解进行样本空间维度的约减的步骤,具体包括以下操作:
通过计算样本空间矩阵的奇异值并按大小从大到小排列,取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90%,将特征向量样本空间的高维度约减到r维:
结合余弦定理对短文本样本进行聚类的步骤,具体包括以下操作:
计算两个样本的特征向量之间的余弦值,如果两个向量之间的余弦值越接近1说明两个样本越相似,应该被分为一类,如果余弦值越接近0说明两个样本越无关。
在结合余弦定理对短文本样本进行聚类的步骤的聚类结果上,采用k-means方法对
短文本样本进行聚类,具体包括以下步骤:
首先用户输入一个阈值,即类簇内所有样本间距离的平均值;采用k-means方法先对样本空间进行粗粒的聚类,紧接着对每一个类簇进行判断,判断类簇内的样本间相互的平均余弦距离是否大于阈值,如果大于则会进一步进行分割聚类,反之对于这个类的进一步分割则会停止;得到了所有样本的一个分类结果。
所述通过可视化的分析手段找出每一个类簇中潜在的热点主题,具体包括以下操作:
采用d3.js可视分析技术,对每一个类簇间的特征之间的关系进行可视化显示与分析,以此对每一类簇内的热点主题进行提取。
与现有技术相比,本发明具有以下有益效果:
1、能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题,与此同时本方法还借助可视化技术来对聚类结果进行可视化分析,最后进行热点主题的提取和分析。
2、能够有效的处理短文本聚类问题,还能够有效地对每一个类簇中可能潜在的热点主题进行挖掘和分析。不仅展示了数据挖掘技术在文本分析方面的有效应用,还标志了知识工程走向工业化的借鉴意义。
3、能够帮助管理人员进行热点问题追踪,起到辅助、支持决策的作用
附图说明
图1为本发明整体流程示意图
图2为实施例的词汇频率分布图;
图3为实施例的词汇频率分布图(从小到大排序);
图4为实施例的高频词汇频率分布图;
图5为实施例的部分高频词汇示例图;
图6为实施例的40万短文本样本的VSM示例图;
图7为实施例的300个奇异值的大小分布图(从大到小累加排列);
图8为实施例的奇异值分解降低SVM维度示例图;
图9为实施例的聚类过程中每个类簇的百分比分布示例图;
图10为实施例的聚类完成后所以类簇层次分布图;
图11为实施例的聚类完成后所以类簇层次分布图。
具体实施方式
使本发明的目的、技术方案和优点更加清晰易懂,下面结合附图对本发明实施例进一步详细说明。
如图1所示,本发明的整体流程详述如下:
步骤1:使用正向最大匹配法对所有样本进行中文分词,紧接着对所有词出现的频率求和,求出所有词出现的的总词频,然后将所有词按其出现的频率从大到小排序,从词频最大的词开始按词频降低的顺序进行词汇选择,直到已经选择词的词频和与总词频的比例达到9:10,则停止,至此,筛选出频率较高的高频词汇。
步骤2:将步骤1筛选出的高频词汇作为样本特征,接下来要对每一个短文本样本进行TF-IDF特征提取和生成。TF-IDF可用于文本特征加权,其又叫做TermFrequency–InverseDocumentFrequency。TF-IDF由两部分组成:TF和IDF。
TF为这一个词在一个样本中出现的次数(统计该样本中该词出现的次数),假设d为具体的某一文本样本,tn为第n个高频词汇(既一个特征),则该特征的tf值计算公式如下:
tf(tn,d=NumberofTimes(tn)
IDF为这一个词在所有样本中出现的次数(统计所有样本中一个词出现的次数),假设D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇(即一个特征),则该特征的idf值计算公式如下:
TF和IDF两部分相乘,就能得到具体的一个高频词特征对于一个样本的重要程度。假设D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇(既一个特征),tn则对于样本d的tf-idf计算公式如下:
fn=tf-idf(tn,d,D)=tf(tn,d)*idf(tn,D)
一个样本拥有诸多个特征(每个特征就是一个高频词),因此对每一个样本就拥一堆特征值组成的一个特征向量。形式如下:
FeatureVector={f1,f2,f3,…,fn}
紧接着对所有样本进行特征向量的提取和建立后,得到由所有样本特征向量组成的高维度特征向量空间模型矩阵(VSM)。
步骤3:通过步骤2得到高维度特征向量控件模型(VSM),接着奇异值分解(SVD)对样本空间进行维度约减,假设样本特征向量控件模型是一个m*n的矩阵M,则使用用奇异值分解(SVD)能够将其分解为三个矩阵的乘积,形式如下:
其中Σm*n矩阵的对角线上包含了SVD分解后的所有奇异值,并且从大到小排列,取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90%。这样成功的将特征向量样本空间的高维度约减到r维,这么一来不仅保留了原样本特征向量控件模型的90%特征,同时还达到维度约减的效果,得到维度为r的近似矩阵。形式如下:
步骤4:结合余弦定理和k-means方法对短文本样本进行聚类;
两个向量之间的方向是否相同可用两个向量之间夹角的余弦值来判断,如果两个向量之间的余弦值越接近1说明两个向量方向接近,如果余弦值越接近0说明两个向量方向垂直。
公式如下:
由于每个样本都拥有独一无二的特征向量,因此使用余弦相似度来衡量两个样本之间的相似度,假设两个样本的特征向量为和则样本相似度计算公式如下:
步骤5:如步骤4所述,在使用余弦定理来衡量样本见相似度的基础上,用改进的k-means聚类算法来对低纬度的VSM进行聚类,本方法在采用k-means聚类方法的基础上添加了算法自适应性,首先用户输入一个阈值(类簇内所有样本间距离的平均值),算法采用k-means先对样本空间进行粗粒的聚类,紧接着算法能够对每一个类簇进行判断,判断类簇内的样本间相互的平均余弦距离是否大于预定义的阈值,如果大于则会进一步进行分割聚类,反之对于这个类的进一步分割则会停止。等算法最终停止,得到所有样本的一个分类结果。伪代码如下:
步骤6:通过步骤5得到了所有样本的分类结果,接着采用可视分析技术对每一个类簇间的特征之间的关系进行可视化显示与进一步分析,以此对每一类簇内的热点主题进行提取,帮助管理人员进行热点问题追踪,起到辅助、支持决策的作用。
在该实施例中,利用本发明的方法对约40多万条的短文本数据进行数据挖掘、分析和处理。这40多万条文本内容主要是描述了21万居民日常生活中遇到的实际问题。使用本发明方法进行短文本的聚类、热点主题提取、信息挖掘与分析,帮助县管理人员进行热点问题追踪,了解居民日常生活遇到的主要问题。为领导层的决策起到辅助、支持的作用。
本发明在40多万条短文本数据上的运用案例的详细实施方式如下:
首先对40多万条短文本样本数据进行中文分词,如图2所示为所有样本分词后每一个词的词频分布情况,共有1.4万左右的词汇,其中超高频词(超过5000)出现的比例并不多,而中频词(500-5000)出现的比例较多,低频词(少于500)出现的比例尤为多。如图3所示,对所有出现的词按出现频率从小到大进行排序,看到词频在5000以上的占少数,大部分词出现在500-5000之间,少于500的低频词虽然数目不少,可是由于其频率太低,不具有特征代表性。
基于上述分词结果进行高频词选择,使得已选择的高频词和未选择的词的词频比例达到9:1。图4所示为已选择的高频词的频率分布图,可以看出将词从1.4万降低到300个高频词作为特征维度。图5所示为部分高频词汇的示例图,例如“村名”出现了29021次,“生活情况”出现了7331次,“食品安全”出现了594次。伴随着300个高频词汇(既300个特征)的选择完毕,意味着针对每一个短文本样本,这样就可以用一个1*300的向量来表示一个短文本样本。
接着对每一个文本样本的300个特征维度进行TF-IDF的特征计算,TF-IDF由TF和IDF两部分相乘组成,通过计算一个特征的TF-IDF就能知道样本的该特征是否凸显。一个样本拥有300个特征,因此需要对每一个样本的300个特征维度进行计算,就能生成每一个样本的特征向量,所有样本的特征向量组成的矩阵就称之为VSM(样本特征向量空间模型)。图6所示为40多万条短文本样本的特征向量空间模型(VSM)示例图,其中每一列就是一个300*1的样本,代表着一个样本的300个特征,下方的部分放大图显示了每个样本在其300个特征维度上的凸显强度,每一个点越亮说明样本的该特征越凸显,反之则不凸显。整个VSM有40多万个样本,也直观的说明了特征向量空间模型(VSM)往往都有样本数量大,空间维度高,矩阵稀疏的特点。
当得到高维度的样本特征向量空间模型(VSM)后,使用SVD奇异值分解对样本空间矩阵进行分解,通过计算样本空间矩阵的奇异值并按大小从大到小排列,取前n个奇异值使得n个奇异值的奇异值之和占总奇异值之和的90%。如图7所示,300个奇异值从大到小的累加排列,x周表示取前n个最大的奇异值,对应的y为这n个奇异值之和占总奇异值之和的百分比。可以清楚的看到当取124个特征的时候能够保留原VSM的90%特性,当取182个特征的时候能高保留原VSM的95%特性,保留95%的特性,这样就成功的将特征向量样本空间的高维度约减到182维,图8展示了SVD后的VSM的特征维度,下方的放大图有些许模糊,这是维度约减所带来的不可避免的结果,尽管如此,仍保留了原样本特征向量控件模型的95%特征,同时还达到维度约减的效果。
紧接着在低维度的VSM(样本特征向量间模型)上,采用余弦相似度(余弦定理)来衡量两个样本之间的相似度,如果两个向量之间的余弦值越接近1说明两个样本越相似,应该被分为一类,如果两个样本越接近0说明两个样本越无关。并在此基础上结合改进过的自适应k-means聚类方法对样本进行样本聚类。改进后的k-means聚类方法添加了聚类自适应性,首先用户输入一个阈值(类簇内所有样本间距离的平均值),算法采用k-means先对样本空间进行粗粒的聚类,紧接着算法能够对每一个类簇进行判断,判断类簇内的样本间相互的平均余弦距离是否大于预定义的阈值,如果大于则会进一步进行分割聚类,反之对于这个类的进一步分割则会停止。如图9所示,自适应聚类过程中类簇被进一步分割前后的比分布图,当聚类算法第一次迭代的时候样本被聚类为100个类簇左右,此时大部分类簇数量占总数量的比例都在2-4%之间,与此同时类簇内样本距离和高于阈值,需要进一步被分割。伴随着算法的迭代,我们看到类簇被进一步分割成200个,300个,400个最终当类簇达到500个左右的时候,算法停止,此时类簇内样本数量均低于总量的2%,同时所有类簇内的样本距离都小于阈值,算法停止。如图10所示,样本聚类完成后最终所有类簇的层次分布图。
接着,通过可视分析技术对每一个类簇间的特征之间的关系进行可视化显示与分析与热点主题的提取工作,将该类簇内样本中出现的词建立连接,并提关键主题。如图11所示,每一个圆环都是由182个高频词汇组成,每一个样本中出现的词会根据其在样本中出现的顺序用弧线依次链接,上方所有的40万个样本的词组成的圆环内词与词之间的链接是混乱复杂的,根本看不出任何规律,然而随着聚类算法的运行,每个类簇中特有的规律与模式开始显现,左下方就是其中某一个类簇中所有样本的词的链接与分布情况,通过分析该类簇发现其热点主题包括:人口增加问题,村名反映希望能够解决生活问题。
本方法通过可视化的方式,直观的反映村名生活中遇到的热点问题,有效的帮助管理人员进行热点问题追踪,同时对领导人员进行决策制定起到辅助和支持作用。
以上所述,仅为本发明的较佳实施例而已,用于帮助理解本发明的方法及核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,所以本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,该方法包括以下步骤:
首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
2.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操作:
对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个选择高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
3.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操作:
TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现的次数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样本的所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量:
FeatureVector={f1,f2,f3,…,fn}; (1)
公式(1)中,样本的TF-IDF特征计算公式为:
fn=tf-idf(tn,d,D)=tf(tn,d)*idf(tn,D); (2)
公式(2)中,tf值计算公式为:
tf(tn,d=NumberofTimes(tn), (3)
公式(2)中,idf值计算公式为:
其中,公式(2)、(3)、(4)中,D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇,即一个特征;
上述所有样本的TF-IDF特征向量组成矩阵,该矩阵即为样本特征向量空间模型。
4.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述运用SVD奇异值分解进行样本空间维度的约减的步骤,具体包括以下操作:
通过计算样本空间矩阵的奇异值并按大小从大到小排列,取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90%,将特征向量样本空间的高维度约减到r维:
5.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,结合余弦定理对短文本样本进行聚类的步骤,具体包括以下操作:
计算两个样本的特征向量之间的余弦值,如果两个向量之间的余弦值越接近1说明两个样本越相似,应该被分为一类,如果余弦值越接近0说明两个样本越无关。
6.如权利要求5所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,在结合余弦定理对短文本样本进行聚类的步骤的聚类结果上,采用k-means方法对短文本样本进行聚类,具体包括以下步骤:
首先用户输入一个阈值,即类簇内所有样本间距离的平均值;采用k-means方法先对样本空间进行粗粒的聚类,紧接着对每一个类簇进行判断,判断类簇内的样本间相互的平均余弦距离是否大于阈值,如果大于则会进一步进行分割聚类,反之对于这个类的进一步分割则会停止;得到了所有样本的一个分类结果。
7.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述通过可视化的分析手段找出每一个类簇中潜在的热点主题,具体包括以下操作:
采用d3.js可视分析技术,对每一个类簇间的特征之间的关系进行可视化显示与分析,以此对每一类簇内的热点主题进行提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410378785.6A CN104142918B (zh) | 2014-07-31 | 2014-07-31 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410378785.6A CN104142918B (zh) | 2014-07-31 | 2014-07-31 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104142918A true CN104142918A (zh) | 2014-11-12 |
CN104142918B CN104142918B (zh) | 2017-04-05 |
Family
ID=51852094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410378785.6A Active CN104142918B (zh) | 2014-07-31 | 2014-07-31 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104142918B (zh) |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484388A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 稀缺信息页面的筛选方法和装置 |
CN105022797A (zh) * | 2015-06-30 | 2015-11-04 | 北京奇艺世纪科技有限公司 | 一种资源的主题处理方法和装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105975460A (zh) * | 2016-05-30 | 2016-09-28 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
CN106815199A (zh) * | 2015-11-30 | 2017-06-09 | 任子行网络技术股份有限公司 | 基于机器学习的协议类型分析方法和装置 |
CN106851033A (zh) * | 2017-01-10 | 2017-06-13 | 上海诺悦智能科技有限公司 | 基于数据挖掘的服务推荐方法及系统 |
CN106886576A (zh) * | 2017-01-22 | 2017-06-23 | 广东广业开元科技有限公司 | 一种基于预分类的短文本关键词提取方法及系统 |
CN107315807A (zh) * | 2017-06-26 | 2017-11-03 | 三螺旋大数据科技(昆山)有限公司 | 人才推荐方法和装置 |
CN107656948A (zh) * | 2016-11-14 | 2018-02-02 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN108241669A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种自适应文本特征簇的构建方法和系统 |
CN108304371A (zh) * | 2017-07-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 热点内容挖掘的方法、装置、计算机设备及存储介质 |
CN108572954A (zh) * | 2017-03-07 | 2018-09-25 | 上海颐为网络科技有限公司 | 一种近似词条结构推荐方法和系统 |
CN108875365A (zh) * | 2018-04-22 | 2018-11-23 | 北京光宇之勋科技有限公司 | 一种入侵检测方法及入侵检测检测装置 |
CN108959344A (zh) * | 2018-04-10 | 2018-12-07 | 天津大学 | 一种针对职业教育动态的分析方法 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109145907A (zh) * | 2018-09-11 | 2019-01-04 | 上海中信信息发展股份有限公司 | 基于常用字字频统计的文本图像倒置检测方法及装置 |
CN109478191A (zh) * | 2016-07-25 | 2019-03-15 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘程序及文本挖掘装置 |
CN109508379A (zh) * | 2018-12-21 | 2019-03-22 | 上海文军信息技术有限公司 | 一种基于加权词向量表示和组合相似度的短文本聚类方法 |
CN110096697A (zh) * | 2019-03-15 | 2019-08-06 | 华为技术有限公司 | 词向量矩阵压缩方法和装置、及获取词向量的方法和装置 |
CN110222183A (zh) * | 2019-06-12 | 2019-09-10 | 云南电网有限责任公司大理供电局 | 一种供电客户满意度评价模型的构建方法 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
CN110489531A (zh) * | 2018-05-11 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 高频问题的确定方法和装置 |
CN110516068A (zh) * | 2019-08-23 | 2019-11-29 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN110717033A (zh) * | 2018-06-26 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 文本分类噪声监测方法、装置、设备及计算机可读介质 |
CN110992106A (zh) * | 2019-12-11 | 2020-04-10 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111339286A (zh) * | 2020-02-14 | 2020-06-26 | 重庆邮电大学 | 一种基于主题可视化的探索机构研究状况的方法 |
CN111475601A (zh) * | 2020-04-09 | 2020-07-31 | 云南电网有限责任公司电力科学研究院 | 一种电力工单热点主题获取方法及装置 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN112612873A (zh) * | 2020-12-25 | 2021-04-06 | 上海德拓信息技术股份有限公司 | 一种基于nlp技术的集中性事件挖掘方法 |
CN112685215A (zh) * | 2021-01-22 | 2021-04-20 | 浪潮云信息技术股份公司 | 一种云平台异常日志分析方法 |
CN112784040A (zh) * | 2020-12-08 | 2021-05-11 | 国网甘肃省电力公司信息通信公司 | 基于语料库的垂直行业文本分类方法 |
CN113821631A (zh) * | 2021-01-20 | 2021-12-21 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN114281928A (zh) * | 2020-09-28 | 2022-04-05 | 中国移动通信集团广西有限公司 | 基于文本数据的模型生成方法、装置及设备 |
CN115170210A (zh) * | 2022-09-06 | 2022-10-11 | 深圳市明源云科技有限公司 | 售楼处的接待方法、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103218405A (zh) * | 2013-03-20 | 2013-07-24 | 西安电子科技大学 | 基于维数约简的集成迁移文本分类方法 |
-
2014
- 2014-07-31 CN CN201410378785.6A patent/CN104142918B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103218405A (zh) * | 2013-03-20 | 2013-07-24 | 西安电子科技大学 | 基于维数约简的集成迁移文本分类方法 |
Non-Patent Citations (2)
Title |
---|
王礼礼: "基于潜在语义索引的文本聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
申莹: "针对确定话题的离散文本舆情聚类与可视化研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484388A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 稀缺信息页面的筛选方法和装置 |
CN105022797A (zh) * | 2015-06-30 | 2015-11-04 | 北京奇艺世纪科技有限公司 | 一种资源的主题处理方法和装置 |
CN105022797B (zh) * | 2015-06-30 | 2018-10-09 | 北京奇艺世纪科技有限公司 | 一种资源的主题处理方法和装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN106815199A (zh) * | 2015-11-30 | 2017-06-09 | 任子行网络技术股份有限公司 | 基于机器学习的协议类型分析方法和装置 |
CN105975460A (zh) * | 2016-05-30 | 2016-09-28 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN109478191B (zh) * | 2016-07-25 | 2022-04-08 | 株式会社斯库林集团 | 文本挖掘方法、记录介质及文本挖掘装置 |
CN109478191A (zh) * | 2016-07-25 | 2019-03-15 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘程序及文本挖掘装置 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN107656948A (zh) * | 2016-11-14 | 2018-02-02 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
WO2018086401A1 (zh) * | 2016-11-14 | 2018-05-17 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
CN107656948B (zh) * | 2016-11-14 | 2019-05-07 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
CN108241669A (zh) * | 2016-12-26 | 2018-07-03 | 上海神计信息系统工程有限公司 | 一种自适应文本特征簇的构建方法和系统 |
CN106851033A (zh) * | 2017-01-10 | 2017-06-13 | 上海诺悦智能科技有限公司 | 基于数据挖掘的服务推荐方法及系统 |
CN106886576B (zh) * | 2017-01-22 | 2018-04-03 | 广东广业开元科技有限公司 | 一种基于预分类的短文本关键词提取方法及系统 |
CN106886576A (zh) * | 2017-01-22 | 2017-06-23 | 广东广业开元科技有限公司 | 一种基于预分类的短文本关键词提取方法及系统 |
CN108572954A (zh) * | 2017-03-07 | 2018-09-25 | 上海颐为网络科技有限公司 | 一种近似词条结构推荐方法和系统 |
CN107315807A (zh) * | 2017-06-26 | 2017-11-03 | 三螺旋大数据科技(昆山)有限公司 | 人才推荐方法和装置 |
CN107315807B (zh) * | 2017-06-26 | 2020-08-04 | 三螺旋大数据科技(昆山)有限公司 | 人才推荐方法和装置 |
CN108304371B (zh) * | 2017-07-14 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 热点内容挖掘的方法、装置、计算机设备及存储介质 |
CN108304371A (zh) * | 2017-07-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 热点内容挖掘的方法、装置、计算机设备及存储介质 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108959344A (zh) * | 2018-04-10 | 2018-12-07 | 天津大学 | 一种针对职业教育动态的分析方法 |
CN108875365A (zh) * | 2018-04-22 | 2018-11-23 | 北京光宇之勋科技有限公司 | 一种入侵检测方法及入侵检测检测装置 |
CN110489531A (zh) * | 2018-05-11 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 高频问题的确定方法和装置 |
CN109033069B (zh) * | 2018-06-16 | 2022-05-17 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN110717033A (zh) * | 2018-06-26 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 文本分类噪声监测方法、装置、设备及计算机可读介质 |
CN109145907A (zh) * | 2018-09-11 | 2019-01-04 | 上海中信信息发展股份有限公司 | 基于常用字字频统计的文本图像倒置检测方法及装置 |
CN109145907B (zh) * | 2018-09-11 | 2020-12-11 | 上海信联信息发展股份有限公司 | 基于常用字字频统计的文本图像倒置检测方法及装置 |
CN109508379A (zh) * | 2018-12-21 | 2019-03-22 | 上海文军信息技术有限公司 | 一种基于加权词向量表示和组合相似度的短文本聚类方法 |
CN110096697A (zh) * | 2019-03-15 | 2019-08-06 | 华为技术有限公司 | 词向量矩阵压缩方法和装置、及获取词向量的方法和装置 |
CN110222183A (zh) * | 2019-06-12 | 2019-09-10 | 云南电网有限责任公司大理供电局 | 一种供电客户满意度评价模型的构建方法 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
CN110413768B (zh) * | 2019-08-06 | 2022-05-03 | 成都信息工程大学 | 一种文章题目自动生成方法 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
CN110516068B (zh) * | 2019-08-23 | 2023-05-26 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN110516068A (zh) * | 2019-08-23 | 2019-11-29 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN110992106B (zh) * | 2019-12-11 | 2023-11-03 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN110992106A (zh) * | 2019-12-11 | 2020-04-10 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN111339286A (zh) * | 2020-02-14 | 2020-06-26 | 重庆邮电大学 | 一种基于主题可视化的探索机构研究状况的方法 |
CN111339286B (zh) * | 2020-02-14 | 2024-02-09 | 四川超易宏科技有限公司 | 一种基于主题可视化的探索机构研究状况的方法 |
CN111310467A (zh) * | 2020-03-23 | 2020-06-19 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111310467B (zh) * | 2020-03-23 | 2023-12-12 | 应豪 | 一种在长文本中结合语义推断的主题提取方法及系统 |
CN111475601A (zh) * | 2020-04-09 | 2020-07-31 | 云南电网有限责任公司电力科学研究院 | 一种电力工单热点主题获取方法及装置 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN114281928A (zh) * | 2020-09-28 | 2022-04-05 | 中国移动通信集团广西有限公司 | 基于文本数据的模型生成方法、装置及设备 |
CN112784040B (zh) * | 2020-12-08 | 2023-02-28 | 国网甘肃省电力公司信息通信公司 | 基于语料库的垂直行业文本分类方法 |
CN112784040A (zh) * | 2020-12-08 | 2021-05-11 | 国网甘肃省电力公司信息通信公司 | 基于语料库的垂直行业文本分类方法 |
CN112612873B (zh) * | 2020-12-25 | 2023-07-07 | 上海德拓信息技术股份有限公司 | 一种基于nlp技术的集中性事件挖掘方法 |
CN112612873A (zh) * | 2020-12-25 | 2021-04-06 | 上海德拓信息技术股份有限公司 | 一种基于nlp技术的集中性事件挖掘方法 |
CN113821631B (zh) * | 2021-01-20 | 2022-04-22 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN113821631A (zh) * | 2021-01-20 | 2021-12-21 | 广东省信息网络有限公司 | 一种基于大数据的商品匹配方法 |
CN112685215A (zh) * | 2021-01-22 | 2021-04-20 | 浪潮云信息技术股份公司 | 一种云平台异常日志分析方法 |
CN115170210A (zh) * | 2022-09-06 | 2022-10-11 | 深圳市明源云科技有限公司 | 售楼处的接待方法、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104142918B (zh) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104142918A (zh) | 基于tf-idf特征的短文本聚类以及热点主题提取方法 | |
Paliwal et al. | Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images | |
Ding et al. | A survey on feature extraction for pattern recognition | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
CN106570513A (zh) | 大数据网络系统的故障诊断方法和装置 | |
Lagerstrom et al. | Image classification to support emergency situation awareness | |
CN106056082B (zh) | 一种基于稀疏低秩编码的视频动作识别方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN104239436A (zh) | 一种基于文本分类和聚类分析的网络热点事件发现方法 | |
CN104794368A (zh) | 基于foa-mksvm的滚动轴承故障分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN101980199A (zh) | 基于态势评估的网络热点话题发现方法及系统 | |
CN108874772A (zh) | 一种多义词词向量消歧方法 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN104239485A (zh) | 一种基于统计机器学习的互联网暗链检测方法 | |
CN103530603A (zh) | 基于环路图模型的视频异常检测方法 | |
CN103412557A (zh) | 一种适于非线性过程在线监控的工业故障检测与诊断方法 | |
CN101763404A (zh) | 基于模糊聚类的网络文本数据检测方法 | |
Xu et al. | An improved information gain feature selection algorithm for SVM text classifier | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN110334180B (zh) | 一种基于评论数据的移动应用安全性评估方法 | |
CN104009886A (zh) | 基于支持向量机的入侵检测方法 | |
CN103473556A (zh) | 基于拒识子空间的分层支持向量机分类方法 | |
CN104408472A (zh) | 基于Wishart和SVM的极化SAR图像分类方法 | |
CN114067915A (zh) | 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |