CN106776713A - 一种基于词向量语义分析的海量短文本聚类方法 - Google Patents
一种基于词向量语义分析的海量短文本聚类方法 Download PDFInfo
- Publication number
- CN106776713A CN106776713A CN201611018402.XA CN201611018402A CN106776713A CN 106776713 A CN106776713 A CN 106776713A CN 201611018402 A CN201611018402 A CN 201611018402A CN 106776713 A CN106776713 A CN 106776713A
- Authority
- CN
- China
- Prior art keywords
- term vector
- text
- word
- vector
- semantic analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 230000001133 acceleration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 206010068052 Mosaicism Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于词向量语义分析的海量短文本聚类方法,该方法针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练,将文本单词映射到256维的向量空间,然后对需要聚类的文本进行单词tfidf值的计算作为权重,将预处理后的文本进行加权求和,将短文本的向量化,相对于传统的tfidf模型,加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”,从而提高聚类效果,采用大数据实时流处理框架Spark进行K‑means或Dbscan算法进行聚类,加速得到聚类结果。
Description
技术领域
本发明涉及语义分析领域,更具体地,涉及一种基于词向量语义分析的海量短文本聚类方法。
背景技术
传统的文档空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,但还存在不少问题。0-1向量空间模型:将每个词的出现与否作为其值,过于简单暴力,忽略了单词出现的频率、顺序等问题,同时中文的切词难以规范也是很大问题。词袋模型考虑了单词出现的次数,词频逆文档tfidf模型,同时兼顾了单词在所有文档中出现的频率而计算单词的“重要度”,但对同义词都完全无法处理。如“奥巴马来了北京发表讲话”与“美国总统到了中国首都演讲”,传统的词向量空间模型将会看成完全不相同的两句话。传统的向量空间模型与概率模型构建的“文档——单词”矩阵,由于单词表巨大,一般都接近10万级别,而短文本会真正会出现的单词极少,因此,会出现向量化后的文本矩阵中出现大量未0的稀疏性问题,和维度太大计算量大的“维度爆炸”的问题。
PLSA等概率模型,在词与文本引入了“主题”(topic)中间概念,考虑了单词在所有文本中的分布,一定程度上解决了近义词的问题,但实现困难,计算复杂度大,对与几十到上百字的短文本效果也很差。因此,对于日益增长的海量的短文本数据不太实用。
在聚类算法方面,传统的K-Means算法简单方便,效果良好,但存在初始值需要聚类的簇数目K难以确定和计算时需要两两比较,复杂度大两个缺点。
发明内容
本发明提供一种基于词向量语义分析的海量短文本聚类方法,该方法聚类效果好,聚类速度快。
为了达到上述技术效果,本发明的技术方案如下:
一种基于词向量语义分析的海量短文本聚类方法,包括以下步骤:
S1:收集海量文本数据,并对每一文本数据进行预处理;
S2:对预处理后的文本进行word2vec模型训练得到词向量模型;
S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;
S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。
进一步地,所述步骤S1的具体过程是:
对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
进一步地,所述步骤S3的具体过程如下:
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
进一步地,所述步骤S4的具体过程如下:
1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;
2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;
3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;
4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。
进一步地,所述将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。
与现有技术相比,本发明技术方案的有益效果是:
本发明针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练,将文本单词映射到256维的向量空间,然后对需要聚类的文本进行单词tfidf值的计算作为权重,将预处理后的文本进行加权求和,将短文本的向量化,相对于传统的tfidf模型,加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”,从而提高聚类效果,采用大数据实时流处理框架Spark进行K-means或Dbscan算法进行聚类,加速得到聚类结果。
附图说明
图1为本发明方法流程图;
图2为本发明方法在实施例1中的问答系统中的应用流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于词向量语义分析的海量短文本聚类方法,包括以下步骤:
S1:收集海量文本数据,并对每一文本数据进行预处理;
S2:对预处理后的文本进行word2vec模型训练得到词向量模型;
S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;
S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。
步骤S1的具体过程是:
对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
步骤S3的具体过程如下:
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
步骤S4的具体过程如下:
1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;
2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;
3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;
4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。
本实施例中以某银行的用户客户问答日志记录作为例子,来说明本发明的方法的过程:
(1)收集数据集
通过将用户输入问题进行聚类分析,从而协助构建智能客服FAQ常用问答库。实际应用中可使用任何文本。
(2)文本预处理
相对于传统的词袋模型,尤其针对用户查询语句的短文本,高维性和稀疏性缺点突出,而且不能刻画词与词直接的相似性,可采用基于知识库的方法对部分词语进行消歧,如中文的《知网》,英文的WordNet等。然后,进行常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
(3)训练词向量
为了让机器“读懂”文字,本发明采用了向量空间模型,将每个文档表示为256维的实数向量序列。向量的特征项为文档中的词语,词向量的值由word2vec训练而来。Word2vec是Google公司开源的一个用于将词语进行向量化表示的工具,通过大语料训练得到的词向量有一定的表示词汇语法和语义关系的能力。本发明采用谷歌Mikolov等人提出的连续空间词向量技术(Continous Bag of Words,简称CBOW),通过单词的上下文预测该词的词向量,滑动窗口设为5。
(4)文本向量化
将单词映射成一个向量后,使用TF-IDF(Term Frequency-Inverse DocumentFrequence,词频-逆文档频率)算法来计算每个词在该文本的tfidf值作为权重,将每个短文本LTP切词后的文本加权求和映射为256维的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
(5)选择聚类算法进行聚类
K-Means算法实现简单,效果良好,但最大的问题在于类目数K的确定。可根据实际应用情况选定K值,或按照基于密度的聚类动态得到聚类簇数。本发明中,针对日志流的海量数据,使用Spark的机器学习库MLlib进行计算进行加速。K值的确定,一个是人工定义,在具体问题日志聚类中定义了公式(2)根据文本数的规则进行动态调整。很多具体的规则确定需要按实际,可用不同K值多次迭代,研究在不同聚类情况下的数据特点,再最终确定。问答系统中,针对噪音异常点较的情况,也采用了Dbscan基于密度的算法进行聚类。
本发明的关键步骤在于第三步和第四步,下面分别简述一下第三步词向量训练的具体步骤。
第(3)步词向量训练步骤:
(3.1)采用的是gensim的开源优化word2vec的python版本接口,利用互联网维基百科和财经新闻结合用户日志记录数据进行词向量的训练。每个单词256维,大大降低了计算的复杂性,同时有效解决了如“麦克风”与“话题”,“百度”与”腾讯”之间的语义的近似性。将原始语料(维基百科、财经新闻、业务客服问答日志约25G)进行清洗规范化后(10G),利用中科院的LTP分词工具进行分词。引入业务专有词典和《知网》同义词词典后进行替换翻译,减少数据稀疏性。
(3.2)将处理后的语料作为word2vec模型的输入,词向量维度设为256,上下窗口为5,选取CBOW方法进行训练。
(3.3)得到词模型太大(近5个G,26万个词),为提高效率,按照频率递减,剔除高频常用词和低频词,得到有效的15万个单词的向量。
(3.4)将需要聚类的文本同样预处理和切词后,计算出每个单词的tfidf值,作为后续word2vec的权重,将文本加权求和,得到每个文本固定256维度的向量。
第四步K-Means聚类算法步骤:
(4.1)通过第三步将文本向量化后,使用公式2,从n个短文本中数随机动态选取k个文本向量作为初始聚类中心。
(4.2)根据每个聚类对象的均值,分别计算其它每个文本向量与这K个聚类中心的距离,根据最小距离对这些文本进行划分。
(4.3)重新计算每个聚类的均值作为聚类中心。
(4.4)计算标准测度函数,如当迭代次数达到一定阈值,或者函数收敛K值不再变化时,算法终止,否则重新步骤(4.2)。
算法的时间复杂度上界为O(n*k*t),其中n为文本数,k为聚类簇数,t为迭代次数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于词向量语义分析的海量短文本聚类方法,其特征在于,包括以下步骤:
S1:收集海量文本数据,并对每一文本数据进行预处理;
S2:对预处理后的文本进行word2vec模型训练得到词向量模型;
S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;
S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。
2.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S1的具体过程是:
对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
3.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S3的具体过程如下:
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
4.根据权利要求3所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S4的具体过程如下:
1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;
2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;
3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;
4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。
5.根据权利要求3所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018402.XA CN106776713A (zh) | 2016-11-03 | 2016-11-03 | 一种基于词向量语义分析的海量短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018402.XA CN106776713A (zh) | 2016-11-03 | 2016-11-03 | 一种基于词向量语义分析的海量短文本聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776713A true CN106776713A (zh) | 2017-05-31 |
Family
ID=58968126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611018402.XA Pending CN106776713A (zh) | 2016-11-03 | 2016-11-03 | 一种基于词向量语义分析的海量短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776713A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330513A (zh) * | 2017-06-28 | 2017-11-07 | 深圳爱拼信息科技有限公司 | 一种提取深度信念网络中隐含节点语义的方法 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN107846472A (zh) * | 2017-11-24 | 2018-03-27 | 华北电力大学(保定) | 大规模输变电设备监测数据流的快速异常检测方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN108009647A (zh) * | 2017-12-21 | 2018-05-08 | 东软集团股份有限公司 | 设备记录处理方法、装置、计算机设备和存储介质 |
CN108536674A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种基于语义的典型意见聚合方法 |
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN109033270A (zh) * | 2018-07-09 | 2018-12-18 | 深圳追科技有限公司 | 一种基于人工客服日志自动构建客服知识库的方法 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109284372A (zh) * | 2018-09-03 | 2019-01-29 | 平安证券股份有限公司 | 用户操作行为分析方法、电子装置及计算机可读存储介质 |
CN109388808A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109684479A (zh) * | 2018-12-26 | 2019-04-26 | 广州云趣信息科技有限公司 | 一种基于人工智能来实现业务分析的方法 |
CN109684476A (zh) * | 2018-12-07 | 2019-04-26 | 中科恒运股份有限公司 | 一种文本分类方法、文本分类装置及终端设备 |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109918277A (zh) * | 2019-01-23 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、系统日志聚类分析结果的评价方法及存储介质 |
CN109947858A (zh) * | 2017-07-26 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法及装置 |
CN110019775A (zh) * | 2017-09-04 | 2019-07-16 | 南方电网传媒有限公司 | 一种网络短文本分类的优化系统及方法 |
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110807097A (zh) * | 2018-08-03 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 分析数据的方法和装置 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111428487A (zh) * | 2020-02-27 | 2020-07-17 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、歌词生成方法、装置、电子设备及介质 |
CN111460221A (zh) * | 2020-06-17 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 评论信息处理方法、装置及电子设备 |
CN112364633A (zh) * | 2021-01-13 | 2021-02-12 | 浙江一意智能科技有限公司 | 一种文字错误获取及校对方法、装置及存储介质 |
CN112417154A (zh) * | 2020-11-25 | 2021-02-26 | 上海创米科技有限公司 | 确定文献相似度的方法和装置 |
CN112434154A (zh) * | 2019-08-26 | 2021-03-02 | 北京星选科技有限公司 | 对象处理方法、装置、电子设备及存储介质 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN112825078A (zh) * | 2019-11-21 | 2021-05-21 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法和装置 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN112948583A (zh) * | 2021-02-26 | 2021-06-11 | 中国光大银行股份有限公司 | 数据的分类方法及装置、存储介质、电子装置 |
CN113779239A (zh) * | 2021-01-26 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种热点信息获取方法和装置 |
CN115344693A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
-
2016
- 2016-11-03 CN CN201611018402.XA patent/CN106776713A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127650A1 (en) * | 2013-11-04 | 2015-05-07 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Non-Patent Citations (2)
Title |
---|
唐晓丽等: "一种面向聚类的文本建模方法", 《山西大学学报(自然科学版)》 * |
郑文超等: "利用word2vec对中文词进行聚类的研究", 《软件》 * |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330513A (zh) * | 2017-06-28 | 2017-11-07 | 深圳爱拼信息科技有限公司 | 一种提取深度信念网络中隐含节点语义的方法 |
CN107330513B (zh) * | 2017-06-28 | 2020-07-31 | 深圳爱拼信息科技有限公司 | 一种提取深度信念网络中隐含节点语义的方法 |
CN107562717B (zh) * | 2017-07-24 | 2021-08-03 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN109947858A (zh) * | 2017-07-26 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法及装置 |
CN109388808B (zh) * | 2017-08-10 | 2024-03-08 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN109388808A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN110019775A (zh) * | 2017-09-04 | 2019-07-16 | 南方电网传媒有限公司 | 一种网络短文本分类的优化系统及方法 |
CN107846472A (zh) * | 2017-11-24 | 2018-03-27 | 华北电力大学(保定) | 大规模输变电设备监测数据流的快速异常检测方法 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN108009647A (zh) * | 2017-12-21 | 2018-05-08 | 东软集团股份有限公司 | 设备记录处理方法、装置、计算机设备和存储介质 |
CN108009647B (zh) * | 2017-12-21 | 2020-10-30 | 东软集团股份有限公司 | 设备记录处理方法、装置、计算机设备和存储介质 |
CN108536674A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种基于语义的典型意见聚合方法 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN109033270A (zh) * | 2018-07-09 | 2018-12-18 | 深圳追科技有限公司 | 一种基于人工客服日志自动构建客服知识库的方法 |
CN110807097A (zh) * | 2018-08-03 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 分析数据的方法和装置 |
CN109284372B (zh) * | 2018-09-03 | 2023-07-25 | 平安证券股份有限公司 | 用户操作行为分析方法、电子装置及计算机可读存储介质 |
CN109284372A (zh) * | 2018-09-03 | 2019-01-29 | 平安证券股份有限公司 | 用户操作行为分析方法、电子装置及计算机可读存储介质 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109684476A (zh) * | 2018-12-07 | 2019-04-26 | 中科恒运股份有限公司 | 一种文本分类方法、文本分类装置及终端设备 |
CN109684476B (zh) * | 2018-12-07 | 2023-10-17 | 中科恒运股份有限公司 | 一种文本分类方法、文本分类装置及终端设备 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
CN109684479A (zh) * | 2018-12-26 | 2019-04-26 | 广州云趣信息科技有限公司 | 一种基于人工智能来实现业务分析的方法 |
CN109918277A (zh) * | 2019-01-23 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、系统日志聚类分析结果的评价方法及存储介质 |
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
CN110046251B (zh) * | 2019-03-22 | 2023-12-08 | 创新先进技术有限公司 | 社区内容风险评估方法及装置 |
CN110489765B (zh) * | 2019-07-19 | 2024-05-10 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN112434154A (zh) * | 2019-08-26 | 2021-03-02 | 北京星选科技有限公司 | 对象处理方法、装置、电子设备及存储介质 |
CN112825078B (zh) * | 2019-11-21 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法和装置 |
CN112825078A (zh) * | 2019-11-21 | 2021-05-21 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法和装置 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111428487A (zh) * | 2020-02-27 | 2020-07-17 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、歌词生成方法、装置、电子设备及介质 |
CN111428487B (zh) * | 2020-02-27 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、歌词生成方法、装置、电子设备及介质 |
CN111460221A (zh) * | 2020-06-17 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 评论信息处理方法、装置及电子设备 |
CN111460221B (zh) * | 2020-06-17 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 评论信息处理方法、装置及电子设备 |
CN112417154A (zh) * | 2020-11-25 | 2021-02-26 | 上海创米科技有限公司 | 确定文献相似度的方法和装置 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN112612870B (zh) * | 2020-12-11 | 2023-12-01 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法及系统 |
CN112364633A (zh) * | 2021-01-13 | 2021-02-12 | 浙江一意智能科技有限公司 | 一种文字错误获取及校对方法、装置及存储介质 |
CN113779239A (zh) * | 2021-01-26 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种热点信息获取方法和装置 |
CN112948583A (zh) * | 2021-02-26 | 2021-06-11 | 中国光大银行股份有限公司 | 数据的分类方法及装置、存储介质、电子装置 |
CN112860898B (zh) * | 2021-03-16 | 2022-05-27 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN112860898A (zh) * | 2021-03-16 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN115344693B (zh) * | 2022-07-11 | 2023-05-12 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
CN115344693A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776713A (zh) | 一种基于词向量语义分析的海量短文本聚类方法 | |
CN108108351B (zh) | 一种基于深度学习组合模型的文本情感分类方法 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
CN107480122B (zh) | 人工智能交互方法及人工智能交互装置 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110889282B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN111104513B (zh) | 一种游戏平台用户问答业务的短文本分类方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
Huda et al. | A multi-label classification on topics of quranic verses (english translation) using backpropagation neural network with stochastic gradient descent and adam optimizer | |
CN110399603A (zh) | 一种基于意群划分的文本处理技术方法和系统 | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN106681986A (zh) | 一种多维度情感分析系统 | |
Yadav et al. | A comparative study of deep learning methods for hate speech and offensive language detection in textual data | |
CN111090749A (zh) | 一种基于TextCNN的报刊出版物分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |