CN109508379A - 一种基于加权词向量表示和组合相似度的短文本聚类方法 - Google Patents
一种基于加权词向量表示和组合相似度的短文本聚类方法 Download PDFInfo
- Publication number
- CN109508379A CN109508379A CN201811574621.5A CN201811574621A CN109508379A CN 109508379 A CN109508379 A CN 109508379A CN 201811574621 A CN201811574621 A CN 201811574621A CN 109508379 A CN109508379 A CN 109508379A
- Authority
- CN
- China
- Prior art keywords
- short text
- vector
- matrix
- indicate
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种加权词向量表示和组合相似度的短文本聚类方法。本方法为:短文本预处理。构造短文本的加权词向量表示。计算短文本之间的欧式距离相似度和余旋相似度,构造组合相似度矩阵。构造短文本的低维向量表示。最后,应用K均值聚类算法,以实现更加准确的短文本聚类。
Description
技术领域
本发明属于自然语言处理技术与模式识别领域,具体地说是一种基于加权词向量表示和组合相似度的短文本聚类方法。
背景技术
随着互联网的快速发展和社交媒体的广泛流行,人们大量利用手机短信、微信、微博、论坛等方式表达时事新闻、产品评论等信息。其中,短文本是一种长度比较短、内容比较少的文本(通常指160个字符以内的文本)。最近几年,互联网上的短文本以极快的增长速度出现,成为一种重要的信息传播方式。短文本能让用户快速了解主题内容,又不占用过多的阅读时间。短文本的主要特点在于长度短,所包含的内容比较少,结构极其不统一。在处理大量短文本时存在高度稀疏的问题。因此,如何准确且快速的从规模庞大的短文本数据中抽取有价值的信息成为了一个新的挑战。
目前,人们对短文本聚类展开了很大研究。针对短文本稀疏性特点,一些方法借助维基百科或本体库对短文本数据进行丰富和扩充。一些方法通过传统的词频特征对短文本进行表示,这种方式模型简单、易于构造,词频能在一定程度上反映了词语的重要性。但这类方法没有考虑到词语之间的高层语义关系,聚类效果不够理想。近年来,随着深度神经网络的兴起,一些方法开始应用深度学习自动从海量文本数据中学习词语表示。
词向量可以产生词语的分布式表示,能反映词语的语义信息。计算短文本中所有词向量的平均可以得到短文本的表示。然而,这种短文本表示方法简单认为所有词语具有相同的重要性,没有考虑到词语之间的差异,这可能导致一些重要词语的信息被削弱。同时聚类算法的性能也对短文本聚类的效果有很大影响。本发明通过结合文本的词频表示,赋予重要的词语以较大权重、不重要的词语以较小权重,按词语的权重对词向量进行加权组合,得到短文本更好的表示。同时,将多种文本相似度进行组合,以适应于不同的应用场景。针对加权词向量维度较高,存在特征冗余的缺陷,将加权词向量进行降维,得到短文本的低维向量表示,本发明在所述短文本低维向量表示的基础上应用K均值聚类算法,得到更稳定、准确的短文本聚类。
发明内容
本发明为了克服现有技术存在的不足之处,提出一种基于加权词向量表示和组合相似度的短文本聚类方法,以期能进一步提高短文本聚类的准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于加权词向量表示和组合相似度的短文本聚类方法的特点是按如下步骤进行:
步骤1:数据获取。获取短文本集合D={D1,D2,…,DN},Di表示第i个短文本,1≤i≤N,N为集合D中的短文本总数;
步骤2:对短文本集合D中的每个短文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个短文本的词语集合dj表示Di中的第j个词语;1≤j≤mi,mi为去除停用词后Di中包含的词语总数;
步骤3:计算短文本集合D={D1,D2,…,DN}的加权词向量表示{f1,f2,…,fN}:
步骤3.1:对每个短文本Di,根据下述TF-IDF公式,计算所包含的词语di的权重wi:
其中,TFij表示词语dj在短文本Di中出现的次数,DFj表示出现词语dj的短文本个数,N为集合D中的短文本总数。
步骤3.2:通过查表的方式得到每个短文本Di中每个词语的词向量表示其中为词语dj的词向量表示,
步骤3.3:计算每个短文本Di的加权词向量表示:
步骤4:构造短文本之间的组合相似度矩阵S:
步骤4.1:根据下式计算短文本Dm与Dn之间的欧式距离相似度
其中,为所述欧式距离相似度矩阵,σ为尺度参数,||fm-fn||表示向量fm-fn的2范数。
步骤4.2:根据下式计算短文本Dm与Dn之间的余弦相似度
其中,为所述余弦相似度矩阵,表示向量fm与fn的内积。
步骤4.3:根据下式计算短文本Dm与Dn之间的组合相似度:
其中,S=[Smn]m,n∈[1,N]为所述组合相似度矩阵,1≥α≥0为用于调节欧式距离相似度与余弦相似度的权重参数,注意S为一个对称矩阵。
步骤5:计算所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN}:
步骤5.1:根据下式构造标准拉普拉斯矩阵L:
其中,A为N×N的对角矩阵,对角线上的元素为1≤m≤N
步骤5.2:对拉普拉斯矩阵L进行特征值分解,得到N个特征值及对应的特征向量。将特征值按从大到小的顺序排列为λ1≥λ2≥…≥λN,对应的特征向量依次为v1,v2,…,vN,每个vi均为一个有N个元素的列向量。
步骤5.3:取上述特征向量的前K个,构造一个N×K的矩阵B=[v1,v2,…,vK]
步骤5.4:根据下式对矩阵B每一行进行单位化处理,得到一个N×K的矩阵C:
步骤5.5:得到所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN},其中,gi为矩阵C的第i行,代表RK空间中的一个点。
步骤6:应用K均值聚类算法对所述短文本集合的低维向量表示{g1,g2,…,gN}进行聚类:
步骤6.1:随机选取Q个短文本对应的低维向量作为聚类中心{q1,q2,…,qQ}
步骤6.2:根据下式计算所有短文本与所述聚类中心的距离rij:
rij=||gi-qj||
其中,gi为第i个短文本的低维向量表示,qj为第j个聚类的中心。
步骤6.3:根据第i个短文本到每个类中心的距离,将所述短文本划分到距离最小的类中,得到所述短文本的类标ci:
步骤6.4:根据属于第j个类的短文本集合,按照下述公式,计算新的聚类中心:
其中,1(ci=j)为指示函数,如果ci=j成立,则1(ci=j)=1,否则1(ci=j)=0。
步骤6.5:重复步骤6.2-6.4,直到两次迭代的聚类中心差异度小于预设阈值。
本发明的有益效果在于:本发明的短文本聚类方法能够以词语的TF-IDF作为词向量的权重,有助于增强重要词语的权重,弱化不重要词语的权重,获得的加权词向量表示能更好表示短文本的关键信息;组合相似度结合了欧式距离相似度与余弦相似度的优点,可以根据不同应用场景调节两种相似度的权重;短文本的低维向量表示可以显著降低加权词向量的维度,挖掘短文本分布的内在结构,同时降低聚类算法的时间复杂度。因此,本发明的短文本聚类方法能学习到更好的语义表示,实现较好的聚类效果。
附图说明
图1为本发明过程的示意图
具体实施方式
本发明为了克服现有技术存在的不足之处,提出一种基于加权词向量表示和组合相似度的短文本聚类方法,以期能进一步提高文本情感分类的准确性。
为更为具体地描述本发明,下面结合附图和具体实施方式对本发明的技术方案进行详细说明。
图1所示的是本实施例一种基于多特征融合集成学习的文本情感分类方法的流程图,具体过程为:
步骤1:数据获取。获取短文本集合D={D1,D2,…,DN},Di表示第i个短文本,1≤i≤N,N为集合D中的短文本总数;
步骤2:对短文本集合D中的每个短文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个短文本的词语集合dj表示Di中的第j个词语;1≤j≤mi,mi为去除停用词后Di中包含的词语总数;
中文分词操作主要基于字符串匹配原理,现有的开源中文分词软件包括结巴(Jieba)分词、中科院汉语分词系统(ICTCLAS)。此步骤采用结巴(Jieba)分词进行分词操作。
去停用词即去掉分词词语中与文本情感判断不太相关的词语,如空格、特殊字符、人名、时间日期、不含语义信息的词等。
步骤3:计算短文本集合D={D1,D2,…,DN}的加权词向量表示{f1,f2,…,fN}:
步骤3.1:对每个短文本Di,根据下述TF-IDF公式,计算所包含的词语di的权重wj:
其中,TFij表示词语dj在短文本Di中出现的次数,DFj表示出现词语dj的短文本个数,N为集合D中的短文本总数。
步骤3.2:通过查表的方式得到每个短文本Di中每个词语的词向量表示其中为词语dj的词向量表示,
步骤3.3:计算每个短文本Di的加权词向量表示:
步骤4:构造短文本之间的组合相似度矩阵S:
步骤4.1:根据下式计算短文本Dm与Dn之间的欧式距离相似度
其中,为所述欧式距离相似度矩阵,σ为尺度参数,||fm-fn||表示向量fm-fn的2范数。
步骤4.2:根据下式计算短文本Dm与Dn之间的余弦相似度
其中,为所述余弦相似度矩阵,表示向量fm与fn的内积。
步骤4.3:根据下式计算短文本Dm与Dn之间的组合相似度:
其中,S=[Smn]m,n∈[1,N]为所述组合相似度矩阵,注意S为一个对称矩阵。α为用于调节欧式距离相似度与余弦相似度的权重参数。
α的取值介于0到1之间,α越大表明欧式距离相似度更重要,α越小表明余弦相似度更重要,比如若α=0.5说明两种相似度同等重要。
步骤5:计算所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN}:
步骤5.1:根据下式构造标准拉普拉斯矩阵L:
其中,A为N×N的对角矩阵,对角线上的元素为1≤m≤N。
步骤5.2:对拉普拉斯矩阵L进行特征值分解,得到N个特征值及对应的特征向量。将特征值按从大到小的顺序排列为λ1≥λ2≥…≥λN,对应的特征向量依次为v1,v2,…,vN,每个vi均为一个有N个元素的列向量。
步骤5.3:取上述特征向量的前K个,构造一个N×K的矩阵B=[v1,v2,…,vK]。
一种选取K的方法为计算相邻特征值之差λ1-λ2,λ2-λ3,…,λN-1-λN,如果第i个特征值与第i+1个特征值的差异最大,则确定K为
步骤5.4:根据下式对矩阵B每一行进行单位化处理,得到一个N×K的矩阵C:
步骤5.5:得到所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN},其中,gi为矩阵C的第i行,代表RK空间中的一个点。
步骤6:应用K均值聚类算法对所述短文本集合的低维向量表示{g1,g2,…,gN}进行聚类:
步骤6.1:随机选取Q个短文本对应的低维向量作为聚类中心{q1,q2,…,qQ}
步骤6.2:根据下式计算所有短文本与所述聚类中心的距离rij:
rij=||gi-qj||
其中,gi为第i个短文本的低维向量表示,qj为第j个聚类的中心。
步骤6.3:根据第i个短文本到每个类中心的距离,将所述短文本划分到距离最小的类中,得到所述短文本的类标ci:
步骤6.4:根据属于第j个类的短文本集合,按照下述公式,计算新的聚类中心:
其中,1(ci=j)为指示函数,如果ci=j成立,则1(ci=j)=1,否则1(ci=j)=0
步骤6.5:重复步骤6.2-6.4,直到两次迭代的聚类中心差异度小于预设阈值。
Claims (5)
1.一种基于加权词向量表示和组合相似度的短文本聚类方法,其特征在于包括如下步骤:
步骤1:获取短文本数据集合D={D1,D2,…,DN},Di表示第i个短文本,1≤i≤N,N为集合D中的短文本总数
步骤2:对短文本集合D中的每个短文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个短文本的词语集合dj表示Di中的第j个词语;1≤j≤mi,mi为去除停用词后Di中包含的词语总数
步骤3:计算短文本集合D={D1,D2,…,DN}的加权词向量表示{f1,f2,…,fN}
步骤4:构造短文本之间的组合相似度矩阵S
步骤5:计算所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN}:
步骤6:应用K均值聚类算法对所述短文本集合的低维向量表示{g1,g2,…,gN}进行聚类。
2.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法,其特征在于步骤3包括:
步骤3.1:对每个短文本Di,根据下述TF-IDF公式,计算所包含的词语dj的权重wj:
其中,TFij表示词语dj在短文本Di中出现的次数,DFj表示出现词语dj的短文本个数,N为集合D中的短文本总数
步骤3.2:通过查表的方式得到每个短文本Di中每个词语的词向量表示其中vj=[vj1,vj2,…,vjp,]为词语dj的词向量表示
步骤3.3:计算每个短文本Di的加权词向量表示:
3.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法,其特征在于步骤4包括:
步骤4.1:根据下式计算短文本Dm与Dn之间的欧式距离相似度
其中,为所述欧式距离相似度矩阵,σ为尺度参数,||fm-fn||表示向量fm-fn的2范数
步骤4.2:根据下式计算短文本Dm与Dn之间的余弦相似度
其中,为所述余弦相似度矩阵,表示向量fm与fn的内积
步骤4.3:根据下式计算短文本Dm与Dn之间的组合相似度:
其中,S=[Smn]m,n∈[1,N]为所述组合相似度矩阵,1≥α≥0为用于调节欧式距离相似度与余弦相似度的权重参数,注意S为一个对称矩阵。
4.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法,其特征在于步骤5包括:
步骤5.1:根据下式构造标准拉普拉斯矩阵L:
其中,A为N×N的对角矩阵,对角线上的元素为1≤m≤N
步骤5.2:对拉普拉斯矩阵L进行特征值分解,得到N个特征值及对应的特征向量。将特征值按从大到小的顺序排列为λ1≥λ2≥…≥λN,对应的特征向量依次为v1,v2,…,vN,每个vi均为一个有N个元素的列向量
步骤5.3:取上述特征向量的前K个,构造一个N×K的矩阵B=[v1,v2,…,vK]
步骤5.4:根据下式对矩阵B每一行进行单位化处理,得到一个N×K的矩阵C:
步骤5.5:得到所述短文本集合D={D1,D2,…,DN}的低维向量表示{g1,g2,…,gN},其中,gi为矩阵C的第i行,代表RK空间中的一个点。
5.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法,其特征在于步骤6包括:
步骤6.1:随机选取Q个短文本对应的低维向量作为聚类中心{q1,q2,…,qQ}
步骤6.2:根据下式计算所有短文本与所述聚类中心的距离rij:
rij=||gi-qj||
其中,gi为第i个短文本的低维向量表示,qj为第j个聚类的中心
步骤6.3:根据第i个短文本到每个类中心的距离,将所述短文本划分到距离最小的类中,得到所述短文本的类标ci:
步骤6.4:根据属于第j个类的短文本集合,按照下述公式,计算新的聚类中心:
其中,1(ci=j)为指示函数,如果ci=j成立,则1(ci=j)=1,否则1(ci=j)=0
步骤6.5:重复步骤6.2-6.4,直到两次迭代的聚类中心差异度小于预设阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574621.5A CN109508379A (zh) | 2018-12-21 | 2018-12-21 | 一种基于加权词向量表示和组合相似度的短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574621.5A CN109508379A (zh) | 2018-12-21 | 2018-12-21 | 一种基于加权词向量表示和组合相似度的短文本聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109508379A true CN109508379A (zh) | 2019-03-22 |
Family
ID=65754304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811574621.5A Pending CN109508379A (zh) | 2018-12-21 | 2018-12-21 | 一种基于加权词向量表示和组合相似度的短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508379A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363354A (zh) * | 2019-07-16 | 2019-10-22 | 上海交通大学 | 风场风功率预测方法、电子装置及存储介质 |
CN110399615A (zh) * | 2019-07-29 | 2019-11-01 | 中国工商银行股份有限公司 | 交易风险监控方法及装置 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN111401191A (zh) * | 2020-03-10 | 2020-07-10 | 浙江中科锐晨智能科技有限公司 | 一种判断能谱图数据相似性的方法 |
CN111723297A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格社情研判的双重语义相似度判别方法 |
CN111723136A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格事件分类分级处置的单维聚类分析方法 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
CN112579783A (zh) * | 2020-12-31 | 2021-03-30 | 西安理工大学 | 基于拉普拉斯图谱的短文本聚类方法 |
CN112650853A (zh) * | 2021-01-13 | 2021-04-13 | 拉卡拉支付股份有限公司 | 短文本聚类方法、装置、电子设备、存储介质及程序产品 |
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN113010670A (zh) * | 2021-02-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
CN113076734A (zh) * | 2021-04-15 | 2021-07-06 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
CN113360648A (zh) * | 2021-06-03 | 2021-09-07 | 山东大学 | 基于相关性图学习的案由分类方法及系统 |
CN114639052A (zh) * | 2022-03-23 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 生成拍摄场次分组信息的方法、装置及设备 |
CN117591769A (zh) * | 2023-12-22 | 2024-02-23 | 云尖(北京)软件有限公司 | 一种网页防篡改方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129573A (zh) * | 2011-03-10 | 2011-07-20 | 西安电子科技大学 | 基于字典学习和稀疏表示的sar图像分割方法 |
KR101158750B1 (ko) * | 2010-12-01 | 2012-06-22 | 경북대학교 산학협력단 | 문서분류장치 및 그것의 문서분류방법 |
CN103246685A (zh) * | 2012-02-14 | 2013-08-14 | 株式会社理光 | 将对象实例的属性规则化为特征的方法和设备 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN106649273A (zh) * | 2016-12-26 | 2017-05-10 | 东软集团股份有限公司 | 一种文本处理方法及装置 |
-
2018
- 2018-12-21 CN CN201811574621.5A patent/CN109508379A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101158750B1 (ko) * | 2010-12-01 | 2012-06-22 | 경북대학교 산학협력단 | 문서분류장치 및 그것의 문서분류방법 |
CN102129573A (zh) * | 2011-03-10 | 2011-07-20 | 西安电子科技大学 | 基于字典学习和稀疏表示的sar图像分割方法 |
CN103246685A (zh) * | 2012-02-14 | 2013-08-14 | 株式会社理光 | 将对象实例的属性规则化为特征的方法和设备 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN106649273A (zh) * | 2016-12-26 | 2017-05-10 | 东软集团股份有限公司 | 一种文本处理方法及装置 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363354A (zh) * | 2019-07-16 | 2019-10-22 | 上海交通大学 | 风场风功率预测方法、电子装置及存储介质 |
CN110363354B (zh) * | 2019-07-16 | 2023-05-02 | 上海交通大学 | 风场风功率预测方法、电子装置及存储介质 |
CN110399615A (zh) * | 2019-07-29 | 2019-11-01 | 中国工商银行股份有限公司 | 交易风险监控方法及装置 |
CN110399615B (zh) * | 2019-07-29 | 2023-08-18 | 中国工商银行股份有限公司 | 交易风险监控方法及装置 |
CN110795572B (zh) * | 2019-10-29 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN111723297A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格社情研判的双重语义相似度判别方法 |
CN111723136A (zh) * | 2019-11-20 | 2020-09-29 | 中共南通市委政法委员会 | 一种面向网格事件分类分级处置的单维聚类分析方法 |
CN111723297B (zh) * | 2019-11-20 | 2023-05-12 | 中共南通市委政法委员会 | 一种面向网格社情研判的双重语义相似度判别方法 |
CN111401191A (zh) * | 2020-03-10 | 2020-07-10 | 浙江中科锐晨智能科技有限公司 | 一种判断能谱图数据相似性的方法 |
CN111401191B (zh) * | 2020-03-10 | 2022-06-07 | 浙江中科锐晨智能科技有限公司 | 一种判断能谱图数据相似性的方法 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
CN112347246B (zh) * | 2020-10-15 | 2024-04-02 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN112733520B (zh) * | 2020-12-30 | 2023-07-18 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN112579783A (zh) * | 2020-12-31 | 2021-03-30 | 西安理工大学 | 基于拉普拉斯图谱的短文本聚类方法 |
CN112650853A (zh) * | 2021-01-13 | 2021-04-13 | 拉卡拉支付股份有限公司 | 短文本聚类方法、装置、电子设备、存储介质及程序产品 |
CN113010670A (zh) * | 2021-02-22 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
CN113010670B (zh) * | 2021-02-22 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
CN113076734B (zh) * | 2021-04-15 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
CN113076734A (zh) * | 2021-04-15 | 2021-07-06 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
CN113360648A (zh) * | 2021-06-03 | 2021-09-07 | 山东大学 | 基于相关性图学习的案由分类方法及系统 |
CN114639052A (zh) * | 2022-03-23 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 生成拍摄场次分组信息的方法、装置及设备 |
CN114639052B (zh) * | 2022-03-23 | 2023-08-04 | 阿里巴巴(中国)有限公司 | 生成拍摄场次分组信息的方法、装置及设备 |
CN117591769A (zh) * | 2023-12-22 | 2024-02-23 | 云尖(北京)软件有限公司 | 一种网页防篡改方法及系统 |
CN117591769B (zh) * | 2023-12-22 | 2024-04-16 | 云尖(北京)软件有限公司 | 一种网页防篡改方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508379A (zh) | 一种基于加权词向量表示和组合相似度的短文本聚类方法 | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN109960800B (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN107392147A (zh) | 一种基于改进的生成式对抗网络的图像语句转换方法 | |
CN110321925A (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN105469096A (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN111046183A (zh) | 用于文本分类的神经网络模型的构建方法和装置 | |
CN105159917B (zh) | 一种电子病历的非结构化信息转化为结构化的泛化方法 | |
CN108920586A (zh) | 一种基于深度神经映射支持向量机的短文本分类方法 | |
CN111008266A (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN108875034A (zh) | 一种基于层次化长短期记忆网络的中文文本分类方法 | |
CN111061873B (zh) | 一种基于Attention机制的多通道的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190322 |