CN109815495B - 一种通过标签传播算法进行主题分面挖掘的方法 - Google Patents

一种通过标签传播算法进行主题分面挖掘的方法 Download PDF

Info

Publication number
CN109815495B
CN109815495B CN201910041002.8A CN201910041002A CN109815495B CN 109815495 B CN109815495 B CN 109815495B CN 201910041002 A CN201910041002 A CN 201910041002A CN 109815495 B CN109815495 B CN 109815495B
Authority
CN
China
Prior art keywords
facet
topic
matrix
similarity
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910041002.8A
Other languages
English (en)
Other versions
CN109815495A (zh
Inventor
魏笔凡
郭朝彤
刘均
郑庆华
吴蓓
吴科炜
张铎
李鸿轩
肖天安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910041002.8A priority Critical patent/CN109815495B/zh
Publication of CN109815495A publication Critical patent/CN109815495A/zh
Application granted granted Critical
Publication of CN109815495B publication Critical patent/CN109815495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通过标签传播算法进行主题分面挖掘的方法:对于每个主题,把页面的简介部分的单词用词向量表示,形成一个矩阵,计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度;爬取每个主题对应的页面的目录部分的内容;对目录部分内容进行预处理,得到主题的初始分面集;把主题之间的相似度用一个相似矩阵P来表示;把主题的初始分面集用一个主题‑分面矩阵F0来表示;对两个矩阵迭代地进行乘法运算从而实现分面的传播;对于收敛之后的主题‑分面矩阵,对每个主题,选取矩阵中对应的分面作为最终分面集中的分面。本发明利用标签传播算法在领域主题之间传播分面,使得所有主题都可以被挖掘到较为完整的分面。

Description

一种通过标签传播算法进行主题分面挖掘的方法
技术领域
本发明涉及对主题分面的挖掘方法,具体涉及一种通过标签传播算法进行主题分面挖掘的方法。
背景技术
随着科学技术的迅猛发展,网络上的知识资源呈现爆炸式的增长。而人们对网络知识的组织速度远远达不到知识增长的速度,这导致了某一主题的相关知识分布在不同数据源中,每一数据源只包括主题的部分数据。用户很难从零散的数据源中对某个主题进行系统而完整的学习。解决现有问题的最直接的方法是通过主题分面来组织知识:把某一主题的知识根据分面(facet)进行组织,使一个主题的知识完整的存在于同一个数据源中,相同分面的知识放在一起,方便用户的学习。那么为每个主题找到分面集就是一个重要的任务。
现有技术中分面的挖掘(例如,发表于TKDE2016的论文“Automatically MiningFacets for Queries from Their Search Results”)包括四个步骤:(1)以主题名为关键字在搜索引擎中进行搜索,对返回的网页,提取其HTML的标签和重复过的词语;(2)根据与文本的匹配度计算出每个标签和词语的权重值;(3)根据语义对提取出来的标签和词语进行聚类,对每个聚类给出候选分面;(4)对每个聚类的每个候选分面计算与聚类的相关度,选择相关度最大的分面作为最终分面集中的分面。
现有技术依据搜索引擎返回结果中的HTML标签和重复词语对主题进行分面挖掘,对于没有出现在搜索引擎返回结果中的分面无法被挖掘到。因此,现有技术进行分面挖掘的依据是不完整的,导致不能对所有主题都挖掘到完整分面。
发明内容
为了解决现有技术中的问题,本发明提出一种通过标签传播算法进行主题分面挖掘的方法,能根据主题之间的相似度进行分面的传播,克服了因网络中某些主题资源不足而无法挖掘到相关分面的情况。
为了实现以上目的,本发明所采用的技术方案为:
1)计算领域中主题之间的相似度
对于待挖掘分面的每个主题,将该主题在某个百科类网站对应页面上的用于简要介绍所述主题的若干个单词分别用词向量表示,得到与所述主题对应的简介部分矩阵;计算待挖掘分面的每个主题中任意两个主题的简介部分矩阵之间的相似度,得到对应主题之间的相似度;
2)获取主题初始分面集
根据待挖掘分面的每个主题在所述对应页面上的目录内容,获得所述主题的初始分面集;
3)根据主题之间的相似度对分面进行传播
用一个矩阵P表示步骤1)得到的各对应主题之间的相似度;用一个主题-分面矩阵F0表示步骤2)得到的各主题的初始分面集,自F0开始对主题-分面矩阵与矩阵P进行迭代乘法运算,直到主题-分面矩阵收敛;
4)获取最终分面集
对于收敛之后的主题-分面矩阵,按主题选取该矩阵中较F0值增大的元素对应的分面作为挖掘得到的对应主题的最终分面集中的分面。
优选的,所述步骤1)中,对于每个主题,简介部分矩阵的获得具体包括以下步骤:以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出简介部分;将简介部分的停用词去除,将简介部分剩余的每个单词分别用词向量表示,将每个词向量作为一行,得到所述主题的k×A的简介部分矩阵,其中,k是简介部分去掉停用词后的单词数量,A为词向量维数,A取值为50~500。
优选的,所述步骤1)中,任意两个主题的简介部分矩阵之间的相似度采用以下公式计算:
Figure BDA0001947534730000021
其中,s表示任意两个主题之间的相似度,x和y表示任意两个主题中一个主题和另一个主题的简介部分矩阵词向量对应词语的个数;MaxS(Wa,Wb)表示任意两个主题中一个主题的简介部分矩阵词向量对应第a个词语和另一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值,MaxS(Wb,Wa)表示所述另一个主题的简介部分矩阵词向量对应第b个词语和所述一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值;β是由词性决定的参数,不同词性的词语在表达句子语义中的地位不一样。
优选的,所述步骤2)具体包括以下步骤:对于每个主题,以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出目录部分的内容;对目录部分的内容按词语语义进行提取处理,得到所述主题的初始分面集。
优选的,所述提取处理具体包括以下步骤:
2.1)去除目录部分的内容中的固定条目,其中,固定条目包括“参见”、“参考文献”、“外部链接”、“概述”、“注释”、“引用”或“同时参阅”中的一个或多个目录条目;然后提取剩余目录条目中的名词性单词或短语并作为中心词;
2.2)如果中心词是一个主题名,则去掉该中心词;然后将剩余中心词作为所述主题的初始分面集的分面(即初始分面)。
优选的,所述步骤3)中,将主题之间的相似度用一个矩阵P表示具体包括以下步骤:
3.1.1)用一个维度为n×n的方阵P0表示整个领域内主题之间的相似度,其中,P0的元素
Figure BDA0001947534730000031
代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2...,n,j=1,2...,n,n代表领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到矩阵P。
优选的,所述步骤3.1.2)具体包括以下步骤:对方阵P0的每一行按照以下公式执行操作:
Figure BDA0001947534730000032
其中,
Figure BDA0001947534730000033
是方阵P0的第i行对应的行向量;
Figure BDA0001947534730000034
是行向量
Figure BDA0001947534730000035
中每个元素之和,Pi是矩阵P的第i行对应的行向量。
优选的,所述步骤3)中,将各主题的初始分面集用一个主题-分面矩阵F0表示具体包括以下步骤:
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面的集合Fo(即各主题的初始分面集的并集),集合Fo中的元素个数是m;
3.2.2)用0-1行向量
Figure BDA0001947534730000036
表示主题ti初始分面集中的分面,其中,行向量
Figure BDA0001947534730000037
的元素
Figure BDA0001947534730000038
代表主题ti的初始分面集中包括了分面fj,行向量
Figure BDA0001947534730000039
的元素
Figure BDA00019475347300000310
代表主题ti的初始分面集中不包括分面fj,i=1,2...,n,j=1,2...,m;
3.2.3)对行向量
Figure BDA00019475347300000311
进行归一化得到行向量
Figure BDA00019475347300000312
Figure BDA00019475347300000313
其中,
Figure BDA00019475347300000314
是行向量
Figure BDA00019475347300000315
中每个元素的和;
3.2.4)将行向量
Figure BDA00019475347300000316
依次合并得到大小为n×m的矩阵F0
优选的,所述步骤3)中,迭代乘法运算具体包括以下步骤:从l=0起迭代地执行Fl +1=PFl和l=l+1直到矩阵Fl收敛。
优选的,所述步骤4)中,对收敛之后的主题-分面矩阵的每一行,若对应主题的初始分面集中有h个分面,则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面,B取值为1.5~1.6。
本发明的有益效果体现在:
与现有技术相比,本发明提出的标签传播算法先计算主题之间的相似度,再基于主题之间的相似度进行主题之间分面的传播。分面传播过程可以对主题的分面集进行补全,从而无论主题相关的信息量如何,都能获取较为完整的分面集。
附图说明
图1是本发明的流程框图。
图2是本发明实施例中的维基百科页面的结构图。
图3是本发明实施例中相似矩阵P的生成过程示意图;图3中t1~t6表示六个主题,以这六个主题作为示例来示意P的生成过程。
图4是本发明实施例中主题-分面矩阵F0的生成过程示意图;图4中以4个主题、集合Fo中元素个数m=10作为示例来示意F0的生成。
具体实施方式
下面结合附图和实施例对本发明作进一步的解释说明。
本发明提出了一种通过标签传播算法进行主题分面挖掘的方法,以下以在维基百科中进行主题分面的挖掘为例对该方法的步骤进行说明,但应理解的是,对于与维基百科具有相同或相似的较为标准的结构组织的知识页面的百科类网站均可适用。
(一)通过标签传播算法进行主题分面挖掘
参见图1,所述主题分面发掘包括以下步骤:
(1)计算领域中每两个主题之间的相似度,包括4个步骤:
第1.1步:对于每个主题,找到其维基百科对应页面上的简介部分,具体步骤如下;
以主题名为Octree的页面为例,首先以主题为关键字搜索维基百科,找到主题对应的维基百科页面(图2),然后爬取该维基百科页面并解析出简介部分(该部分在页面中一般位于目录之前);
第1.2步:以整个英文维基为语料,用word2vec训练出400维的词向量;
第1.3步:把简介部分的单词用词向量表示,对简介部分形成一个矩阵,具体步骤如下;
把简介部分先去掉停用词,剩余每个单词用词向量表示;每个单词的词向量作为一行,简介部分就形成一个k×400的矩阵,其中,k是简介部分去掉停用词后的单词数量;
第1.4步:计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度s,计算公式如下;
Figure BDA0001947534730000051
其中,x和y表示两个词向量矩阵所对应主题(某主题与其自身,或某主题与其他某一个主题)的简介部分中词语的个数(即矩阵的行数);MaxS(Wa,Wb)表示其中一个词向量矩阵的第a个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值,MaxS(Wb,Wa)表示其中一个词向量矩阵的第b个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值;βa、βb是参数,该参数是由词性决定的,不同词性的词语在表达句子语义中的地位不一样(以上公式的参考文献:Tom,K.,Maarten,D.R.:Short text similaritywith word embeddings.In:Proceedings of the 24th ACM international onconference on information and knowledge management.pp.1411-1420.ACM(2015))。
(2)对每个主题获取初始分面集,包括2个步骤:
第2.1步:爬取每个主题对应的维基百科页面的目录(Contents)部分的内容,具体步骤如下;
按照步骤1.1找到每个主题对应的维基百科页面,然后爬取维基百科页面并解析出目录部分的内容;
第2.2步:对目录部分内容进行预处理,得到主题的初始分面集,具体步骤如下;
2.2.1)把维基百科目录中的固定条目删掉,其中,固定条目包括“参见(Seealso)”、“参考文献(References)”、“外部链接(External links)”、“概述(Overview)”、“注释(Notes)”、“引用(Citations)”和“同时参阅(Further reading)”;
2.2.2)提取出条目中的名词性短语或单词作为中心词;
2.2.3)如果中心词是一个主题名,则去掉该中心词。
(3)根据主题之间的相似度对分面进行传播,包括3个步骤:
第3.1步:把步骤(1)中计算出来的主题之间的相似度用一个相似矩阵P来表示,具体步骤如下,参见图3;
3.1.1)用一个维度是n×n的方阵P0来表示整个领域中每两个主题之间的相似度,其中,元素
Figure BDA0001947534730000061
代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2...,n,j=1,2...,n,n代表的是领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到相似矩阵P,归一化的具体过程为:为方阵P0的每一行i执行如下操作:
Figure BDA0001947534730000062
其中,
Figure BDA0001947534730000063
是矩阵P0的行向量;
Figure BDA0001947534730000064
是行向量
Figure BDA0001947534730000065
中每个元素之和;
第3.2步:把步骤(2)中获得的主题的初始分面集用一个主题-分面矩阵F0来表示,具体步骤如下,参见图4;
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面(互不相同)的总集合Fo,集合Fo中的元素个数是m,m对不同领域取值不同,一般取值在100~200之间;
3.2.2)用0-1行向量
Figure BDA0001947534730000066
表示主题ti初始分面集中的分面,其中,行向量
Figure BDA0001947534730000067
的元素
Figure BDA0001947534730000068
代表主题ti的初始分面集中包括了分面fj,行向量
Figure BDA0001947534730000069
的元素
Figure BDA00019475347300000610
代表主题ti的初始分面集中不包括分面fj
3.2.3)把行向量
Figure BDA00019475347300000611
安行进行归一化得到行向量
Figure BDA00019475347300000612
计算公式如下:
Figure BDA00019475347300000613
其中,
Figure BDA00019475347300000614
是行向量
Figure BDA00019475347300000615
中每个元素的和;
3.2.4)把行向量
Figure BDA00019475347300000616
依次合并得到大小为n×m的矩阵F0
第3.3步:对两个矩阵迭代地进行乘法运算从而实现分面的传播,直到主题-分面矩阵收敛,具体步骤如下;
从l=0起迭代地执行Fl+1=PFl和l=l+1直到矩阵Fl收敛,这里,收敛是指矩阵Fl与矩阵Fl-1每个对应元素的差值基本不再变化(例如,差值在±0.001之间);
(4)获取最终分面集,包括1个步骤:
第4.1步:对于步骤(3)中收敛之后的主题-分面矩阵,对每个主题,选取该矩阵对应行中值比较大的元素对应的分面(例如,若初始分面集中有h个分面,则选取收敛矩阵对应行中值最大的1.5×h个元素对应的分面)作为最终分面集中的分面。
(二)与现有分面挖掘算法比较
为检验本发明所提方法的性能,对三个领域的1000多个主题进行了实验。其中,“数据结构”领域包括170个主题,“数据挖掘”领域包括528个主题,“计算机网络”领域包括351个主题。数据源选择维基百科页面。
将本发明所提出的方法和现有技术,例如,论文“Automatically Mining Facetsfor Queries from Their Search Results”中所提方法(QDMiner)进行比较。三个领域的实验结果如表1所示。
表1.实验结果对比
Figure BDA0001947534730000071
实验结果表明:本发明所提出的分面挖掘方法通过利用标签传播算法并选取收敛矩阵中一定数量的值最大的元素对应的分面作为最终分面集中的分面,在挖掘主题分面时,准确率(P)可达到86%,召回率(R)可达到85%,F1值可达到86%。与现有技术相比,各指标均提高了20%左右。总之,本发明利用标签传播算法可以在领域主题之间传播分面,使得所有主题都可以被挖掘到较为完整的分面。

Claims (8)

1.一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:包括以下步骤:
1)计算领域中主题之间的相似度
对于待挖掘分面的每个主题,将该主题在某个百科类网站对应页面上的用于简要介绍所述主题的若干个单词分别用词向量表示,得到与所述主题对应的简介部分矩阵;计算待挖掘分面的每个主题中任意两个主题的简介部分矩阵之间的相似度,得到对应主题之间的相似度;
2)获取主题初始分面集
根据待挖掘分面的每个主题在所述对应页面上的目录内容,获得所述主题的初始分面集;
3)根据主题之间的相似度对分面进行传播
用一个矩阵P表示步骤1)得到的各对应主题之间的相似度;用一个主题-分面矩阵F0表示步骤2)得到的各主题的初始分面集,自F0开始对主题-分面矩阵与矩阵P进行迭代乘法运算,直到主题-分面矩阵收敛;
所述步骤3)中,将主题之间的相似度用一个矩阵P表示具体包括以下步骤:
3.1.1)用一个维度为n×n的方阵P0表示整个领域内主题之间的相似度,其中,P0的元素
Figure FDA0002401335170000011
代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2…,n,j=1,2…,n,n代表领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到矩阵P;
所述步骤3)中,将各主题的初始分面集用一个主题-分面矩阵F0表示具体包括以下步骤:
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面的集合F0,集合Fo中的元素个数是m;
3.2.2)用0-1行向量
Figure FDA0002401335170000012
表示主题ti初始分面集中的分面,其中,行向量
Figure FDA0002401335170000013
的元素
Figure FDA0002401335170000014
代表主题ti的初始分面集中包括了分面fj,行向量
Figure FDA0002401335170000015
的元素
Figure FDA0002401335170000016
代表主题ti的初始分面集中不包括分面fj,i=1,2…,n,j=1,2…,m;
3.2.3)对行向量
Figure FDA0002401335170000017
进行归一化得到行向量
Figure FDA0002401335170000018
Figure FDA0002401335170000019
其中,
Figure FDA0002401335170000021
是行向量
Figure FDA0002401335170000022
中每个元素的和;
3.2.4)将行向量
Figure FDA0002401335170000023
依次合并得到大小为n×m的矩阵F0
4)获取最终分面集
对于收敛之后的主题-分面矩阵,按主题选取该矩阵中较F0值增大的元素对应的分面作为挖掘得到的对应主题的最终分面集中的分面。
2.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤1)中,对于每个主题,简介部分矩阵的获得具体包括以下步骤:以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出简介部分;将简介部分的停用词去除,将简介部分剩余的每个单词分别用词向量表示,将每个词向量作为一行,得到所述主题的k×A的简介部分矩阵,其中,k是简介部分去掉停用词后的单词数量,A为词向量维数,A取值为50~500。
3.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤1)中,任意两个主题的简介部分矩阵之间的相似度采用以下公式计算:
Figure FDA0002401335170000024
其中,s表示任意两个主题之间的相似度,x和y表示任意两个主题中一个主题和另一个主题的简介部分矩阵词向量对应词语的个数;MaxS(Wa,Wb)表示任意两个主题中一个主题的简介部分矩阵词向量对应第a个词语和另一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值,MaxS(Wb,Wa)表示所述另一个主题的简介部分矩阵词向量对应第b个词语和所述一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值;β是由词性决定的参数。
4.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤2)具体包括以下步骤:对于每个主题,以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出目录部分的内容;对目录部分的内容按词语语义进行提取处理,得到所述主题的初始分面集。
5.根据权利要求4所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述提取处理具体包括以下步骤:
2.1)去除目录部分的内容中的固定条目,其中,固定条目包括“参见”、“参考文献”、“外部链接”、“概述”、“注释”、“引用”或“同时参阅”中的一个或多个目录条目;然后提取剩余目录条目中的名词性单词或短语并作为中心词;
2.2)如果中心词是一个主题名,则去掉该中心词;然后将剩余中心词作为所述主题的初始分面集的分面。
6.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤3.1.2)具体包括以下步骤:对方阵P0的每一行按照以下公式执行操作:
Figure FDA0002401335170000031
其中,
Figure FDA0002401335170000032
是方阵P0的第i行对应的行向量;
Figure FDA0002401335170000033
是行向量
Figure FDA0002401335170000034
中每个元素之和,Pi是矩阵P的第i行对应的行向量。
7.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤3)中,迭代乘法运算具体包括以下步骤:从l=0起迭代地执行Fl+1=PFl和l=l+1直到矩阵Fl收敛。
8.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤4)中,对收敛之后的主题-分面矩阵的每一行,若对应主题的初始分面集中有h个分面,则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面,B取值为1.5~1.6。
CN201910041002.8A 2019-01-16 2019-01-16 一种通过标签传播算法进行主题分面挖掘的方法 Active CN109815495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910041002.8A CN109815495B (zh) 2019-01-16 2019-01-16 一种通过标签传播算法进行主题分面挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910041002.8A CN109815495B (zh) 2019-01-16 2019-01-16 一种通过标签传播算法进行主题分面挖掘的方法

Publications (2)

Publication Number Publication Date
CN109815495A CN109815495A (zh) 2019-05-28
CN109815495B true CN109815495B (zh) 2020-06-05

Family

ID=66604354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910041002.8A Active CN109815495B (zh) 2019-01-16 2019-01-16 一种通过标签传播算法进行主题分面挖掘的方法

Country Status (1)

Country Link
CN (1) CN109815495B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083623A (zh) * 2022-06-22 2022-09-20 开封市中心医院 基于标签传播的药品不良反应挖掘方法、系统、终端及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528421A (zh) * 2015-12-07 2016-04-27 中国人民大学 一种针对海量数据中查询词的搜索维度挖掘方法
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682883B2 (en) * 2011-04-14 2014-03-25 Predictix Llc Systems and methods for identifying sets of similar products
US8666927B2 (en) * 2011-04-19 2014-03-04 Yahoo! Inc. System and method for mining tags using social endorsement networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528421A (zh) * 2015-12-07 2016-04-27 中国人民大学 一种针对海量数据中查询词的搜索维度挖掘方法
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于领域概念关联的网络社区知识聚合研究;陈果;《武汉大学博士论文》;20150401(第2018-07期);全文 *

Also Published As

Publication number Publication date
CN109815495A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
US10482115B2 (en) Providing question and answers with deferred type evaluation using text with limited structure
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
EP2137638B1 (en) A method for the extraction of relation patterns from articles
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
Rahman et al. Improvement of query-based text summarization using word sense disambiguation
Fejer et al. Automatic Arabic text summarization using clustering and keyphrase extraction
D’Silva et al. Unsupervised automatic text summarization of Konkani texts using K-means with Elbow method
Su et al. Latent semantic similarity based interpretation of Chinese metaphors
Chowdhury et al. An approach to generic Bengali text summarization using latent semantic analysis
Shajalal et al. Semantic textual similarity in bengali text
Darmalaksana et al. Latent semantic analysis and cosine similarity for hadith search engine
Jha et al. Hsas: Hindi subjectivity analysis system
Yang et al. Ontology-supported FAQ processing and ranking techniques
CN109815495B (zh) 一种通过标签传播算法进行主题分面挖掘的方法
Thushara et al. An analysis on different document keyword extraction methods
Grave et al. A markovian approach to distributional semantics with application to semantic compositionality
Vanetik et al. Multilingual text analysis: History, tasks, and challenges
Ababneh et al. An efficient framework of utilizing the latent semantic analysis in text extraction
Ojokoh et al. Online question answering system
Sharma et al. Answer Extraction in Question Answering using Structure Features and Dependency Principles
Rahman et al. Information Extraction from WWW using Structural Approach
Ghorpade et al. A Comparative Analysis of TextRank and LexRank Algorithms Using Text Summarization
Goyal et al. Summarization of Software Bug Report based on Sentence Semantic Similarity (SSBRSSS) Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant