CN109815495B - 一种通过标签传播算法进行主题分面挖掘的方法 - Google Patents
一种通过标签传播算法进行主题分面挖掘的方法 Download PDFInfo
- Publication number
- CN109815495B CN109815495B CN201910041002.8A CN201910041002A CN109815495B CN 109815495 B CN109815495 B CN 109815495B CN 201910041002 A CN201910041002 A CN 201910041002A CN 109815495 B CN109815495 B CN 109815495B
- Authority
- CN
- China
- Prior art keywords
- facet
- topic
- matrix
- similarity
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005065 mining Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 55
- 230000009193 crawling Effects 0.000 claims abstract description 8
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种通过标签传播算法进行主题分面挖掘的方法:对于每个主题,把页面的简介部分的单词用词向量表示,形成一个矩阵,计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度;爬取每个主题对应的页面的目录部分的内容;对目录部分内容进行预处理,得到主题的初始分面集;把主题之间的相似度用一个相似矩阵P来表示;把主题的初始分面集用一个主题‑分面矩阵F0来表示;对两个矩阵迭代地进行乘法运算从而实现分面的传播;对于收敛之后的主题‑分面矩阵,对每个主题,选取矩阵中对应的分面作为最终分面集中的分面。本发明利用标签传播算法在领域主题之间传播分面,使得所有主题都可以被挖掘到较为完整的分面。
Description
技术领域
本发明涉及对主题分面的挖掘方法,具体涉及一种通过标签传播算法进行主题分面挖掘的方法。
背景技术
随着科学技术的迅猛发展,网络上的知识资源呈现爆炸式的增长。而人们对网络知识的组织速度远远达不到知识增长的速度,这导致了某一主题的相关知识分布在不同数据源中,每一数据源只包括主题的部分数据。用户很难从零散的数据源中对某个主题进行系统而完整的学习。解决现有问题的最直接的方法是通过主题分面来组织知识:把某一主题的知识根据分面(facet)进行组织,使一个主题的知识完整的存在于同一个数据源中,相同分面的知识放在一起,方便用户的学习。那么为每个主题找到分面集就是一个重要的任务。
现有技术中分面的挖掘(例如,发表于TKDE2016的论文“Automatically MiningFacets for Queries from Their Search Results”)包括四个步骤:(1)以主题名为关键字在搜索引擎中进行搜索,对返回的网页,提取其HTML的标签和重复过的词语;(2)根据与文本的匹配度计算出每个标签和词语的权重值;(3)根据语义对提取出来的标签和词语进行聚类,对每个聚类给出候选分面;(4)对每个聚类的每个候选分面计算与聚类的相关度,选择相关度最大的分面作为最终分面集中的分面。
现有技术依据搜索引擎返回结果中的HTML标签和重复词语对主题进行分面挖掘,对于没有出现在搜索引擎返回结果中的分面无法被挖掘到。因此,现有技术进行分面挖掘的依据是不完整的,导致不能对所有主题都挖掘到完整分面。
发明内容
为了解决现有技术中的问题,本发明提出一种通过标签传播算法进行主题分面挖掘的方法,能根据主题之间的相似度进行分面的传播,克服了因网络中某些主题资源不足而无法挖掘到相关分面的情况。
为了实现以上目的,本发明所采用的技术方案为:
1)计算领域中主题之间的相似度
对于待挖掘分面的每个主题,将该主题在某个百科类网站对应页面上的用于简要介绍所述主题的若干个单词分别用词向量表示,得到与所述主题对应的简介部分矩阵;计算待挖掘分面的每个主题中任意两个主题的简介部分矩阵之间的相似度,得到对应主题之间的相似度;
2)获取主题初始分面集
根据待挖掘分面的每个主题在所述对应页面上的目录内容,获得所述主题的初始分面集;
3)根据主题之间的相似度对分面进行传播
用一个矩阵P表示步骤1)得到的各对应主题之间的相似度;用一个主题-分面矩阵F0表示步骤2)得到的各主题的初始分面集,自F0开始对主题-分面矩阵与矩阵P进行迭代乘法运算,直到主题-分面矩阵收敛;
4)获取最终分面集
对于收敛之后的主题-分面矩阵,按主题选取该矩阵中较F0值增大的元素对应的分面作为挖掘得到的对应主题的最终分面集中的分面。
优选的,所述步骤1)中,对于每个主题,简介部分矩阵的获得具体包括以下步骤:以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出简介部分;将简介部分的停用词去除,将简介部分剩余的每个单词分别用词向量表示,将每个词向量作为一行,得到所述主题的k×A的简介部分矩阵,其中,k是简介部分去掉停用词后的单词数量,A为词向量维数,A取值为50~500。
优选的,所述步骤1)中,任意两个主题的简介部分矩阵之间的相似度采用以下公式计算:
其中,s表示任意两个主题之间的相似度,x和y表示任意两个主题中一个主题和另一个主题的简介部分矩阵词向量对应词语的个数;MaxS(Wa,Wb)表示任意两个主题中一个主题的简介部分矩阵词向量对应第a个词语和另一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值,MaxS(Wb,Wa)表示所述另一个主题的简介部分矩阵词向量对应第b个词语和所述一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值;β是由词性决定的参数,不同词性的词语在表达句子语义中的地位不一样。
优选的,所述步骤2)具体包括以下步骤:对于每个主题,以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出目录部分的内容;对目录部分的内容按词语语义进行提取处理,得到所述主题的初始分面集。
优选的,所述提取处理具体包括以下步骤:
2.1)去除目录部分的内容中的固定条目,其中,固定条目包括“参见”、“参考文献”、“外部链接”、“概述”、“注释”、“引用”或“同时参阅”中的一个或多个目录条目;然后提取剩余目录条目中的名词性单词或短语并作为中心词;
2.2)如果中心词是一个主题名,则去掉该中心词;然后将剩余中心词作为所述主题的初始分面集的分面(即初始分面)。
优选的,所述步骤3)中,将主题之间的相似度用一个矩阵P表示具体包括以下步骤:
3.1.1)用一个维度为n×n的方阵P0表示整个领域内主题之间的相似度,其中,P0的元素代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2...,n,j=1,2...,n,n代表领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到矩阵P。
优选的,所述步骤3.1.2)具体包括以下步骤:对方阵P0的每一行按照以下公式执行操作:
优选的,所述步骤3)中,将各主题的初始分面集用一个主题-分面矩阵F0表示具体包括以下步骤:
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面的集合Fo(即各主题的初始分面集的并集),集合Fo中的元素个数是m;
3.2.2)用0-1行向量表示主题ti初始分面集中的分面,其中,行向量的元素代表主题ti的初始分面集中包括了分面fj,行向量的元素代表主题ti的初始分面集中不包括分面fj,i=1,2...,n,j=1,2...,m;
优选的,所述步骤3)中,迭代乘法运算具体包括以下步骤:从l=0起迭代地执行Fl +1=PFl和l=l+1直到矩阵Fl收敛。
优选的,所述步骤4)中,对收敛之后的主题-分面矩阵的每一行,若对应主题的初始分面集中有h个分面,则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面,B取值为1.5~1.6。
本发明的有益效果体现在:
与现有技术相比,本发明提出的标签传播算法先计算主题之间的相似度,再基于主题之间的相似度进行主题之间分面的传播。分面传播过程可以对主题的分面集进行补全,从而无论主题相关的信息量如何,都能获取较为完整的分面集。
附图说明
图1是本发明的流程框图。
图2是本发明实施例中的维基百科页面的结构图。
图3是本发明实施例中相似矩阵P的生成过程示意图;图3中t1~t6表示六个主题,以这六个主题作为示例来示意P的生成过程。
图4是本发明实施例中主题-分面矩阵F0的生成过程示意图;图4中以4个主题、集合Fo中元素个数m=10作为示例来示意F0的生成。
具体实施方式
下面结合附图和实施例对本发明作进一步的解释说明。
本发明提出了一种通过标签传播算法进行主题分面挖掘的方法,以下以在维基百科中进行主题分面的挖掘为例对该方法的步骤进行说明,但应理解的是,对于与维基百科具有相同或相似的较为标准的结构组织的知识页面的百科类网站均可适用。
(一)通过标签传播算法进行主题分面挖掘
参见图1,所述主题分面发掘包括以下步骤:
(1)计算领域中每两个主题之间的相似度,包括4个步骤:
第1.1步:对于每个主题,找到其维基百科对应页面上的简介部分,具体步骤如下;
以主题名为Octree的页面为例,首先以主题为关键字搜索维基百科,找到主题对应的维基百科页面(图2),然后爬取该维基百科页面并解析出简介部分(该部分在页面中一般位于目录之前);
第1.2步:以整个英文维基为语料,用word2vec训练出400维的词向量;
第1.3步:把简介部分的单词用词向量表示,对简介部分形成一个矩阵,具体步骤如下;
把简介部分先去掉停用词,剩余每个单词用词向量表示;每个单词的词向量作为一行,简介部分就形成一个k×400的矩阵,其中,k是简介部分去掉停用词后的单词数量;
第1.4步:计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度s,计算公式如下;
其中,x和y表示两个词向量矩阵所对应主题(某主题与其自身,或某主题与其他某一个主题)的简介部分中词语的个数(即矩阵的行数);MaxS(Wa,Wb)表示其中一个词向量矩阵的第a个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值,MaxS(Wb,Wa)表示其中一个词向量矩阵的第b个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值;βa、βb是参数,该参数是由词性决定的,不同词性的词语在表达句子语义中的地位不一样(以上公式的参考文献:Tom,K.,Maarten,D.R.:Short text similaritywith word embeddings.In:Proceedings of the 24th ACM international onconference on information and knowledge management.pp.1411-1420.ACM(2015))。
(2)对每个主题获取初始分面集,包括2个步骤:
第2.1步:爬取每个主题对应的维基百科页面的目录(Contents)部分的内容,具体步骤如下;
按照步骤1.1找到每个主题对应的维基百科页面,然后爬取维基百科页面并解析出目录部分的内容;
第2.2步:对目录部分内容进行预处理,得到主题的初始分面集,具体步骤如下;
2.2.1)把维基百科目录中的固定条目删掉,其中,固定条目包括“参见(Seealso)”、“参考文献(References)”、“外部链接(External links)”、“概述(Overview)”、“注释(Notes)”、“引用(Citations)”和“同时参阅(Further reading)”;
2.2.2)提取出条目中的名词性短语或单词作为中心词;
2.2.3)如果中心词是一个主题名,则去掉该中心词。
(3)根据主题之间的相似度对分面进行传播,包括3个步骤:
第3.1步:把步骤(1)中计算出来的主题之间的相似度用一个相似矩阵P来表示,具体步骤如下,参见图3;
3.1.1)用一个维度是n×n的方阵P0来表示整个领域中每两个主题之间的相似度,其中,元素代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2...,n,j=1,2...,n,n代表的是领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到相似矩阵P,归一化的具体过程为:为方阵P0的每一行i执行如下操作:
第3.2步:把步骤(2)中获得的主题的初始分面集用一个主题-分面矩阵F0来表示,具体步骤如下,参见图4;
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面(互不相同)的总集合Fo,集合Fo中的元素个数是m,m对不同领域取值不同,一般取值在100~200之间;
第3.3步:对两个矩阵迭代地进行乘法运算从而实现分面的传播,直到主题-分面矩阵收敛,具体步骤如下;
从l=0起迭代地执行Fl+1=PFl和l=l+1直到矩阵Fl收敛,这里,收敛是指矩阵Fl与矩阵Fl-1每个对应元素的差值基本不再变化(例如,差值在±0.001之间);
(4)获取最终分面集,包括1个步骤:
第4.1步:对于步骤(3)中收敛之后的主题-分面矩阵,对每个主题,选取该矩阵对应行中值比较大的元素对应的分面(例如,若初始分面集中有h个分面,则选取收敛矩阵对应行中值最大的1.5×h个元素对应的分面)作为最终分面集中的分面。
(二)与现有分面挖掘算法比较
为检验本发明所提方法的性能,对三个领域的1000多个主题进行了实验。其中,“数据结构”领域包括170个主题,“数据挖掘”领域包括528个主题,“计算机网络”领域包括351个主题。数据源选择维基百科页面。
将本发明所提出的方法和现有技术,例如,论文“Automatically Mining Facetsfor Queries from Their Search Results”中所提方法(QDMiner)进行比较。三个领域的实验结果如表1所示。
表1.实验结果对比
实验结果表明:本发明所提出的分面挖掘方法通过利用标签传播算法并选取收敛矩阵中一定数量的值最大的元素对应的分面作为最终分面集中的分面,在挖掘主题分面时,准确率(P)可达到86%,召回率(R)可达到85%,F1值可达到86%。与现有技术相比,各指标均提高了20%左右。总之,本发明利用标签传播算法可以在领域主题之间传播分面,使得所有主题都可以被挖掘到较为完整的分面。
Claims (8)
1.一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:包括以下步骤:
1)计算领域中主题之间的相似度
对于待挖掘分面的每个主题,将该主题在某个百科类网站对应页面上的用于简要介绍所述主题的若干个单词分别用词向量表示,得到与所述主题对应的简介部分矩阵;计算待挖掘分面的每个主题中任意两个主题的简介部分矩阵之间的相似度,得到对应主题之间的相似度;
2)获取主题初始分面集
根据待挖掘分面的每个主题在所述对应页面上的目录内容,获得所述主题的初始分面集;
3)根据主题之间的相似度对分面进行传播
用一个矩阵P表示步骤1)得到的各对应主题之间的相似度;用一个主题-分面矩阵F0表示步骤2)得到的各主题的初始分面集,自F0开始对主题-分面矩阵与矩阵P进行迭代乘法运算,直到主题-分面矩阵收敛;
所述步骤3)中,将主题之间的相似度用一个矩阵P表示具体包括以下步骤:
3.1.1)用一个维度为n×n的方阵P0表示整个领域内主题之间的相似度,其中,P0的元素代表sij的值,sij表示第i个主题和第j个主题之间的相似度,i=1,2…,n,j=1,2…,n,n代表领域中的主题数量;
3.1.2)把方阵P0按行进行归一化,得到矩阵P;
所述步骤3)中,将各主题的初始分面集用一个主题-分面矩阵F0表示具体包括以下步骤:
3.2.1)统计领域中所有主题的初始分面集,形成一个包括所有初始分面的集合F0,集合Fo中的元素个数是m;
3.2.2)用0-1行向量表示主题ti初始分面集中的分面,其中,行向量的元素代表主题ti的初始分面集中包括了分面fj,行向量的元素代表主题ti的初始分面集中不包括分面fj,i=1,2…,n,j=1,2…,m;
4)获取最终分面集
对于收敛之后的主题-分面矩阵,按主题选取该矩阵中较F0值增大的元素对应的分面作为挖掘得到的对应主题的最终分面集中的分面。
2.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤1)中,对于每个主题,简介部分矩阵的获得具体包括以下步骤:以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出简介部分;将简介部分的停用词去除,将简介部分剩余的每个单词分别用词向量表示,将每个词向量作为一行,得到所述主题的k×A的简介部分矩阵,其中,k是简介部分去掉停用词后的单词数量,A为词向量维数,A取值为50~500。
4.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤2)具体包括以下步骤:对于每个主题,以所述主题为关键字搜索百科类网站,找到所述主题在该百科类网站中的对应页面,然后爬取该页面并解析出目录部分的内容;对目录部分的内容按词语语义进行提取处理,得到所述主题的初始分面集。
5.根据权利要求4所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述提取处理具体包括以下步骤:
2.1)去除目录部分的内容中的固定条目,其中,固定条目包括“参见”、“参考文献”、“外部链接”、“概述”、“注释”、“引用”或“同时参阅”中的一个或多个目录条目;然后提取剩余目录条目中的名词性单词或短语并作为中心词;
2.2)如果中心词是一个主题名,则去掉该中心词;然后将剩余中心词作为所述主题的初始分面集的分面。
7.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤3)中,迭代乘法运算具体包括以下步骤:从l=0起迭代地执行Fl+1=PFl和l=l+1直到矩阵Fl收敛。
8.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法,其特征在于:所述步骤4)中,对收敛之后的主题-分面矩阵的每一行,若对应主题的初始分面集中有h个分面,则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面,B取值为1.5~1.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910041002.8A CN109815495B (zh) | 2019-01-16 | 2019-01-16 | 一种通过标签传播算法进行主题分面挖掘的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910041002.8A CN109815495B (zh) | 2019-01-16 | 2019-01-16 | 一种通过标签传播算法进行主题分面挖掘的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815495A CN109815495A (zh) | 2019-05-28 |
CN109815495B true CN109815495B (zh) | 2020-06-05 |
Family
ID=66604354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910041002.8A Active CN109815495B (zh) | 2019-01-16 | 2019-01-16 | 一种通过标签传播算法进行主题分面挖掘的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815495B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083623A (zh) * | 2022-06-22 | 2022-09-20 | 开封市中心医院 | 基于标签传播的药品不良反应挖掘方法、系统、终端及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528421A (zh) * | 2015-12-07 | 2016-04-27 | 中国人民大学 | 一种针对海量数据中查询词的搜索维度挖掘方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN108427769A (zh) * | 2018-03-29 | 2018-08-21 | 苏州大学 | 一种基于社交网络的人物兴趣标签提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8682883B2 (en) * | 2011-04-14 | 2014-03-25 | Predictix Llc | Systems and methods for identifying sets of similar products |
US8666927B2 (en) * | 2011-04-19 | 2014-03-04 | Yahoo! Inc. | System and method for mining tags using social endorsement networks |
-
2019
- 2019-01-16 CN CN201910041002.8A patent/CN109815495B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528421A (zh) * | 2015-12-07 | 2016-04-27 | 中国人民大学 | 一种针对海量数据中查询词的搜索维度挖掘方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN108427769A (zh) * | 2018-03-29 | 2018-08-21 | 苏州大学 | 一种基于社交网络的人物兴趣标签提取方法 |
Non-Patent Citations (1)
Title |
---|
基于领域概念关联的网络社区知识聚合研究;陈果;《武汉大学博士论文》;20150401(第2018-07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109815495A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
US10482115B2 (en) | Providing question and answers with deferred type evaluation using text with limited structure | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
EP2137638B1 (en) | A method for the extraction of relation patterns from articles | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
Rahman et al. | Improvement of query-based text summarization using word sense disambiguation | |
Fejer et al. | Automatic Arabic text summarization using clustering and keyphrase extraction | |
D’Silva et al. | Unsupervised automatic text summarization of Konkani texts using K-means with Elbow method | |
Su et al. | Latent semantic similarity based interpretation of Chinese metaphors | |
Chowdhury et al. | An approach to generic Bengali text summarization using latent semantic analysis | |
Shajalal et al. | Semantic textual similarity in bengali text | |
Darmalaksana et al. | Latent semantic analysis and cosine similarity for hadith search engine | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
Yang et al. | Ontology-supported FAQ processing and ranking techniques | |
CN109815495B (zh) | 一种通过标签传播算法进行主题分面挖掘的方法 | |
Thushara et al. | An analysis on different document keyword extraction methods | |
Grave et al. | A markovian approach to distributional semantics with application to semantic compositionality | |
Vanetik et al. | Multilingual text analysis: History, tasks, and challenges | |
Ababneh et al. | An efficient framework of utilizing the latent semantic analysis in text extraction | |
Ojokoh et al. | Online question answering system | |
Sharma et al. | Answer Extraction in Question Answering using Structure Features and Dependency Principles | |
Rahman et al. | Information Extraction from WWW using Structural Approach | |
Ghorpade et al. | A Comparative Analysis of TextRank and LexRank Algorithms Using Text Summarization | |
Goyal et al. | Summarization of Software Bug Report based on Sentence Semantic Similarity (SSBRSSS) Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |