CN108595517A - 一种大规模文档相似性检测方法 - Google Patents
一种大规模文档相似性检测方法 Download PDFInfo
- Publication number
- CN108595517A CN108595517A CN201810251626.8A CN201810251626A CN108595517A CN 108595517 A CN108595517 A CN 108595517A CN 201810251626 A CN201810251626 A CN 201810251626A CN 108595517 A CN108595517 A CN 108595517A
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- signature
- bucket
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种大规模文档相似性检测方法,包括:S1、计算文档集中文档其他信息的相似度;S2、每篇文档内容对应一个签名S和一个f维向量V;S3、对文档内容进行分词处理;S4、特征词x的权重综合计算;S5、将特征词用哈希函数映射为签名h,遍历h的每一位,对V进行调整;S6、遍历V,对于签名S进行调整,最终生成签名S为文档内容对应的签名值;S7、将文档内容对应的签名值分为n块,使用哈希函数,映射到桶,并判断是否二次哈希;S8、同一个桶的文档作为候选对,计算相似度;S9、判断是否为相似文档。本发明检测的准确率高,执行效率高。可广泛用于互联网大规模数据挖掘中。
Description
技术领域
本发明涉及一种检测方法,具体涉及一种大规模文档相似性检测方法,属于计算机算法领域。
背景技术
随着大数据时代的到来,数据化信息增长迅速,数据占用空间越来越大,如此海量的数据带来了巨大的存储问题。研究发现,存储的数据中冗余数据比例大于六成,并且冗余比例在未来会继续增加。冗余数据降低了用户检索和查询数据的效率,并且大量存储资源浪费于存储冗余数据,并且用户也不希望看到一堆内容相同或近似的检索结果。另一方面,数据挖掘开发者通过网络爬取的数据同样面临数据重复、冗余的问题。因此文档相似性检测和去重已经成为国内外重要的研究课题。
传统的哈希算法通过计算将输入数据映射成特定长度的哈希值输出,输入数据的差异越大,映射出的签名值差异也越大。但传统的哈希算法,如SHA-1、MD5,对1比特差距的输入数据都会产生完全不同的输出哈希值,因此无法检测出相似文档,需要对原有哈希算法进行改进,使得相似文档可以输出相似的哈希值。
为了解决上述问题,目前还出现一种Simhash算法,该算法由3位Google的工程师G.S.Manku、A.Jain和A.D.Sarma于2007年提出。究其本质而言,Simhash算法是一种经过改进的哈希算法,旨在解决相似数据的去重,但将其实际应用于文档相似性检测后,人们发现,这一算法仍然存在着准确率不够高,效率较低的问题。
综上所述,如何克服上述现有技术上的不足,提出一种准确率高、执行效率高的大规模文档相似性检测方法,就成为了本领域内的技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种大规模文档相似性检测方法。
本发明的目的,将通过以下技术方案得以实现:
一种大规模文档相似性检测方法,包括如下步骤:
S1、输入文档集,计算文档集中文档其他信息的相似度;
S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S,和一个初始化为0的f维向量V;
S3、通过NLPIR分词系统对文档内容进行分词处理,过滤掉语气词、助词,并去掉干扰符号后将文档内容转换为一组特征词;
S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算,将中文术语长度函数作为特征词x的主题相关性函数,中文术语长度函数为
其中,x表示特征词的长度,
特征词x的权重计算公式为
其中,tfx,j×idfx表示关键词x在文档j的TF-IDF值,len(x)为单词x的主题相关性函数;
S5、将所有特征词使用相同的哈希函数映射为长度为f的签名h,遍历h的每一位,若h的第i位为1,i介于1到f之间,V的第i位加上该特征词的权重,否则减去;
S6、遍历V,如果V的第i位大于0,签名S的第i位设为1,否则设为0,最终生成的签名S就是文档内容对应的Simhash签名值;
S7、将文档内容对应的Simhash签名值分为n块,对同块的签名值使用相同的哈希函数,映射到桶,检查每一个桶中的元素,判断元素数量有没超过(1+μ1)×AVEn,其中AVEn为桶中元素的平均值,μ1为权重,桶中元素数量超过的话进行二次哈希;
S8、同一个桶的文档作为候选对,先使用文档内容对应的Simhash签名值进行海明距离的计算,然后使用第一步文档其它信息的相似度综合计算文档间的相似度,文档间的相似度的计算公式为
其中Haming(A,B)表示A,B两篇文档内容的海明距离,minHash(A,B)表示A,B两篇文档其它信息的相似度,μ2的取值为0.8~0.9;
S9、判断同一个桶中文档之间的相似度是否小于m值,
若同一个桶中文档之间的相似度小于m值,即输出为相似文档,
若同一个桶中文档之间的相似度不小于m值,即输出为非相似文档。
优选地,S1中所述文档其他信息包括文档关键字、文档的标签以及文档的引用文献。
优选地,S1中所述计算文档集中文档其他信息的相似度,包括如下步骤:
S11、提取文档中的其他信息,并将提取出的其他信息用集合的形式表示,将这一系列集合组成特征矩阵;
S12、使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度。
优选地,S12中所述使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度,包括如下步骤:
S121、对特征矩阵进行N次随机打乱生成签名矩阵;
S122、选用的N个随机哈希函数为hi(x)=(x+i)modN(i=1,2,3…N),通过签名矩阵对应列之间的jaccard相似度来估计特征矩阵对应列之间的jaccard相似度。
优选地,S9中所述m值为0.25。
与现有技术相比,本发明的创新之处及其突出效果表现为:第一,本发明从多个维度入手,包括文档内容、文档关键字、文档的标签、文档的引用文献等综合计算文档的相似度,并且综合使用TF-IDF技术和单词的主题相关性计算关键词权重,提高了文档相似性检测的准确率。第二,在本发明的检索过程中,在出现哈希到桶但分布不均匀的情时,会进行二次哈希,减少候选对的数量并且使分布更加均匀,可以在保证相同文档检测量的前提下,以较短的时间完成检测操作,从而提升了提高文档相似性检测的执行效率。
综上所述,本发明检测的准确率较高,执行效率较高。可广泛用于数据检索、数据存储等互联网大规模数据挖掘中。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1是本发明的实现流程图;
图2是本发明与原Simhash算法在五个主题上相似性文档检测准确率对比图;
图3是本发明与原Simhash算法在五个主题上相似性文档检测召回率对比图;
图4是本发明与原Simhash算法在相似性文档检测执行时间对比图。
具体实施方式
为了更加详细的描述本发明提出的种服务器集群的服务节点之间所执行的负载均衡方法。结合图1,具体说明如下。
一种大规模文档相似性检测方法,包括如下步骤:
S1、输入文档集,计算文档集中文档其他信息的相似度。
S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S,和一个初始化为0的f维向量V。
S3、通过NLPIR分词系统对文档内容进行分词处理,过滤掉语气词、助词,并去掉干扰符号后将文档内容转换为一组特征词。
S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算,将中文术语长度函数作为特征词x的主题相关性函数,中文术语长度函数为
其中,x表示特征词的长度,
特征词x的权重计算公式为
其中,tfx,j×idfx表示关键词x在文档j的TF-IDF值,len(x)为单词x的主题相关性函数。
S5、将所有特征词使用相同的哈希函数映射为长度为f的签名h,遍历h的每一位,若h的第i位为1,i介于1到f之间,V的第i位加上该特征词的权重,否则减去。
S6、遍历V,如果V的第i位大于0,签名S的第i位设为1,否则设为0,最终生成的签名S就是文档内容对应的Simhash签名值。
S7、将文档内容对应的Simhash签名值分为n块,对同块的签名值使用相同的哈希函数,映射到桶,检查每一个桶中的元素,判断元素数量有没超过(1+μ1)×AVEn,其中AVEn为桶中元素的平均值,μ1为权重,桶中元素数量超过的话进行二次哈希。
S8、同一个桶的文档作为候选对,先使用文档内容对应的Simhash签名值进行海明距离的计算,然后使用第一步文档其它信息的相似度综合计算文档间的相似度,文档间的相似度的计算公式为
其中Haming(A,B)表示A,B两篇文档内容的海明距离,minHash(A,B)表示A,B两篇文档其它信息的相似度,μ2的取值为0.8~0.9。此外,还需要说明的是,公式中的+1是为了保证当A,B两篇文档内容的海明距离为0时,分数不会为无穷大。,另外,在本技术方案中,两篇文档的相似度还是以内容的相似度为主。
S9、判断同一个桶中文档之间的相似度是否小于m值,
若同一个桶中文档之间的相似度小于m值,即输出为相似文档,
若同一个桶中文档之间的相似度不小于m值,即输出为非相似文档。
在本实施例中,所述m值为0.25。
需要说明的是,S1中所述的文档其他信息包括但不限于文档关键字、文档的标签以及文档的引用文献。
S1中所述计算文档集中文档其他信息的相似度,具体包括如下步骤:
S11、提取文档中的其他信息,并将提取出的其他信息用集合的形式表示,将这一系列集合组成特征矩阵。
S12、使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度。
S12中所述使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度,具体又包括如下步骤:
S121、对特征矩阵进行N次随机打乱生成签名矩阵。
S122、选用的N个随机哈希函数为hi(x)=(x+i)modN(i=1,2,3…N),通过签名矩阵对应列之间的jaccard相似度来估计特征矩阵对应列之间的jaccard相似度。
本发明的方法性能、相似性文档检测的准确率和召回率通过如下实例进一步说明:
在实施例中,本发明使用的文档集是互联网、医疗、教育、AI、住房五大主题中的1000份文档,和混入的5000份不相关混杂文档。
如图2和图3所示,本发明从多个维度,包括文档内容、文档关键字、文档的标签、文档的引用文献等综合计算文档的相似度,并且综合使用TF-IDF技术和单词的主题相关性计算关键词权重,提高相似性文档检测的准确率,所以本发明在五个主题上相似性文档检测准确率和召回率与原Simhash算法相比较高且波动较小。
如图4所示,本发明在检索步骤中,哈希到桶的时候应对分布不均匀的情况,进行二次哈希,减少候选对的数量并且使分布更加均匀,可以在较短的时间内完成相同的数据量,提高相似性文档检测的执行效率,所以本发明在相似性文档检测执行时间与原Simhash算法相比较短。
综上所述,本发明检测的准确率较高,执行效率较高。可广泛用于数据检索、数据存储等互联网大规模数据挖掘中。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种大规模文档相似性检测方法,其特征在于,包括如下步骤:
S1、输入文档集,计算文档集中文档其他信息的相似度;
S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S,和一个初始化为0的f维向量V;
S3、通过NLPIR分词系统对文档内容进行分词处理,过滤掉语气词、助词,并去掉干扰符号后将文档内容转换为一组特征词;
S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算,将中文术语长度函数作为特征词x的主题相关性函数,中文术语长度函数为
其中,x表示特征词的长度,
特征词x的权重计算公式为
其中,tfx,j×idfx表示关键词x在文档j的TF-IDF值,len(x)为单词x的主题相关性函数;
S5、将所有特征词使用相同的哈希函数映射为长度为f的签名h,遍历h的每一位,若h的第i位为1,i介于1到f之间,V的第i位加上该特征词的权重,否则减去;
S6、遍历V,如果V的第i位大于0,签名S的第i位设为1,否则设为0,最终生成的签名S就是文档内容对应的Simhash签名值;
S7、将文档内容对应的Simhash签名值分为n块,对同块的签名值使用相同的哈希函数,映射到桶,检查每一个桶中的元素,判断元素数量有没超过(1+μ1)×AVEn,其中AVEn为桶中元素的平均值,μ1为权重,桶中元素数量超过的话进行二次哈希;
S8、同一个桶的文档作为候选对,先使用文档内容对应的Simhash签名值进行海明距离的计算,然后使用第一步文档其它信息的相似度综合计算文档间的相似度,文档间的相似度的计算公式为
其中Haming(A,B)表示A,B两篇文档内容的海明距离,minHash(A,B)表示A,B两篇文档其它信息的相似度,μ2的取值为0.8~0.9;
S9、判断同一个桶中文档之间的相似度是否小于m值,
若同一个桶中文档之间的相似度小于m值,即输出为相似文档,
若同一个桶中文档之间的相似度不小于m值,即输出为非相似文档。
2.根据权利要求1所述的大规模文档相似性检测方法,其特征在于:S1中所述文档其他信息包括文档关键字、文档的标签以及文档的引用文献。
3.根据权利要求1所述的大规模文档相似性检测方法,其特征在于,S1中所述计算文档集中文档其他信息的相似度,包括如下步骤:
S11、提取文档中的其他信息,并将提取出的其他信息用集合的形式表示,将这一系列集合组成特征矩阵;
S12、使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度。
4.根据权利要求3所述的大规模文档相似性检测方法,其特征在于,S12中所述使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度,包括如下步骤:
S121、对特征矩阵进行N次随机打乱生成签名矩阵;
S122、选用的N个随机哈希函数为hi(x)=(x+i)modN(i=1,2,3…N),通过签名矩阵对应列之间的jaccard相似度来估计特征矩阵对应列之间的jaccard相似度。
5.根据权利要求1所述的大规模文档相似性检测方法,其特征在于:S9中所述m值为0.25。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810251626.8A CN108595517B (zh) | 2018-03-26 | 2018-03-26 | 一种大规模文档相似性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810251626.8A CN108595517B (zh) | 2018-03-26 | 2018-03-26 | 一种大规模文档相似性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595517A true CN108595517A (zh) | 2018-09-28 |
CN108595517B CN108595517B (zh) | 2021-03-09 |
Family
ID=63623602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810251626.8A Active CN108595517B (zh) | 2018-03-26 | 2018-03-26 | 一种大规模文档相似性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595517B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460500A (zh) * | 2018-10-24 | 2019-03-12 | 深圳市腾讯计算机系统有限公司 | 热点事件发现方法、装置、计算机设备和存储介质 |
CN110309446A (zh) * | 2019-04-26 | 2019-10-08 | 深圳市赛为智能股份有限公司 | 文本内容快速去重方法、装置、计算机设备及存储介质 |
CN110532389A (zh) * | 2019-08-22 | 2019-12-03 | 四川睿象科技有限公司 | 一种文本聚类方法、装置和计算设备 |
CN110737748A (zh) * | 2019-09-27 | 2020-01-31 | 成都数联铭品科技有限公司 | 一种文本去重方法及系统 |
CN111444325A (zh) * | 2020-03-30 | 2020-07-24 | 湖南工业大学 | 一种位置编码单次随机置换哈希度量文档相似度的方法 |
CN111899890A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于比特串哈希的医疗数据相似度检测系统与方法 |
CN112183092A (zh) * | 2020-10-30 | 2021-01-05 | 平安数字信息科技(深圳)有限公司 | 简历查重方法、装置、设备及介质 |
CN112232054A (zh) * | 2020-10-19 | 2021-01-15 | 北京值得买科技股份有限公司 | 一种海量文本实时重复文章检测方法 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN112733140A (zh) * | 2020-12-28 | 2021-04-30 | 上海观安信息技术股份有限公司 | 一种针对模型倾斜攻击的检测方法及系统 |
CN114398968A (zh) * | 2022-01-06 | 2022-04-26 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
CN117235243A (zh) * | 2023-11-16 | 2023-12-15 | 青岛民航凯亚系统集成有限公司 | 民用机场大语言模型训练优化方法及综合服务平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646029A (zh) * | 2013-11-04 | 2014-03-19 | 北京中搜网络技术股份有限公司 | 一种针对博文的相似度计算方法 |
CN106649222A (zh) * | 2016-12-13 | 2017-05-10 | 浙江网新恒天软件有限公司 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
CN107562824A (zh) * | 2017-08-21 | 2018-01-09 | 昆明理工大学 | 一种文本相似度检测方法 |
-
2018
- 2018-03-26 CN CN201810251626.8A patent/CN108595517B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646029A (zh) * | 2013-11-04 | 2014-03-19 | 北京中搜网络技术股份有限公司 | 一种针对博文的相似度计算方法 |
CN106649222A (zh) * | 2016-12-13 | 2017-05-10 | 浙江网新恒天软件有限公司 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
CN107562824A (zh) * | 2017-08-21 | 2018-01-09 | 昆明理工大学 | 一种文本相似度检测方法 |
Non-Patent Citations (2)
Title |
---|
CAITLIN SADOWSKI等: "Simhash: Hash-based similarity detection", 《TECHNICAL REPORT,GOOGLE》 * |
YI YU等: "Rearch on Large Scale Documents Deduplication Technique based on Simhash Algorithm", 《FIRST INTERNATIONAL CONFERENCE ON INFORMATION SCIENCES, MACHINERY, MATERIALS AND ENERGY》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460500A (zh) * | 2018-10-24 | 2019-03-12 | 深圳市腾讯计算机系统有限公司 | 热点事件发现方法、装置、计算机设备和存储介质 |
CN110309446A (zh) * | 2019-04-26 | 2019-10-08 | 深圳市赛为智能股份有限公司 | 文本内容快速去重方法、装置、计算机设备及存储介质 |
CN110532389B (zh) * | 2019-08-22 | 2023-07-14 | 北京睿象科技有限公司 | 一种文本聚类方法、装置和计算设备 |
CN110532389A (zh) * | 2019-08-22 | 2019-12-03 | 四川睿象科技有限公司 | 一种文本聚类方法、装置和计算设备 |
CN110737748A (zh) * | 2019-09-27 | 2020-01-31 | 成都数联铭品科技有限公司 | 一种文本去重方法及系统 |
CN110737748B (zh) * | 2019-09-27 | 2023-08-08 | 成都数联铭品科技有限公司 | 一种文本去重方法及系统 |
CN111444325A (zh) * | 2020-03-30 | 2020-07-24 | 湖南工业大学 | 一种位置编码单次随机置换哈希度量文档相似度的方法 |
CN111899890A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于比特串哈希的医疗数据相似度检测系统与方法 |
CN111899890B (zh) * | 2020-08-13 | 2023-12-08 | 东北电力大学 | 基于比特串哈希的医疗数据相似度检测系统与方法 |
CN112232054A (zh) * | 2020-10-19 | 2021-01-15 | 北京值得买科技股份有限公司 | 一种海量文本实时重复文章检测方法 |
CN112183092A (zh) * | 2020-10-30 | 2021-01-05 | 平安数字信息科技(深圳)有限公司 | 简历查重方法、装置、设备及介质 |
CN112183092B (zh) * | 2020-10-30 | 2023-08-15 | 深圳平安智汇企业信息管理有限公司 | 简历查重方法、装置、设备及介质 |
CN112733140A (zh) * | 2020-12-28 | 2021-04-30 | 上海观安信息技术股份有限公司 | 一种针对模型倾斜攻击的检测方法及系统 |
CN112733140B (zh) * | 2020-12-28 | 2023-12-22 | 上海观安信息技术股份有限公司 | 一种针对模型倾斜攻击的检测方法及系统 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN114398968A (zh) * | 2022-01-06 | 2022-04-26 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
CN117235243A (zh) * | 2023-11-16 | 2023-12-15 | 青岛民航凯亚系统集成有限公司 | 民用机场大语言模型训练优化方法及综合服务平台 |
Also Published As
Publication number | Publication date |
---|---|
CN108595517B (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595517A (zh) | 一种大规模文档相似性检测方法 | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
Boyack et al. | Co‐citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately? | |
Chen et al. | Map-reduce meets wider varieties of applications | |
US20080082531A1 (en) | Clustering system and method | |
CN103970722A (zh) | 一种文本内容去重的方法 | |
Bates et al. | Counting clusters in twitter posts | |
US20120254173A1 (en) | Grouping data | |
Li et al. | Bursty event detection from microblog: a distributed and incremental approach | |
Huang et al. | Towards trusted services: Result verification schemes for MapReduce | |
Wu et al. | Efficient near-duplicate detection for q&a forum | |
TW201027375A (en) | Search system, search method and program | |
CN102163226A (zh) | 基于映射-化简和分词及邻接排序去重方法 | |
Zhou et al. | K-gram based fuzzy keyword search over encrypted cloud computing | |
Berberich et al. | Computing n-gram statistics in MapReduce | |
Ho et al. | Application of sim-hash algorithm and big data analysis in spam email detection system | |
CN109947935A (zh) | 新闻事件的生成方法及装置 | |
Zhang et al. | Learning hash codes for efficient content reuse detection | |
CN107133321B (zh) | 页面的搜索特性的分析方法和分析装置 | |
CN103440308A (zh) | 一种基于形式概念分析的数字论文检索方法 | |
Mathew et al. | Efficient information retrieval using Lucene, LIndex and HIndex in Hadoop | |
CN103678355B (zh) | 文本挖掘方法和文本挖掘装置 | |
Ma et al. | Microblog hot topic detection based on topic model using term correlation matrix | |
CN102708104A (zh) | 对文档排序的方法和设备 | |
Lakshmi et al. | Compact in‐memory representation of large graph databases for efficient mining of maximal frequent sub graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |