CN105138647A - 一种基于Simhash算法的旅游网络社区划分方法 - Google Patents

一种基于Simhash算法的旅游网络社区划分方法 Download PDF

Info

Publication number
CN105138647A
CN105138647A CN201510530303.9A CN201510530303A CN105138647A CN 105138647 A CN105138647 A CN 105138647A CN 201510530303 A CN201510530303 A CN 201510530303A CN 105138647 A CN105138647 A CN 105138647A
Authority
CN
China
Prior art keywords
text
user
algorithm
database
simhash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510530303.9A
Other languages
English (en)
Inventor
曹菡
冯倩
李程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201510530303.9A priority Critical patent/CN105138647A/zh
Publication of CN105138647A publication Critical patent/CN105138647A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Simhash算法的旅游网络社区划分方法,其是利用Simhash算法对文本进行处理计算文本的语义指纹,用海明距离来比较文本的语义指纹之间的距离,推算文本相似度,从而达到对相似用户进行聚类的目的,该方法将短文本高维度的特征向量进行降维处理,大大减少了其所占用的存储空间,而且本发明的算法简单方便、运算时间少,对文本的处理速度快,进而提高了复杂网络社区的划分效率,这对预测旅游活动的趋势与动向,提供旅游服务信息,推荐旅游线路乃至预测旅游高峰都有重大意义。

Description

一种基于Simhash算法的旅游网络社区划分方法
技术领域
本发明属于数据挖掘领域,具体是一种将Simhash去重算法作为聚类算法应用于旅游复杂网络社区划分。
背景技术
近年来,复杂网络成为信息科学、社会学、物理学、乃至生命科学等学科研究的热点。自然界中的很多系统都可以表示为复杂网络的形式,例如社会关系网、通信网、互联网等。论坛、BBS、微博、旅游网站等社交平台因其速度快、成本小、方便使用等特点而被广大旅游爱好者广泛使用,因此用这些社交平台进行交流,逐渐形成了一个复杂的旅游网络。
目前对于复杂网络社区划分有不同种类的算法,一类是分图的策略,如谱二分法、K‐L算法;它们存在的缺点是必须事先确定两个社区的大小,由于多数情况下网络中社区的个数未知,因而也就无法确定该算法重复划分社区的次数。另一类是聚类的方式,G‐N(GirvanandNewman)是典型的层次聚类算法。G‐N算法思想简单,但该方法计算量较大,计算时间复杂度也相对较高。划分聚类典型的是K‐Means和K‐Medoids,这两个算法虽然运行时间快,但缺点是初始中心簇选取会影响到聚类结果,容易受到孤立点的影响等。层次聚类的代表性算法有BIRCH、CURE、Chameleon,它的缺点是在进程之中一旦结束就无法修正,例如在合并或者分裂的步骤中完成就不能更正导致即使划分错误也无法弥补。网格聚类的缺点是对于大规模数据的处理不是很得心应手。因此,目前的网络社区划分方法均存在不同的缺陷,以致其在推广应用时受限。
发明内容
针对目前网络社区划分方法存在的问题和不足,本发明从用户旅游文本信息出发,提供了一种基于Simhash算法的简单、运算速度快、空间存储小的旅游网络社区划分方法,能够提高复杂网络社区的划分效率。
本发明实现上述目的所采用的技术方案是由以下步骤实现:
(1)爬取旅游网络上的用户ID以及文本数据,并存入数据库;
(2)对数据库中所存放的文本数据进行分词处理,对照停用词表去掉停用词,得到文本的特征值,并确定特征值对应的权重;
(3)根据步骤(2)所得的文本特征值及其对应的权重,用Simhash算法进行处理,得到该文本的语义指纹,并将其存入数据库中;
(4)用海明距离算法将步骤(3)所得到的一个文本的语义指纹与预先划分类别中的中心文本进行对比,若两者之间的海明距离小于等于3,则将该文本归类至该中心文本所对应的类别中,并将其对应类别存入数据库中对应的用户信息中;否则,将其与预先划分类别中的其他中心文本进行对比;若不存在满足条件的中心文本,则将该文本作为新类别的中心文本;
(5)重复步骤(4),完成数据库中的其它文本的类别划分,完成了旅游网络社区划分。
上述步骤(1)具体是由以下步骤实现:
(1.1)申请旅游网络爬取数据的权限;
(1.2)根据旅游网络接口查看用户的注册住址address1、用户文本信息内容text以及用户发表文本信息内容时所在地址address2;
(1.3)判断用户的注册住址address1与用户发表文本信息内容时所在地址address2是否相同,若不相同,则确定文本信息内容与旅游相关,将其用户ID以及文本数据存入数据库;否则,返回步骤(2)查看下一个用户。
上述步骤(2)中的分词处理可以采用正向最大匹配算法或者也可以采用逆向最大匹配算法或双向最大匹配算法。
上述步骤(3)中的Simhash算法具体由以下步骤实现:
(3.1)用hash编码算法对步骤(2)所得的每个文本特征值进行处理,将其转化为64位的编码,得到hash编码;
(3.2)对hash编码的每一位进行处理,若对应位置处的编码为1,则将其相应位数变为正权重;否则为负权重,得到相应的权重编码;
(3.3)将所有文本特征的权重编码对应位求和,得到求和后的编码,若求和后的编码中的位数为正,则将其标记为1;否则,标记为0,得到Simhash编码值,即为语义指纹。
本发明提供的基于Simhash算法的旅游网络社区划分方法是利用Simhash算法对文本进行处理计算文本的语义指纹,用海明距离来比较文本的语义指纹之间的距离,推算文本相似度,从而达到对相似用户进行聚类的目的。该方法将短文本高维度的特征向量进行降维处理,大大减少了其所占用的存储空间,而且本发明的算法简单方便、运算时间少,对文本的处理速度快,进而提高了复杂网络社区的划分效率,这对预测旅游活动的趋势与动向,提供旅游服务信息,推荐旅游线路乃至预测旅游高峰都有重大意义。
附图说明
图1为新浪微博短文本网络社区划分的流程图。
图2为Simhash算法过程图。
具体实施方式
实施例1
现以新浪微博为例,本发明的基于Simhash算法的旅游网络社区划分方法参见图1,由以下步骤实现:
(1)爬取旅游网络上的用户ID以及文本数据,并存入数据库,具体包括以下步骤:
(1.1)申请新浪APPkey;
(1.2)根据新浪提供的API接口查看所需接口的URL、HTTP请求方式、参数请求爬取用户ID、用户注册住址address1、用户微博信息内容text、用户发表微博地址address2,接口返回json格式的数据;
(1.3)用java程序,对微博返回的json数据进行处理,判断第一个用户的注册住址address1与用户发表文本信息内容的地址address2是否相同,若不相同,则确定文本信息内容与旅游相关,将旅游数据的用户ID、用户微博信息text安爬取顺序放入数据库中,如下表1;否则,查看下一个用户。
表1为数据库中的存储格式
(2)对数据库中所存放的文本数据进行分词处理,对照停用词表去掉停用词,得到文本的特征值,并确定特征值对应的权重;
(2.1)采用正向最大匹配算法对数据库中所存放的文本数据进行分词处理,如:
(2.1.1)st=“我们是旅游爱好者”,maxlen(最大词长)=10。
(2.1.2)取w=“我们是旅游”;
(2.1.3)查词典判断w中的字符串不是词;
(2.1.4)从w右边减掉一个字后w=“我们是旅”;
(2.1.5)判断w中的字串不是词;
(2.1.6)从w右边减掉一个字后w=“我们是”;
(2.1.7)判断w中的字串不是词;
(2.1.8)从w右边减掉一个字后w=“我们”;
(2.1.9)判断w中的字符串是一个词,则输出到st中,st=“我们/”。
(2.1.10)重复(2.1.2)(2.1.3)(2.1.4)(2.1.5)(2.1.6)(2.1.7)(2.1.8)(2.1.9)对st进行分词的结果是:我们/是/旅游爱好者。
(2.2)对照停用词表去掉停用词,得到文本的特征值,并确定特征值对应的权重,具体包括以下步骤:
(2.2.1)针对(2.1)中的st,对照停用词表去掉“是”得到st的特征值为{我们,旅游爱好者};
(2.2.2)将st的特征值与权重库对比得到每一个特征值的权重,权重词库如表2所示:
表2为权重词库的截图
(3)根据步骤(2)所得的文本特征值及其对应的权重,用Simhash算法进行处理,参见图2,得到该文本的语义指纹,并将其存入数据库中,具体由以下步骤实现:
(3.1)假定Simhash的长度为64位,初始化长度为64位的数组,该数组的每个元素都是0。求一个特征值的64位hash值,如果hash值得第i位是1,那么数组的第i个数加上该特征的权重使对应位置变为正权重;否则,当hash值得第i位为0时,则将第i位减去它的权重值使对应位置变为负权重;最后得到这个特征值的权重编码。
(3.2)重复(3.1)步骤,对当前文本的所有特征值进行处理。将所有特征值对应位求代数和并放入原数组。数组中的某些数为正,某些数为负。Simhash值的每一位与数组中的每个数对应,将正数对应位设为1,负数对应位设为0,给出64位的0/1数组,即为最后的Simhash。
用java程序处理st1=iwanttogotobeijingwithi;
st2=IwanttogotoBeijingwithe;
st3=gotoschool;
st1=0000000000110100010000000100001100100001100111100011100110111000
st2=0000000000110100010000000100001100100010100110100011100110110000
st3=0000000000110110110101101100100110100101100111100011000000110000
(3.3)将文本和对应的simhash编码放入数据库中,放入数据库中后如表3所示:
表3语义指纹在数据库中的存储格式
用户ID 用户微博信息text 语义指纹
1 i want to go to beijing with i 0000000000110100010000000100001100100001100111100011100110111000
2 I want to go to Beijing with e 0000000000110100010000000100001100100010100110100011100110110000
3 go to school 0000000000110110110101101100100110100101100111100011000000110000
(4)用海明距离算法将步骤(3)所得到的一个文本的语义指纹与预先划分类别中的中心文本进行对比,若两者之间的海明距离小于等于3,则将该文本归类至该中心文本所对应的类别中,并将其对应类别存入数据库中对应的用户信息中;否则,将其与预先划分类别中的其他中心文本进行对比;若不存在满足条件的中心文本,则将该文本作为新类别的中心文本;
例如:用户1和用户2预先划分类别分别为A类和B类。将用户3的语义指纹与用户1的语义指纹用海明距离进行对比,得到的距离为14,则说明用户3与用户1不是同类,再将用户3的语义指纹与用户2的语义指纹进行对比,得到的距离为16,说明用户3和用户2也不是同类。那么将用户3作为新的类别C类的中心文本存放到数据库中。如表4所示:
表4用户所属类别在数据库中的存储格式
用户ID 用户微博信息text 语义指纹 类别
1 i want to go to beijing with i 110100010000000100001100100001100111100011100110111000 A
2 I want to go to Beijing with e 110100010000000100001100100010100110100011100110110000 B
3 go to school 110110110101101100100110100101100111100011000000110000 C
(5)重复步骤(4),完成数据库中的其他文本的类别划分,完成了旅游网络社区划分。
上述实施例步骤(2.1)中还可以使用逆向最大匹配算法或双向最大匹配算法进行分词处理,其具体处理过程与正向最大匹配算法的过程类似。
上述实施例中未详细描述的方法或处理过程均属于常规方法,对于本领域技术人员均可获知。

Claims (4)

1.一种基于Simhash算法的旅游网络社区划分方法,其特征在于包括以下步骤:
(1)爬取旅游网络上的用户ID以及文本数据,并存入数据库;
(2)对数据库中所存放的文本数据进行分词处理,对照停用词表去掉停用词,得到文本的特征值,并确定特征值对应的权重;
(3)根据步骤(2)所得的文本特征值及其对应的权重,用Simhash算法进行处理,得到该文本的语义指纹,并将其存入数据库中;
(4)用海明距离算法将步骤(3)所得到的一个文本的语义指纹与预先划分类别中的中心文本进行对比,若两者之间的海明距离小于等于3,则将该文本归类至该中心文本所对应的类别中,并将其对应类别存入数据库中对应的用户信息中;否则,将其与预先划分类别中的其他中心文本进行对比;若不存在满足条件的中心文本,则将该文本作为新类别的中心文本;
(5)重复步骤(4),完成数据库中的其它文本的类别划分,完成了旅游网络社区划分。
2.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法,所述步骤(1)具体是由以下步骤实现:
(1.1)申请旅游网络爬取数据的权限;
(1.2)根据旅游网络接口查看用户的注册住址address1、用户文本信息内容text以及用户发表文本信息内容时所在地址address2;
(1.3)判断用户的注册住址address1与用户发表文本信息内容时所在地址address2是否相同,若不相同,则确定文本信息内容与旅游相关,将其用户ID以及文本数据存入数据库;否则,返回步骤(2)查看下一个用户。
3.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法,其特征在于:所述步骤(2)中的分词处理采用正向最大匹配算法或逆向最大匹配算法或双向最大匹配算法。
4.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法,其特征在于:所述步骤(3)中的Simhash算法具体由以下步骤实现:
(3.1)用hash编码算法对步骤(2)所得的每个文本特征值进行处理,将其转化为64位的编码,得到hash编码;
(3.2)对hash编码的每一位进行处理,若对应位置处的编码为1,则将其相应位数变为正权重;否则为负权重,得到相应的权重编码;
(3.3)将所有文本特征的权重编码对应位求和,得到求和后的编码,若求和后的编码中的位数为正,则将其标记为1;否则,标记为0,得到Simhash编码值,即为语义指纹。
CN201510530303.9A 2015-08-26 2015-08-26 一种基于Simhash算法的旅游网络社区划分方法 Pending CN105138647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510530303.9A CN105138647A (zh) 2015-08-26 2015-08-26 一种基于Simhash算法的旅游网络社区划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510530303.9A CN105138647A (zh) 2015-08-26 2015-08-26 一种基于Simhash算法的旅游网络社区划分方法

Publications (1)

Publication Number Publication Date
CN105138647A true CN105138647A (zh) 2015-12-09

Family

ID=54723995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510530303.9A Pending CN105138647A (zh) 2015-08-26 2015-08-26 一种基于Simhash算法的旅游网络社区划分方法

Country Status (1)

Country Link
CN (1) CN105138647A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质
CN108170684A (zh) * 2018-01-22 2018-06-15 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品
CN108829769A (zh) * 2018-05-29 2018-11-16 阿里巴巴集团控股有限公司 一种可疑群组发现方法和装置
CN109118380A (zh) * 2018-07-25 2019-01-01 湖南工程学院 一种基于多路谱聚类理论的社区划分方法
CN109189913A (zh) * 2018-08-01 2019-01-11 昆明理工大学 一种基于内容的小说推荐方法
CN109344407A (zh) * 2018-10-29 2019-02-15 北京天融信网络安全技术有限公司 基于语义的文档指纹构建方法、存储介质和计算机设备
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置
CN111414668A (zh) * 2020-03-09 2020-07-14 南京大学 一种基于web路径规划和时间约束条件的社区划分方法
CN111552842A (zh) * 2020-03-30 2020-08-18 贝壳技术有限公司 一种数据处理的方法、装置和存储介质
CN112631922A (zh) * 2020-12-28 2021-04-09 广州品唯软件有限公司 流量回放数据选取方法、系统和存储介质
CN113407495A (zh) * 2021-06-29 2021-09-17 北京鼎普科技股份有限公司 一种基于simhash的文件相似度判定方法及系统
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102414712A (zh) * 2009-04-29 2012-04-11 亚马逊科技公司 根据多个用户的地址信息之间的相似性产生推荐

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102414712A (zh) * 2009-04-29 2012-04-11 亚马逊科技公司 根据多个用户的地址信息之间的相似性产生推荐

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI YANG ETAL.: "The Research of Weighted Community Partition based on SimHash", 《 PROCEDIA COMPUTER SCIENCE》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质
CN108170684B (zh) * 2018-01-22 2020-06-05 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品
CN108170684A (zh) * 2018-01-22 2018-06-15 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品
US11281861B2 (en) 2018-01-22 2022-03-22 Boe Technology Group Co., Ltd. Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium
CN108829769A (zh) * 2018-05-29 2018-11-16 阿里巴巴集团控股有限公司 一种可疑群组发现方法和装置
CN108829769B (zh) * 2018-05-29 2021-08-06 创新先进技术有限公司 一种可疑群组发现方法和装置
CN109118380A (zh) * 2018-07-25 2019-01-01 湖南工程学院 一种基于多路谱聚类理论的社区划分方法
CN109189913A (zh) * 2018-08-01 2019-01-11 昆明理工大学 一种基于内容的小说推荐方法
CN109344407A (zh) * 2018-10-29 2019-02-15 北京天融信网络安全技术有限公司 基于语义的文档指纹构建方法、存储介质和计算机设备
CN109344407B (zh) * 2018-10-29 2024-02-09 天融信雄安网络安全技术有限公司 基于语义的文档指纹构建方法、存储介质和计算机设备
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置
CN110457694B (zh) * 2019-07-29 2023-09-22 腾讯科技(上海)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置
CN111414668A (zh) * 2020-03-09 2020-07-14 南京大学 一种基于web路径规划和时间约束条件的社区划分方法
CN111414668B (zh) * 2020-03-09 2022-06-21 南京大学 一种基于web路径规划和时间约束条件的社区划分方法
CN111552842A (zh) * 2020-03-30 2020-08-18 贝壳技术有限公司 一种数据处理的方法、装置和存储介质
CN112631922A (zh) * 2020-12-28 2021-04-09 广州品唯软件有限公司 流量回放数据选取方法、系统和存储介质
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统
CN113407495A (zh) * 2021-06-29 2021-09-17 北京鼎普科技股份有限公司 一种基于simhash的文件相似度判定方法及系统

Similar Documents

Publication Publication Date Title
CN105138647A (zh) 一种基于Simhash算法的旅游网络社区划分方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN105893406A (zh) 群体用户画像方法及系统
EP3364309B1 (en) Account mapping method and device based on address information
CN112449009B (zh) 一种基于svd的联邦学习推荐系统通信压缩方法及装置
US10467307B1 (en) Grouping of item data using seed expansion
CN103942308A (zh) 大规模社交网络社区的检测方法及装置
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN105808696A (zh) 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN107145523A (zh) 基于迭代匹配的大型异构知识库对齐方法
Zhang et al. Identifying the same person across two similar social networks in a unified way: Globally and locally
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN111680498B (zh) 实体消歧方法、装置、存储介质及计算机设备
CN109948242A (zh) 基于特征哈希的网络表示学习方法
CN106909619B (zh) 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN103218419B (zh) 网络标签聚类方法和系统
Zeng et al. Adaptive federated learning with non-IID data
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
Jeong et al. Task-adaptive neural network search with meta-contrastive learning
CN110222103A (zh) 提取excel数据的方法及装置、计算机设备、存储介质
CN109271491B (zh) 基于非结构化文本信息的云服务推荐方法
CN105162648B (zh) 基于骨干网络扩展的社团检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209

RJ01 Rejection of invention patent application after publication