CN103745014A - 一种社交网络用户虚实映射方法和系统 - Google Patents
一种社交网络用户虚实映射方法和系统 Download PDFInfo
- Publication number
- CN103745014A CN103745014A CN201410042782.5A CN201410042782A CN103745014A CN 103745014 A CN103745014 A CN 103745014A CN 201410042782 A CN201410042782 A CN 201410042782A CN 103745014 A CN103745014 A CN 103745014A
- Authority
- CN
- China
- Prior art keywords
- organization
- degree
- social networks
- prefix
- approximation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013507 mapping Methods 0.000 title claims abstract description 18
- 230000008520 organization Effects 0.000 claims description 218
- 230000011218 segmentation Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 18
- 230000006855 networking Effects 0.000 claims description 13
- 238000000151 deposition Methods 0.000 claims description 7
- 230000010365 information processing Effects 0.000 claims description 7
- 230000002093 peripheral effect Effects 0.000 abstract 2
- 238000006116 polymerization reaction Methods 0.000 description 22
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种社交网络用户虚实映射方法和系统,所述方法包括:根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。本发明可根据社交网络用户的唯一标识将该用户映射到一个或多个工作单位,提高了社交网络用户虚实映射的精确度。
Description
技术领域
本发明涉及计算机数据挖掘分析领域,尤其涉及一种社交网络用户虚实映射方法和系统。
背景技术
随着互联网的不断发展,社交网络在人们生活中扮演着重要的角色,微博、微信、人人网等已经成为人们获取信息、展示自我和营销推广的重要手段。通过社交网络,人们可以方便地以虚拟身份自由发表观点和意见,每个人都是信息的生产者和消费者,形成“自媒体”。匿名的社交网络在一定程度上保护了用户的隐私,但同样也带来了很多问题。比如,不易追踪网络虚假消息的发布者、不易定位危害国家治安言论的发布者、不易在网络中追查违法犯罪行为等。尽管我国推出了网络实名制注册政策,但面对无边界的网络社会,实名制需要全国统一,甚至需要与世界接轨,因此在实施过程中困难重重。此外,即使是采用了实名制注册也是后台实名,而前台显示仍使用昵称的匿名形式。因此,在网络的虚拟性、匿名性等特征下,根据用户在社交网络中的虚拟身份来识别用户的真实身份,即实现用户的虚实映射,具有积极的社会意义。
目前,针对社交网络中用户虚实映射的研究主要包括以下两个方面:一类是基于网络IP地址定位网络设备,如通过分析移动设备IP地址,网络设备IP地址及台式电脑IP地址等来获取设备所在的省市信息;另一类是通过人物特征属性对某个用户群体进行识别,用户的特征属性可以包括性别、年龄段、居住地、毕业院校、性格、星座、爱好、职业等,通过挖掘网络数据来识别用户特征属性,可以将拥有相同或相似特征属性的用户群挖掘出来,以便为网络营销、电商广告提供服务。
然而,由于实践中难以获得社交网络用户的IP信息,因此前一类方法的适用范围受到一定限制,不能满足IP缺失的社交网络用户的虚实映射需求;而第二类方法面向拥有相似特征的用户群,并不是面向个人用户,其偏向于挖掘用户的特征属性分类,并不能识别用户的真实身份。
发明内容
为解决现有技术中存在的问题,本发明提供一种社交网络用户虚实映射方法,所述方法包括:
步骤1)、根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;
步骤2)、将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
在一个实施例中,步骤1)还包括:对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
在一个实施例中,在步骤2)中,将周边单位名称列表中的每个单位名称与社交网络用户发布的消息内容进行匹配包括:
步骤21)、将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr)
其中,str表示单位名称,weight(str)表示单位名称的近似度权重,word.size(str)表示单位名称的长度,factor表示乘数因子,matchtimes(str)表示单位名称与消息内容的匹配成功次数;
步骤22)、如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
在一个实施例中,步骤2)还包括:
步骤23)、合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
在进一步的实施例中,步骤23)包括:
步骤231)、对于一种近似度权重,新建一棵Trie树;
步骤232)、将具有该近似度权重的单位名称插入所述Trie树,得到具有共同的最大前缀的单位名称;
步骤233)、如果该共同的最大前缀包含在前缀词库中或者其长度达到预定长度,则合并具有该共同的最大前缀且具有该近似度权重的单位名称;其中,合并后的单位名称为该共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词;
步骤234)、销毁所述Trie树;
步骤235)、对于未处理的近似度权重,返回步骤231)进行处理。
在一个实施例中,步骤2)还包括:
步骤24)、合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
在一个实施例中,在步骤2)中,根据匹配程度选择一个或多个单位名称包括:将单位名称按照近似度权重进行降序排列,选择前N个单位名称并推送;其中N为正整数。
在一个实施例中,对周边单位名称列表中的每个单位名称进行分词包括:对所述周边单位名称列表中的每个单位名称进行中文分词,删除长度为一个字的分词;以及对所述周边单位名称列表中的每个单位名称进行二元组分词。
在一个实施例中,对周边单位名称列表中的每个单位名称进行分词还包括:如果对单位名称进行分词后得到的分词具有别名,则将该别名加入该单位名称的分词结果。
在一个实施例中,步骤1)包括:
步骤11)、根据社交网络用户的唯一标识从社交网络服务器获取关于该社交网络用户的返回信息,从中得到该社交网络用户发布的消息内容和地理位置信息;
步骤12)、根据所述社交网络用户的地理位置信息从社交网络服务器获取该地理位置信息对应的地理位置的周边单位名称列表。其中社交网络用户的地理位置信息包括该社交网络用户发布消息的地理位置信息和该社交网络用户签到的地理位置信息。
在进一步的实施例中,步骤11)还包括:统一所述社交网络用户的地理位置信息的精确度;以及按照出现次数降序排序所述社交网络用户的地理位置信息,选择前M个地理位置信息;其中M为正整数。
在进一步的实施例中,步骤12)包括:根据所选择的M个地理位置信息,从社交网络服务器获取对应的地理位置的周边单位名称列表。
根据本发明的一个实施例,还提供一种社交网络用户虚实映射系统,包括:
社交网络用户地理特征获取设备,用于根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及
社交网络用户单位名称计算推送设备,用于将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
在一个实施例中,所述系统还包括:
社交网络用户地理信息处理设备,用于对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
在一个实施例中,所述社交网络用户单位名称计算推送设备用于将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr)
其中,str表示单位名称,weight(str)表示单位名称的近似度权重,word.size(str)表示单位名称的长度,factor表示乘数因子,matchtimes(str)表示单位名称与消息内容的匹配成功次数;如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
在一个实施例中,所述社交网络用户单位名称计算推送设备还用于合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
在一个实施例中,所述社交网络用户单位名称计算推送设备还用于合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
采用本发明可以达到如下的有益效果:
本发明可根据社交网络用户的唯一标识将该社交网络用户映射到一个或多个工作单位,实现了社交网络用户到其工作单位的虚实映射。根据从社交网络用户地理位置信息得到的单位名称与该用户发布的消息内容的匹配程度来计算每个单位名称的可能性,提高了识别社交网络用户工作单位的准确性。对具有共同的最大前缀以及相同或互为别名的工作单位名称进行聚合,极大程度地减少了冗余重复,进一步提高了社交网络用户虚实映射的准确性。此外,地理位置信息除了考虑用户发布消息的位置,还考虑了用户的签到位置,同样提高了用户虚实映射的准确性。
附图说明
图1是根据本发明一个实施例的社交网络用户虚实映射方法的流程图;
图2是根据本发明一个实施例的单位名称聚合方法的流程图;
图3是根据本发明一个实施例的构建前缀树的方法示意图;以及
图4是根据本发明一个实施例的社交网络用户虚实映射系统的框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种社交网络用户虚实映射方法。概括而言,该方法首先根据社交网络用户的唯一标识在社交网络服务器上获取该用户的地理位置信息,并且利用获取的地理位置信息在社交网络服务器上获取周边的单位名称列表;其次,根据所获取的每个单位名称与该用户发布的消息内容(例如,用户的发言内容、发表的博文内容等)的匹配程度得到每个单位名称的近似度权重;接着,对周边单位名称列表中的单位名称进行聚合,以基于聚合后的近似度权重来推送一个或多个工作单位名称。参考图1并以微博用户为例,该方法可使用以下步骤进行描述:
步骤S101:输入微博用户的唯一标识
步骤S102:获取该微博用户发布的消息内容(即发表的博文内容)和地理位置信息
在一个实施例中,可根据输入的微博用户唯一标识向社交网络服务器(在本实施例中为微博服务器)发出请求,获得批准后,在该微博服务器上抓取微博用户发表的博文内容和地理位置信息。如果没有抓取到关于该微博用户的博文内容或地理位置的信息,则虚实映射过程结束;如果抓取成功,则由微博服务器返回包括用户的博文内容、发表博文的地理位置以及用户签到的地理位置等返回信息,其中后面两种信息构成微博用户的地理位置信息。在进一步的实施例中,可以仅抓取特定时间区间内的信息,例如抓取工作时间段内的信息。
在一个实施例中,在抓取成功并获得返回信息后,可首先统一地理位置信息的精确度。例如,由于地理位置信息通常表示为经纬度,则可以统一经纬度数据的小数点后的位数。继而统计微博用户的每个地理位置信息出现的次数,将该出现次数作为指标对地理位置信息进行降序排序,选取前N个作为频繁地理位置信息。
步骤S103:获取周边单位名称列表
将上一步中获取的地理位置信息,逐条发送给微博服务器,定位该地理位置信息对应的地理位置并且获取该地理位置的周边单位名称列表。在另一个实施例中,可以将频繁地理位置信息逐条发送给微博服务器,并且获取对应的周边单位名称列表。
步骤S104:对获取到的周边单位名称列表进行分词
在一个实施例中,可采用本领域技术人员公知的分词方法对周边单位名称列表中的单位名称进行分词,得到每个单位名称对应的分词结果(包括一个或多个分词,其中分词可包括单位名称的全称)。举例来说,如果单位名称为Entity B,则其分词结果可包括:Entity B、Entity以及B。
在一个优选的实施例中,可首先对周边单位名称列表中的单位名称进行中文分词,在中文分词结束后再继续对这些单位名称进行二元组分词。其中,中文分词过程结束后,可移除长度为单个字的那些分词。
在一个实施例中,在中文分词过程中还可以参考用户词典,参考用户词典可使分词结果更符合客户需要。其中,用户词典是指用户维护的一个词典,参考该词典是指用户在分词过程中将特定的词分成一个分词,而不是按照默认的方法进行分词。
在另一个实施例中,如果在分词过程中发现得到的某个分词在别名词库中拥有别名(例如单位名称缩略词),则将该分词的所有别名也加入该单位名称对应的分词结果中。其中,别名词库是由用户维护的一个词库,用于保存多个单位名称的别名,其帮助识别分词和信息处理过程中拥有别名的实体和互为别名的实体,以达到提高匹配效率的目的。
步骤S105:计算每个单位名称的近似度权重
在周边单位名称列表的分词过程结束后,可计算该周边单位名称列表中的每个单位名称的近似度权重,即计算单位名称与微博用户发表的博文内容的匹配程度。
在一个实施例中,可首先将单位名称对应的分词结果与博文内容进行匹配,能够完全匹配的单位名称的近似度权重高,而基本匹配的单位名称的近似度权重低。其中,完全匹配表示单位名称的全称在博文内容中得到匹配(如Entity B成功匹配);而基本匹配表示单位名称的分词结果中的分词(不包括单位名称的全称)在博文内容中得到匹配(如Entity或B成功匹配)。
在一个实施例中,可根据下式来计算完全匹配的单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr) (1)
其中,str代表输入字符串,例如单位名称;weight(str)代表输入字符串的近似度权重,word.size(str)代表输入字符串的长度,factor代表乘数因子,matchtimes(str)代表输入字符串与博文内容的匹配次数。假定输入字符串为Entity B,则word.size等于8,设置乘数因子为1.1,如果完全匹配次数为10次,那么计算得到的近似度权重约为20。
在另一个实施例中,计算基本匹配的单位名称的近似度权重包括:计算该单位名称对应的分词结果中每个分词(不包括整个单位名称全称)与博文内容的匹配次数之和。
举例来说,假定输入的某微博用户的唯一标识为A,由A获取的周边单位名称列表中包括Entity B、Entity C、Entity D等,并且其中,
Entity B的分词结果是Entity B,Entity,B;
Entity C的分词结果是Entity C,Entity,C;
Entity D的分词结果是Entity D,Entity,D......
则可采用如下算法来计算单位名称的近似度权重:
步骤S106:对单位名称进行聚合
在一个实施例中,聚合单位名称可包括聚合周边单位名称列表中拥有共同最大前缀(即最长公共前缀)的单位名称以及使用别名词库聚合互为别名或者相同的单位名称,并且统计聚合后的单位名称列表中每个单位名称的近似度权重。其中,共同的最大前缀需满足以下条件才有效:即其是前缀词库中包括的前缀词或者满足用户预先设定的长度。
前缀词库用于存放用户指定的关于地理位置的前缀词,包括单位名称、地理位置以及地址等。其作用是判定所得单位名称的共同最大前缀是否有效,使得该共同最大前缀有效时才执行聚合。
步骤S107:推送该微博用户最有可能的工作单位名称
将聚合后的单位名称按照近似度权重进行降序排列,输出前N项。其中,N可以是用户预先指定的一个值。
现参考图2进一步描述步骤S106,根据本发明的一个实施例,聚合单位名称首先对具有相同近似度权重的单位名称进行聚合,再对具有不同相似度权重的单位名称进行聚合,包括以下子步骤:
步骤S201:逐个输入具有相同近似度权重的单位名称。
步骤S202:将具有相同近似度权重的每个单位名称插入一棵前缀树。
对于当前处理的近似度权重,新建一个前缀树(具有相同近似度权重的单位名称插入同一个前缀树),该前缀树可以采用Trie树结构。如图3所示,在每个前缀树中,有一个根节点、多个中间节点和叶子节点。其中,拥有儿子或者兄弟的非根节点被称为中间节点,没有儿子和兄弟的节点被5称为叶子节点。
节点定义为:
其中key代表节点的值,matchtimes代表匹配次数,depth代表节点的深度,parent代表指向父节点的指针,leftchild代表指向左儿子的指针,nextsiblin代表指向右兄弟的指针。
接着,将步骤S201中输入的各个单位名称逐条插入到新建的前缀树中。以近似度权重相同的单位名称Entity B、Entity C、Firm E和Firm FG为例,图3示出了该插入过程:
首先插入单位名称“Entity B”,插入前缀树的过程包括将“Entity B”中的每个字分别插入到前缀树中,直到处理结束。
接着处理下个单位名称,下个单位名称是“Entity C”,将其插入到前缀树,注意到“Entity”已经存在于前缀树中,因此不再插入新的节点,只是增加组成“Entity”的六个字母和一个空格的7个节点的匹配次数。当处理到“C”这个字时发现与当前节点“B”不相同,则新建“B”的右兄弟节点“C”。
对于单位名称“Firm E”和“Firm FG”,也采用同样的处理方式。首先检查当前节点的值是否匹配当前处理的字,如果不匹配则新建兄弟节点,并将指针指向兄弟节点的子节点,如果匹配则将当前节点的匹配次数加1,将指针指向该节点的子节点,如果当前值为空,则直接将当前处理的字符值赋给当前节点。
步骤S203:在前缀树中找共同的最大前缀。
共同的最大前缀是指一个或多个(近似度权重相同的)单位名称具有相同的前缀,该相同的前缀可包括一个或多个字,取最大的相同前缀即得到共同最大前缀。在图3的示例中,共同最大前缀包括“Entity”和“Firm”。在进一步的实施例中,可在本步骤去除最后一个空格,得到共同最大前缀“Entity”和“Firm”。
步骤S204:聚合拥有共同最大前缀的单位名称,并且合并这些单位名称的近似度权重,得到聚合后的单位名称以及对应的近似度权重。
在本步骤中,只聚合共同最大前缀属于前缀词库或者满足长度要求的那些单位名称。例如,对于共同最大前缀“Entity”和“Firm”,如果前缀词库中包括这两个词,则将单位名称“Entity B”和“Entity C”合并为单位名称“Entity”,计算“Entity”的近似度权重为“Entity B”(或“Entity C”)近似度权重与匹配次数(即2)的乘积(或者看成“Entity B”的近似度权重与“Entity C”的近似度权重之和),同理可计算聚合后的单位名称“Firm”的权重。又例如,对于共同最大前缀“Entity”和“Firm”,如果前缀词库中不包括这两个词,设置共同最大前缀需要满足5个字母长度,则可以聚合前缀为“Entity”的单位名称,而不聚合前缀为“Firm”的单位名称。
如果没有共同最大前缀,或者具有共同最大前缀但该共同最大前缀不属于前缀词库且不满足共同最大前缀的长度要求,则保持原本的单位名称及其近似度权重不变。
在一个实施例中,在完成聚合后,还要删除所构建的前缀树。
在步骤S105计算每个单位名称的近似度权重后,会得到多种近似度权重。步骤S201-S204仅聚合了一种近似度权重的单位名称,对于未被处理的近似度权重,重复步骤S201-S204,直到所有的近似度权重均已处理。
步骤S205:聚合不同近似度权重间单位名称相同或互为别名的单位名称,并且合并其近似度权重。
可以参考上述别名词库来逐个比对不同近似度权重对应的单位名称,如果发现它们相同或者互为别名就将其合并,并将权重相加作为合并后的单位名称的权重。这样做可以最大程度地去除最终结果中的重复,以便提高映射的准确率。
在一个实施例中,聚合单位名称的算法描述如下:
根据本发明的一个实施例,还提供一种社交网络用户虚实映射系统,如图4所示,社交网络用户虚实映射系统1包括:社交网络用户地理特征获取设备11,社交网络用户地理信息处理设备12和社交网络用户单位名称计算推送设备13。以下分别对系统1中的各个设备进行详细描述。
一、社交网络用户地理特征获取设备11
社交网络用户地理特征获取设备11包括两个部分,分别是消息内容和地理位置信息获取装置111和周边单位名称列表获取装置112。消息内容和地理位置信息获取装置111用于根据社交网络用户的唯一标识获取该社交网络用户的数据,这些数据可以包括该社交网络用户发布的消息内容(例如微博用户发表的博文内容、发言内容等)、社交网络用户的签到信息、社交网络用户发布消息的地理位置信息等。消息内容和地理位置信息获取装置111接收社交网络用户的唯一标识作为输入,请求社交网络服务器2(例如微博服务器),并且从社交网络服务器2抓取该社交网络用户发布的消息内容和地理位置信息等。在一个实施例中,在请求社交网络服务器2时,还可以配置一定的参数,例如,配置获取指定时间段(如工作时间段)内的社交网络用户数据、配置获取地理位置信息的精度,以及配置容错次数等。
在一个实施例中,消息内容和地理位置信息获取装置111在成功获取社交网络用户的消息内容和地理位置信息后,统一该地理位置信息的精确度,并按出现次数作为指标降序排序每个地理位置信息,选择前N个作为频繁地理位置信息,这里精确度和N都可以由用户设置。
周边单位名称列表获取装置112用于将消息内容和地理位置信息获取装置111获取的地理位置信息,或者N个频繁地理位置信息逐条发送给社交网络服务器2,定位该地理位置信息对应的地理位置并获取该地理位置周边的单位名称列表。
二、社交网络用户地理信息处理设备12
社交网络用户地理信息处理设备12用于对周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。在一个实施例中,社交网络用户地理信息处理设备12可先使用中文分词再使用二元组分词进行单位名称的分词。
其中,中文分词过程可参考用户词典33,以使分词结果更符合客户需要。此外,社交网络用户地理信息处理设备12在分词过程中,如果发现得到的某个分词在别名词库32中拥有别名,还将该分词的别名也加入分词结果中。
三、社交网络用户单位名称计算推送设备13
社交网络用户单位名称计算推送设备13包括3个部分,分别是单位名称近似度权重计算装置131,单位名称聚合装置132和单位名称推荐装置133。其中,单位名称近似度权重计算装置131用于计算分词后的周边单位名称列表中每个单位名称的近似度权重。单位名称聚合装置132用于对单位名称及其近似度权重进行聚合。单位名称推荐装置133用于根据单位名称聚合装置132的聚合结果按近似度权重对单位名称进行降序排列,选择前N个单位名称进行结果推送。
在一个实施例中,单位名称近似度权重计算装置131用于将单位名称分词结果匹配消息内容,完全匹配的近似度权重高而基本匹配的近似度权重低。如果完全匹配成功,则可以根据公式(1)来计算该单位名称的近似度权重。如果仅是基本匹配成功,则可以将该单位名称的分词结果中除该单位名称的全称外的每个分词与消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
在一个实施例中,单位名称聚合装置132用于将周边单位名称列表中具有共同最大前缀、相同或者互为别名的单位名称进行聚合,并合并它们的近似度权重。其中,单位名称聚合装置132可采用别名词库32来去除单位名称列表中的重复项,并且采用前缀词库31来确认聚合获得的共同最大前缀是否满足要求。其中,共同最大前缀必须是前缀词库中所包含的前缀词或者满足用户设定的长度才有效。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (18)
1.一种社交网络用户虚实映射方法,包括:
步骤1)、根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;
步骤2)、将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
2.根据权利要求1所述的方法,其中,步骤1)还包括:
对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
3.根据权利要求2所述的方法,在步骤2)中,将周边单位名称列表中的每个单位名称与社交网络用户发布的消息内容进行匹配包括:
步骤21)、将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr)
其中,str表示单位名称,weight(str)表示单位名称的近似度权重,word.size(str)表示单位名称的长度,factor表示乘数因子,matchtimes(str)表示单位名称与消息内容的匹配成功次数;
步骤22)、如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
4.根据权利要求3所述的方法,其中,步骤2)还包括:
步骤23)、合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
5.根据权利要求4所述的方法,其中,步骤23)包括:
步骤231)、对于一种近似度权重,新建一棵Trie树;
步骤232)、将具有该近似度权重的单位名称插入所述Trie树,得到具有共同的最大前缀的单位名称;
步骤233)、如果该共同的最大前缀包含在前缀词库中或者其长度达到预定长度,则合并具有该共同的最大前缀且具有该近似度权重的单位名称;其中,合并后的单位名称为该共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词;
步骤234)、销毁所述Trie树;
步骤235)、对于未处理的近似度权重,返回步骤231)进行处理。
6.根据权利要求4所述的方法,其中,步骤2)还包括:
步骤24)、合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
7.根据权利要求3-6中任何一个所述的方法,在步骤2)中,根据匹配程度选择一个或多个单位名称包括:
将单位名称按照近似度权重进行降序排列,选择前N个单位名称并推送;其中N为正整数。
8.根据权利要求2-6中任何一个所述的方法,在步骤1)中,对周边单位名称列表中的每个单位名称进行分词包括:
对所述周边单位名称列表中的每个单位名称进行中文分词,删除长度为一个字的分词;以及
对所述周边单位名称列表中的每个单位名称进行二元组分词。
9.根据权利要求2-6中任何一个所述的方法,其中,步骤1)还包括:
如果对单位名称进行分词后得到的分词具有别名,则将该别名加入该单位名称的分词结果。
10.根据权利要求1所述的方法,其中,步骤1)包括:
步骤11)、根据社交网络用户的唯一标识从社交网络服务器获取关于该社交网络用户的返回信息,从中得到该社交网络用户发布的消息内容和地理位置信息;
步骤12)、根据所述社交网络用户的地理位置信息从社交网络服务器获取该地理位置信息对应的地理位置的周边单位名称列表。
11.根据权利要求10所述的方法,其中社交网络用户的地理位置信息包括该社交网络用户发布消息的地理位置信息和该社交网络用户签到的地理位置信息。
12.根据权利要求10或11所述的方法,其中,步骤11)还包括:
统一所述社交网络用户的地理位置信息的精确度;以及
按照出现次数降序排序所述社交网络用户的地理位置信息,选择前M个地理位置信息;其中M为正整数。
13.根据权利要求12所述的方法,其中,步骤12)包括:
根据所选择的M个地理位置信息,从社交网络服务器获取对应的地理位置的周边单位名称列表。
14.一种社交网络用户虚实映射系统(1),包括:
社交网络用户地理特征获取设备(11),用于根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及
社交网络用户单位名称计算推送设备(13),用于将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
15.根据权利要求14所述的系统(1),其中,所述系统还包括:
社交网络用户地理信息处理设备(12),用于对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
16.根据权利要求15所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)用于将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr)
其中,str表示单位名称,weight(str)表示单位名称的近似度权重,word.size(str)表示单位名称的长度,factor表示乘数因子,matchtimes(str)表示单位名称与消息内容的匹配成功次数;如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
17.根据权利要求16所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)还用于合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
18.根据权利要求16所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)还用于合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042782.5A CN103745014A (zh) | 2014-01-29 | 2014-01-29 | 一种社交网络用户虚实映射方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042782.5A CN103745014A (zh) | 2014-01-29 | 2014-01-29 | 一种社交网络用户虚实映射方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103745014A true CN103745014A (zh) | 2014-04-23 |
Family
ID=50502032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410042782.5A Pending CN103745014A (zh) | 2014-01-29 | 2014-01-29 | 一种社交网络用户虚实映射方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103745014A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017054619A1 (zh) * | 2015-09-29 | 2017-04-06 | 惠州Tcl移动通信有限公司 | 一种基于地理位置信息的社群互联方法和系统 |
CN107145545A (zh) * | 2017-04-18 | 2017-09-08 | 东北大学 | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 |
CN107153687A (zh) * | 2017-04-18 | 2017-09-12 | 东北大学 | 一种社交网络文本数据的索引方法 |
WO2017186086A1 (zh) * | 2016-04-27 | 2017-11-02 | 腾讯科技(深圳)有限公司 | 信息推荐方法、终端及服务器、计算机存储介质 |
CN107454121A (zh) * | 2016-05-30 | 2017-12-08 | 北京搜狗科技发展有限公司 | 一种位置追踪的方法、装置、移动终端和服务器 |
CN109978016A (zh) * | 2019-03-06 | 2019-07-05 | 重庆邮电大学 | 一种网络用户身份识别方法 |
CN110110218A (zh) * | 2018-02-01 | 2019-08-09 | 重庆邮电大学 | 一种身份关联方法及终端 |
CN111127064A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 用户社会属性的确定方法、装置与电子设备 |
WO2021156729A1 (en) * | 2020-02-05 | 2021-08-12 | International Business Machines Corporation | Dynamically modifying shared location information |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102147903A (zh) * | 2010-02-05 | 2011-08-10 | 李久进 | 基于地理位置的互联网信息聚合、推送和交互的方法 |
US20110264735A1 (en) * | 2007-11-27 | 2011-10-27 | Ido Gaver | Method, Device and System For Creating a Virtual Local Social Network |
CN102750292A (zh) * | 2011-04-20 | 2012-10-24 | 北京千橡网景科技发展有限公司 | 用于提供兴趣点的方法及设备 |
CN103078786A (zh) * | 2013-01-15 | 2013-05-01 | 上海量明科技发展有限公司 | 基于地理位置信息输出广告提醒消息的方法及系统 |
CN103154993A (zh) * | 2010-08-18 | 2013-06-12 | 费斯布克公司 | 使用社交图信息的位置排序 |
CN103246679A (zh) * | 2012-02-13 | 2013-08-14 | 刘龙 | 一种实现基于位置的搜索的系统和方法 |
CN103248646A (zh) * | 2012-02-08 | 2013-08-14 | 北京磊友信息科技有限公司 | 用于实现社交服务的系统 |
-
2014
- 2014-01-29 CN CN201410042782.5A patent/CN103745014A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264735A1 (en) * | 2007-11-27 | 2011-10-27 | Ido Gaver | Method, Device and System For Creating a Virtual Local Social Network |
CN102147903A (zh) * | 2010-02-05 | 2011-08-10 | 李久进 | 基于地理位置的互联网信息聚合、推送和交互的方法 |
CN103154993A (zh) * | 2010-08-18 | 2013-06-12 | 费斯布克公司 | 使用社交图信息的位置排序 |
CN102750292A (zh) * | 2011-04-20 | 2012-10-24 | 北京千橡网景科技发展有限公司 | 用于提供兴趣点的方法及设备 |
CN103248646A (zh) * | 2012-02-08 | 2013-08-14 | 北京磊友信息科技有限公司 | 用于实现社交服务的系统 |
CN103246679A (zh) * | 2012-02-13 | 2013-08-14 | 刘龙 | 一种实现基于位置的搜索的系统和方法 |
CN103078786A (zh) * | 2013-01-15 | 2013-05-01 | 上海量明科技发展有限公司 | 基于地理位置信息输出广告提醒消息的方法及系统 |
Non-Patent Citations (1)
Title |
---|
WZB56: "中文分词:之Trie树", 《HTTP://BLOG.CSDN.NET/WZB56_EARL/ARTICLE/DETAILS/7902669》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017054619A1 (zh) * | 2015-09-29 | 2017-04-06 | 惠州Tcl移动通信有限公司 | 一种基于地理位置信息的社群互联方法和系统 |
US10225689B2 (en) | 2015-09-29 | 2019-03-05 | Huizhou Tcl Mobile Communication Co., Ltd | Geographic position information-based community interconnection method and system |
WO2017186086A1 (zh) * | 2016-04-27 | 2017-11-02 | 腾讯科技(深圳)有限公司 | 信息推荐方法、终端及服务器、计算机存储介质 |
CN107454121B (zh) * | 2016-05-30 | 2021-09-14 | 北京搜狗科技发展有限公司 | 一种位置追踪的方法、装置、移动终端和服务器 |
CN107454121A (zh) * | 2016-05-30 | 2017-12-08 | 北京搜狗科技发展有限公司 | 一种位置追踪的方法、装置、移动终端和服务器 |
CN107145545B (zh) * | 2017-04-18 | 2021-01-05 | 东北大学 | 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法 |
CN107153687A (zh) * | 2017-04-18 | 2017-09-12 | 东北大学 | 一种社交网络文本数据的索引方法 |
CN107145545A (zh) * | 2017-04-18 | 2017-09-08 | 东北大学 | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 |
CN107153687B (zh) * | 2017-04-18 | 2021-01-05 | 东北大学 | 一种社交网络文本数据的索引方法 |
CN110110218A (zh) * | 2018-02-01 | 2019-08-09 | 重庆邮电大学 | 一种身份关联方法及终端 |
CN110110218B (zh) * | 2018-02-01 | 2023-10-31 | 西安华企众信科技发展有限公司 | 一种身份关联方法及终端 |
CN111127064A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 用户社会属性的确定方法、装置与电子设备 |
CN111127064B (zh) * | 2018-11-01 | 2023-08-25 | 百度在线网络技术(北京)有限公司 | 用户社会属性的确定方法、装置与电子设备 |
CN109978016A (zh) * | 2019-03-06 | 2019-07-05 | 重庆邮电大学 | 一种网络用户身份识别方法 |
WO2021156729A1 (en) * | 2020-02-05 | 2021-08-12 | International Business Machines Corporation | Dynamically modifying shared location information |
US11223591B2 (en) | 2020-02-05 | 2022-01-11 | International Business Machines Corporation | Dynamically modifying shared location information |
GB2608045A (en) * | 2020-02-05 | 2022-12-21 | Ibm | Dynamically modifying shared location information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103745014A (zh) | 一种社交网络用户虚实映射方法和系统 | |
McGee et al. | Location prediction in social media based on tie strength | |
US9830593B2 (en) | Cryptographic currency user directory data and enhanced peer-verification ledger synthesis through multi-modal cryptographic key-address mapping | |
CN102347963B (zh) | 一种推荐好友的方法及装置 | |
JP2019532445A (ja) | 多義コードを使用した類似度検索 | |
CN104573094B (zh) | 网络账号识别匹配方法 | |
CN104394118A (zh) | 一种用户身份识别方法及系统 | |
CN106296344B (zh) | 恶意地址识别方法及装置 | |
US8751459B2 (en) | Method and system to analyze email addresses | |
CN104424187B (zh) | 一种向客户端用户推荐好友的方法及装置 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN106713950A (zh) | 一种基于用户行为预测分析的视频服务系统 | |
CN106254314A (zh) | 一种位置查询服务信息保护方法及系统 | |
CN109739938A (zh) | 一种多账户的关联方法、装置及设备 | |
CN108648017B (zh) | 易于扩展的用户需求匹配方法、装置、设备及存储介质 | |
CN104281646B (zh) | 基于微博数据的城市内涝检测方法 | |
CN104956393A (zh) | 使用用户描述符与社交网络系统用户进行的第三方通信 | |
CN105589916B (zh) | 显式和隐式兴趣知识的提取方法 | |
CN106933880B (zh) | 一种标签数据泄漏渠道检测方法及装置 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
Huang et al. | On the understanding of interdependency of mobile app usage | |
US20170004531A1 (en) | Advertisement selection using information retrieval systems | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
CN103841121A (zh) | 一种基于本地文件的评论和互动系统及方法 | |
CN110489669B (zh) | 一种信息推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140423 |
|
RJ01 | Rejection of invention patent application after publication |