CN108763466B - 基于位置实体的跨媒体用户身份匹配方法 - Google Patents

基于位置实体的跨媒体用户身份匹配方法 Download PDF

Info

Publication number
CN108763466B
CN108763466B CN201810529188.7A CN201810529188A CN108763466B CN 108763466 B CN108763466 B CN 108763466B CN 201810529188 A CN201810529188 A CN 201810529188A CN 108763466 B CN108763466 B CN 108763466B
Authority
CN
China
Prior art keywords
user
entity
users
media
position entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810529188.7A
Other languages
English (en)
Other versions
CN108763466A (zh
Inventor
崔晓晖
关景
杨威
田斐菡
曹佳敏
唐艺豪
李启琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810529188.7A priority Critical patent/CN108763466B/zh
Publication of CN108763466A publication Critical patent/CN108763466A/zh
Application granted granted Critical
Publication of CN108763466B publication Critical patent/CN108763466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于位置实体的跨媒体用户身份匹配方法,该方法通过建立用户位置实体矩阵,利用聚类算法K‑means实现对位置相似用户聚类,基于同类用户已有的实际位置标签,实现目标用户虚拟现实位置映射,然后为了挖掘目标用户在多个社交媒体的账户,基于目标用户在某一社交媒体上的位置实体矩阵,计算其与其他社交媒体账户的位置实体矩阵的汉明距离,实现跨媒体用户身份匹配。本发明方法基于位置实体进行用户身份匹配准确度高,有利于全面了解用户喜好,实现精准推荐。

Description

基于位置实体的跨媒体用户身份匹配方法
技术领域
本发明涉及网络大数据采集与分析技术,尤其涉及一种基于位置实体的跨媒体用户身份匹配方法。
背景技术
随着互联网的发展,用户所产生的信息不断增加,信息也更加开放。一个明显现象是出于不同的社交目的,用户将在网上传播的个人信息有规律的散布在不同的社交媒体中。如果我们能获取同一用户在不同媒体上的账户,综合分析该用户在不同社交媒体上发布的内容,那么我们就能更为全面的得出单个用户的个人信息。这对解决推荐系统信息来源单一等问题有巨大的改善。
近年来,对跨媒体用户身份匹配方法研究较多,主要有社交关系匹配、基本信息匹配与混合匹配等几种方法:
1.社交关系匹配方法是,通过用户在社交媒体中关注与被关注的用户得到同一用户在不同媒体上的账户。这些用户之间往往有着同事、朋友、亲属等关系,这些关系存在与现实生活中,更加稳定,无论用户在媒体上发布的内容差异性多大,均可依据账户的粉丝与关注信息匹配用户在不同社交媒体的账户。
2.基本信息匹配方法是,通过匹配用户在不同社交媒体的个人信息得到同一用户在不同媒体上的账户。任何社交媒体都会有账户基本信息,而且这些基本信息往往格式一致,优点是相对于匹配用户其他信息更加便捷,但缺点也很明显,即相似信息的用户过多,匹配精度较低。
3.混合匹配方法是,通过综合社交关系匹配方法和基本信息匹配方法共同确定不同社交媒体账号之间的相似性。这种方法中综合了上述两种方法的优点,匹配精度高。
本发明主要介绍了结合用户地理位置信息与用户基本信息的方案来实现跨媒体用户身份匹配方法。本发明在精准推荐等方面具有十分重要的意义。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于位置实体的跨媒体用户身份匹配方法。
本发明解决其技术问题所采用的技术方案是:一种基于位置实体的跨媒体用户身份匹配方法,包括以下步骤:
1)基于开源信息实现用户位置实体矩阵:从多源社交媒体的开源文本中提取位置实体特征词,建立位置实体词库;根据位置实体词库构建用户位置实体矩阵;
2)基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射;
3)基于用户开源信息实现跨媒体用户身份匹配。
按上述方案,所述步骤1)具体如下:
1.1)使用网络数据采集技术,爬取社交媒体中每个用户发布的所有推文;
1.2)对获取到的数据进行预处理,所述预处理包括去停用词、分词处理;
1.3)利用Python的NLTK包提取每个用户推文中的位置实体词,计算用户推文中每个位置实体的TF-IDF值,针对每个用户,保留均值以上的位置实体词,记为S1,其余位置实体词记为S2;
1.4)计算S2中各位置实体词与S1中各个位置实体词在该用户发布的所有推文中共现次数总和;
1.5)以S2中S1各个词共现次数均值为标准,将超过均值的位置实体词保留,加入S1,作为每个用户的位置实体词库;
1.6)针对每个用户,基于步骤1.5)得到的用户位置实体库和以及对应的TF-IDF值,构建用户位置实体矩阵
按上述方案,所述基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射是基于已标注真实地理位置的用户实现对位置相似用户的真实地理位置标注;
具体如下:
步骤2.1)根据步骤1)构建的位置实体特征矩阵,利用聚类算法K-means实现对用户聚类,得到用户生活区域的聚类结果;
步骤2.2)针对步骤2.1)中聚类结果,分析每个簇中用户的地理位置标签,提取已标注的地理位置标签,如果地理位置标签相同,则将该地理位置标签作为该簇中用户的地理位置标签;如果存在地理位置标签不同的情况,则选取数量最多的地理位置标签作为该簇中用户的地理位置标签。
按上述方案,所述基于用户开源信息实现跨媒体用户身份匹配。
步骤3.1)利用步骤2.2)确定的地理位置标签进行多媒体用户筛选,得到相同地理位置的用户。
步骤3.2)利用步骤3.1)提取不同社交媒体相同地理位置的用户,提取用户,用户的资料信息,所述用户的资料信息包括地理位置、用户名、性别、主页、邮箱、公司,根据用户的资料信息构建用户信息矩阵,计算不同媒体同一位置的用户之间的汉明距离,将汉明距离最小的账户确定为同一用户在不同媒体上的账户。
本发明产生的有益效果是:
1.通过基于用户位置实体矩阵实现相似位置用户的挖掘,准确根据社交媒体中用户信息定位用户在物理世界的位置。
2.基于位置实体进行用户身份匹配准确度高,有利于全面了解用户喜好,实现精准推荐。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于位置实体的跨媒体用户身份匹配方法,包括以下步骤:
1)基于开源信息实现用户位置实体矩阵:从多源社交媒体的开源文本中提取位置实体特征词,建立位置实体词库;根据位置实体词库构建用户位置实体矩阵;
步骤1)具体如下:
1.1)使用网络数据采集技术,爬取社交媒体中每个用户发布的所有推文;
1.2)对获取到的数据进行预处理,所述预处理包括去停用词、分词处理;
1.3)利用Python的NLTK包提取每个用户推文中的位置实体词,计算用户推文中每个位置实体的TF-IDF值,针对每个用户,保留均值以上的位置实体词,记为S1,其余位置实体词记为S2;
1.4)计算S2中各位置实体词与S1中各个位置实体词在用户发布的所有推文中共现次数总和;
1.5)以S2中S1各个词共现次数均值为标准,将超过均值的位置实体词保留,加入S1,作为每个用户的位置实体词库;
1.6)针对每个用户,基于步骤1.5)得到的用户位置实体库和以及对应的TF-IDF值,构建用户位置实体矩阵
2)基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射;
基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射是基于已标注真实地理位置的用户实现对位置相似用户的真实地理位置标注;
具体如下:
步骤2.1)根据步骤1)构建的位置实体特征矩阵,利用聚类算法K-means实现对用户聚类,得到用户生活区域的聚类结果;
步骤2.2)针对步骤2.1)中聚类结果,分析每个簇中用户的地理位置标签,提取已标注的地理位置标签,如果地理位置标签相同,则将该地理位置标签作为该簇中用户的地理位置标签;如果存在地理位置标签不同的情况,则选取数量最多的地理位置标签作为该簇中用户的地理位置标签。
3)基于用户开源信息实现跨媒体用户身份匹配;所述开源信息包括用户资料信息和用户发布的历史推文;具体如下:
步骤3.1)利用步骤2.2)确定的地理位置标签进行多媒体用户筛选,得到相同地理位置的用户;
步骤3.2)利用步骤3.1)提取不同社交媒体相同地理位置的用户,提取用户,用户的资料信息,所述用户的资料信息包括地理位置、用户名、性别、主页、邮箱、公司,根据用户的资料信息构建用户信息矩阵,计算不同媒体同一位置的用户之间的汉明距离,将汉明距离最小的账户确定为同一用户在不同媒体上的账户。
本发明方法对所有的开源网站用户匹配都是可行的,但是为了方便表达,我们以Twitter用户和Quora用户的数据集为实例进行阐述。
1、从多源社交媒体的开源文本中提取位置实体特征词,建立位置实体词库;实现用户位置实体矩阵。包括以下几个步骤:
步骤1.位置实体特征词提取,计算每个用户发布的推文等公开信息中各个位置实体的TF-IDF值,建立位置实体词库。
步骤1.1使用网络数据采集技术,爬取社交媒体中每个用户发布的所有推文;
由于社交媒体上存在的用户不一定是真实存在的人,需制定筛选条件删除噪音结点,保证数据可靠性,所以筛选条件如下:
1.followers或者following数量超过6000;
2.Answers或者questions输了超过1000;
符合以上任何一条规则,即删除该节点。
步骤1.2对获取到的数据进行去停用词、去链接等初步预处理
由于获取的Twitter、Quora可能会涉及转发,爬取得信息得到的就是转发的链接,需要去除链接;并且需要去停用词等。修正错误词组是指对拼写错误的单词进行修正。
步骤1.3利用Python的NLTK包提取每个用户推文中的位置实体词,计算用户推文中每个位置实体的TF-IDF值,针对每个用户,保留均值以上的位置实体词,记为S1,其余位置实体词记为S2;
其中TF-IDF算法是统计方法,词的重要性与该词在一篇文章中出现的次数成正比,即词频(TF),与该词在语料库中出现的频率成反比,即逆文件频率(IDF)。因此,TF-IDF能过滤常见词语,留下重要词语。
TF-IDF算法及公式说明如下:
Figure BDA0001676768280000091
其中,TFIDF=TF*IDF,词频(TF)=该词在一篇文章中出现的次数;逆文件词频(IDF)=log(语料库的文件总数/(包含该词的文件数+1))
步骤1.4计算S2中各位置实体词与S1中各个位置实体词共现次数总和;
步骤1.5以S2中S1各个词共现次数均值为标准,将超过均值的位置实体词保留,加入S1,作为每个用户的位置实体词库。
步骤1.6,针对每个用户,基于步骤1.5得到的用户位置实体库和以及对应的TF-IDF值,构建用户位置实体矩阵
2、基于已标注真实地理位置的用户实现对位置相似用户的真实地理位置标注。包括以下几个步骤:
步骤1基于权利2所构建的位置实体特征矩阵,利用聚类算法K-means实现对用户聚类,得到用户可能生活的区域。
聚类算法K-means的基本原理是:以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。本方法中采用平方误差准则,其公式如下:
Figure BDA0001676768280000101
公式描述:E数据集中全部对象平方误差总和,p是空间中的点,mi是簇Ci的平均值。该目标函数使生成的簇尽可能紧凑独立,本方法使用欧几里得距离度量,也可食用其他距离度量。
步骤2针对步骤1中聚类结果,分析每个簇中用户的地理位置标签,提取已标注的地理位置标签,如果存在地理位置标签不同的情况,选取数量较多的地理位置标签作为该簇中用户的地理位置标签。
3、基于多源媒体中用户基本信息矩阵的相似性计算,实现用户跨媒体身份匹配.包括以下几个步骤:
步骤1:由权利3获得用户的地理位置确定不同社交媒体处于同一位置用户
步骤2:利用步骤1确定的地理位置范围进行用户多媒体用户筛选,得到相同地理位置的用户。提取用户,用户的资料信息,包括地理位置、用户名、性别、主页、邮箱、公司等,构建用户信息矩阵,计算不同媒体用户之间的汉明距离,汉明距离最小的账户确定为同一用户在不同媒体上的账户。
其中汉明距离是指两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数
以上为本发明的基本原理和主要实现方法。本发明是基于位置实体的跨媒体用户身份匹配方法,主要目的通过分析用户生活的位置,实现跨媒体用户身份匹配。有利于现实用户精准推荐等。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (3)

1.一种基于位置实体的跨媒体用户身份匹配方法,其特征在于,包括以下步骤:
1)基于开源信息实现用户位置实体矩阵:从多源社交媒体的开源文本中提取位置实体特征词,建立位置实体词库;根据位置实体词库构建用户位置实体矩阵;
所述步骤1)具体如下:
1.1)使用网络数据采集技术,爬取社交媒体中每个用户发布的所有推文;
1.2)对获取到的数据进行预处理,所述预处理包括去停用词、分词处理;
1.3)利用Python的NLTK包提取每个用户推文中的位置实体词,计算用户推文中每个位置实体的TF-IDF值,针对每个用户,保留均值以上的位置实体词,记为S1,其余位置实体词记为S2;
1.4)计算S2中各位置实体词与S1中各个位置实体词在该用户发布的所有推文中共现次数总和;
1.5)以S2中S1各个词共现次数均值为标准,将超过均值的位置实体词保留,加入S1,作为每个用户的位置实体词库;
1.6)针对每个用户,基于步骤1.5)得到的用户位置实体库和以及对应的TF-IDF值,构建用户位置实体矩阵;
2)基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射;
3)基于用户开源信息实现跨媒体用户身份匹配。
2.根据权利要求1所述的基于位置实体的跨媒体用户身份匹配方法,其特征在于,所述基于用户位置实体矩阵实现相似位置用户的挖掘,实现用户虚拟现实位置映射是基于已标注真实地理位置的用户实现对位置相似用户的真实地理位置标注;
具体如下:
步骤2.1)根据步骤1)构建的位置实体特征矩阵,利用聚类算法K-means实现对用户聚类,得到用户生活区域的聚类结果;
步骤2.2)针对步骤2.1)中聚类结果,分析每个簇中用户的地理位置标签,提取已标注的地理位置标签,如果地理位置标签相同,则将该地理位置标签作为该簇中用户的地理位置标签;如果存在地理位置标签不同的情况,则选取数量最多的地理位置标签作为该簇中用户的地理位置标签。
3.根据权利要求1所述的基于位置实体的跨媒体用户身份匹配方法,其特征在于,所述基于用户开源信息实现跨媒体用户身份匹配,具体如下:
步骤3.1)利用步骤2.2)确定的地理位置标签进行多媒体用户筛选,得到相同地理位置的用户;
步骤3.2)利用步骤3.1)提取不同社交媒体相同地理位置的用户,用户的资料信息,所述用户的资料信息包括地理位置、用户名、性别、主页、邮箱、公司,根据用户的资料信息构建用户信息矩阵,计算不同媒体同一位置的用户之间的汉明距离,将汉明距离最小的账户确定为同一用户在不同媒体上的账户。
CN201810529188.7A 2018-05-29 2018-05-29 基于位置实体的跨媒体用户身份匹配方法 Active CN108763466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810529188.7A CN108763466B (zh) 2018-05-29 2018-05-29 基于位置实体的跨媒体用户身份匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810529188.7A CN108763466B (zh) 2018-05-29 2018-05-29 基于位置实体的跨媒体用户身份匹配方法

Publications (2)

Publication Number Publication Date
CN108763466A CN108763466A (zh) 2018-11-06
CN108763466B true CN108763466B (zh) 2021-08-31

Family

ID=64003503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810529188.7A Active CN108763466B (zh) 2018-05-29 2018-05-29 基于位置实体的跨媒体用户身份匹配方法

Country Status (1)

Country Link
CN (1) CN108763466B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109548073B (zh) * 2018-11-16 2020-09-25 厦门大学 一种基于多对多匹配的自适应小小区分簇方法
CN112085114A (zh) * 2020-09-14 2020-12-15 杭州中奥科技有限公司 线上线下身份匹配方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598543A (zh) * 2014-11-28 2015-05-06 广东工业大学 一种社交匹配数据挖掘系统
CN106126521A (zh) * 2016-06-06 2016-11-16 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629300B2 (en) * 2016-05-09 2020-04-21 Bank Of America Corporation Geographic selection system based on resource allocation and distribution

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598543A (zh) * 2014-11-28 2015-05-06 广东工业大学 一种社交匹配数据挖掘系统
CN106126521A (zh) * 2016-06-06 2016-11-16 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Inferring Anchor Links across Multiple Heterogeneous Social Networks;Xiangnan Kong等;《Proceedings of the 22nd ACM international conference on Information 》;20131030;第3页第2章到第6页第4章 *

Also Published As

Publication number Publication date
CN108763466A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
US11036791B2 (en) Computerized system and method for determining non-redundant tags from a user's network activity
US7899871B1 (en) Methods and systems for e-mail topic classification
US9779388B1 (en) Disambiguating organization names
EP2923282B1 (en) Segmented graphical review system and method
US9183287B2 (en) Social media analysis system
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
Hasan et al. TwitterNews: Real time event detection from the Twitter data stream
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
US9779363B1 (en) Disambiguating personal names
Li et al. A hybrid method for Chinese address segmentation
CN112084333B (zh) 一种基于情感倾向分析的社交用户生成方法
CN108763466B (zh) 基于位置实体的跨媒体用户身份匹配方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
CN111782970B (zh) 一种数据分析方法和装置
Klampfl et al. Machine learning techniques for automatically extracting contextual information from scientific publications
Sarkar A hidden markov model based system for entity extraction from social media english text at fire 2015
US9323721B1 (en) Quotation identification
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
Heravi et al. Tweet location detection
Riga et al. Atmospheric environment and quality of life information extraction from twitter with the use of self-organizing maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant