CN103810248B - 基于照片查找人际关系的方法和装置 - Google Patents

基于照片查找人际关系的方法和装置 Download PDF

Info

Publication number
CN103810248B
CN103810248B CN201410023625.XA CN201410023625A CN103810248B CN 103810248 B CN103810248 B CN 103810248B CN 201410023625 A CN201410023625 A CN 201410023625A CN 103810248 B CN103810248 B CN 103810248B
Authority
CN
China
Prior art keywords
personal information
contact
personal
data
back end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410023625.XA
Other languages
English (en)
Other versions
CN103810248A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410023625.XA priority Critical patent/CN103810248B/zh
Publication of CN103810248A publication Critical patent/CN103810248A/zh
Application granted granted Critical
Publication of CN103810248B publication Critical patent/CN103810248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种基于照片查找人际关系的方法和装置,所述方法包括:提取包括人物照片和生平经历的个人信息;建立个人信息的数据节点;从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的人物照片中的人脸图像进行比对,从而得到存在联系的个人信息的配对;确定存在联系的个人信息的数据节点之间的数据交集,以根据数据交集的事件项确定两个人的人际关系。

Description

基于照片查找人际关系的方法和装置
技术领域
本发明涉及互联网交互技术领域,更具体地,涉及一种基于互联网上公开的照片及其相关信息来查找照片中的人物之间的人际关系的方法和装置。
背景技术
在现有的互联网的社交网络中,用户花费大量的时间和精力与其他人进行交互,诸如聊天、业务商谈等。社交网络的用户所拥有的好友数量越多,其得到的信息越多,为用户带来的便利也就越多。这样,在社交网络中查找并建立用户与用户之间的人际关系变得越来越重要。互联网用户期望使用社交网络来查找与更多的用户的潜在联系,并查找人际关系。
现有的互联网的社交领域中存在各种人际关系查找技术,例如,可基于用户在社交网络中登记的用户信息来向用户推荐相关的用户、用户群组;可根据用户在社交网络中发布的信息来向用户推荐相关的用户或用户群组;可以根据用户的通信录来建立具有相同好友的用户之间的联系等等。但是,社交网络是一种虚拟网络,在社交网络中登记的身份信息等存在不确定性。即使使用实名制,也很难基于使用登记的姓名来建立具有真实人际关系的人际网。因此,仍需要更多和更准确地查找用户之间的人际关系的方式。
发明内容
本发明的目的在于提供一种根据人物的相片来查找和挖掘多个人之间的人际关系的方式,来自动地挖掘出人和人之间的深层次关系。
根据本发明的一方面,提供了一种基于照片查找人际关系的方法,包括:提取包括人物照片和生平经历的个人信息;建立个人信息的数据节点;从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的人物照片中的人脸图像进行比对,从而得到存在联系的个人信息的配对;确定存在联系的个人信息的数据节点之间的数据交集,以根据数据交集的事件项确定两个人的人际关系。
根据本发明的一方面,提取个人信息包括:对网站做定向的抓取,保存抓取的页面,然后从保存的页面提取页面中的个人信息。
根据本发明的一方面,提取页面中的个人信息包括:合并网页页面中的相同或相似的元素集合;过滤元素集合中的不需要的元素;从过滤后的元素集合的剩余内容中提取特征关键词以获取个人信息。
根据本发明的一方面,确定存在联系的个人信息的数据节点之间的数据交集包括:基于数据节点所包括的个人信息形成包括生平经历的时间段和事件元素的二元组,并将每个个人信息的所有二元组按照时间排序形成有序链表;对存在联系的个人信息的有序链表做时间段重叠和事件相同的查找,以得到二元组的数据交集。
根据本发明的另一方面,提供了一种基于照片查找人际关系的装置,包括:个人信息提取单元,提取包括人物照片和生平经历的个人信息;数据节点建立单元,建立个人信息的数据节点;关联配对单元,从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的人物照片中的人脸图像进行比对,从而得到存在联系的个人信息的配对;人际关系确定单元,确定存在联系的个人信息的数据节点之间的数据交集,以根据数据交集的事件项确定两个人的人际关系。
根据本发明的另一方面,个人信息提取单元对网站做定向的抓取,保存抓取的页面,然后从保存的页面提取页面中的个人信息。
根据本发明的另一方面,个人信息提取单元合并网页页面中的相同或相似的元素集合,过滤元素集合中的不需要的元素,从过滤后的元素集合的剩余内容中提取特征关键词以获取个人信息。
根据本发明的另一方面,人际关系确定单元基于数据节点所包括的个人信息形成包括生平经历的时间段和事件元素的二元组,将每个个人信息的所有二元组按照时间排序形成有序链表结构,对存在联系的个人信息的有序链表做时间段重叠和事件相同的查找,以得到二元组的数据交集。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明实施例的基于照片查找人际关系的方法的流程图;
图2是用于解释根据本发明实施例的基于照片查找人际关系的方法中抓取网页信息的操作的示意图;
图3是示出根据本发明实施例的基于照片查找人际关系的装置的框图。
具体实施方式
下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解,而这些描述将被认为仅为示例性的。因此,本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外,为了清晰和简洁,可省略对公知功能和构造的描述。
图1是示出根据本发明实施例的基于照片查找人际关系的方法的流程图。该流程图所示出的方法可以在诸如社交网络的服务器端执行,从而为社交网络建立起其用户的人际关系网。
如图1所示,首先,在S101,提取包括人物照片和生平经历的个人信息。这里,可从包括人物档案信息的个人说明类网站上提取个人信息。例如,可从诸如博客、微博、公司网站、学校网站、会议网站、论坛等提取个人信息。提取的个人信息例如可包括照片、生平简介、个人资料等。也可从其它方式获得个人信息,例如,可由用户手动输入个人信息。
具体地,在互联网中会有一些网站公开个人的信息,比如大专院校对教职员工的介绍,医院对医师的介绍,专业会议对邀请者的介绍,个人在论坛、微博等社交网站留下的公开信息。针对这类包含个人信息的网站做定向的抓取,将抓取的网页保存起来,然后再从保存的页面提取页面中的个人信息。
特别地,由于抓取的网页的格式通常各不相同,这样,如果使用正则或者其他规则来抓取网页中的信息,则无法进行全部覆盖。一旦网页出现任何修改,都有可能导致匹配的规则失效。
为此,在本发明中,采用以下方式来提取同一个网站中的页面内的相似元素并获取有用的个人信息。图2示出的是一个典型的页面布局。图2中的201表示网页的导航栏,202表示网页的侧边栏,203表示网页的页脚。通常,这三个元素会大量的出现在同一个网站的页面中。这样,可提出一定比率的页面,合并页面中的相同或相似的元素集合,然后对后续页面进行过滤,过滤掉元素集合中的不需要的元素(例如,网页中的导航栏201、侧边栏202和页脚203)后,页面所剩内容即为包括个人信息的内容。通过从剩余内容中提取特征关键词,例如,性别、出生日期、生平简介,并获得与这些关键词对应的信息。
接下来,在S103,建立个人信息的数据节点,从而形成个人信息的数据库。这里,以个人的照片为核心来建立数据节点,并将对应的个人信息存储在数据库中。例如,数据库中的每一项可包括性别、时间、事件项等信息。
然后,在S105,从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的照片中的人脸图像进行比对,从而得到存在关联的个人信息的配对。
具体地,可从各种来源获得合影照片。例如,可从论坛、博客、微博、公司网站、学校网站、会议网站等来源获得合影照片的照片。可按照任何的现有技术的人脸识别技术从合影照片的照片中识别和提取出人脸图像。将提取的人脸图像分别与所有数据节点中的个人的照片中的人脸进行比对,从而可以确定存在联系的个人信息的配对。也就是说,如果某两个人的照片的人脸与在同一合影照片的照片中识别出的两个人脸图像分别对应,则可以确定这两个人之间存在某种联系。
然后,在S107,确定存在联系的个人信息的数据节点的数据交集,以根据数据交集的事件项最终确定两个人的人际关系。即,确定存在联系的个人信息的数据节点中具有相同时间段和事件的数据项。
具体地,基于数据库中的每个人的数据节点的信息,以每个人的生平经历的事件项为基础,按照时间顺序进行排列,形成[时间段,事件]的二元组。以人物A为例,其二元组为A’=[d,s],A的所有二元组按照时间排序形成一个有序链表结构。
假设在S105确定存在联系的人物配对的人物A与人物B的有序链表分别为A’和B’。通过对A’和B’有序链表做时间重叠和事件相同的查找,即,如果有序链表A’和B’中存在相同的二元组,则说明A和B存在该事件项中所描述的人际关系。
例如,如果有序链表A’和B’中均存在[2000.9~2003.7,xx高中]的二元组,则可确定人物A和B是高中同学。
下面将参照图3来说明根据本发明实施例的基于照片查找人际关系的装置300的框图。应理解,根据本发明实施例的基于照片查找人际关系的装置300可优选地实施为社交网络服务器的一部分,但本发明不限于此。
如图3所示,根据本发明实施例的基于照片查找人际关系的装置300包括:个人信息提取单元310、数据节点建立单元320、关联配对单元330和人际关系确定单元。
个人信息提取单元310用于提取用户的个人信息,个人信息至少包括人物的照片。这里,可从包括人物档案信息的个人说明类网站上提取个人信息。例如,可从诸如博客、微博、公司网站、学校网站、会议网站、论坛等提取个人信息。除了照片之外,提取的个人信息例如还可包括生平简介、个人资料等。也可从其它方式获得个人信息,例如,可由用户手动输入个人信息。
特别地,个人信息提取单元310可合并网页页面中的相同或相似的元素集合,过滤掉元素集合中的不需要的元素,并通过从过滤后的元素集合的剩余内容中提取特征关键词来获取个人信息。
数据节点建立单元320用于建立个人信息的数据节点以形成数据库。
关联配对单元330用于从合影照片中提取人脸图像,并将提取的人脸图像与数据个人信息的照片中的人脸图像进行比对,从而得到存在关联的个人信息配对。可从各种来源获得合影照片。例如,可从论坛、博客、微博、公司网站、学校网站、会议网站等来源获得合影照片的照片。
人际关系确定单元340用于由关联配对单元330确定存在联系的个人信息配对的数据节点之间存在的数据交集,以根据数据交集的事件项确定两个用户的人际关系。
具体地,人际关系确定单元340可基于数据库中的每个人的数据节点的信息,以每个人的生平经历的事件项为基础,按照时间顺序进行排列,形成每个个人信息的形式为“[时间段,事件]”的二元组的有序链表。然后,人际关系确定单元340通过对个人信息配对的有序链表做时间段重叠和事件相同的查找,来确定两个人物的人际关系。
根据本发明的基于照片的基于照片查找人际关系的方法和装置能够基于网络上的照片和各种人物相关信息来主动地查找网络上的人物的人际关系,可以更方便地扩展社交网络的用户的人际关系网,为用户带来更好的用户体验。
根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带);光学介质(例如CD-ROM和DVD);磁光介质(例如,光盘);以及特别配制用于存储并执行程序指令的硬件装置(例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。
尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (8)

1.一种基于照片查找人际关系的方法,包括:
提取包括人物照片和生平经历的个人信息;
建立个人信息的数据节点;
从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的人物照片中的人脸图像进行比对,从而得到存在联系的个人信息的配对;
确定存在联系的个人信息的数据节点之间的数据交集,以根据数据交集的事件项确定两个人的人际关系,
其中,存在联系的个人信息的数据节点之间的数据交集为存在联系的个人信息的数据节点中具有相同时间段和事件的数据项。
2.如权利要求1所述的方法,其中,提取个人信息包括:对网站做定向的抓取,保存抓取的页面,然后从保存的页面提取页面中的个人信息。
3.如权利要求2所述的方法,提取页面中的个人信息包括:
合并网页页面中的相同或相似的元素集合;
过滤元素集合中的不需要的元素;
从过滤后的元素集合的剩余内容中提取特征关键词以获取个人信息。
4.如权利要求1所述的方法,其中,确定存在联系的个人信息的数据节点之间的数据交集包括:
基于数据节点所包括的个人信息形成包括生平经历的时间段和事件元素的二元组,并将每个个人信息的所有二元组按照时间排序形成有序链表;
对存在联系的个人信息的有序链表做时间段重叠和事件相同的查找,以得到二元组的数据交集。
5.一种基于照片查找人际关系的装置,包括:
个人信息提取单元,提取包括人物照片和生平经历的个人信息;
数据节点建立单元,建立个人信息的数据节点;
关联配对单元,从合影照片中提取人脸图像,并将提取的人脸图像与个人信息的人物照片中的人脸图像进行比对,从而得到存在联系的个人信息的配对;
人际关系确定单元,确定存在联系的个人信息的数据节点之间的数据交集,以根据数据交集的事件项确定两个人的人际关系,
其中,存在联系的个人信息的数据节点之间的数据交集为存在联系的个人信息的数据节点中具有相同时间段和事件的数据项。
6.如权利要求5所述的装置,其中,个人信息提取单元对网站做定向的抓取,保存抓取的页面,然后从保存的页面提取页面中的个人信息。
7.如权利要求6所述的装置,个人信息提取单元合并网页页面中的相同或相似的元素集合,过滤元素集合中的不需要的元素,从过滤后的元素集合的剩余内容中提取特征关键词以获取个人信息。
8.如权利要求6所述的装置,其中,人际关系确定单元基于数据节点所包括的个人信息形成包括生平经历的时间段和事件元素的二元组,将每个个人信息的所有二元组按照时间排序形成有序链表结构,对存在联系的个人信息的有序链表做时间段重叠和事件相同的查找,以得到二元组的数据交集。
CN201410023625.XA 2014-01-17 2014-01-17 基于照片查找人际关系的方法和装置 Active CN103810248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410023625.XA CN103810248B (zh) 2014-01-17 2014-01-17 基于照片查找人际关系的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410023625.XA CN103810248B (zh) 2014-01-17 2014-01-17 基于照片查找人际关系的方法和装置

Publications (2)

Publication Number Publication Date
CN103810248A CN103810248A (zh) 2014-05-21
CN103810248B true CN103810248B (zh) 2017-02-08

Family

ID=50707018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410023625.XA Active CN103810248B (zh) 2014-01-17 2014-01-17 基于照片查找人际关系的方法和装置

Country Status (1)

Country Link
CN (1) CN103810248B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194817B (zh) * 2017-03-29 2023-06-23 腾讯科技(深圳)有限公司 用户社交信息的展示方法、装置和计算机设备
CN109145884B (zh) * 2018-10-10 2020-11-24 百度在线网络技术(北京)有限公司 查找目标人物的方法、装置、终端和计算机可读存储介质
CN111506825A (zh) * 2020-03-12 2020-08-07 浙江工业大学 一种基于社交照片的人物关系可视分析方法
CN112016005B (zh) * 2020-08-31 2024-06-25 北京天创智联科技发展有限公司 一种拓展人际关系的信息搜索处理方法、装置、可读存储介质及终端
CN112463835A (zh) * 2020-12-11 2021-03-09 广东电网有限责任公司 一种使用关联关系分析的专家关系查找方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119620A (zh) * 2008-10-25 2013-05-22 高智83基金会有限责任公司 基于推测的社会关系的行为建议
CN103425724A (zh) * 2012-05-15 2013-12-04 索尼公司 信息处理设备和方法、计算机程序以及图像显示设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119620A (zh) * 2008-10-25 2013-05-22 高智83基金会有限责任公司 基于推测的社会关系的行为建议
CN103425724A (zh) * 2012-05-15 2013-12-04 索尼公司 信息处理设备和方法、计算机程序以及图像显示设备

Also Published As

Publication number Publication date
CN103810248A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
Garay Tamajón et al. Barcelona seen through the eyes of TripAdvisor: Actors, typologies and components of destination image in social media platforms
US10748118B2 (en) Systems and methods to develop training set of data based on resume corpus
CN103810248B (zh) 基于照片查找人际关系的方法和装置
Guerrero-Rodriguez et al. Studying online travel reviews related to tourist attractions using nlp methods: the case of guanajuato, mexico
Andryani et al. Social media analytics: data utilization of social media for research
Gruzd et al. Networking online: cybercommunities
CN104462547B (zh) 一种可配置的网页数据采集的方法及系统
Daraghmi et al. We are so close, less than 4 degrees separating you and me!
US10528591B2 (en) Methods and systems for using hints in media content tagging
JP6506686B2 (ja) ファイル記述子を自動的に管理する技法
US20150120783A1 (en) Inter-entity connection maps
WO2019080910A1 (zh) 一种信息处理系统及其实现信息处理的方法
US10846310B2 (en) Method and system for mapping notable entities to their social profiles
US9544384B2 (en) Method and system for pushing associated users in social networking service network
US20140019545A1 (en) Social Graph Expanding Method, Program and System
Szomszor et al. Semantics, sensors, and the social web: The live social semantics experiments
Sue US racial and ethnic relations in the twenty-first century: are old divisions prevailing?
Gilmartin British migrants and Irish anxieties
Rodrigues et al. Antiracism and black memory in the archives: a project to preserve black organization collections at the University of Campinas (Brazil)
JP5068350B2 (ja) データ処理装置、方法及びプログラム
US11227023B2 (en) Searching people, content and documents from another person's social perspective
JP2018124966A (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング
Osburn Between Network and Story: Analyzing Hyperlinks and Narratives on Websites about Tibet
Alguliev et al. Building a social network of research institutes from information available on the web
Ria Andryani et al. Social Media Analytics: Data Utilization of Social Media for Research.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant