CN109857753A - 用户数据验证方法、装置、电子设备及存储介质 - Google Patents
用户数据验证方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109857753A CN109857753A CN201811625422.2A CN201811625422A CN109857753A CN 109857753 A CN109857753 A CN 109857753A CN 201811625422 A CN201811625422 A CN 201811625422A CN 109857753 A CN109857753 A CN 109857753A
- Authority
- CN
- China
- Prior art keywords
- data
- social relationships
- scientific research
- information
- research public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种用户数据验证方法、装置、电子设备及存储介质。其中,该方法包括:获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据;根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定;至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。通过本公开实施例,能够根据从科研公开数据提取出的潜在社会关系验证目标对象的履历信息,从而使得用户数据的验证结果更加客观而准确,同时还能够节省人力资源,降低成本。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种用户数据验证方法、装置、电子设备及存储介质。
背景技术
在人力资源领域,用户数据验证是一个重要的环节,一般通过人工的方式对候选人进行职业背景情况进行调查,例如职业资格、学历/学术背景、技能经验等信息。然而,传统的方法不仅耗时耗力,浪费大量的资源,并且有可能存在信息获取不准确而导致调查结果不准确的情况。随着互联网和大数据的兴起,尤其是近期人工智能技术的突破,使得基于互联网的职业数据验证成为可能。通过大数据和人工智能技术,职业数据验证平台可以从不同的渠道获取关于个人的公开信息,通过整合处理这些公开信息并在被调查人授权的情况下,职业数据验证平台可以自动快速给出一个候选人的职业背景信息。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现有技术至少存在以下问题:在一些情况下,候选人最重要的特征是其专业性,例如大学研究员、企业研发工程师等。此时,除了一般性的信息,对候选人的专业技能调查变得尤为重要。然而,由于专业技能牵扯具体的领域知识,使得非本领域人员进行调查时变得异常困难。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种基于社会关系的用户数据验证方法、装置、电子设备及计算机可读存储介质,以解决基于社会关系的用户数据验证的问题。
本公开实施例的第一方面提供了一种基于社会关系的用户数据验证方法,包括:
获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据;
根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定;
至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
在一些实施例中,所述根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据,包括:
根据所述身份信息获取所述第一目标对象的第一科研公开数据;
解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
在一些实施例中,所述解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据,包括:
解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
在一些实施例中,所述根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据,包括:
根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
在一些实施例中,所述方法还包括:
获取第二目标对象的第二科研公开数据;
解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
根据所述第三社会关系数据生成社会关系图谱型数据库。
在一些实施例中,所述解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据,包括:
解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
在一些实施例中,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
本公开实施例的第二方面提供了一种基于社会关系的用户数据验证装置,包括:
第一获取模块,用于获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据;
第二获取模块,用于根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定;
验证模块,用于至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
在一些实施例中,所述第二获取模块包括:
第一获取子模块,用于根据所述身份信息获取所述第一目标对象的第一科研公开数据;
确定子模块,用于解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
在一些实施例中,所述确定子模块包括:
第二获取子模块,用于解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
在一些实施例中,所述第二获取模块,包括:
匹配子模块,用于根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
在一些实施例中,所述装置还包括:
第三获取模块,用于获取第二目标对象的第二科研公开数据;
确定模块,用于解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
生成模块,用于根据所述第三社会关系数据生成社会关系图谱型数据库。
在一些实施例中,所述确定模块,包括:
第三获取子模块,用于解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
在一些实施例中,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例,通过获取第一目标对象的用户数据,该用户数据中包括待验证的第一目标对象的第一社会关系数据,并根据用户数据从第一目标对象的科研公开数据获取第一目标对象的第二社会关系数据,以便至少根据第一社会关系数据和第二社会关系数据来验证第一目标对象的履历信息。通过本公开实施例,能够根据从科研公开数据提取出的潜在社会关系验证目标对象的履历信息,从而使得用户数据的验证结果更加客观而准确,同时还能够节省人力资源,降低成本。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种基于社会关系的用户数据验证方法示意图;
图2是根据图1所示实施例中步骤S102的流程示意图;
图3是本公开的一些实施例所示的社交关系图谱型数据示意图;
图4是根据本公开的一些实施例所示的一种基于社会关系的用户数据验证方法中社交关系图谱型数据库的生成示意图;
图5是根据本公开的一些实施例所示的一种基于社会关系的用户数据验证装置的结构框图;
图6是适于用来实现根据本公开实施方式的基于社会关系的用户数据验证方法的电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
本公开发明人还发现,一个研发人员往往在过往的研发经验中产生了公开的文献,例如可能申请的专利文献数据。并且,这些科研公开文献包含高度的专业知识和时间节点信息。此外,专业的研究往往形成一个具有相同研究方向的共同体,也就是一个学术社交圈,共同体内部的成员之间彼此熟悉。在专业领域的职位招聘过程中,共同体内部成员的背书往往具有较高的参考价值,例如导师的推荐信,共同体内部同行的评价等信息在选择候选人的过程中扮演重要作用。因此,本公开实施例提出了一种基于社会关系的用户数据验证方法。
图1是根据本公开的一些实施例所示的基于社会关系的用户数据验证方法示意图。在一些实施例中,所述基于社会关系的用户数据验证方法可以由服务器或客户端来完成。如图1所示,所述基于社会关系的用户数据验证方法包括以下步骤:
S101,获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据。
具体地,本公开实施例提出的技术背景数据的处理方法可以实现在一个数据验证平台上,该数据验证平台可以为运行于服务器之上用于提供基于社会关系的用户数据验证的软件系统。例如,调查人员通过终端设备,例如PC、智能手机通过网络向数据验证平台发起调查请求,数据验证平台在获得被调查人也即目标对象的授权信息之后,向调查人发送相关的技术背景数据的处理结果。
例如,人力资源调查人员通过终端设备,例如PC、智能手机等,通过网络向数据验证平台发起调查请求,数据验证平台在获得目标对象的用户数据后,可以基于本公开的上述方法对目标对象也即被调查人的社会关系背景进行调查,并向调查人返回调查结果。目标对象的用户数据可以是目标对象自己提供的,也可以是通过网络中其他方式获取的。目标对象可以是任意人员,例如求职人员。目标对象的用户数据可以包括但不限于目标对象的身份信息以及履历信息。身份信息可以包括但不限于目标对象的姓名、年龄、身份证、手机号等联系方式;目标对象的用户数据还可以包括履历信息,履历信息包括但不限于目标对象在以往时间区间内的学习经历、职业经历等。
在一些实施例中,可以通过获取目标对象的简历来获得目标对象的用户数据。在目标对象的用户数据为目标对象的简历时,该简历可以是一种结构化的信息,也可以是一般的文本信息,下面以举例的方式阐述,从工作经验及教育背景中可以获取第一关联组合。
例如,数据验证平台获取的一份简历信息如下:
姓名:张三
工作经历
2011-2013:百度,软件工程师
工作期间,主要负责在线地图的数据库开发与维护工作。
2013-2015:阿里巴巴,人工智能架构师
工作期间,参与阿里巴巴人工智能系统的分布式存储系统的设计与开发。
教育背景:
2008-2011:北京大学,计算机硕士
研究生期间,参与了智能语义分析的算法开发,使用了深度神经网络、霍夫曼树等方法。
通过解析上述例子中的工作经验及教育背景,数据验证平台可以获取三个第一关联组合,分别为:(1)2008-2011,北京大学:语义分析、深度神经网络、霍夫曼树;(2)2011-2013,百度:在线地图、数据库开发;(3)2013-2015,阿里巴巴:分布式存储,人工智能。
S102,根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定。
具体地,目标对象在以往的工作中会产生科研公开数据,科研公开数据包括但不限于发表的文章、论文、专利文献、科技新闻或互联网(论坛、blog、SNS、问答系统等)等。根据目标对象的身份信息,例如姓名、电话和/或身份证号等,获取目标对象的科研公开数据,这些科研公开数据中包括社会关系信息和时间节点信息。例如,科研公开数据为目标对象发表的期刊文章,社会关系信息包括作者之间的社会关系、作者与作者所在单位之间的社会关系,时间节点信息包括该期刊文章的发表时间。再例如,科研公开数据为专利文献,社会关系信息包括发明人之间的社会关系、发明人与申请人之间的社会关系,时间节点信息包括专利文献的申请时间等。
在一些实施例中,第一社会关系数据或第二社会关系数据至少包括关系类型、关系对象、关系状态和/或技能信息;其中,关系类型可以包括第一目标对象与其他人员和/或机构之间的关系类型,例如同学、同事、被雇佣关系等。关系对象可以是其他人员、或者第一目标对象学习和/或从业的机构等。关系状态可以是第一目标对象与其他人员和/或机构之间的关系是否为过去的关系,还是依然存续的关系等。技能信息可以包括第一目标对象所掌握的一些技能知识,例如第一目标对象所学的专业知识,从事的行业知识,所涉及的项目技能等等。
在一些实施例中,数据验证平台至少包括一个专利信息数据库,该专利信息数据库可以为本地存储的数据库或能够通过远程访问的数据库,通过访问数据验证平台上的专利信息数据库可以获取目标对象的科研公开数据,即专利文献数据。还可以通过访问现有的国内外的专利数据库获取专利文献数据,例如中国国家知识产权局检索平台、PCT国际专利检索网站等提供的专利数据库。
在另一些实施例中,数据验证平台可以通过访问万方数据库及中国知网等获取目标对象的论文数据,通过访问百度、Google等搜索引擎获取目标对象的科技新闻或互联网(论坛、blog、SNS、问答系统等)等公开的数据。
基于上述内容,本公开实施例可以通过身份信息从该第一目标对象的科研公开数据中获取一些直接地或者潜在的第二社会关系数据。
S103,至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
具体地,从第一目标对象的科研公开数据获得了第二社会关系数据之后,可以验证第一目标对象的履历信息,假如第一社会关系数据根据第二社会关系数据得到了验证,则可以认为第一目标对象的履历信息中社会关系这部分内容是可信的,如果第一社会关系数据无法从第二社会关系数据得到验证,或者第一社会关系数据与第二社会关系数据甚至是相悖的,则可以初步判定第一目标对象的履历信息可能不可信,可以提示调查者做进一步调查。
本公开实施例,通过获取第一目标对象的用户数据,该用户数据中包括待验证的第一目标对象的第一社会关系数据,并根据用户数据从第一目标对象的科研公开数据获取第一目标对象的第二社会关系数据,以便至少根据第一社会关系数据和第二社会关系数据来验证第一目标对象的履历信息。通过本公开实施例,能够根据从科研公开数据提取出的潜在社会关系验证目标对象的履历信息,从而使得用户数据的验证结果更加客观而准确,同时还能够节省人力资源,降低成本。
在一些可选的实施例中,如图2所示,步骤S102可以包括:
S201,根据所述身份信息获取所述第一目标对象的第一科研公开数据;
S202,解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
该可选的实施例中,身份信息可以是姓名、电话、身份证号等身份信息,可以通过身份信息从互联网、专利文献库、和/或期刊论文等文献库中获得第一目标对象的第一科研公开数据,如申请过的专利文献,发表过的期刊文章和/或论文,互联网论坛上发表过的技术文章等等。第一科研公开数据中除了涉及的技术知识之外,还往往会记载专利文献的共同发明人、申请人、文章或论文的多个作者以及作者所在的机构等等,因此在一些实施例中,可以直接从第一科研公开数据中直接记载或者间接记载的这些数据中获得第一目标对象的第二社会关系数据。需要说明的是,第二社会关系数据可以通过结合多篇第一科研公开数据和/或将第一科研公开数据与其他关联人员的科研公开数据进行结合,得到第一目标对象的第二社会关系数据,例如第一目标对象申请的专利文献A中有两个发明人,第一目标对象和其他人员B,而其他人员B在同一时间段、以同一申请人的名义申请了专利文献C,而专利文献C的发明人是其他人员B和D,那么可以结合这两篇专利文献间接得到第一目标对象与其他人员B和D都是同事关系。此外,在另一些实施例中,也可以通过解析第一科研公开数据中的技术知识获取第一目标对象的潜在社会关系。
在一些可选的实施例中,步骤S202可以包括:
解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
该可选的实现方式中,第一科研公开数据为专利文献数据和/或期刊文章、论文时,通常会包括一些结构化字段,例如专利文献中的申请人、发明人、专利申请号等,文章和论文中的作者、作者单位等。因此,一种实现方式中,可以通过解析第一科研公开数据中的结构化字段获得第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。然而,有的时候无法直接从这些结构化字段中得到潜在的社交关系,因此可以进一步对科研公开数据的技术内容进行解析。因此,另一种实现方式中,也可以通过解析第一科研公开数据中的内容获得第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间的第二社会关系数据。
需要说明的是,虽然第一科研公开数据一般拥有结构化的用于描述技术方向的数据,例如专利文献中的IPC、CPC分类号,然而这些分类号一般较为宽泛,无法得到较为精准的技能信息。本公开实施例还提出使用一个训练的神经网络对第一科研公开数据的标题、摘要、正文如专利文献中的权利要求和说明书进行解析,用于提取技术相关的特征词。该神经网络可以通过标注的训练数据来完成训练,以抽取较为精准的技术特征词。进一步,通过技术特征词,可以得到潜在的社交关系。
例如,从用户数据的履历信息中解析得到的第一社会关系数据如下
2015,北京大学,进修,人工智能
2017,MIT,访问,深度神经网络
此处,解析的第一社会关系数据是简历中第一目标对象与机构的科研社交关系,其中包括了机构标识,例如北京大学,MIT,以及进行的科研活动,例如人工智能,深度神经网络。进一步,本公开实施例将对北京大学和MIT的相关专利文献进行处理和解析,得到解析到的技术特征与对应的时间点,例如:
2011,MIT,人工智能
2013,MIT,人工智能
2015,MIT,深度神经网络
其中,深度神经该网络是通过专利文献得到的与人工智能为上下位关系的特征词。进一步,本公开实施例可以通过对机构和技能的信息,得到对专利文献中人与机构的社交关系进行验证,最终得到第一目标对象访问的机构与其所在的技术领域,应该具有一致性。
在一些可选的实施例中,步骤S102可以包括:
根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
该可选的实施例中,还可以预先建立社交关系图谱型数据库,用于记录人与人之间、人与机构之间、人与技能信息之间、技能信息与机构之间、技能信息之间的社交关系数据。图3示出了一种示意性的社交关系图谱数据,其中,语音识别为人工智能的一个子方向,张三、李四、徐某某是三个有社交关系的目标对象。社交关系图谱型数据可以预先通过收集大量的科研公开数据,并解析其中的社交关系建立起来,也可以通过人工录入的方式建立。
在具有社交关系图谱型数据库的前提下,可以通过第一目标对象的身份信息与社交关系图谱型数据库进行匹配,并根据匹配的结果获得第一目标对象的第二社交关系数据。
在一些可选的实施例中,如图4所示,基于社会关系的用户数据验证方法还包括:
S401,获取第二目标对象的第二科研公开数据;
S402,解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
S403,根据所述第三社会关系数据生成社会关系图谱型数据库。
该可选的实施例中,社交关系图谱型数据库可以通过收集大量的科研公开数据,并对其中的内容等数据进行解析分析后建立得到。第二目标对象可以是任何具有科研公开数据的人员,第二目标对象可以包括第一目标对象。第二科研公开数据也可以包括但不限于第二目标对象发表的文章、论文、专利文献、科技新闻或互联网(论坛、blog、SNS、问答系统等)等。通过解析第二科研公开数据中的结构化字段和/或内容,能够得到第二科研公开数据中,人与人之间、人与机构之间、人与技能信息之间、技能信息与机构之间、技能信息之间的第二社交关系数据,进而建立如图3所示的社交关系图谱数据,并存储至数据库中。例如,数据验证平台通过解析专利文献的技术特征词,得到专利文献的非结构化字段,如技术领域、领域知识、技术问题、技术手段等信息,并进一步根据结构化字段,生成一个或多个社交关系,并将关系存于图谱型数据库中。
下面通过专利文献举例说明。
例如,处理申请人张三的专利文献,得到张三申请人的专利的技术特征为:
人工智能;
深度学习;
进一步,通过专利文献的结构化字段,得到张三的共同申请人为徐某某,则系统可以得到一个科研社交关系为:
张三与徐某某在人工智能、深度学习领域有过合作;
数据验证平台通过对张三所在机构的专利查询,得到李四的专利中包含以下技术特征:
人工智能;
语音识别;
则数据验证平台可以得到一个科研社交关系为:
张三与李四是同事,但并没有直接合作。
以上数据进一步可以存储于一个图谱型数据库中,例如使用NEO4j软件,可以得到如图3所述的社交关系图谱型数据。
例如,一个有关语音识别的专利文献的背景处可以描述:
人工智能技术包括语音识别、机器视觉、模式识别等多个技术方向。
通过NLP处理,数据验证平台得到人工智能与语音识别的包含关系,并存储于图谱式的数据库中。
进一步,数据验证平台在收到一个调查者针对张三的科研社交关系验证请求时,解析该请求可以得到以下的查询:
张三的直接合作关系有哪些?
张三的潜在推荐人有哪些?
通过查询上述社交关系图谱式数据库,数据验证平台将生成调查结果,例如:
张三与徐某某在人工智能方向上有过直接合作;
张三的同事李四在相同的学院,但研究方向有不同。
在以上方法中,使用结构化字段生成关系的部分较为容易,因为结构化字段自然带有明确的关系,通过程序实现的规则,即可将结构化字段转化成直接的社交关系,并存储于图谱式数据库中。例如,专利文献中的发明人列表意味着所有发明人为合作研发关系,发明人和申请人字段能够得到研发人员任职机构的关系,多个申请人能够反映合作研发关系。然而,科研公开数据中非结构化字段中隐含的社交关系则更具有价值,其获得必须如上所述对例如专利摘要、标题、权利要求、说明书进行解析才能得到。一种方法为,通过自然语言解析,得到不同技术特征的关系,并将该关系转换成技术特征节点之间的关系,并存储于数据库中。进一步,根据技术特征节点之间的关系,可以得到发明人之间的关系。例如,通过简单的特征提取,可以得到多种技术特征之间的关系:
深度学习是一种高效的机器学习方法;
5G通信广泛使用大规模阵列天线技术;
通过解析,可以得到机器学习包含深度学习,5G通信包含大规模阵列天线。通过技术特征关系以及例如专利文献的发明人、申请人信息,可以得到发明人、机构之间的社交关系。该关系在用户数据验证中将提供其他信息源无法提供的验证能力。
在一些可选的实施例中,步骤S402可以包括:
解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
该可选的实现方式中,第一社会关系数据、第二社会关系数据或第三社会关系数据至少包括关系类型、关系对象和/或技能信息。
如上所述,第二科研公开数据为专利文献数据和/或期刊文章、论文时,通常也会包括一些结构化字段,例如专利文献中的申请人、发明人、专利申请号等,文章和论文中的作者、作者单位等。因此,一种实现方式中,可以通过解析第二科研公开数据中的结构化字段获得相关人员之间和/或相关人员与机构之间的第三社会关系数据。然而,有的时候无法直接从这些结构化字段中得到潜在的社交关系,因此可以进一步对第二科研公开数据的技术内容进行解析。因此,另一种实现方式中,也可以通过解析第二科研公开数据中的内容获得第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间的第三社会关系数据。
需要说明的是,虽然第二科研公开数据一般拥有结构化的用于描述技术方向的数据,例如专利文献中的IPC、CPC分类号,然而这些分类号一般较为宽泛,无法得到较为精准的技能信息。本公开实施例还提出使用一个训练的神经网络对第二科研公开数据的标题、摘要、正文如专利文献中的权利要求和说明书进行解析,用于提取技术相关的特征词。该神经网络可以通过标注的训练数据来完成训练,以抽取较为精准的技术特征词。进一步,通过技术特征词,可以得到潜在的社交关系。
在一些可选的实施例中,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
该可选的实现方式中,第一目标对象的履历信息中还可以包括第一目标对象申请过的专利文献标识,例如专利申请号、公开号和/或公开日等。在对第一目标对象的履历信息进行验证时,还可以通过该专利文献标识从专利数据库中提取对应的专利文献,并获取该专利文献文献中直接或间接记载的第二社会关系数据,以与履历信息中的第一社会关系数据进行交叉验证。
以上是本公开提供的基于社会关系的用户数据验证方法的具体实施方式。
图5是根据本公开的一些实施例所示的基于社会关系的用户数据验证装置示意图。如图5所示,基于社会关系的用户数据验证的装置包括第一获取模块501、第二获取模块502和验证模块503。其中:
第一获取模块501,用于获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据。
第二获取模块502,用于根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定。
验证模块503,用于至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
在一些可选的实施例中,所述第二获取模块502可以包括:
第一获取子模块,用于根据所述身份信息获取所述第一目标对象的第一科研公开数据;
确定子模块,用于解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
在一些可选的实施例中,所述确定子模块可以包括:
第二获取子模块,用于解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
在一些可选的实施例中,所述第二获取模块502可以包括:
匹配子模块,用于根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
在一些可选的实施例中,所述基于社会关系的用户数据验证装置还包括:
第三获取模块,用于获取第二目标对象的第二科研公开数据;
确定模块,用于解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
生成模块,用于根据所述第三社会关系数据生成社会关系图谱型数据库。
在一些可选的实施例中,所述确定模块可以包括:
第三获取子模块,用于解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
在一些可选的实施例中,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
本实施例提出的技术背景数据的处理装置与图1所示实施例及相关实施例中提出的用户数据验证方法对应一致,具体细节可参见上述对用户数据验证方法的描述,在此不再赘述。
图6是适于用来实现根据本公开实施方式的用户数据验证方法的电子设备的结构示意图。
如图6所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行上述图1所示的实施方式中的各种处理。在RAM603中,还存储有电子设备600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
综上所述,本公开提出了一种基于社会关系的用户数据验证方法、装置、电子设备及其计算机可读存储介质。本公开实施例,通过获取第一目标对象的用户数据,该用户数据中包括待验证的第一目标对象的第一社会关系数据,并根据用户数据从第一目标对象的科研公开数据获取第一目标对象的第二社会关系数据,以便至少根据第一社会关系数据和第二社会关系数据来验证第一目标对象的履历信息。通过本公开实施例,能够根据从科研公开数据提取出的潜在社会关系验证目标对象的履历信息,从而使得用户数据的验证结果更加客观而准确,同时还能够节省人力资源,降低成本。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (16)
1.一种基于社会关系的用户数据验证方法,其特征在于,包括:
获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据;
根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定;
至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
2.根据权利要求1所述的基于社会关系的用户数据验证方法,其特征在于,根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据,包括:
根据所述身份信息获取所述第一目标对象的第一科研公开数据;
解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
3.根据权利要求2所述的基于社会关系的用户数据验证方法,其特征在于,解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据,包括:
解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
4.根据权利要求1所述的基于社会关系的用户数据验证方法,其特征在于,根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据,包括:
根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
5.根据权利要求1-4任一项所述的基于社会关系的用户数据验证方法,其特征在于,还包括:
获取第二目标对象的第二科研公开数据;
解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
根据所述第三社会关系数据生成社会关系图谱型数据库。
6.根据权利要求5所述的基于社会关系的用户数据验证方法,其特征在于,解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据,包括:
解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
7.根据权利要求1-4、6任一项所述的基于社会关系的用户数据验证方法,其特征在于,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
8.一种基于社会关系的用户数据验证装置,其特征在于,包括:
第一获取模块,用于获取第一目标对象的用户数据;其中,所述用户数据至少包括身份信息以及履历信息;所述履历信息至少包括所述第一目标对象的至少一个第一社会关系数据;
第二获取模块,用于根据所述身份信息获取所述第一目标对象的至少一个第二社会关系数据;其中,所述第二社会关系数据至少根据科研公开数据确定;
验证模块,用于至少根据所述第一社会关系数据以及所述第二社会关系数据验证所述第一目标对象的履历信息。
9.根据权利要求8所述的基于社会关系的用户数据验证装置,其特征在于,所述第二获取模块包括:
第一获取子模块,用于根据所述身份信息获取所述第一目标对象的第一科研公开数据;
确定子模块,用于解析所述第一科研公开数据,并确定所述第一目标对象的至少一个第二社会关系数据。
10.根据权利要求9所述的基于社会关系的用户数据验证装置,其特征在于,所述确定子模块包括:
第二获取子模块,用于解析所述第一科研公开数据中的结构化字段和/或内容,获得所述第一科研公开数据中的技能信息之间、技能信息与第一目标对象之间、技能信息与机构之间、第一目标对象与其他相关人员之间和/或第一目标对象与机构之间的第二社会关系数据。
11.根据权利要求8所述的基于社会关系的用户数据验证装置,其特征在于,所述第二获取模块,包括:
匹配子模块,用于根据所述身份信息从预设的社交关系图谱型数据库中匹配得到所述第一目标对象的至少一个第二社会关系数据;其中,所述社交关系图谱型数据库至少预先根据收集的科研公开数据集得到。
12.根据权利要求8-11任一项所述的基于社会关系的用户数据验证装置,其特征在于,还包括:
第三获取模块,用于获取第二目标对象的第二科研公开数据;
确定模块,用于解析所述第二科研公开数据,并确定所述第二科研公开数据中的第三社会关系数据;
生成模块,用于根据所述第三社会关系数据生成社会关系图谱型数据库。
13.根据权利要求12所述的基于社会关系的用户数据验证装置,其特征在于,所述确定模块,包括:
第三获取子模块,用于解析所述第二科研公开数据中的结构化字段和/或内容,获得所述第二科研公开数据中的技能信息之间、技能信息与相关人员之间、技能信息与机构之间、相关人员之间、相关人员与机构之间、和/或机构之间的第三社会关系数据。
14.根据权利要求8-11、13任一项所述的基于社会关系的用户数据验证装置,其特征在于,所述科研公开数据包括专利文献数据;和/或,
所述履历信息还包括所述第一目标对象申请过的专利文献标识。
15.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625422.2A CN109857753A (zh) | 2018-12-28 | 2018-12-28 | 用户数据验证方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625422.2A CN109857753A (zh) | 2018-12-28 | 2018-12-28 | 用户数据验证方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857753A true CN109857753A (zh) | 2019-06-07 |
Family
ID=66893033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811625422.2A Pending CN109857753A (zh) | 2018-12-28 | 2018-12-28 | 用户数据验证方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857753A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457536A (zh) * | 2019-08-16 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 一种知识图谱构建方法及装置 |
CN110569418A (zh) * | 2019-07-24 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 学历信息验证方法以及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080015883A1 (en) * | 2004-09-24 | 2008-01-17 | Form I-9 Compliance, Llc | Electronic signature for and electronic system and method for employment eligibility verification |
US20080140680A1 (en) * | 2006-12-11 | 2008-06-12 | Yahoo! Inc. | Systems and methods for verifying jobseeker data |
CN101617309A (zh) * | 2005-09-07 | 2009-12-30 | 瑞芬洛尼尔金 | 核实的个人信用信息搜索系统和其方法 |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN103678279A (zh) * | 2013-12-31 | 2014-03-26 | 中南大学 | 基于异质网络时态语义路径相似度的人物唯一性识别方法 |
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
CN108595491A (zh) * | 2018-03-15 | 2018-09-28 | 考拉征信服务有限公司 | 一种基于履历拆分的背调方法、系统及其计算机存储介质 |
CN108932607A (zh) * | 2018-06-19 | 2018-12-04 | 秦德玉 | 一种基于云端的验证履历真实性的系统 |
CN109064124A (zh) * | 2018-07-17 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 基于区块链验证、存储工作履历的方法和装置 |
CN109086585A (zh) * | 2018-07-10 | 2018-12-25 | 众安信息技术服务有限公司 | 履历数据处理方法、系统及计算机可读存储介质 |
-
2018
- 2018-12-28 CN CN201811625422.2A patent/CN109857753A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080015883A1 (en) * | 2004-09-24 | 2008-01-17 | Form I-9 Compliance, Llc | Electronic signature for and electronic system and method for employment eligibility verification |
CN101617309A (zh) * | 2005-09-07 | 2009-12-30 | 瑞芬洛尼尔金 | 核实的个人信用信息搜索系统和其方法 |
US20080140680A1 (en) * | 2006-12-11 | 2008-06-12 | Yahoo! Inc. | Systems and methods for verifying jobseeker data |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN103678279A (zh) * | 2013-12-31 | 2014-03-26 | 中南大学 | 基于异质网络时态语义路径相似度的人物唯一性识别方法 |
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
CN108595491A (zh) * | 2018-03-15 | 2018-09-28 | 考拉征信服务有限公司 | 一种基于履历拆分的背调方法、系统及其计算机存储介质 |
CN108932607A (zh) * | 2018-06-19 | 2018-12-04 | 秦德玉 | 一种基于云端的验证履历真实性的系统 |
CN109086585A (zh) * | 2018-07-10 | 2018-12-25 | 众安信息技术服务有限公司 | 履历数据处理方法、系统及计算机可读存储介质 |
CN109064124A (zh) * | 2018-07-17 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 基于区块链验证、存储工作履历的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569418A (zh) * | 2019-07-24 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 学历信息验证方法以及装置 |
CN110457536A (zh) * | 2019-08-16 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 一种知识图谱构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huldt et al. | State‐of‐practice survey of model‐based systems engineering | |
de Oca et al. | A systematic literature review of studies on business process modeling quality | |
Mustonen‐Ollila et al. | Why organizations adopt information system process innovations: a longitudinal study using Diffusion of Innovation theory | |
WO2017177222A1 (en) | A system and method for searching and matching content over social networks relevant to an individual | |
Trotter et al. | Improvisation: theory, measures and known influencing factors | |
Madanagopal et al. | Analytic provenance in practice: The role of provenance in real-world visualization and data analysis environments | |
US20190295101A1 (en) | Digital credential receiver field mappings | |
Burnett et al. | The strategic role of knowledge auditing and mapping: An organisational case study | |
Naxera et al. | ‘I will handle it personally’: The neo-patrimonial rhetoric of the Czech Prime Minister in the times of COVID-19 | |
Dhoolia et al. | A cognitive system for business and technical support: A case study | |
CN109857753A (zh) | 用户数据验证方法、装置、电子设备及存储介质 | |
Kortum et al. | Dissection of AI job advertisements: A text mining-based analysis of employee skills in the disciplines computer vision and natural language processing | |
Hendriks et al. | Methodological and practical challenges of interdisciplinary trust research | |
Siswipraptini et al. | Information technology job profile using average-linkage hierarchical clustering analysis | |
Boman et al. | More than just a Flock? The independent and interdependent nature of peer self-control on deviance | |
Barcelos et al. | An Ontology Reference Model for Normative Acts. | |
Pereira et al. | Application of a management and storage system for knowledge generated from simulation projects as a teaching and assessment tool | |
CN109885647A (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
CN109815313A (zh) | 个性化技术调查数据处理方法、装置、设备及存储介质 | |
Liywalii | Analyzing the impact of ethical issues in e-government implementation: a case of Zambia. | |
Berman et al. | NSF SBE-CISE workshop on cyberinfrastructure and the social sciences | |
Li | [Retracted] Design and Implementation of Mental Health Consultation System for Primary and Secondary School Students Based on Credibility Matching Model | |
Cazares et al. | A Training Web Platform to Improve Cognitive Skills for Phishing Attacks Detection | |
Khan | An efficient human resource management system model using web-based hybrid technique | |
Jha et al. | Creating ontology for intelligent web by using web usage mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |
|
RJ01 | Rejection of invention patent application after publication |