CN109857793A - 技术背景数据的处理方法、装置、电子设备及存储介质 - Google Patents
技术背景数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109857793A CN109857793A CN201811625377.0A CN201811625377A CN109857793A CN 109857793 A CN109857793 A CN 109857793A CN 201811625377 A CN201811625377 A CN 201811625377A CN 109857793 A CN109857793 A CN 109857793A
- Authority
- CN
- China
- Prior art keywords
- technical
- information
- target object
- scientific research
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本公开实施例公开了一种技术背景数据的处理方法、装置、电子设备及存储介质。其中,该方法包括:获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;根据所述相关信息获取所述目标对象的第一科研公开数据;根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。通过本公开的方式,可以从目标对象可能公开的科研公开数据中获取目标对象擅长的技术知识,并基于已知的技术信息以及技术信息之间的结构化知识数据,快速而准确地调查出目标对象较为全面的技术背景。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种技术背景数据的处理方法、装置、电子设备及存储介质。
背景技术
在人力资源领域,技术背景数据的处理是一个重要的环节,一般通过人工的方式对候选人进行职业背景情况进行调查,例如职业资格、学历/学术背景、技能经验等信息。然而,传统的方法不仅耗时耗力,浪费大量的资源,并且有可能存在信息获取不准确而导致调查结果不准确的情况。随着互联网和大数据的兴起,尤其是近期人工智能技术的突破,使得基于互联网的职业背景调查成为可能。通过大数据和人工智能技术,职业背景调查平台可以从不同的渠道获取关于个人的公开信息,通过整合处理这些公开信息并在被调查人授权的情况下,职业背景调查平台可以自动快速给出一个候选人的职业背景信息。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现有技术至少存在以下问题:在一些情况下,候选人最重要的特征是其专业性,例如大学研究员、企业研发工程师等。此时,除了一般性的信息,对候选人的专业技能调查变得尤为重要。然而,由于专业技能牵扯具体的领域知识,使得非本领域人员进行调查时变得异常困难。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种技术背景数据的处理的方法、装置、电子设备及计算机可读存储介质,以解决技术背景数据的处理问题。
本公开实施例的第一方面提供了一种技术背景数据的处理方法,包括:
获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;
根据所述相关信息获取所述目标对象的第一科研公开数据;
根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
在一些实施例中,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
在一些实施例中,所述根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景,包括:
获取所述第一科研公开数据中的第二技术信息;
将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
在一些实施例中,所述根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景,包括:
根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
在一些实施例中,所述根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域,包括:
根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
在一些实施例中,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系和/或技术问题与技术手段之间的对应关系。
在一些实施例中,所述方法还包括:
获取多个第二科研公开数据;
根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
本公开实施例的第二方面提供了一种技术背景数据的处理的装置,包括:
第一获取模块,用于获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;
第二获取模块,用于根据所述相关信息获取所述目标对象的第一科研公开数据;
调查模块,用于根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
在一些实施例中,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
在一些实施例中,所述调查模块,包括:
第一获取子模块,用于获取所述第一科研公开数据中的第二技术信息;
第二获取子模块,用于将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
第一调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
在一些实施例中,所述第一调查子模块,包括:
第二调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
在一些实施例中,所述第一调查子模块,包括:
第三调查子模块,用于根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
在一些实施例中,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系和/或技术问题与技术手段之间的对应关系。
在一些实施例中,所述装置还包括:
第三获取模块,用于获取多个第二科研公开数据;
确定模块,用于根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
提取模块,用于从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例,通过目标对象也即被调查人的相关信息获取该目标对象的科研公开数据,并根据科研公开数据以及已知的结构化知识数据库之间的映射关系调查目标对象的技术背景,从而能够基于互联网平台,通过大数据分析以及人工智能等领域的技术知识,从目标对象可能公开的科研公开数据中获取目标对象擅长的技术知识,并基于已知的技术信息以及技术信息之间的结构化知识数据,快速而准确地调查出目标对象较为全面的技术背景。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种技术背景数据的处理方法的流程示意图;
图2示出了本公开的一些实施例中无人机相关的结构化知识关系示意图;
图3是根据图1所示实施方式的步骤S103的流程图;
图4是根据本公开的一些实施例所示的一种技术背景数据的处理装置的结构框图;
图5是适于用来实现根据本公开实施方式的技术背景数据的处理方法的电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
图1是根据本公开的一些实施例所示的技术背景数据的处理方法示意图。在一些实施例中,所述技术背景数据的处理方法可以由服务器或终端执行。如图1所示,所述技术背景数据的处理方法包括以下步骤:
S101,获取目标对象的相关信息;其中,所述相关信息至少包括身份信息。
具体地,本公开实施例提出的技术背景数据的处理方法可以实现在一个背景调查平台上,该背景调查平台可以为运行于服务器之上用于提供履历背景的调查和验证的软件系统。例如,调查人员通过终端设备,例如PC、智能手机通过网络向背景调查平台发起调查请求,背景调查平台在获得被调查人也即目标对象的授权信息之后,向调查人发送相关的技术背景数据的处理结果。
例如,人力资源调查人员通过终端设备,例如PC、智能手机等,通过网络向背景调查平台发起调查请求,背景调查平台在获得目标对象的相关信息后,可以基于本公开的上述方法对目标对象也即被调查人的技术背景进行调查,并向调查人返回调查结果。目标对象的相关信息可以是目标对象自己提供的,也可以是通过网络中其他方式获取的。目标对象可以是任意人员,例如求职人员。目标对象的相关信息可以包括但不限于目标对象的身份信息。身份信息可以包括但不限于目标对象的姓名、年龄、身份证、手机号等联系方式;目标对象的相关信息还可以包括履历信息,履历信息包括但不限于目标对象在以往时间区间内的学习经历、职业经历等。
在一些实施例中,可以通过获取目标对象的简历来获得目标对象的相关信息。在目标对象的相关信息为目标对象的简历时,该简历可以是一种结构化的信息,也可以是一般的文本信息,下面以举例的方式阐述,从工作经验及教育背景中可以获取第一关联组合。
例如,背景调查平台获取的一份简历信息如下:
姓名:张三
工作经历
2011-2013:百度,软件工程师
工作期间,主要负责在线地图的数据库开发与维护工作。
2013-2015:阿里巴巴,人工智能架构师
工作期间,参与阿里巴巴人工智能系统的分布式存储系统的设计与开发。
教育背景:
2008-2011:北京大学,计算机硕士
研究生期间,参与了智能语义分析的算法开发,使用了深度神经网络、霍夫曼树等方法。
通过解析上述例子中的工作经验及教育背景,背景调查平台可以获取三个第一关联组合,分别为:(1)2008-2011,北京大学:语义分析、深度神经网络、霍夫曼树;(2)2011-2013,百度:在线地图、数据库开发;(3)2013-2015,阿里巴巴:分布式存储,人工智能。
S102,根据所述相关信息获取所述目标对象的第一科研公开数据。
目标用户在以往的工作中会产生科研公开数据,科研公开数据包括但不限于发表的文章、论文、专利文献、科技新闻或互联网(论坛、blog、SNS、问答系统等)等。根据目标用户的相关信息,例如姓名和/或身份证号等,获取目标用户的科研公开数据,这些科研公开数据中包括专业知识和时间节点信息。例如,科研公开数据为目标用户发表的期刊文章,专业知识为该期刊文章涉及的专业知识,时间节点信息包括该期刊文章的发表时间。再例如,科研公开数据为专利文献,专业知识为该专利文献的发明点所涉及的技术知识,时间节点信息包括专利文献的申请时间等。
在一些实施例中,背景调查平台至少包括一个专利信息数据库,该专利信息数据库可以为本地存储的数据库或能够通过远程访问的数据库,通过访问背景调查平台上的专利信息数据库可以获取目标用户的科研公开数据,即专利文献数据。还可以通过访问现有的国内外的专利数据库获取专利文献数据,例如中国国家知识产权局检索平台、PCT国际专利检索网站等提供的专利数据库。
在另一些实施例中,背景调查平台可以通过访问万方数据库及中国知网等获取目标用户的论文数据,通过访问百度、Google等搜索引擎获取目标用户的科技新闻或互联网(论坛、blog、SNS、问答系统等)等公开的数据。
S103,根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
具体地,预设的结构化知识数据库可以为包括已知的各种技术信息,以及技术信息之间的结构关系的数据库。第一技术信息包括但不限于大的技术领域和/或细分技术领域下的各种技术相关的技术特征词和/或文本等,例如计算机、通信、互联网、人工智能、航空、航天、5G通信、无人机等;第一技术信息之间的结构化知识关系也可以理解为技术信息之间的关联关系,例如包含与被包含的上下位关系、并列关系、领域交叉关系、属于同一技术领域的两种并列技术等,例如无人机与多旋翼无人机为包含与被包含的关系,无人机为多旋翼无人机的大领域,而多旋翼无人机为五人家下面的一个细分领域。图2示出了无人机这一技术信息相关的结构化知识关系示意图,如图2所示,无人机包括多个子领域,分别是多旋翼无人机、固定翼无人机、涵道式无人机、垂直起降无人机。其中,无人机为一个母领域,多旋翼无人机等是一个子领域。需要说明的是,上述说明仅为了理解结构化知识关系而进行的描述,结构化知识关系并非上述简单的知识数据,而在理想情况下是一个能够囊括所有技术信息,并能够表述出各种技术信息之间的任何关联关系的知识数据。当然,在实际应用中,可以根据实际情况以及所在的领域建立相关技术信息之间的结构化知识关系。
在一些实施例中,在获取了目标对象的第一科研公开数据之后,可以通过第一科研公开数据中涉及的技术内容将第一科研公开数据映射至结构化知识数据库中的某个或某些第一技术信息上,进而通过被映射至的第一技术信息以及该第一技术信息所涉及的结构化知识关系对目标对象的技术背景进行调查。例如,目标对象在以往学习和/或工作中发表了多篇论文,并且申请了多件专利文献,那么可以通过将这些论文以及专利文献映射至结构化知识数据库中的方式,能够初步确定目标对象所熟悉的技术领域、所擅长的专业知识等。
由于结构化知识数据库中包括的第一技术信息以及第一技术信息的结构化知识关系是一种从技术角度触发、分层次、分类别建立的符合自然规律的结构化知识数据,并且是一种清晰易懂数据,因此,将科研公开数据按照技术相关性映射至结构化知数数据库之后,能够清晰而完整的了解科研公开数据在结构化知识数据库中所涉及的结构化知识,最终通过本公开这种方式能够得到较为客观而准确的调查结果。
本公开实施例,通过目标对象也即被调查人的相关信息获取该目标对象的科研公开数据,并根据科研公开数据以及已知的结构化知识数据库之间的映射关系调查目标对象的技术背景,从而能够基于互联网平台,通过大数据分析以及人工智能等领域的技术知识,从目标对象可能公开的科研公开数据中获取目标对象擅长的技术知识,并基于已知的技术信息以及技术信息之间的结构化知识数据,快速而准确地调查出目标对象较为全面的技术背景。
在一些可选的实施例中,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
该可选的实施例中,目标用户的相关信息还可以包括目标用户申请过的专利文献标识,例如专利申请号、公开号和/或公开日等。在获取目标用户的第一科研公开数据时,还可以通过该专利文献标识从专利数据库中提取对应的专利文献,并获取该专利文献的信息,例如技术领域、技术问题、技术手段等,以对目标对象的技术背景进行调查。
在一些可选的实施例中,如图3所示,步骤S103即根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景,包括:
S301,获取所述第一科研公开数据中的第二技术信息;
S302,将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
S303,根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
该可选的实施例中,第二技术信息与第一技术信息类似,可以包括但不限于大的技术领域和/或细分技术领域下的各种技术相关的技术特征词和/或文本等。在一些实施例中,第一科研公开数据可以为目标用户发表的期刊文章、论文、专利文献等结构化数据时,对于结构化数据,可以通过正则匹配等方式从结构化数据中解析出第二技术信息。例如,专利文献的结构化信息包括申请人、申请日、摘要、权利要求书及说明书等,期刊文章、论文的结构化信息包括题名、作者、摘要、关键词、通讯单位及参考文献等;其中,第二技术信息可以从摘要、权利要求书、说明书、关键词、参考文献等提取。
在另一些实施例中,科研公开数据为科技新闻或互联网(论坛、blog、SNS、问答系统等)等非结构化数据类型时,可以从中获取关键信息,再对该关键信息进行处理后,得到第二技术信息。
通过解析第一科研公开数据获得第二技术信息以后,可以通过特征词匹配和/或相似度计算,将第一科研公开数据映射至结构化知识数据库中的一个或多个第一技术信息上。例如,可以通过将第二技术信息与第一技术信息进行特征词匹配,或者计算第二技术信息与第一技术信息中关键词之间的相似度,将相似度大于预设阈值或者相似度最大的一个或多个第一技术信息作为与第二技术信息相匹配的第一技术信息。在确定了相匹配的第一技术信息后,可以根据相匹配的第一技术信息以及第一技术信息在结构化知识数据库中的结构化知识关系对目标对象的技术背景进行调查。
下面将以专利文献数据为例来描述技术背景调查的其中一种实现方式。
例如,发明人张三包括以下专利:
CN2012xxxx,一种多旋翼无人机自动充电方法
通过对该专利文献的解析,可以将该专利文献映射到如图2所示的结构化知识数据中的多旋翼无人机节点之上。在该专利文献中,权利要求部分可能还包含类似的描述:
一个图像识别模块,用于识别充电接口的状态
也就是说,对一个专利文献的解析也可能导致一个专利文献被映射到不同的节点之上,此处通过权利要求该专利文献还能够被映射到人工智能-图像识别节点之上。
那么经过上述映射可以初步确认,目标对象在无人机以及人工智能方面上具有专业知识,尤其是在多旋翼无人机和图像识别方面。
在一些可选的实施例中,步骤S303即根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景,包括:
根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
该可选的实现方式中,对目标对象的技术背景调查包括但不限于对目标对象的技术领域的调查、目标对象与其他人员之间的合作竞争关系的调查,目标对象与机构之间的合作竞争关系中至少之一的调查。本公开实施例提出的上述方案除了能够调查目标对象的技术领域之外,也可以得到多个目标对象或目标对象与机构之间的背景调查。例如,一个结构化知识数据可以是技术领域和技术问题之间的结构化知识数据,例如5G通信领域和大规模阵列天线为技术领域和技术手段的对应关联关系。当一个目标对象的大量科研公开数据被映射到大规模阵列天线时,并且其前雇主为5G通信设备供应商时,可以判断该目标对象存在潜在的竞业禁止风险,尽管自述或科研公开数据的内容中并没有直接出现5G通信的关键词。这是由于,系统在建立结构化知识数据库时,从其他科研公开数据中提取出了大规模阵列天线与5G通信之间的结构化关系。
再例如,无人驾驶汽车与激光雷达之间为技术领域与技术方案之间的对应关联关系,而人力资源业务经常需要对具体的细分技能进行划分,从而使得寻找的潜在候选人能够分布到不同的专业方向之上。因此,当一个目标对象的背景确实符合无人驾驶汽车这个领域时,本公开实施例仍然能够根据其科研公开数据中映射到激光雷达节点的比例得到更精细化的背景调查结果。例如,通过人机接口输入调查请求:
姓名:张三;
背景:无人驾驶;
则本本公开实施例能够自动通过结构化知识数据库,给出以下背景调查信息:
目标对象“张三”在无人驾驶领域的技能:验证通过;
补充信息:
目标对象“张三”在无人驾驶使用的激光雷达领域拥有五年经验;
目标对象“张三”开发过激光雷达光学器件、激光雷达信号处理算法。
在一些可选的实施例中,上述步骤中根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域,包括:
根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
该可选的实施例中,通过映射的方式,不但可以调查得到目标对象涉及的技术领域,还能够进一步调查出目标对象在技术领域中的擅长程度。
例如,通过将大量的第一科研公开数据映射到结构化知识数据库中的不同节点之上之后,可以根据映射结果调查出目标对象在技术领域中的擅长程度。例如在接收到目标对象的自述技能包括人工智能技术,其映射结果显示在图像识别节点之上包括大量的第一科研公开数据,此时可以对自述技能得到确认的验证。再例如,自述技能包括人工智能,而映射结果显示大量的专利被映射到固定翼无人机的节点,仅有少量被映射到图像识别节点之上。由于结构化知识数据库中的结构化知识关系代表了技术领域之间的距离,因此可以验证该目标对象仅在人工智能有少量经验,而大量经验集中在固定翼无人机相关的技术领域。在一些实施例中,上述调查还可以通过科研公开数据与结构化知识数据库中的节点之间的匹配数量、匹配程度等参数通过线性加权得到,此处有多种方法,具体不做限定。
在一些可选的实施例中,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系、和/或技术问题与技术手段之间的对应关系。
该可选的实现方式中,第一技术信息作为结构化知识数据库中的节点,可以包括但不限于技术领域、技术问题和/或技术手段;而所述第一技术信息之间的结构化知识关系也即结构化知识数据库中各节点之间的关系包括但不限于技术领域之间的关系、技术问题与技术领域之间的对应关系和/或技术问题与技术手段之间的对应关系。在建立知识数据库时,可以通过收集第一技术信息,并基于第一技术信息之间的对应关系,例如第一技术信息涉及技术领域,则可以确定该第一技术信息与其他涉及技术领域的技术信息之间的关系,如毫无关系,子领域和母领域的关系,同属同一母领域的关系等,将这种技术领域之间的关系作为结构化知识数据库中两第一技术信息之间的结构化知识关系。同理,第一技术信息A涉及技术领域,而第一技术信息B涉及第一技术信息A这一技术领域中的某个技术问题,那么可以在第一技术信息A和B之间建立技术领域和技术问题之间的对应关系;第一技术信息C涉及技术问题,而第一技术信息D为解决第一技术信息C这一技术问题的技术手段,则可以在第一技术信息C和D之间建立技术问题与技术手段的对应关系。
在一些可选的实施例中,所述方法还包括:
获取多个第二科研公开数据;
根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
该可选的实施例中,结构化知识数据库中的结构化知识至少可以通过两种方式获得:第一、解析科研公开数据例如期刊文章、论文、专利文献、互联网上的微博、博客、论坛帖子、科技新闻等获得;第二、可以通过人工输入的方式生成结构化知识。第一种方式的其中一种实现过程至少包括:解析科研公开数据中文本的分词、文本的编码例如使用word2vector的文本编码信息,进而得到计算机可以处理的编码数据;进一步,从编码后的数据中提取出至少一个知识片段,并最后根据知识片段生成结构化知识。
下面结合具体的实施例给出第一种方式的一种实现过程:
在背景调查过程中,无论是基于人工的方式还是基于互联网大数据的方式,其本质的目的是验证被调查人的经历、技能的真实性。对于一些简单的信息,只要获得可信的数据源,例如毕业院校、信用记录等信息就可以快速、高效的完成验证。然而,涉及高度专业的技能背景数据则无法较为方便的完成验证。科研公开数据作为一种技术文档,包含了一个科研人员的技能信息。然而,只是给一个调查者返回被调查者的科研公开数据,无法直接完成背景调查。一些方法能够对专利数据进行深入分析,例如计算两个专利的相似性,并给出不同发明人的技术领域的相似性,然而这种信息也无法为背景调查给出精准的指示。以上问题存在的原因,在于目前的分析方法无法给出精准的结构化关系。或者说,专利数据中隐含的结构性知识才是能够用于指导背景调查的最终信息形态。为了便于理解,下面给出一些背景调查中需要回答的问题,例如一个调查者对一个被调查者的专业技能的调查,需要了解以下类似的问题:
1:你过往的研发经验属于哪个领域?
2:你开发了哪些创新的解决方案?
3:你与另外一个发明人是否存在合作关系?
4:你与另内一个机构是否存在竞业禁止的可能?
从以上问题可以看到,以上问题之所以较难回答,是因为调查的关系背后是基于技能的关联性。例如,当一个被调查者继续从事与前雇主相同的技术领域时,就存在一定的竞业限禁止风险,反之如果新的技术领域与前雇主之间属于差异较大的两个技术领域时,则竞业禁止风险较低。
因此,通过人工设置或科研公开数据解析的方法,本公开实施例可以得到结构化的知识。在科研公开数据中,尤其是背景技术处往往包含大量所在技术领域的知识,这些知识往往集中在某些知识片段中。因此,通过特征提取的方式,可以轻易得到结构化知识。例如在CN108664036A专利申请文献中,说明书部分带有以下描述:
多旋翼无人机是一种具有三个及其以上旋翼轴的特殊无人驾驶悬系无人机,它可以进行遥控飞行或者程控自主飞行,已经在航拍、农业、军事等领域得到了广泛的应用。
该知识片段中就包括了结构化的知识,也就是多旋翼无人机是一种无人机。因此,通过特征提取或SAO(subject-action-object)分析等手段,知识片段中的知识结构可以被自动提取出来,并组成如图2所示的结构化知识。具体的,系统首先通过预定义的特征来识别一个知识片段,例如通过模板匹配的方式,能够判断当前语句是否为一个本体知识或领域知识。进一步,系统通过特征匹配的方式,判断知识的结构化属性,并将知识片按照结构化属性进行拆分。在本示例中,多旋翼无人机是一种特定的无人机为一个领域和子领域属性,该属性的判断可以通过关键词或训练一个语义分析的LSTM模型来完成。进一步,系统根据关键词可以判断多旋翼无人机做主语,为子领域,无人机做宾语,为母领域,并相应完成一个结构化知识(如图2所示)的构建。
以上是本公开提供的技术背景数据的处理方法的具体实施方式。
图4是根据本公开的一些实施例所示的技术背景数据的处理装置示意图。如图4所示,技术背景数据的处理装置包括第一获取模块401、第二获取模块402和调查模块403。其中:
第一获取模块401,用于获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;
第二获取模块402,用于根据所述相关信息获取所述目标对象的第一科研公开数据;
调查模块403,用于根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
在一些可选的实施例中,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
在一些可选的实施例中,所述调查模块包括:
第一获取子模块,用于获取所述第一科研公开数据中的第二技术信息;
第二获取子模块,用于将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
第一调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
在一些可选的实施例中,所述第一调查子模块包括:
第二调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
在一些可选的实施例中,所述第一调查子模块,包括:
第三调查子模块,用于根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
在一些可选的实施例中,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系、和/或技术问题与技术手段之间的对应关系。
在一些可选的实施例中,所述装置还包括:
第三获取模块,用于获取多个第二科研公开数据;
确定模块,用于根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
提取模块,用于从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
本实施例提出的技术背景数据的处理装置与图1所示实施例及相关实施例中提出的技术背景数据的处理方法对应一致,具体细节可参见上述对技术背景数据的处理方法的描述,在此不再赘述。
图5是适于用来实现根据本公开实施方式的技术背景数据的处理方法的电子设备的结构示意图。
如图5所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述图1所示的实施方式中的各种处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
综上所述,本公开提出了一种技术背景数据的处理方法、装置、电子设备及其计算机可读存储介质。本公开实施例,通过目标对象也即被调查人的相关信息获取该目标对象的科研公开数据,并根据科研公开数据以及已知的结构化知识数据库之间的映射关系调查目标对象的技术背景,从而能够基于互联网平台,通过大数据分析以及人工智能等领域的技术知识,从目标对象可能公开的科研公开数据中获取目标对象擅长的技术知识,并基于已知的技术信息以及技术信息之间的结构化知识数据,快速而准确地调查出目标对象较为全面的技术背景。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (16)
1.一种技术背景数据的处理方法,其特征在于,包括:
获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;
根据所述相关信息获取所述目标对象的第一科研公开数据;
根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
2.根据权利要求1所述的技术背景数据的处理方法,其特征在于,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
3.根据权利要求1或2所述的技术背景数据的处理方法,其特征在于,根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景,包括:
获取所述第一科研公开数据中的第二技术信息;
将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
4.根据权利要求3所述的技术背景数据的处理方法,其特征在于,根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景,包括:
根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
5.根据权利要求3所述的技术背景数据的处理方法,其特征在于,根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域,包括:
根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
6.根据权利要求1-5任一项所述的技术背景数据的处理方法,其特征在于,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系和/或技术问题与技术手段之间的对应关系。
7.根据权利要求3所述的技术背景数据的处理方法,其特征在于,还包括:
获取多个第二科研公开数据;
根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
8.一种技术背景数据的处理装置,其特征在于,包括:
第一获取模块,用于获取目标对象的相关信息;其中,所述相关信息至少包括身份信息;
第二获取模块,用于根据所述相关信息获取所述目标对象的第一科研公开数据;
调查模块,用于根据所述第一科研公开数据与预设的结构化知识数据库之间的映射关系调查所述目标对象的技术背景;其中,所述结构化知识数据库包括多个第一技术信息和/或第一技术信息之间的结构化知识关系。
9.根据权利要求8所述的技术背景数据的处理装置,其特征在于,所述第一科研公开数据包括所述目标对象申请过的专利文献数据,所述相关信息还包括所述目标对象申请过的专利文献标识。
10.根据权利要求8或9所述的技术背景数据的处理装置,其特征在于,所述调查模块,包括:
第一获取子模块,用于获取所述第一科研公开数据中的第二技术信息;
第二获取子模块,用于将所述第二技术信息与所述预设的结构化知识数据库进行映射,以获得与所述第一科研公开数据相匹配的第一技术信息;
第一调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术背景。
11.根据权利要求10所述的技术背景数据的处理装置,其特征在于,所述第一调查子模块,包括:
第二调查子模块,用于根据所述第一技术信息以及所述第一技术信息之间的结构化知识关系调查所述目标对象的技术领域、与所述目标对象具有合作竞争关系的其他人员、与所述目标对象具有合作竞争关系的机构。
12.根据权利要求10所述的技术背景数据的处理装置,其特征在于,所述第一调查子模块,包括:
第三调查子模块,用于根据与所述第一技术信息相匹配的所述第一科研公开数据的数量和/或匹配程度调查所述目标对象对技术领域的擅长程度。
13.根据权利要求8-12任一项所述的技术背景数据的处理装置,其特征在于,所述第一技术信息或第二技术信息包括技术领域、技术问题和/或技术手段;所述第一技术信息之间的结构化知识关系包括技术领域之间的关系、技术问题与技术领域之间的对应关系和/或技术问题与技术手段之间的对应关系。
14.根据权利要求10所述的技术背景数据的处理装置,其特征在于,还包括:
第三获取模块,用于获取多个第二科研公开数据;
确定模块,用于根据所述第二科研公开数据中的分词确定第二科研公开数据的编码数据;
提取模块,用于从所述编码数据中提取至少一个知识片段,并根据所述知识片段得到的结构化知识形成所述结构化知识数据库。
15.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625377.0A CN109857793A (zh) | 2018-12-28 | 2018-12-28 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625377.0A CN109857793A (zh) | 2018-12-28 | 2018-12-28 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857793A true CN109857793A (zh) | 2019-06-07 |
Family
ID=66892933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811625377.0A Pending CN109857793A (zh) | 2018-12-28 | 2018-12-28 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857793A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522911A (zh) * | 2020-04-16 | 2020-08-11 | 创新奇智(青岛)科技有限公司 | 实体链接方法、装置、设备及存储介质 |
CN112000811A (zh) * | 2020-08-25 | 2020-11-27 | 北京搜狗科技发展有限公司 | 一种医生信息的处理方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020084986A (ko) * | 2001-05-03 | 2002-11-16 | 현대자동차주식회사 | 지적재산 시스템의 다자간 선행기술조사 시스템 및 그 방법 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN104809106A (zh) * | 2015-05-15 | 2015-07-29 | 合肥汇众知识产权管理有限公司 | 一种专利方案的挖掘系统及挖掘方法 |
CN105426435A (zh) * | 2015-11-04 | 2016-03-23 | 深圳市前海七号网络科技有限公司 | 专业人才数据处理方法及服务器 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
-
2018
- 2018-12-28 CN CN201811625377.0A patent/CN109857793A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020084986A (ko) * | 2001-05-03 | 2002-11-16 | 현대자동차주식회사 | 지적재산 시스템의 다자간 선행기술조사 시스템 및 그 방법 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN104809106A (zh) * | 2015-05-15 | 2015-07-29 | 合肥汇众知识产权管理有限公司 | 一种专利方案的挖掘系统及挖掘方法 |
CN105426435A (zh) * | 2015-11-04 | 2016-03-23 | 深圳市前海七号网络科技有限公司 | 专业人才数据处理方法及服务器 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522911A (zh) * | 2020-04-16 | 2020-08-11 | 创新奇智(青岛)科技有限公司 | 实体链接方法、装置、设备及存储介质 |
CN112000811A (zh) * | 2020-08-25 | 2020-11-27 | 北京搜狗科技发展有限公司 | 一种医生信息的处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mena‐Chalco et al. | Brazilian bibliometric coauthorship networks | |
US10496749B2 (en) | Unified semantics-focused language processing and zero base knowledge building system | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
CN112711937A (zh) | 一种模板推荐方法、装置、设备及存储介质 | |
CN109493265A (zh) | 一种基于深度学习的政策解读方法及政策解读系统 | |
CN113377850A (zh) | 认知物联网大数据技术平台 | |
CN111753198A (zh) | 信息推荐方法和装置、以及电子设备和可读存储介质 | |
CN108874783A (zh) | 电力信息运维知识模型构建方法 | |
CN111813961B (zh) | 基于人工智能的数据处理方法、装置及电子设备 | |
CN109947952A (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
US11354345B2 (en) | Clustering topics for data visualization | |
CN112148890A (zh) | 基于网络群体智能的教学知识点图谱系统 | |
KR20180009408A (ko) | 소셜 네트워크 분석과 온톨로지를 이용한 장소성 추출 시스템 및 방법 | |
CN109857793A (zh) | 技术背景数据的处理方法、装置、电子设备及存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN117171355A (zh) | 一种文化基因知识图谱的构建方法及装置 | |
CN104216880A (zh) | 基于互联网的术语定义辨析方法 | |
Chen et al. | Research on Data Analysis and Visualization of Recruitment Positions Based on Text Mining | |
CN115640403A (zh) | 基于知识图谱的知识管控方法及装置 | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
US20220004718A1 (en) | Ontology-Driven Conversational Interface for Data Analysis | |
CN109885647B (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
CN110716994B (zh) | 一种支持异构地理数据资源检索的检索方法及装置 | |
CN113377739A (zh) | 知识图谱应用方法、平台、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |