CN110110193A - 一种信息处理方法、装置及计算机可读存储介质 - Google Patents

一种信息处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110110193A
CN110110193A CN201910335459.XA CN201910335459A CN110110193A CN 110110193 A CN110110193 A CN 110110193A CN 201910335459 A CN201910335459 A CN 201910335459A CN 110110193 A CN110110193 A CN 110110193A
Authority
CN
China
Prior art keywords
sentence
information
webpage
collections
web pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910335459.XA
Other languages
English (en)
Other versions
CN110110193B (zh
Inventor
姚从磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bailian Intelligent Technology Co Ltd
Original Assignee
Beijing Bailian Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bailian Intelligent Technology Co Ltd filed Critical Beijing Bailian Intelligent Technology Co Ltd
Priority to CN201910335459.XA priority Critical patent/CN110110193B/zh
Publication of CN110110193A publication Critical patent/CN110110193A/zh
Application granted granted Critical
Publication of CN110110193B publication Critical patent/CN110110193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息处理方法、装置及存储介质,包括:服务器获取目标人物的信息;获取包含目标人物的信息的第一网页集合;从第一网页集合中获取目标人物的简历信息。本申请实现了目标人物的简历信息的自动获取,从而避免了时间和精力的耗费,提高了简历信息的获取效率。

Description

一种信息处理方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种信息处理方法、装置及计算机可读存储介质。
背景技术
简历信息是包含特定人物主要的学习经历和工作经历,反映该人物生活工作中的大事件的信息。
相关技术中,当需要获取特定人物的简历信息时,需要用该人物的姓名在搜索引擎中搜索,然后对一条条搜索结果中进行阅读判断,以获得该人物较为全面的简历信息。
然而,这种获取简历信息的方式依靠人工,需要消耗大量的时间和精力,因此简历信息的获取效率低下。
发明内容
为了解决上述技术问题,本发明实施例提供一种信息处理方法、装置及计算机可读存储介质,能够自动获取目标人物的简历信息,因此避免时间和精力的耗费,从而提高简历信息的获取效率。
为了达到本发明实施例目的,本发明实施例提供了一种信息处理方法,包括:
服务器根据目标人物的信息获取第一网页集合;
从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合;
根据所述第一语句集合中语句的信息量和类别,获取所述目标人物的简历信息。
所述从第一网页集合中获取表示目标人物的经历的第一语句集合,包括:
从所述第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取所述第一语句集合。
所述获取第一语句集合,包括:
基于所述第一网页集合并利用第一神经网络模型,得到表示所述目标人物的经历的第二语句集合;
从所述第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合;
对所述第三语句集合中每一条语句进行分词,得到词向量;
获取所述第三语句集合中每一条语句对应的词向量的信息熵,作为该语句的信息熵;
从所述第三语句集合中获取满足第二预设条件的语句,得到所述第一语句集合;其中,所述第二预设条件包括以下至少之一:所述信息熵大于第一阈值,所述信息熵从大到小排序在前第一预设位数。
所述基于第一网页并利用第一神经网络模型之前,还包括:
获取包含人物经历的语句集合和段落集合,并获取不包含人物经历的语句集合和段落集合;
将所述包含人物经历的语句集合和段落集合,以及所述不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练,得到所述第一神经网络模型。
所述基于第一网页集合并利用第一神经网络模型,得到表示目标人物的经历的第二语句集合,包括:
将所述第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于所述预设数值的第三网页集合;
利用所述第一神经网络模型,以段落为单位处理所述第二网页集合,得到表示所述目标人物的经历的第四语句集合;
利用所述第一神经网络模型,以语句为单位处理所述第三网页集合,得到表示所述目标人物的经历的第五语句集合;
合并所述第四语句集合和所述第五语句集合,得到所述第二语句集合。
所述利用第一神经网络模型,以段落为单位处理第二网页集合,得到表示目标人物的经历的第四语句集合,包括:
将所述第二网页集合的每一个网页的每一段落文本输入至所述第一神经网络模型,得到该段落文本是否包含所述目标人物的经历的第一判定信息;
从所述第二网页集合的每一个网页中获取所述第一判定信息为包含所述目标人物的经历,且所述目标人物的姓名出现次数大于其他人物的姓名出现次数的段落;
将获得的段落按语句进行拆分,得到所述第四语句集合。
所述利用第一神经网络模型,以语句为单位处理第三网页集合,得到表示目标人物的经历的第五语句集合,包括:
将所述第三网页集合的网页中的内容按语句进行拆分,得到第六语句集合;
将所述第六语句集合的每一个语句输入至所述第一神经网络模型,得到该语句是否包含所述目标人物的经历的第二判定信息;
获取所述第二判定信息为包含所述目标人物的经历的语句,得到所述第五语句集合。
所述从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合,包括:
获取所述第二语句集合中每一条语句的所属网页的网页排名,作为该语句的所属网页的可靠程度的得分;
获取所述第二语句集合中每一条语句分词后生成的词向量的信息熵,作为该语句的信息量的得分;
获取所述第二语句集合中每一条语句标点符号和正文长度的比值,作为该语句的质量的得分;
设置所述可靠程度的得分的权系数、所述信息量的得分的权系数和所述质量的得分的权系数;其中,所述可靠程度的得分的权系数、所述信息量的得分的权系数和所述质量的得分的权系数的和为1;
将所述第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权,得到每一条语句的综合得分;
获取综合得分大于第二阈值的语句,得到所述第三语句集合。
所述根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息,包括:
对所述第一语句集合中的语句进行聚类,得到若干个语句类;
采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句,直到获得的语句数目达到预设条目数,得到所述目标人物的简历信息。
所述根据目标人物的信息获取第一网页集合,包括:
根据所述目标人物的信息获取包含所述信息的第四网页集合;
从所述第四网页集合中根据网页的质量和重要程度获取所述第一网页集合。
所述从第四网页集合中根据网页的质量和重要程度获取第一网页集合,包括:
获取所述第四网页集合的每一个网页的质量和重要程度;
根据获得的每一个网页的质量和重要程度获取每一个网页与所述目标人物的相关程度;
从所述第四网页集合中获取所述相关程度满足所述第三预设条件的网页,得到所述第一网页集合;所述第三预设条件包括以下至少之一:所述相关程度大于第三阈值,所述相关程度由高到低排序在前第二预设位数。
所述获取第一网页集合的每一个网页的质量和重要程度,包括:
判断所述第四网页集合的每一个网页中是否包含地名信息和时间信息;
当所述第四网页集合的网页中包含地名信息和时间信息,统计该网页中姓名和单位名称出现在同一语句中的语句数,作为该网页的质量的得分;
获取该网页的网页排名作为该网页的重要程度的得分。
当所述第四网页集合的网页中不包含所述地名信息和所述时间信息,还包括:
将该网页的质量的得分记为0;
获取该网页的网页排名作为该网页的重要程度的得分。
所述根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度,包括:
设置所述质量的得分的权系数和所述重要程度的得分的权系数;其中,所述质量的得分的权系数和所述重要程度的得分的权系数和为1;
将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权,得到每一个网页与所述目标人物的相关程度的得分。
所述得到目标人物的简历信息之后,还包括:
按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合,得到整合后的所述目标人物的简历信息;
将整合后的所述目标人物的简历信息输入至第二神经网络模型,得到符合预设格式的所述目标人物的简历信息。
所述将整合后的目标人物的简历信息输入至第二神经网络模型之前,还包括:
获取简历信息的格式不符合所述预设格式的第一信息集合和符合所述预设格式的第二信息集合;其中,所述第一信息集合和所述第二信息集合中的简历信息所对应的人物以及内容都相同;
将所述第一信息集合中的简历信息和所述第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练,得到所述第二神经网络模型。
所述第一神经网络模型包括:卷积神经网络模型。
所述第二神经网络模型包括:长短期记忆网络模型。
本发明实施例还提供了一种服务器,包括:
第一处理模块,用于根据目标人物的信息获取第一网页集合;
第二处理模块,用于从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合;
第三处理模块,用于根据所述第一语句集合中语句的信息量和类别,获取所述目标人物的简历信息。
本发明实施例还提供了一种信息处理装置,包括:存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种信息处理方法。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行上述任意一种信息处理方法。
本发明实施例至少包括:服务器获取目标人物的信息;获取包含目标人物的信息的第一网页集合;从第一网页集合中获取目标人物的简历信息。因此实现了目标人物的简历信息的自动获取,从而避免了时间和精力的耗费,提高了简历信息的获取效率。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种信息处理方法,如图1所示,该方法包括:
步骤101、服务器根据目标人物的信息获取第一网页集合。
在一种示例性实例中,目标人物的信息包括:目标人物的姓名和单位名称,该步骤具体可以通过网页爬虫的方法获取,网页爬虫的爬取模式可以包括以下两种:一种是给定种子网页利用网页链接关系向外扩展爬取越来越多网页,另一种是给定网站爬取网站所有网页内容,其中,网页爬虫具备直译式脚本语言Javascript解析功能,支持动态内容爬取,可以高效爬取新的网页并及时发现已经下线的网页。
步骤102、从第一网页集合中获取表示目标人物的经历的第一语句集合。
步骤103、根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息。
本发明实施例所提供的信息处理方法,服务器根据目标人物的信息获取第一网页集合;从第一网页集合中获取表示目标人物的经历的第一语句集合;根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息。因此实现了目标人物的简历信息的自动获取,从而避免了时间和精力的耗费,提高了简历信息的获取效率。
在一种示例性实例中,从第一网页集合中获取表示目标人物的经历的第一语句集合,包括:
从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合。
在一种示例性实例中,从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合,包括:
步骤201、基于第一网页集合并利用第一神经网络模型,得到表示目标人物的经历的第二语句集合。
步骤202、从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合。
在一种示例性实例中,语句的所属网页的可靠程度也是语句的所来源网页的可靠度。
步骤203、对第三语句集合中每一条语句进行分词,得到词向量。
步骤204、获取第三语句集合中每一条语句对应的词向量的信息熵,作为该语句的信息熵。
步骤205、从第三语句集合中获取满足第二预设条件的语句,得到第一语句集合。
其中,第二预设条件包括以下至少之一:信息熵大于第一阈值,信息熵从大到小排序在前第一预设位数。
在一种示例性实例中,基于第一网页并利用第一神经网络模型之前,还包括:
步骤206、获取包含人物经历的语句集合和段落集合,并获取不包含人物经历的语句集合和段落集合。
步骤207、将包含人物经历的语句集合和段落集合,以及不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练,得到第一神经网络模型。
在一种示例性实例中,包含人物经历的语句集合和段落集合为正例训练数据集,不包含人物经历的语句集合和段落集合为负例训练数据集。
在一种示例性实例中,基于第一网页集合并利用第一神经网络模型,得到表示目标人物的经历的第二语句集合,包括:
步骤301、将第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于预设数值的第三网页集合。
步骤302、利用第一神经网络模型,以段落为单位处理第二网页集合,得到表示目标人物的经历的第四语句集合。
步骤303、利用第一神经网络模型,以语句为单位处理第三网页集合,得到表示目标人物的经历的第五语句集合。
步骤304、合并第四语句集合和第五语句集合,得到第二语句集合。
在一种示例性实例中,利用第一神经网络模型,以段落为单位处理第二网页集合,得到表示目标人物的经历的第四语句集合,包括:
步骤401、将第二网页集合的每一个网页的每一段落文本输入至第一神经网络模型,得到该段落文本是否包含目标人物的经历的第一判定信息。
步骤402、从第二网页集合的每一个网页中获取第一判定信息为包含目标人物的经历,且目标人物的姓名出现次数大于其他人物的姓名出现次数的段落。
步骤403、将获得的段落按语句进行拆分,得到第四语句集合。
在一种示例性实例中,利用第一神经网络模型,以语句为单位处理第三网页集合,得到表示目标人物的经历的第五语句集合,包括:
步骤501、将第三网页集合的网页中的内容按语句进行拆分,得到第六语句集合。
步骤502、将第六语句集合的每一个语句输入至第一神经网络模型,得到该语句是否包含目标人物的经历的第二判定信息。
步骤503、获取第二判定信息为包含目标人物的经历的语句,得到第五语句集合。
在一种示例性实例中,从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合,包括:
步骤601、获取第二语句集合中每一条语句的所属网页的网页排名,作为该语句的所属网页的可靠程度的得分。
在一种示例性实例中,语句的所属网页的网页排名为网页的pagerank值。
步骤602、获取第二语句集合中每一条语句分词后生成的词向量的信息熵,作为该语句的信息量的得分。
步骤603、获取第二语句集合中每一条语句标点符号和正文长度的比值,作为该语句的质量的得分。
步骤604、设置可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数。
其中,可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数的和为1。
步骤605、将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权,得到每一条语句的综合得分。
在一种示例性实例中,假设可靠程度的得分的权系数为0.4,信息量的得分的权系数为0.35,质量的得分的权系数为0.25,将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权,得到每一条语句的综合得分指的是:将第二语句集合中每一条语句的所属网页的可靠程度的得分与0.4相乘,信息量的得分与0.35相乘,质量的得分与0.25相乘,然后将三个相乘得到的结果相加,得到每一条语句的综合得分。
步骤606、获取综合得分大于第二阈值的语句,得到第三语句集合。
在一种示例性实例中,根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息,包括:
步骤701、对第一语句集合中的语句进行聚类,得到若干个语句类。
步骤702、采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句,直到获得的语句数目达到预设条目数,得到目标人物的简历信息。
在一种示例性实例中,该步骤指的是按照广度优先的方式遍历语句类,并在每个语句类中按照信息熵优先的方式获取语句,直到获得的语句数目达到预设条目数,得到目标人物的简历信息。
假设步骤701得到的语句类有四类,分别是:就职经历语句类、教育经历语句类、投资经历语句类、研究经历语句类,采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句,直到获得的语句数目达到预设条目数,得到目标人物的简历信息指的是:在第一个语句类(可以是就职经历语句类)中获取信息熵最大的一条语句,在第二个语句类(可以是教育经历语句类)中获取信息熵最大的一条语句,在第三个语句类(可以是投资经历语句类)中获取信息熵最大的一条语句,在第三个语句类(可以是研究经历语句类)中获取信息熵最大的一条语句;然后再在就职经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的),在教育经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的),在投资经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的),在研究经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的),循环往复,直到获得的语句数目达到预设条目数,得到目标人物的简历信息。这样可以确保最终的简历长度适中,信息量足够丰富,也能够将各种经历种类都覆盖,使得获得的简历信息更加完善。
在一种示例性实例中,根据目标人物的信息获取第一网页集合,包括:
步骤801、根据目标人物的信息获取包含信息的第四网页集合。
步骤802、从第四网页集合中根据网页的质量和重要程度获取第一网页集合。
在一种示例性实例中,从第四网页集合中根据网页的质量和重要程度获取第一网页集合,包括:
步骤901、获取第四网页集合的每一个网页的质量和重要程度。
步骤902、根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度。
步骤903、从第四网页集合中获取相关程度满足第三预设条件的网页,得到第一网页集合。
第三预设条件包括以下至少之一:相关程度大于第三阈值,相关程度由高到低排序在前第二预设位数。
在一种示例性实例中,获取第一网页集合的每一个网页的质量和重要程度,包括:
步骤1001、判断第四网页集合的每一个网页中是否包含地名信息和时间信息。
步骤1002、当第四网页集合的网页中包含地名信息和时间信息,统计该网页中姓名和单位名称出现在同一语句中的语句数,作为该网页的质量的得分。
步骤1003、获取该网页的网页排名作为该网页的重要程度的得分。
在一种示例性实例中,当第四网页集合的网页中不包含地名信息和时间信息,还包括:
步骤1004、将该网页的质量的得分记为0。
步骤1005、获取该网页的网页排名作为该网页的重要程度的得分。
在一种示例性实例中,根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度,包括:
步骤1101、设置质量的得分的权系数和重要程度的得分的权系数;其中,质量的得分的权系数和重要程度的得分的权系数和为1。
步骤1102、将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权,得到每一个网页与目标人物的相关程度的得分。
在一种示例性实例中,假设质量的得分为0.6,重要程度的得分为0.4,将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权,得到每一个网页与目标人物的相关程度的得分指的是:将每一个网页的质量的得分与0.6相乘,重要程度的得分与0.4相乘,然后将两个相乘得到的结果相加,得到每一个网页与目标人物的相关程度的得分。
在一种示例性实例中,得到目标人物的简历信息之后,还包括:
步骤1201、按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合,得到整合后的目标人物的简历信息。
在一种示例性实例中,简历信息的信息发生时间可以通过以下方式获取:根据来源网页的时间戳T1以及简历信息中时间信息T2中的最旧时间点信息,来确定该条简历信息的发生时间,比如一个2018.1.1的网页中提到小明出生于1980.9.12,则该简历信息的发生时间为1980.9.12。
步骤1202、将整合后的目标人物的简历信息输入至第二神经网络模型,得到符合预设格式的目标人物的简历信息。
在一种示例性实例中,将整合后的目标人物的简历信息输入至第二神经网络模型之前,还包括:
步骤1301、获取简历信息的格式不符合预设格式的第一信息集合和符合预设格式的第二信息集合;其中,第一信息集合和第二信息集合中的简历信息所对应的人物以及内容都相同。
步骤1302、将第一信息集合中的简历信息和第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练,得到第二神经网络模型。
在一种示例性实例中,第一神经网络模型包括:卷积神经网络模型
在一种示例性实例中,第二神经网络模型包括:长短期记忆网络模型。
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
第一处理模块21,用于根据目标人物的信息获取第一网页集合。
第二处理模块22,用于从第一网页集合中获取表示目标人物的经历的第一语句集合。
第三处理模块23,用于根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息。
在一种示例性实例中,第二处理模块22,具体用于从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合。
在一种示例性实例中,第二处理模块22具体用于:
基于第一网页集合并利用第一神经网络模型,得到表示目标人物的经历的第二语句集合。
从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合。
对第三语句集合中每一条语句进行分词,得到词向量。
获取第三语句集合中每一条语句对应的词向量的信息熵,作为该语句的信息熵。
从第三语句集合中获取满足第二预设条件的语句,得到第一语句集合。其中,第二预设条件包括以下至少之一:信息熵大于第一阈值,信息熵从大到小排序在前第一预设位数。
在一种示例性实例中,第二处理模块22具体用于:
获取包含人物经历的语句集合和段落集合,并获取不包含人物经历的语句集合和段落集合。
将包含人物经历的语句集合和段落集合,以及不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练,得到第一神经网络模型。
在一种示例性实例中,第二处理模块22具体用于:
将第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于预设数值的第三网页集合。
利用第一神经网络模型,以段落为单位处理第二网页集合,得到表示目标人物的经历的第四语句集合。
利用第一神经网络模型,以语句为单位处理第三网页集合,得到表示目标人物的经历的第五语句集合。
合并第四语句集合和第五语句集合,得到第二语句集合。
在一种示例性实例中,第二处理模块22具体用于:
将第二网页集合的每一个网页的每一段落文本输入至第一神经网络模型,得到该段落文本是否包含目标人物的经历的第一判定信息。
从第二网页集合的每一个网页中获取第一判定信息为包含目标人物的经历,且目标人物的姓名出现次数大于其他人物的姓名出现次数的段落。
将获得的段落按语句进行拆分,得到第四语句集合。
在一种示例性实例中,第二处理模块22具体用于:
将第三网页集合的网页中的内容按语句进行拆分,得到第六语句集合。
将第六语句集合的每一个语句输入至第一神经网络模型,得到该语句是否包含目标人物的经历的第二判定信息。
获取第二判定信息为包含目标人物的经历的语句,得到第五语句集合。
在一种示例性实例中,第二处理模块22具体用于:
获取第二语句集合中每一条语句的所属网页的网页排名,作为该语句的所属网页的可靠程度的得分。
获取第二语句集合中每一条语句分词后生成的词向量的信息熵,作为该语句的信息量的得分。
获取第二语句集合中每一条语句标点符号和正文长度的比值,作为该语句的质量的得分。
设置可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数。其中,可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数的和为1。
将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权,得到每一条语句的综合得分。
获取综合得分大于第二阈值的语句,得到第三语句集合。
在一种示例性实例中,第三处理模块23具体用于:
对第一语句集合中的语句进行聚类,得到若干个语句类。
采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句,直到获得的语句数目达到预设条目数,得到目标人物的简历信息。
在一种示例性实例中,第一处理模块21具体用于:
根据目标人物的信息获取包含信息的第四网页集合。
从第四网页集合中根据网页的质量和重要程度获取第一网页集合。
在一种示例性实例中,第一处理模块21具体用于:
获取第四网页集合的每一个网页的质量和重要程度。
根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度。
从第四网页集合中获取相关程度满足第三预设条件的网页,得到第一网页集合。第三预设条件包括以下至少之一:相关程度大于第三阈值,相关程度由高到低排序在前第二预设位数。
在一种示例性实例中,第一处理模块21具体用于:
判断第四网页集合的每一个网页中是否包含地名信息和时间信息。
当第四网页集合的网页中包含地名信息和时间信息,统计该网页中姓名和单位名称出现在同一语句中的语句数,作为该网页的质量的得分。
获取该网页的网页排名作为该网页的重要程度的得分。
在一种示例性实例中,当第四网页集合的网页中不包含地名信息和时间信息,第一处理模块21具体用于:
将该网页的质量的得分记为0。
获取该网页的网页排名作为该网页的重要程度的得分。
在一种示例性实例中,第一处理模块21具体用于:
设置质量的得分的权系数和重要程度的得分的权系数。其中,质量的得分的权系数和重要程度的得分的权系数和为1。
将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权,得到每一个网页与目标人物的相关程度的得分。
在一种示例性实例中,第一处理模块21具体用于:
按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合,得到整合后的目标人物的简历信息。
将整合后的目标人物的简历信息输入至第二神经网络模型,得到符合预设格式的目标人物的简历信息。
在一种示例性实例中,第一处理模块21具体用于:
获取简历信息的格式不符合预设格式的第一信息集合和符合预设格式的第二信息集合。其中,第一信息集合和第二信息集合中的简历信息所对应的人物以及内容都相同。
将第一信息集合中的简历信息和第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练,得到第二神经网络模型。
在一种示例性实例中,第一神经网络模型包括:卷积神经网络模型。
在一种示例性实例中,第二神经网络模型包括:长短期记忆网络模型。
本发明实施例所提供的服务器,根据目标人物的信息获取第一网页集合;从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合;根据所述第一语句集合中语句的信息量和类别,获取所述目标人物的简历信息。因此实现了目标人物的简历信息的自动获取,从而避免了时间和精力的耗费,提高了简历信息的获取效率。
在实际应用中,所述第一处理模块21、第二处理模块22和第三处理模块23位于服务器中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro ProcessorUnit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本发明实施例还提供一种信息处理装置,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,处理器执行计算机程序时实现上述实施例中任意一种信息处理方法。
本发明实施例一种计算机可读存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行如上述实施例中任意一种信息处理方法。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (21)

1.一种信息处理方法,其特征在于,包括:
服务器根据目标人物的信息获取第一网页集合;
从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合;
根据所述第一语句集合中语句的信息量和类别,获取所述目标人物的简历信息。
2.根据权利要求1所述的信息处理方法,其特征在于,所述从第一网页集合中获取表示目标人物的经历的第一语句集合,包括:
从所述第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取所述第一语句集合。
3.根据权利要求2所述的信息处理方法,其特征在于,所述获取第一语句集合,包括:
基于所述第一网页集合并利用第一神经网络模型,得到表示所述目标人物的经历的第二语句集合;
从所述第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合;
对所述第三语句集合中每一条语句进行分词,得到词向量;
获取所述第三语句集合中每一条语句对应的词向量的信息熵,作为该语句的信息熵;
从所述第三语句集合中获取满足第二预设条件的语句,得到所述第一语句集合;其中,所述第二预设条件包括以下至少之一:所述信息熵大于第一阈值,所述信息熵从大到小排序在前第一预设位数。
4.根据权利要求3所述的信息处理方法,其特征在于,所述基于第一网页并利用第一神经网络模型之前,还包括:
获取包含人物经历的语句集合和段落集合,并获取不包含人物经历的语句集合和段落集合;
将所述包含人物经历的语句集合和段落集合,以及所述不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练,得到所述第一神经网络模型。
5.根据权利要求3或4所述的信息处理方法,其特征在于,所述基于第一网页集合并利用第一神经网络模型,得到表示目标人物的经历的第二语句集合,包括:
将所述第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于所述预设数值的第三网页集合;
利用所述第一神经网络模型,以段落为单位处理所述第二网页集合,得到表示所述目标人物的经历的第四语句集合;
利用所述第一神经网络模型,以语句为单位处理所述第三网页集合,得到表示所述目标人物的经历的第五语句集合;
合并所述第四语句集合和所述第五语句集合,得到所述第二语句集合。
6.根据权利要求5所述的信息处理方法,其特征在于,所述利用第一神经网络模型,以段落为单位处理第二网页集合,得到表示目标人物的经历的第四语句集合,包括:
将所述第二网页集合的每一个网页的每一段落文本输入至所述第一神经网络模型,得到该段落文本是否包含所述目标人物的经历的第一判定信息;
从所述第二网页集合的每一个网页中获取所述第一判定信息为包含所述目标人物的经历,且所述目标人物的姓名出现次数大于其他人物的姓名出现次数的段落;
将获得的段落按语句进行拆分,得到所述第四语句集合。
7.根据权利要求5所述的信息处理方法,其特征在于,所述利用第一神经网络模型,以语句为单位处理第三网页集合,得到表示目标人物的经历的第五语句集合,包括:
将所述第三网页集合的网页中的内容按语句进行拆分,得到第六语句集合;
将所述第六语句集合的每一个语句输入至所述第一神经网络模型,得到该语句是否包含所述目标人物的经历的第二判定信息;
获取所述第二判定信息为包含所述目标人物的经历的语句,得到所述第五语句集合。
8.根据权利要求3或4所述的信息处理方法,其特征在于,所述从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合,包括:
获取所述第二语句集合中每一条语句的所属网页的网页排名,作为该语句的所属网页的可靠程度的得分;
获取所述第二语句集合中每一条语句分词后生成的词向量的信息熵,作为该语句的信息量的得分;
获取所述第二语句集合中每一条语句标点符号和正文长度的比值,作为该语句的质量的得分;
设置所述可靠程度的得分的权系数、所述信息量的得分的权系数和所述质量的得分的权系数;其中,所述可靠程度的得分的权系数、所述信息量的得分的权系数和所述质量的得分的权系数的和为1;
将所述第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权,得到每一条语句的综合得分;
获取综合得分大于第二阈值的语句,得到所述第三语句集合。
9.根据权利要求1所述的信息处理方法,其特征在于,所述根据第一语句集合中语句的信息量和类别,获取目标人物的简历信息,包括:
对所述第一语句集合中的语句进行聚类,得到若干个语句类;
采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句,直到获得的语句数目达到预设条目数,得到所述目标人物的简历信息。
10.根据权利要1所述的信息处理方法,其特征在于,所述根据目标人物的信息获取第一网页集合,包括:
根据所述目标人物的信息获取包含所述信息的第四网页集合;
从所述第四网页集合中根据网页的质量和重要程度获取所述第一网页集合。
11.根据权利要求10所述的信息处理方法,其特征在于,所述从第四网页集合中根据网页的质量和重要程度获取第一网页集合,包括:
获取所述第四网页集合的每一个网页的质量和重要程度;
根据获得的每一个网页的质量和重要程度获取每一个网页与所述目标人物的相关程度;
从所述第四网页集合中获取所述相关程度满足所述第三预设条件的网页,得到所述第一网页集合;所述第三预设条件包括以下至少之一:所述相关程度大于第三阈值,所述相关程度由高到低排序在前第二预设位数。
12.根据权利要求11所述的信息处理方法,其特征在于,所述获取第一网页集合的每一个网页的质量和重要程度,包括:
判断所述第四网页集合的每一个网页中是否包含地名信息和时间信息;
当所述第四网页集合的网页中包含地名信息和时间信息,统计该网页中姓名和单位名称出现在同一语句中的语句数,作为该网页的质量的得分;
获取该网页的网页排名作为该网页的重要程度的得分。
13.根据权利要求12所述的信息处理方法,其特征在于,当所述第四网页集合的网页中不包含所述地名信息和所述时间信息,还包括:
将该网页的质量的得分记为0;
获取该网页的网页排名作为该网页的重要程度的得分。
14.根据权利要求11所述的信息处理方法,其特征在于,所述根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度,包括:
设置所述质量的得分的权系数和所述重要程度的得分的权系数;其中,所述质量的得分的权系数和所述重要程度的得分的权系数和为1;
将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权,得到每一个网页与所述目标人物的相关程度的得分。
15.根据权利要求9所述的信息处理方法,其特征在于,所述得到目标人物的简历信息之后,还包括:
按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合,得到整合后的所述目标人物的简历信息;
将整合后的所述目标人物的简历信息输入至第二神经网络模型,得到符合预设格式的所述目标人物的简历信息。
16.根据权利要求15所述的信息处理方法,其特征在于,所述将整合后的目标人物的简历信息输入至第二神经网络模型之前,还包括:
获取简历信息的格式不符合所述预设格式的第一信息集合和符合所述预设格式的第二信息集合;其中,所述第一信息集合和所述第二信息集合中的简历信息所对应的人物以及内容都相同;
将所述第一信息集合中的简历信息和所述第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练,得到所述第二神经网络模型。
17.根据权利要求3或4或6或7所述的信息处理方法,其特征在于,所述第一神经网络模型包括:卷积神经网络模型。
18.根据权利要求15或16所述的信息处理方法,其特征在于,所述第二神经网络模型包括:长短期记忆网络模型。
19.一种服务器,其特征在于,包括:
第一处理模块,用于根据目标人物的信息获取第一网页集合;
第二处理模块,用于从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合;
第三处理模块,用于根据所述第一语句集合中语句的信息量和类别,获取所述目标人物的简历信息。
20.一种信息处理装置,其特征在于,包括:存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~18任一项所述的信息处理方法。
21.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行如权利要求1~18任一项所述的信息处理方法。
CN201910335459.XA 2019-04-24 2019-04-24 一种信息处理方法、装置及计算机可读存储介质 Active CN110110193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910335459.XA CN110110193B (zh) 2019-04-24 2019-04-24 一种信息处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910335459.XA CN110110193B (zh) 2019-04-24 2019-04-24 一种信息处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110110193A true CN110110193A (zh) 2019-08-09
CN110110193B CN110110193B (zh) 2021-04-30

Family

ID=67486578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910335459.XA Active CN110110193B (zh) 2019-04-24 2019-04-24 一种信息处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110110193B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010960A2 (en) * 2000-07-31 2002-02-07 Eliyon Technologies Corporation Computer method and apparatus for extracting data from web pages
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010960A2 (en) * 2000-07-31 2002-02-07 Eliyon Technologies Corporation Computer method and apparatus for extracting data from web pages
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN109033166A (zh) * 2018-06-20 2018-12-18 国家计算机网络与信息安全管理中心 一种人物属性抽取训练数据集构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周成阳: "人物信息相关网页过滤方法研究", 《《中国优秀硕士学位论文全文数据库 信息科技辑》》 *

Also Published As

Publication number Publication date
CN110110193B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN103810293B (zh) 基于Hadoop的文本分类方法及装置
US9449271B2 (en) Classifying resources using a deep network
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN104778158B (zh) 一种文本表示方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
US11074412B1 (en) Machine learning classification system
CN109255118A (zh) 一种关键词提取方法及装置
CN102831199A (zh) 建立兴趣模型的方法及装置
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN107292349A (zh) 基于百科知识语义增强的零样本分类方法、装置
CN111726336B (zh) 一种联网智能设备识别信息提取方法及系统
CN109284432A (zh) 基于大数据平台的网络舆情分析系统
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN111460818A (zh) 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN110298041A (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN112989058B (zh) 信息分类方法、试题分类方法、设备、服务器和存储介质
US20170235835A1 (en) Information identification and extraction
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN103257961B (zh) 书目消重的方法、装置及系统
CN110109890A (zh) 非结构化数据处理方法和非结构化数据处理系统
CN102929948B (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant