CN107844478A - 一种专利文件的处理方法及装置 - Google Patents

一种专利文件的处理方法及装置 Download PDF

Info

Publication number
CN107844478A
CN107844478A CN201711156991.2A CN201711156991A CN107844478A CN 107844478 A CN107844478 A CN 107844478A CN 201711156991 A CN201711156991 A CN 201711156991A CN 107844478 A CN107844478 A CN 107844478A
Authority
CN
China
Prior art keywords
data
recruitment
patent document
matrix
pending patent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711156991.2A
Other languages
English (en)
Other versions
CN107844478B (zh
Inventor
刘建丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201711156991.2A priority Critical patent/CN107844478B/zh
Publication of CN107844478A publication Critical patent/CN107844478A/zh
Application granted granted Critical
Publication of CN107844478B publication Critical patent/CN107844478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • G06Q50/184Intellectual property management

Abstract

本发明提供了一种专利文件的处理方法及装置,方法包括:采集目标企业发布的至少一条招聘数据;针对采集的每一条招聘数据,执行:从招聘数据中提取设定数量个招聘特征词,并利用设定数量个招聘特征词组成第一行矩阵;获取待处理专利文件;从待处理专利文件中提取设定数量个专利特征词,并利用设定数量个专利特征词组成第二行矩阵;根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵,计算待处理专利文件与各条招聘数据之间所分别对应的关联系数;当存在至少一个目标关联系数大于设定阈值时,确定待处理专利文件符合目标企业的企业需求。通过本发明的技术方案,可更为准确的确定专利文件是否符合企业需求。

Description

一种专利文件的处理方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种专利文件的处理方法及装置。
背景技术
近年来,随着我国供给侧结构性改革的逐步深化和推动,企业技术创新和产业升级的发展趋势逐步显现,随之产生了大量的科技成果,这些科技成果通常会记载在公布的专利文件中,可以由企业对其进行科技成果转化。
目前,各企业通常需要利用人工处理的方式对专利文件进行分析,以确定专利文件是否符合企业需求,然后对符合其企业需求的专利文件进行科技成果转化。
由于专利文件中的技性内容具有较强的专业性,利用人工处理的方式对专利文件进行分析时,对用户的专业能力依赖程度较高,分析结果也很容易受到用户主观态度的影响。因此,很难准确确定专利文件是否符合企业需求。
发明内容
本发明实施例提供了一种专利文件的处理方法及装置,可更为准确的确定专利文件是否符合企业需求。
第一方面,本发明提供了一种专利文件的处理方法,包括:
采集目标企业发布的至少一条招聘数据;
针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
获取待处理专利文件;
从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
优选地,
所述从所述招聘数据中提取设定数量个招聘特征词,包括:
对所述招聘数据进行分词处理以提取至少一个第一特征分词;
确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;
将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词;
和/或,
从所述待处理专利文件中提取设定数量个专利特征词,包括:
对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;
确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;
将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
优选地,
根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数,包括:针对于每一条所述招聘数据,执行:
合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
优选地,
所述根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数,包括:
通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
优选地,
所述对所述招聘数据进行分词处理以提取至少一个第一特征分词,包括:
对所述招聘数据进行分词预处理以提取至少一个分词;
根据提取的各个所述分词构建停用词表和词法规范数据集;
根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词。
第二方面,本发明实施例提供了一种专利文件处理装置,包括:
数据采集模块,用于采集目标企业发布的至少一条招聘数据;
招聘数据处理模块,用于针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
获取模块,用于获取待处理专利文件;
专利数据处理模块,用于从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
关联系数确定模块,用于根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
确定模块,用于当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
优选地,
所述招聘数据处理模块,用于对所述招聘数据进行分词处理以提取至少一个第一特征分词;确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词;
和/或,
所述专利数据处理模块,用于对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
优选地,
所述关联系数确定模块,包括:合并处理单元、映射处理单元、加权处理单元和计算单元;其中,
所述合并处理单元,用于针对于每一条所述招聘数据,执行:合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
所述映射处理单元,用于根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
所述加权处理单元,用于根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
所述计算单元,用于根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
优选地,
所述计算单元,用于通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
优选地,
所述招聘数据处理模块,用于对所述招聘数据进行分词预处理以提取至少一个分词;根据提取的各个所述分词构建停用词表和词法规范数据集;根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词。
本发明实施例提供了一种专利文件的处理方法及装置,该方法中,通过采集目标企业发布的至少一条招聘数据,针对于每一条招聘数据,从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵;然后获取待处理专利文件,从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵,由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如,对招聘对象的技术需求),而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点,根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵,计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时,计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度,从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度,因此,当存在至少一个目标关联系数大于设定阈值时,则可确定该待处理专利文件符合目标企业的企业需求。综上所述,通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数,从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量,当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时,才确定该待处理专利文件符合企业的企业需求,可更为准确的确定出专利文件是否符合企业需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种专利文件的处理方法的流程图;
图2是本发明一实施例提供的一种专利文件的处理装置的结构示意图;
图3是本发明一实施例提供的一种专利文件的处理装置中关联系数确定模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种专利文件的处理方法,包括:
步骤101,采集目标企业发布的至少一条招聘数据;
步骤102,针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
步骤103,获取待处理专利文件;
步骤104,从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
步骤105,根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
步骤106,当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
如图1所示的实施例,通过采集目标企业发布的至少一条招聘数据,针对于每一条招聘数据,从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵;然后获取待处理专利文件,从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵,由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如,对招聘对象的技术需求),而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点,根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵,计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时,计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度,从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度,因此,当存在至少一个目标关联系数大于设定阈值时,则可确定该待处理专利文件符合目标企业的企业需求。综上所述,通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数,从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量,当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时,才确定该待处理专利文件符合企业的企业需求,可更为准确的确定出专利文件是否符合企业需求。
显而易见的,可以通过本发明实施例提供的技术方案对一个或多个专利文件进行处理,将被确定为符合目标企业的企业需求的各个专利文件推荐给目标企业,使得目标企业可以根据推荐的各个专利文件进行相应的科技成果转化。
本领域技术人员应当理解的,从一条招聘数据或待处理专利文件中提取特征词的数量(即,设定数量)可以结合实际业务需求进行合理设置,比如,设置为50个。
本领域技术人员还应当理解的,设定阈值可以结合实际业务需求进行合理设置,比如,设置为0.5至0.8之间的任意值。
本发明一个实施例中,所述从所述招聘数据中提取设定数量个招聘特征词,包括:对所述招聘数据进行分词处理以提取至少一个第一特征分词;确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词。
本发明上述实施例中,第一特征分词在所属招聘数据中所对应的TF-IDF值越大,则说明第一特征分词在所属招聘数据中的重要程度越高,代表所属招聘数据的能力越强,因此,通过确定各个第一特征分词在招聘数据中所对应的TF-IDF值,并将对应TF-IDF值最大的设定数量个第一特征分词分别确定为招聘特征词,方便在后续过程中根据包括各个招聘特征词的第一行矩阵计算招聘数据与待处理专利文件之间的关联系数时,关联系数能够更为准确的反映招聘数据与待处理专利文件之间的关联程度。
相应的,本发明一个实施例中,从所述待处理专利文件中提取设定数量个专利特征词,包括:对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
本发明上述实施例中,第二特征分词在待处理专利文件中所对应的TF-IDF值越大,则说明第二特征分词在待处理专利文件中的重要程度越高,代表待处理专利文件的能力越强,因此,通过确定各个第二特征分词在待处理专利文件中所对应的TF-IDF值,并将对应TF-IDF值最大的设定数量个第二特征分词分别确定为专利特征词,方便在后续过程中根据包括各个专利特征词的第二行矩阵计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时,关联系数能够更为准确的反映待处理专利文件与各条招聘数据之间关联程度。
具体地,本发明一个实施例中,所述根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数,包括:针对于每一条所述招聘数据,执行:
合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
本发明上述实施例中,一条招聘数据所对应的第一行矩阵中,各个招聘特征词分别代表该招聘数据的能力并不相同,而各个招聘特征词能够代表该招聘数据的能力可以通过各个招聘特征词所分别对应的TF-IDF值进行度量;同时,待处理专利文件所对应的第二行矩阵中,各个专利特征词分别代表该待处理专利文件的能力也并不相同,而各个专利特征词能够代表该招聘数据的能力可以通过各个专利特征词所分别对应的TF-IDF值进行度量;因此,通过合并招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵,根据合并矩阵生成对应于第一行矩阵的第一映射矩阵,以及生成对应于第二行矩阵的第二映射矩阵,根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理,根据第二行矩阵中的每一个专利特征词所分别对应的TF-IDF值对第二映射矩阵中的各个元素进行加权处理,并根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算招聘数据与待处理专利文件之间所对应的关联系数,计算得到的关联系数能够更为准确的反映待处理专利文件与招聘数据之间的关联程度。
本发明上述实施例中,可以通过Python平台的SK-learn工具包来实现特征词向量转化过程,即实现对第二行矩阵和每一个第一行矩阵分别进行合并处理,根据合并矩阵生成对应于第一行矩阵的第一映射矩阵,以及生成对应于第二行矩阵的第二映射矩阵。举例来说,生成第一行矩阵所对应的第一映射矩阵时,针对于第一行矩阵中的招聘特征词“X”,若合并矩阵中与第二行矩阵相对应的部分存在一个专利特征词“X”,则第一映射矩阵中与该招聘特征词“X”相对应的元素记为1,相反地,若合并矩阵中与第二行矩阵相对应的部分不存在一个专利特征词“X”,则第一映射矩阵中与该招聘特征词“X”相对应的元素记为0;生成第二映射矩阵的方法与生成第一映射矩阵的方法相似。
相应的,根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理时,若第一行矩阵中的招聘特征词“X”对应在对应的第一映射矩阵中的元素被记为“1”,则可在该第一映射矩阵中将该元素“1”替换为招聘特征词“X”所对应的TF-IDF。对第二映射矩阵中的各个元素进行加权处理的方法与针对第一映射矩阵进行加权处理方法相似。
具体地,本发明一个实施例中,所述根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数,包括:
通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
本发明一个实施例中,所述对所述招聘数据进行分词处理以提取至少一个第一特征分词,包括:对所述招聘数据进行分词预处理以提取至少一个分词;根据提取的各个所述分词构建停用词表和词法规范数据集;根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词。
本发明上述实施例中,通过对招聘数据进行分词预处理以提取至少一个分词,并根据提取的各个所述分词构建停用词表和词法规范数据集时,可以将提取的至少一个分词中的语气词(比如,呢、啊)、连词(比如,用于、和)等并不能用于代表招聘数据的分词添加到构建的停用词表中,将招聘数据中不应被拆分为多个分词的专业词汇(比如,提取的至少一个分词中包括大数据和管理平台两个分词,但是大数据管理平台本质上是一个专业词汇)添加到构建的规范数据集中,后续根据停用词表和规范数据集对招聘数据进行分词再处理以提取至少一个第一特征分词时,分词精度较高。
不难理解的,可以利用相似的方法从待处理专利文件中提取至少一个第二特征分词。
如图2所示,本发明实施例提供了一种专利文件处理装置,包括:
数据采集模块201,用于采集目标企业发布的至少一条招聘数据;
招聘数据处理模块202,用于针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
获取模块203,用于获取待处理专利文件;
专利数据处理模块204,用于从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
关联系数确定模块205,用于根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
确定模块206,用于当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
本发明一个实施例中,所述招聘数据处理模块202,用于对所述招聘数据进行分词处理以提取至少一个第一特征分词;确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词;
本发明一个实施例中,所述专利数据处理模块204,用于对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
如图3所示,本发明一个实施例中,所述关联系数确定模块205,包括:合并处理单元2051、映射处理单元2052、加权处理单元2053和计算单元2054;其中,
所述合并处理单元2051,用于针对于每一条所述招聘数据,执行:合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
所述映射处理单元2052,用于根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
所述加权处理单元2053,用于根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
所述计算单元2054,用于根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
本发明一个实施例中,所述计算单元2054,用于通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
本发明一个实施例中,所述招聘数据处理模块202,用于对所述招聘数据进行分词预处理以提取至少一个分词;根据提取的各个所述分词构建停用词表和词法规范数据集;根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明任意一个实施例中提供的暂离文件的处理方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线连接;
所述存储器,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明任意一个实施例中提供的专利文件的处理方法。
综上所述,本发明各个实施例至少具有如下有益效果:
1、本发明一实施例中,通过采集目标企业发布的至少一条招聘数据,针对于每一条招聘数据,从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵;然后获取待处理专利文件,从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵,由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如,对招聘对象的技术需求),而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点,根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵,计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时,计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度,从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度,因此,当存在至少一个目标关联系数大于设定阈值时,则可确定该待处理专利文件符合目标企业的企业需求。综上所述,通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数,从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量,当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时,才确定该待处理专利文件符合企业的企业需求,可更为准确的确定出专利文件是否符合企业需求。
2、本发明一实施例中,第一特征分词在所属招聘数据中所对应的TF-IDF值越大,则说明第一特征分词在所属招聘数据中的重要程度越高,代表所属招聘数据的能力越强,因此,通过确定各个第一特征分词在招聘数据中所对应的TF-IDF值,并将对应TF-IDF值最大的设定数量个第一特征分词分别确定为招聘特征词,方便在后续过程中根据包括各个招聘特征词的第一行矩阵计算招聘数据与待处理专利文件之间的关联系数时,关联系数能够更为准确的反映招聘数据与待处理专利文件之间的关联程度。
3、本发明一个实施例中,第二特征分词在待处理专利文件中所对应的TF-IDF值越大,则说明第二特征分词在待处理专利文件中的重要程度越高,代表待处理专利文件的能力越强,因此,通过确定各个第二特征分词在待处理专利文件中所对应的TF-IDF值,并将对应TF-IDF值最大的设定数量个第二特征分词分别确定为专利特征词,方便在后续过程中根据包括各个专利特征词的第二行矩阵计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时,关联系数能够更为准确的反映待处理专利文件与各条招聘数据之间关联程度。
4、本发明一个实施例中,一条招聘数据所对应的第一行矩阵中,各个招聘特征词分别代表该招聘数据的能力并不相同,而各个招聘特征词能够代表该招聘数据的能力可以通过各个招聘特征词所分别对应的TF-IDF值进行度量;同时,待处理专利文件所对应的第二行矩阵中,各个专利特征词分别代表该待处理专利文件的能力也并不相同,而各个专利特征词能够代表该招聘数据的能力可以通过各个专利特征词所分别对应的TF-IDF值进行度量;因此,通过合并招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵,根据合并矩阵生成对应于第一行矩阵的第一映射矩阵,以及生成对应于第二行矩阵的第二映射矩阵,根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理,根据第二行矩阵中的每一个专利特征词所分别对应的TF-IDF值对第二映射矩阵中的各个元素进行加权处理,并根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算招聘数据与待处理专利文件之间所对应的关联系数,计算得到的关联系数能够更为准确的反映待处理专利文件与招聘数据之间的关联程度。
5、本发明一个实施例中,通过对招聘数据进行分词预处理以提取至少一个分词,并根据提取的各个所述分词构建停用词表和词法规范数据集时,可以将提取的至少一个分词中的语气词(比如,呢、啊)、连词(比如,用于、和)等并不能用于代表招聘数据的分词添加到构建的停用词表中,将招聘数据中不应被拆分为多个分词的专业词汇(比如,提取的至少一个分词中包括大数据和管理平台两个分词,但是大数据管理平台本质上是一个专业词汇)添加到构建的规范数据集中,后续根据停用词表和规范数据集对招聘数据进行分词再处理以提取至少一个第一特征分词时,分词精度较高。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种专利文件的处理方法,其特征在于,包括:
采集目标企业发布的至少一条招聘数据;
针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
获取待处理专利文件;
从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
2.根据权利要求1所述的方法,其特征在于,
所述从所述招聘数据中提取设定数量个招聘特征词,包括:
对所述招聘数据进行分词处理以提取至少一个第一特征分词;
确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;
将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词;
和/或,
从所述待处理专利文件中提取设定数量个专利特征词,包括:
对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;
确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;
将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数,包括:针对于每一条所述招聘数据,执行:
合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
4.根据权利要求3所述的方法,其特征在于,
所述根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数,包括:
通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
5.根据权利要求2所述的方法,其特征在于,
所述对所述招聘数据进行分词处理以提取至少一个第一特征分词,包括:
对所述招聘数据进行分词预处理以提取至少一个分词;
根据提取的各个所述分词构建停用词表和词法规范数据集;
根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词。
6.一种专利文件处理装置,其特征在于,包括:
数据采集模块,用于采集目标企业发布的至少一条招聘数据;
招聘数据处理模块,用于针对采集的每一条所述招聘数据,执行:从所述招聘数据中提取设定数量个招聘特征词,并利用设定数量个所述招聘特征词组成第一行矩阵;
获取模块,用于获取待处理专利文件;
专利数据处理模块,用于从所述待处理专利文件中提取设定数量个专利特征词,并利用设定数量个所述专利特征词组成第二行矩阵;
关联系数确定模块,用于根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵,计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数;
确定模块,用于当存在至少一个目标关联系数大于设定阈值时,确定所述待处理专利文件符合所述目标企业的企业需求。
7.根据权利要求6所述的装置,其特征在于,
所述招聘数据处理模块,用于对所述招聘数据进行分词处理以提取至少一个第一特征分词;确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词;
和/或,
所述专利数据处理模块,用于对所述待处理专利文件进行分词处理以提取至少一个第二特征分词;确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值;将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。
8.根据权利要求7所述的装置,其特征在于,
所述关联系数确定模块,包括:合并处理单元、映射处理单元、加权处理单元和计算单元;其中,
所述合并处理单元,用于针对于每一条所述招聘数据,执行:合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵;
所述映射处理单元,用于根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵,以及生成对应于所述第二行矩阵的第二映射矩阵;
所述加权处理单元,用于根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理,根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理;
所述计算单元,用于根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵,计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。
9.根据权利要求8所述的装置,其特征在于,
所述计算单元,用于通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数:
其中,表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、Ai表征加权处理后的所述第一映射矩阵中的第i个元素、Bi表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。
10.根据权利要求7所述的装置,其特征在于,
所述招聘数据处理模块,用于对所述招聘数据进行分词预处理以提取至少一个分词;根据提取的各个所述分词构建停用词表和词法规范数据集;根据构建的所述停用词表和和所述词法规范数据集,对所述招聘数据进行分词再处理以提取至少一个第一特征分词。
CN201711156991.2A 2017-11-20 2017-11-20 一种专利文件的处理方法及装置 Active CN107844478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711156991.2A CN107844478B (zh) 2017-11-20 2017-11-20 一种专利文件的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711156991.2A CN107844478B (zh) 2017-11-20 2017-11-20 一种专利文件的处理方法及装置

Publications (2)

Publication Number Publication Date
CN107844478A true CN107844478A (zh) 2018-03-27
CN107844478B CN107844478B (zh) 2020-12-04

Family

ID=61679104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711156991.2A Active CN107844478B (zh) 2017-11-20 2017-11-20 一种专利文件的处理方法及装置

Country Status (1)

Country Link
CN (1) CN107844478B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
CN104991899A (zh) * 2015-06-02 2015-10-21 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
CN105045865A (zh) * 2015-07-13 2015-11-11 电子科技大学 一种基于核的协同主题回归标签推荐方法
US20160140231A1 (en) * 2014-11-18 2016-05-19 Oracle International Corporation Term selection from a document to find similar content
KR101713831B1 (ko) * 2016-07-26 2017-03-09 한국과학기술정보연구원 문서추천장치 및 방법
CN106897392A (zh) * 2017-02-04 2017-06-27 同济大学 一种基于知识发现的技术竞争及专利预警分析方法
CN107247806A (zh) * 2017-07-04 2017-10-13 山东浪潮云服务信息科技有限公司 一种专利大数据分析与企业应用平台
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107315816A (zh) * 2017-06-29 2017-11-03 朱峰 一种专利智能分析系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
US20160140231A1 (en) * 2014-11-18 2016-05-19 Oracle International Corporation Term selection from a document to find similar content
CN104991899A (zh) * 2015-06-02 2015-10-21 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
CN105045865A (zh) * 2015-07-13 2015-11-11 电子科技大学 一种基于核的协同主题回归标签推荐方法
KR101713831B1 (ko) * 2016-07-26 2017-03-09 한국과학기술정보연구원 문서추천장치 및 방법
CN106897392A (zh) * 2017-02-04 2017-06-27 同济大学 一种基于知识发现的技术竞争及专利预警分析方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107315816A (zh) * 2017-06-29 2017-11-03 朱峰 一种专利智能分析系统
CN107247806A (zh) * 2017-07-04 2017-10-13 山东浪潮云服务信息科技有限公司 一种专利大数据分析与企业应用平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
阮一峰: "TF-IDF与余弦相似性的应用(一):自动提取关键词", 《HTTP://WWW.RUANYIFENG.COM/BLOG/2013/03/TF-IDF.HTML》 *
阮一峰: "TF-IDF与余弦相似性的应用(二):找出相似文章", 《HTTP://WWW.RUANYIFENG.COM/BLOG/2013/03/COSINE_SIMILARITY.HTML》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN107844478B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108593260A (zh) 光缆线路故障定位和检测方法及终端设备
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN103544554B (zh) 在核电站中评估操作人员的程序遵从度的系统以及方法
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN111754317A (zh) 一种金融投资数据测评方法及系统
CN111062602A (zh) 企业信用风险评估的方法、装置及存储介质
CN107844478A (zh) 一种专利文件的处理方法及装置
CN112232088A (zh) 合同条款风险智能识别方法、装置、电子设备及存储介质
CN112839185A (zh) 用于处理图像的方法、装置、设备和介质
WO2023071129A1 (zh) 绿色资产的占比的识别方法及相关产品
CN115034812B (zh) 基于大数据的钢铁行业销售量预测方法及装置
CN115994688A (zh) 基于知识图谱的船舶事故风险评估方法、装置和电子设备
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN114862243A (zh) 用于辅助决策的数据处理方法和装置
CN109726401B (zh) 一种专利组合生成方法及系统
Maheshwari et al. Measurement of material productivity: A case study of pharmaceutical sector companies included in Nifty 50
CN108628818B (zh) 信息获取方法和装置
CN112001738A (zh) 构建多因子物流产品价量模型的方法及其应用方法
CN112100367A (zh) 一种景区舆情预警方法及装置
CN111191529B (zh) 一种处理异常工单的方法及系统
CN117037166A (zh) 基于人工智能的文本识别方法、装置、计算机设备及介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN117495576A (zh) 情感识别方法、装置、电子设备和存储介质
CN117807997A (zh) 人名消岐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200811

Address after: 250100 Room 3110, S01 Building, Tidal Building, 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant after: Shandong Aicheng Network Information Technology Co.,Ltd.

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Applicant before: SHANDONG INSPUR CLOUD SERVICE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201118

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd.

Address before: 250100 Room 3110, S01 Building, Tidal Building, 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant before: Shandong Aicheng Network Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant