CN107844478A

CN107844478A - 一种专利文件的处理方法及装置

Info

Publication number: CN107844478A
Application number: CN201711156991.2A
Authority: CN
Inventors: 刘建丽
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-03-27
Anticipated expiration: 2037-11-20
Also published as: CN107844478B

Abstract

本发明提供了一种专利文件的处理方法及装置，方法包括：采集目标企业发布的至少一条招聘数据；针对采集的每一条招聘数据，执行：从招聘数据中提取设定数量个招聘特征词，并利用设定数量个招聘特征词组成第一行矩阵；获取待处理专利文件；从待处理专利文件中提取设定数量个专利特征词，并利用设定数量个专利特征词组成第二行矩阵；根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵，计算待处理专利文件与各条招聘数据之间所分别对应的关联系数；当存在至少一个目标关联系数大于设定阈值时，确定待处理专利文件符合目标企业的企业需求。通过本发明的技术方案，可更为准确的确定专利文件是否符合企业需求。

Description

一种专利文件的处理方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种专利文件的处理方法及装置。

背景技术

近年来，随着我国供给侧结构性改革的逐步深化和推动，企业技术创新和产业升级的发展趋势逐步显现，随之产生了大量的科技成果，这些科技成果通常会记载在公布的专利文件中，可以由企业对其进行科技成果转化。

目前，各企业通常需要利用人工处理的方式对专利文件进行分析，以确定专利文件是否符合企业需求，然后对符合其企业需求的专利文件进行科技成果转化。

由于专利文件中的技性内容具有较强的专业性，利用人工处理的方式对专利文件进行分析时，对用户的专业能力依赖程度较高，分析结果也很容易受到用户主观态度的影响。因此，很难准确确定专利文件是否符合企业需求。

发明内容

本发明实施例提供了一种专利文件的处理方法及装置，可更为准确的确定专利文件是否符合企业需求。

第一方面，本发明提供了一种专利文件的处理方法，包括：

采集目标企业发布的至少一条招聘数据；

针对采集的每一条所述招聘数据，执行：从所述招聘数据中提取设定数量个招聘特征词，并利用设定数量个所述招聘特征词组成第一行矩阵；

获取待处理专利文件；

从所述待处理专利文件中提取设定数量个专利特征词，并利用设定数量个所述专利特征词组成第二行矩阵；

根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数；

当存在至少一个目标关联系数大于设定阈值时，确定所述待处理专利文件符合所述目标企业的企业需求。

优选地，

所述从所述招聘数据中提取设定数量个招聘特征词，包括：

对所述招聘数据进行分词处理以提取至少一个第一特征分词；

确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值；

将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词；

和/或，

从所述待处理专利文件中提取设定数量个专利特征词，包括：

对所述待处理专利文件进行分词处理以提取至少一个第二特征分词；

确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值；

将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。

优选地，

根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数，包括：针对于每一条所述招聘数据，执行：

合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵；

根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵，以及生成对应于所述第二行矩阵的第二映射矩阵；

根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理，根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理；

根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。

优选地，

所述根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算所述招聘数据与所述待处理专利文件之间所对应的关联系数，包括：

通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数：

其中，表征所述招聘数据与所述待处理专利文件之间所对应的关联系数、A_i表征加权处理后的所述第一映射矩阵中的第i个元素、B_i表征加权处理后的所述第二映射矩阵中的第i个元素、n表征所述设定数量。

优选地，

所述对所述招聘数据进行分词处理以提取至少一个第一特征分词，包括：

对所述招聘数据进行分词预处理以提取至少一个分词；

根据提取的各个所述分词构建停用词表和词法规范数据集；

根据构建的所述停用词表和和所述词法规范数据集，对所述招聘数据进行分词再处理以提取至少一个第一特征分词。

第二方面，本发明实施例提供了一种专利文件处理装置，包括：

数据采集模块，用于采集目标企业发布的至少一条招聘数据；

招聘数据处理模块，用于针对采集的每一条所述招聘数据，执行：从所述招聘数据中提取设定数量个招聘特征词，并利用设定数量个所述招聘特征词组成第一行矩阵；

获取模块，用于获取待处理专利文件；

专利数据处理模块，用于从所述待处理专利文件中提取设定数量个专利特征词，并利用设定数量个所述专利特征词组成第二行矩阵；

关联系数确定模块，用于根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数；

确定模块，用于当存在至少一个目标关联系数大于设定阈值时，确定所述待处理专利文件符合所述目标企业的企业需求。

优选地，

所述招聘数据处理模块，用于对所述招聘数据进行分词处理以提取至少一个第一特征分词；确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词；

和/或，

所述专利数据处理模块，用于对所述待处理专利文件进行分词处理以提取至少一个第二特征分词；确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。

优选地，

所述关联系数确定模块，包括：合并处理单元、映射处理单元、加权处理单元和计算单元；其中，

所述合并处理单元，用于针对于每一条所述招聘数据，执行：合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵；

所述映射处理单元，用于根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵，以及生成对应于所述第二行矩阵的第二映射矩阵；

所述加权处理单元，用于根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理，根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理；

所述计算单元，用于根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。

优选地，

所述计算单元，用于通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数：

优选地，

所述招聘数据处理模块，用于对所述招聘数据进行分词预处理以提取至少一个分词；根据提取的各个所述分词构建停用词表和词法规范数据集；根据构建的所述停用词表和和所述词法规范数据集，对所述招聘数据进行分词再处理以提取至少一个第一特征分词。

本发明实施例提供了一种专利文件的处理方法及装置，该方法中，通过采集目标企业发布的至少一条招聘数据，针对于每一条招聘数据，从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵；然后获取待处理专利文件，从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵，由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如，对招聘对象的技术需求)，而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点，根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵，计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时，计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度，从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度，因此，当存在至少一个目标关联系数大于设定阈值时，则可确定该待处理专利文件符合目标企业的企业需求。综上所述，通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数，从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量，当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时，才确定该待处理专利文件符合企业的企业需求，可更为准确的确定出专利文件是否符合企业需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种专利文件的处理方法的流程图；

图2是本发明一实施例提供的一种专利文件的处理装置的结构示意图；

图3是本发明一实施例提供的一种专利文件的处理装置中关联系数确定模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种专利文件的处理方法，包括：

步骤101，采集目标企业发布的至少一条招聘数据；

步骤102，针对采集的每一条所述招聘数据，执行：从所述招聘数据中提取设定数量个招聘特征词，并利用设定数量个所述招聘特征词组成第一行矩阵；

步骤103，获取待处理专利文件；

步骤104，从所述待处理专利文件中提取设定数量个专利特征词，并利用设定数量个所述专利特征词组成第二行矩阵；

步骤105，根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数；

步骤106，当存在至少一个目标关联系数大于设定阈值时，确定所述待处理专利文件符合所述目标企业的企业需求。

如图1所示的实施例，通过采集目标企业发布的至少一条招聘数据，针对于每一条招聘数据，从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵；然后获取待处理专利文件，从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵，由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如，对招聘对象的技术需求)，而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点，根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵，计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时，计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度，从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度，因此，当存在至少一个目标关联系数大于设定阈值时，则可确定该待处理专利文件符合目标企业的企业需求。综上所述，通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数，从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量，当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时，才确定该待处理专利文件符合企业的企业需求，可更为准确的确定出专利文件是否符合企业需求。

显而易见的，可以通过本发明实施例提供的技术方案对一个或多个专利文件进行处理，将被确定为符合目标企业的企业需求的各个专利文件推荐给目标企业，使得目标企业可以根据推荐的各个专利文件进行相应的科技成果转化。

本领域技术人员应当理解的，从一条招聘数据或待处理专利文件中提取特征词的数量(即，设定数量)可以结合实际业务需求进行合理设置，比如，设置为50个。

本领域技术人员还应当理解的，设定阈值可以结合实际业务需求进行合理设置，比如，设置为0.5至0.8之间的任意值。

本发明一个实施例中，所述从所述招聘数据中提取设定数量个招聘特征词，包括：对所述招聘数据进行分词处理以提取至少一个第一特征分词；确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词。

本发明上述实施例中，第一特征分词在所属招聘数据中所对应的TF-IDF值越大，则说明第一特征分词在所属招聘数据中的重要程度越高，代表所属招聘数据的能力越强，因此，通过确定各个第一特征分词在招聘数据中所对应的TF-IDF值，并将对应TF-IDF值最大的设定数量个第一特征分词分别确定为招聘特征词，方便在后续过程中根据包括各个招聘特征词的第一行矩阵计算招聘数据与待处理专利文件之间的关联系数时，关联系数能够更为准确的反映招聘数据与待处理专利文件之间的关联程度。

相应的，本发明一个实施例中，从所述待处理专利文件中提取设定数量个专利特征词，包括：对所述待处理专利文件进行分词处理以提取至少一个第二特征分词；确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。

本发明上述实施例中，第二特征分词在待处理专利文件中所对应的TF-IDF值越大，则说明第二特征分词在待处理专利文件中的重要程度越高，代表待处理专利文件的能力越强，因此，通过确定各个第二特征分词在待处理专利文件中所对应的TF-IDF值，并将对应TF-IDF值最大的设定数量个第二特征分词分别确定为专利特征词，方便在后续过程中根据包括各个专利特征词的第二行矩阵计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时，关联系数能够更为准确的反映待处理专利文件与各条招聘数据之间关联程度。

具体地，本发明一个实施例中，所述根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数，包括：针对于每一条所述招聘数据，执行：

本发明上述实施例中，一条招聘数据所对应的第一行矩阵中，各个招聘特征词分别代表该招聘数据的能力并不相同，而各个招聘特征词能够代表该招聘数据的能力可以通过各个招聘特征词所分别对应的TF-IDF值进行度量；同时，待处理专利文件所对应的第二行矩阵中，各个专利特征词分别代表该待处理专利文件的能力也并不相同，而各个专利特征词能够代表该招聘数据的能力可以通过各个专利特征词所分别对应的TF-IDF值进行度量；因此，通过合并招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵，根据合并矩阵生成对应于第一行矩阵的第一映射矩阵，以及生成对应于第二行矩阵的第二映射矩阵，根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理，根据第二行矩阵中的每一个专利特征词所分别对应的TF-IDF值对第二映射矩阵中的各个元素进行加权处理，并根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算招聘数据与待处理专利文件之间所对应的关联系数，计算得到的关联系数能够更为准确的反映待处理专利文件与招聘数据之间的关联程度。

本发明上述实施例中，可以通过Python平台的SK-learn工具包来实现特征词向量转化过程，即实现对第二行矩阵和每一个第一行矩阵分别进行合并处理，根据合并矩阵生成对应于第一行矩阵的第一映射矩阵，以及生成对应于第二行矩阵的第二映射矩阵。举例来说，生成第一行矩阵所对应的第一映射矩阵时，针对于第一行矩阵中的招聘特征词“X”，若合并矩阵中与第二行矩阵相对应的部分存在一个专利特征词“X”，则第一映射矩阵中与该招聘特征词“X”相对应的元素记为1，相反地，若合并矩阵中与第二行矩阵相对应的部分不存在一个专利特征词“X”，则第一映射矩阵中与该招聘特征词“X”相对应的元素记为0；生成第二映射矩阵的方法与生成第一映射矩阵的方法相似。

相应的，根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理时，若第一行矩阵中的招聘特征词“X”对应在对应的第一映射矩阵中的元素被记为“1”，则可在该第一映射矩阵中将该元素“1”替换为招聘特征词“X”所对应的TF-IDF。对第二映射矩阵中的各个元素进行加权处理的方法与针对第一映射矩阵进行加权处理方法相似。

具体地，本发明一个实施例中，所述根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算所述招聘数据与所述待处理专利文件之间所对应的关联系数，包括：

本发明一个实施例中，所述对所述招聘数据进行分词处理以提取至少一个第一特征分词，包括：对所述招聘数据进行分词预处理以提取至少一个分词；根据提取的各个所述分词构建停用词表和词法规范数据集；根据构建的所述停用词表和和所述词法规范数据集，对所述招聘数据进行分词再处理以提取至少一个第一特征分词。

本发明上述实施例中，通过对招聘数据进行分词预处理以提取至少一个分词，并根据提取的各个所述分词构建停用词表和词法规范数据集时，可以将提取的至少一个分词中的语气词(比如，呢、啊)、连词(比如，用于、和)等并不能用于代表招聘数据的分词添加到构建的停用词表中，将招聘数据中不应被拆分为多个分词的专业词汇(比如，提取的至少一个分词中包括大数据和管理平台两个分词，但是大数据管理平台本质上是一个专业词汇)添加到构建的规范数据集中，后续根据停用词表和规范数据集对招聘数据进行分词再处理以提取至少一个第一特征分词时，分词精度较高。

不难理解的，可以利用相似的方法从待处理专利文件中提取至少一个第二特征分词。

如图2所示，本发明实施例提供了一种专利文件处理装置，包括：

数据采集模块201，用于采集目标企业发布的至少一条招聘数据；

招聘数据处理模块202，用于针对采集的每一条所述招聘数据，执行：从所述招聘数据中提取设定数量个招聘特征词，并利用设定数量个所述招聘特征词组成第一行矩阵；

获取模块203，用于获取待处理专利文件；

专利数据处理模块204，用于从所述待处理专利文件中提取设定数量个专利特征词，并利用设定数量个所述专利特征词组成第二行矩阵；

关联系数确定模块205，用于根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数；

确定模块206，用于当存在至少一个目标关联系数大于设定阈值时，确定所述待处理专利文件符合所述目标企业的企业需求。

本发明一个实施例中，所述招聘数据处理模块202，用于对所述招聘数据进行分词处理以提取至少一个第一特征分词；确定各个所述第一特征分词在所述招聘数据中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第一特征分词分别确定为招聘特征词；

本发明一个实施例中，所述专利数据处理模块204，用于对所述待处理专利文件进行分词处理以提取至少一个第二特征分词；确定各个所述第二特征分词在所述待处理专利文件中所对应的TF-IDF值；将对应TF-IDF值最大的设定数量个所述第二特征分词分别确定为专利特征词。

如图3所示，本发明一个实施例中，所述关联系数确定模块205，包括：合并处理单元2051、映射处理单元2052、加权处理单元2053和计算单元2054；其中，

所述合并处理单元2051，用于针对于每一条所述招聘数据，执行：合并所述招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵；

所述映射处理单元2052，用于根据所述合并矩阵生成对应于所述第一行矩阵的第一映射矩阵，以及生成对应于所述第二行矩阵的第二映射矩阵；

所述加权处理单元2053，用于根据所述第一行矩阵中的每一个所述招聘特征词所分别对应的TF-IDF值对所述第一映射矩阵中的各个元素进行加权处理，根据所述第二行矩阵中的每一个所述专利特征词所分别对应的TF-IDF值对所述第二映射矩阵中的各个元素进行加权处理；

所述计算单元2054，用于根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算所述招聘数据与所述待处理专利文件之间所对应的关联系数。

本发明一个实施例中，所述计算单元2054，用于通过如下公式计算所述招聘数据与所述待处理专利文件之间所对应的关联系数：

本发明一个实施例中，所述招聘数据处理模块202，用于对所述招聘数据进行分词预处理以提取至少一个分词；根据提取的各个所述分词构建停用词表和词法规范数据集；根据构建的所述停用词表和和所述词法规范数据集，对所述招聘数据进行分词再处理以提取至少一个第一特征分词

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明任意一个实施例中提供的暂离文件的处理方法。

本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；

所述处理器和所述存储器通过所述总线连接；

所述存储器，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行本发明任意一个实施例中提供的专利文件的处理方法。

综上所述，本发明各个实施例至少具有如下有益效果：

1、本发明一实施例中，通过采集目标企业发布的至少一条招聘数据，针对于每一条招聘数据，从该招聘数据中分别提取设定数量个招聘特征词以组成第一行矩阵；然后获取待处理专利文件，从待处理专利文件中提取设定数量个专利特征词以组成第二行矩阵，由于目标企业发布的各条招聘数据中分别携带的各个招聘特征词可能蕴含着目标企业的在一段时间内对应的企业需求(比如，对招聘对象的技术需求)，而待处理专利文件中携带的各个专利特征词可能表征专利文件的技术要点，根据第二行矩阵以及各条招聘数据所分别对应的第一行矩阵，计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时，计算得到的每一个关联系数均可表征对应的一条招聘数据与该待处理专利文件的关联程度，从而使得各个关联系数的可以用于度量待处理专利文件符合目标企业的企业需求的程度，因此，当存在至少一个目标关联系数大于设定阈值时，则可确定该待处理专利文件符合目标企业的企业需求。综上所述，通过计算专利文件与企业发布的至少一条招聘数据之间所分别对应的关联系数，从而实现通过各个关联系数对待处理文件符合企业的企业需求的程度进行度量，当且仅当各个关联系数中存在至少一个目标关联系数大于设定阈值时，才确定该待处理专利文件符合企业的企业需求，可更为准确的确定出专利文件是否符合企业需求。

2、本发明一实施例中，第一特征分词在所属招聘数据中所对应的TF-IDF值越大，则说明第一特征分词在所属招聘数据中的重要程度越高，代表所属招聘数据的能力越强，因此，通过确定各个第一特征分词在招聘数据中所对应的TF-IDF值，并将对应TF-IDF值最大的设定数量个第一特征分词分别确定为招聘特征词，方便在后续过程中根据包括各个招聘特征词的第一行矩阵计算招聘数据与待处理专利文件之间的关联系数时，关联系数能够更为准确的反映招聘数据与待处理专利文件之间的关联程度。

3、本发明一个实施例中，第二特征分词在待处理专利文件中所对应的TF-IDF值越大，则说明第二特征分词在待处理专利文件中的重要程度越高，代表待处理专利文件的能力越强，因此，通过确定各个第二特征分词在待处理专利文件中所对应的TF-IDF值，并将对应TF-IDF值最大的设定数量个第二特征分词分别确定为专利特征词，方便在后续过程中根据包括各个专利特征词的第二行矩阵计算待处理专利文件与各条招聘数据之间所分别对应的关联系数时，关联系数能够更为准确的反映待处理专利文件与各条招聘数据之间关联程度。

4、本发明一个实施例中，一条招聘数据所对应的第一行矩阵中，各个招聘特征词分别代表该招聘数据的能力并不相同，而各个招聘特征词能够代表该招聘数据的能力可以通过各个招聘特征词所分别对应的TF-IDF值进行度量；同时，待处理专利文件所对应的第二行矩阵中，各个专利特征词分别代表该待处理专利文件的能力也并不相同，而各个专利特征词能够代表该招聘数据的能力可以通过各个专利特征词所分别对应的TF-IDF值进行度量；因此，通过合并招聘数据所对应的第一行矩阵和所述第二行矩阵以形成合并矩阵，根据合并矩阵生成对应于第一行矩阵的第一映射矩阵，以及生成对应于第二行矩阵的第二映射矩阵，根据第一行矩阵中的每一个招聘特征词所分别对应的TF-IDF值对第一映射矩阵中的各个元素进行加权处理，根据第二行矩阵中的每一个专利特征词所分别对应的TF-IDF值对第二映射矩阵中的各个元素进行加权处理，并根据加权处理后的所述第一映射矩阵以及加权处理后的所述第二映射矩阵，计算招聘数据与待处理专利文件之间所对应的关联系数，计算得到的关联系数能够更为准确的反映待处理专利文件与招聘数据之间的关联程度。

5、本发明一个实施例中，通过对招聘数据进行分词预处理以提取至少一个分词，并根据提取的各个所述分词构建停用词表和词法规范数据集时，可以将提取的至少一个分词中的语气词(比如，呢、啊)、连词(比如，用于、和)等并不能用于代表招聘数据的分词添加到构建的停用词表中，将招聘数据中不应被拆分为多个分词的专业词汇(比如，提取的至少一个分词中包括大数据和管理平台两个分词，但是大数据管理平台本质上是一个专业词汇)添加到构建的规范数据集中，后续根据停用词表和规范数据集对招聘数据进行分词再处理以提取至少一个第一特征分词时，分词精度较高。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种专利文件的处理方法，其特征在于，包括：

采集目标企业发布的至少一条招聘数据；

获取待处理专利文件；

2.根据权利要求1所述的方法，其特征在于，

所述从所述招聘数据中提取设定数量个招聘特征词，包括：

和/或，

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第二行矩阵以及各条所述招聘数据所分别对应的第一行矩阵，计算所述待处理专利文件与各条所述招聘数据之间所分别对应的关联系数，包括：针对于每一条所述招聘数据，执行：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求2所述的方法，其特征在于，

对所述招聘数据进行分词预处理以提取至少一个分词；

根据提取的各个所述分词构建停用词表和词法规范数据集；

6.一种专利文件处理装置，其特征在于，包括：

获取模块，用于获取待处理专利文件；

7.根据权利要求6所述的装置，其特征在于，

和/或，

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求7所述的装置，其特征在于，