CN114331766A

CN114331766A - 专利技术核心度的确定方法、装置、电子设备及存储介质

Info

Publication number: CN114331766A
Application number: CN202210003995.1A
Authority: CN
Inventors: 高影繁; 刘志辉; 李岩; 郑明�; 仇实
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-12
Anticipated expiration: 2042-01-05
Also published as: CN114331766B

Abstract

本申请实施例提供了一种专利技术核心度的确定方法、装置、电子设备及存储介质，涉及数据处理领域。该方法包括：根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值。根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重。基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度。本申请可以结合该目标专利本身的技术内容、该目标专利所属的技术领域，更精确地确定出该目标专利的技术核心度。

Description

专利技术核心度的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，本申请涉及一种专利技术核心度的确定方法、装置、电子设备、存储介质及计算机程序产品。

背景技术

相关技术中，进行专利技术先进性的相关研究中，主要有基于专利内容的方法、基于专利间引用关系的方法、基于指标体系的方法和人工判别先进行等四类方法。

但上述方法在分析范围、实际可用性、客观性、适用范围等方面都存在局限。针对于此，如何提供应用广泛、可以客观确定专利技术核心度的技术方案是本领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种专利技术核心度的确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以结合该目标专利本身的技术内容、该目标专利所属的技术领域，更精确地确定出该目标专利的技术核心度。

根据本申请实施例的一个方面，提供了一种专利技术核心度的确定方法，该方法包括：

根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，目标申请人为目标专利对应的申请人，关联申请人为与目标申请人存在关联关系的申请人；

根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重；

基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度。

根据本申请实施例的另一个方面，提供了一种专利技术核心度的确定装置，该装置包括领域强度值确定模块、目标词权重确定模块、技术核心度确定模块，其中，

领域强度值确定模块，用于根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，目标申请人为目标专利对应的申请人，关联申请人为与目标申请人存在关联关系的申请人；

目标词权重确定模块，用于根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重；

技术核心度确定模块，用于基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行该计算机程序以实现上述方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例所提供的专利技术核心度的确定方法，根据目标专利与预设数据库中除了目标专利之外的每项专利之间的相似度，可以确定目标申请人及关联申请人中每个第一申请人的领域强度值。根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，可以确定每个第一特征词对应于每个第一申请人的目标词权重。通过考虑目标专利对应的目标申请人和该目标申请人的关联申请人中每个第一申请人的领域强度值、目标专利中每个第一特征词对应于每个第一申请人的目标词权重，可以结合该目标专利本身的技术内容、该目标专利所属的技术领域，更精确地确定出该目标专利的技术核心度，使得可以将技术核心度确定为确定专利的创新性的一个评估指标，为各申请人的创新能力的评估提供支撑。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例提供的专利技术核心度的确定方法的流程图；

图2示出了本申请实施例提供的专利技术核心度的确定方法的流程图；

图3示出了本申请实施例提供的专利技术核心度的确定装置的示意图；

图4示出了本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

TextRank算法(文本级别，一种自动文摘的方法)是一种用于文本的基于图的排序算法。其基本思想来源于PageRank(网页级别，一种自动文摘的方法)算法，通过把文本分割成若干组成单元(单词、句子)并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单项文档本身的信息即可实现关键词提取、文摘提取。一个关键词的TextRank值，即该关键词相对于所属文本的重要程度。

TD-IDF(Term Frequency-inverse Document Frequency，词频-逆向文本频率指数，一种针对关键词的统计分析方法)是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。其中，词语的重要性随着它在所属文件中出现的次数成正比增加，但同时会随着它所属文件在文件集中出现的频率成反比下降。TF表示词频，IDF表示逆向文本频率指数。其中，

TF-IDF＝TF×IDF。

word2vec(word to vector，深度学习中用来将词表征成向量的相关模型)，word2vec在给定语料充分的情况下，通过优化后的神经网络模型快速有效地将一个词语映射到固定维度的向量空间，同时使映射后的向量保留原本的语义。

IPC分类(International Patent Classification，国际专利分类表)：目前国际通用的专利文献分类和检索工具。一般情况下，IPC分类表示专利涉及的技术领域。IPC分类系统按照技术主题设立类目，把整个技术领域分为5个不同等级，分别为：部、大类、小类、大组、小组。不同等级以IPC分类号的不同长度来表示，部通过一位大写首字母表示、大类通过对应的部加两位数字表示、小类通过对应的大类加一位大写字母以及一位或两位数字表示、大组通过对应的小类加“/00”表示、小组通过将大组中的00替换成其他两位数字表示。作为一个示例，H部表示电学。H01大类表示基本电器元件。H01B小类表示电缆；导体；绝缘体；导电、绝缘或介电材料的选择。H01B1/00大组表示按导电材料特定区分的导体或导电物体；用作导体的材料选择。H01B1/02小组表示主要由金属或合金组成的。

相关技术中，主要基于专利内容的方法、基于专利间引用关系的方法、基于指标体系的方法和人工判别先进性等四类方法从技术层面进行专利分析。其中，基于专利内容的方法主要是采用专利文本分析的方法，将企业产品、专利文本等进行向量化表示，然后采用文本挖掘等人工智能方法进行专利技术主题识别、对专利与产品的相似性计算等分析，继而判断专利的技术先进性。基于专利间引用关系的方法主要是依据专利间的引用关系进行专利重要性评价是一种常用且有效的方法。基于指标体系的方法主要是采用单个指标或指标组合的方法对专利的核心度或新颖性进行评价。基于人工判断的方法，就是基于该领域的技术人员对专利的先验知识对专利进行评价。

基于上述方法，本申请实施例创造性地发现，基于专利内容的方法存在分析范围比较有局限性，没有从大数据的角度对专利权人所属技术领域的技术特点进行全面分析，也不能判断每条发明专利在所属专利权人全部专利中的技术核心度等技术问题。从专利的施引和被引的数据量上来看，基于专利间引用关系的方法存在所涉及的专利和学术论文的规模较小，研究成果的实际可用性不高，目前主要还处在科学研究层面等技术问题。基于指标体系的方法存在指标的设立加入了不同程度的人的因素，因此客观性不足，人工干预的成分较大等技术问题。基于人工判断专利价值的方法存在效率低、成本高，不适合大规模使用等技术问题。

针对上述相关技术中进行专利分析的方法中，所存在的上述至少一个技术问题或需要改善的地方，本申请提出一种专利技术核心度的确定方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，旨在解决现有技术的如上技术问题。

本申请实施例提供一种专利技术核心度的确定方法。图1示出了本申请实施例提供的专利技术核心度的确定方法的流程图。如图1所示，该方法包括步骤S110至步骤S130。

步骤S110：根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，目标申请人为目标专利对应的申请人，关联申请人为与目标申请人存在关联关系的申请人。

目标专利可以为预设数据库中任一专利，预设数据库可以为任一存储有至少一项专利的数据库，本申请对此不做限制。第一专利为预设数据库中除了目标专利之外的其他任一项专利。可以根据预设数据库中所有专利的申请人，将预设数据库中的所有专利划分为对应于每个申请人的至少一项专利。其中，在一项专利未授权之前，该专利的申请人也即专利申请人，在该专利授权之后，该专利的申请人也即专利权人。对应地，目标申请人，也即目标专利的申请人。

本申请实施例对确定目标专利与第一专利之间的相似度的方式不做限制，例如，可以根据每项专利的内容，确定该专利的特征向量，将目标专利对应的特征向量与第一专利对应的特征向量之间的相似度确定为目标专利与第一专利的相似度。

在本申请实施例中，关联关系可以为技术层面的竞争关系。与目标申请人存在关联关系的申请人(也即，关联申请人)，即与目标申请人的专利在技术层面上存在竞争关系的申请人，也可以称为技术竞争对手。可以将目标申请人与关联申请人统称为第一申请人。可以理解的是，对于一个目标申请人，其对应的关联申请人可以为一个或多个，可以根据实际情况确定。

领域强度值，即在目标专利所在的技术领域，目标申请人与关联申请人的能力估值。其中，可以根据一个申请人的所有专利分别与其他申请人的每项专利之间的相似度，确定该申请人的领域强度值。

步骤S120：根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重。

对于一项专利，可以通过对该专利进行关键词提取，将提取到的关键词作为该专利中的特征词。并根据该特征词在所属专利中的出现频率、出现次数等确定该特征词对应于所属专利的词权重。一个特征词对应于所属专利的词权重，可以表征该特征词在所属专利中的重要程度，一般情况下，特征词在所属专利中的出现频率越高、出现次数越多，其对应的词权重越大。

对于目标专利中的一个第一特征词，可以根据该第一特征词对应于一个第一申请人的所有专利的词权重，确定该第一特征词对应于该第一申请人的目标词权重。其中，对于第一申请人的所有专利中的任一项专利，若该专利中存在第一特征词，则可以将该第一特征词对应于该专利的词权重，确定为该第一特征词对应于该第一申请人的该专利的词权重；若该专利中不存在第一特征词，则可以将该第一特征词对应于该第一申请人的该专利的词权重确定为0。根据该方式，可以确定出目标专利中每个第一特征词对应于每个第一申请人的目标词权重。

可选地，对于每个第一申请人，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重，包括：

对于每个第一特征词，将第一特征词对应于第一申请人的每项专利的词权重的总和，确定为第一特征词对应于第一申请人的目标词权重。

通过以上方式，可以确定出目标专利中每个第一特征词对应于每个第一申请人的目标词权重。

步骤S130：基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度。

一项专利的技术核心度可以理解为，该专利对所属技术领域的贡献程度、对所属技术领域的未来研究方向的指引作用等，因此，可以将技术核心度确定为确定专利的创新性的一个评估指标。

本申请实施例所提供的专利技术核心度的确定方法，根据目标专利与预设数据库中除了目标专利之外的每项专利之间的相似度，可以确定目标申请人及关联申请人中每个第一申请人的领域强度值。根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，可以确定每个第一特征词对应于每个第一申请人的目标词权重。通过考虑目标专利对应的目标申请人和该目标申请人的关联申请人中每个第一申请人的领域强度值、目标专利中每个第一特征词对应于每个第一申请人的目标词权重，可以结合该目标专利本身的技术内容、该目标专利所属的技术领域，更精确地确定出该目标专利的技术核心度，使得可以将技术核心度确定为确定专利的创新性的一个评估指标，为各申请人的创新能力的评估提供支撑。例如，可以为知识产权质押、企业核心技术识别等应用领域提供支撑。

且，由于关联关系为技术层面的竞争关系，对应的关联申请人应该为与目标申请人不存在专利合作、转移转让等关系的申请人，基于此，可以使得根据每个第一申请人的领域强度值、目标专利中每个第一特征词对应于每个第一申请人的目标词权重，确定出的目标专利的技术核心度，更能反应该目标专利对所属技术领域的创新度的提升。

可选地，基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度，包括：

确定目标专利中所有第一特征词对应的目标词权重的第一总和；

确定第一总和与对应的第一申请人的领域强度值的第一乘积；

将目标专利对应于所有第一申请人的第一乘积的总和，确定为目标专利的技术核心度。

对于一个申请人，第一总和，即目标专利中所有第一特征词对应于该第一申请人的目标词权重的和。第一乘积，即第一总和与该第一申请人的领域强度值的乘积。

具体地，可以根据以下公式1确定目标专利的技术核心度：

其中，p_r表示目标专利，

表示目标专利的技术核心度，

表示目标专利p_r中第i个第一特征词t对应于第一申请人j的目标词权重，m表示目标专利p_r中所有第一特征词t的总数量，

表示目标专利p_r中所有第一特征词t对应于第一申请人j的目标词权重的第一总和，n表示所有第一申请人j的总数量，D_j表示第一申请人j的技术强度竞争值，p(D_j)表示第一申请人j的领域强度值。

通过以上方式，可以结合该目标专利本身的技术内容、该目标专利所属的技术领域，更精确地确定出该目标专利的技术核心度，使得可以将技术核心度确定为确定专利的创新性的一个评估指标，为各申请人的创新能力的评估提供支撑。

可选地，对于每项目标专利，目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度是通过以下方式确定的：

确定目标专利对应的特征向量，以及每项第一专利对应的特征向量；

基于目标专利对应的特征向量与每项第一专利对应的特征向量，确定目标专利与每项第一专利之间的相似度；

其中，目标专利对应的特征向量是通过以下方式确定的：

基于TextRank文本等级算法，根据目标专利对应的词序列，确定目标专利中所有的第一特征词以及每个第一特征词对应于目标专利的TextRank值；

基于TF-IDF词频-逆文本频率指数，确定每个第一特征词对应于预设数据库中的TF-IDF值；

对于每个第一特征词，基于第一特征词对应的TextRank值和第一特征词对应的TF-IDF值，确定第一特征词对应于目标专利的词权重；

对于每个第一特征词，对该第一特征词进行预设维度的映射，并确定该第一特征词映射后的向量与该第一特征词的词权重的第二乘积，将该第一特征词对应的第二乘积确定为该第一特征词的特征向量；

将目标专利中所有第一特征词对应的特征向量进行加和处理，得到目标专利对应的特征向量。

可以通过对目标专利进行分词处理，得到该目标专利中所有的词，该目标专利中所有的词形成的序列，即为该目标专利对应的词序列。本申请实施例对分词处理的具体方式不做限制，例如，可以通过jieba分词(一种分词方式)，snownlp分词(一种分词方式)等任一种分词方式进行分词处理。其中，为了减少数据处理过程的计算量，提高数据处理效率，可以仅基于目标专利的发明名称、说明书摘要、权利要求书，对该目标专利进行分词处理。

在得到目标专利对应的词序列之后，可以基于TextRank文本等级算法，提取出该词序列中的关键词，并确定各关键词的TextRank值，所提取出的关键词即为该目标专利的第一特征词，关键词的TextRank值即为第一特征词对应于目标专利的TextRank值。

一个第一特征词对应于目标专利的词权重，即该第一特征词对应的TextRank值和该第一特征词对应的TF-IDF值的乘积。

可以基于word2vec确定第一特征词的特征向量，具体的，先对该第一特征词进行预设维度的映射，并确定该第一特征词映射后的向量与该第一特征词的词权重的第二乘积，将该第一特征词对应的第二乘积确定为该第一特征词的特征向量。本申请实施例对预设维度的具体取值不做限制，该预设维度的具体取值可以为经验值或实验值，可以根据实际情况确定。例如，可以设置预设维度为100。

通过将每个第一特征词进行预设维度的映射，可以使得所确定的第一特征词的特征向量的维度均相同，方便基于第一特征词的特征向量进行后续的处理。例如，将目标专利中所有第一特征词对应的特征向量进行加和处理，得到目标专利对应的特征向量。

可以基于上述确定目标专利对应的特征向量的方式，确定出预设数据库中每项第一专利对应的特征向量。同样地，所得到的目标专利对应的特征向量的维度与每项第一专利对应的特征向量的维度均相同。

可选地，目标专利与每项第一专利之间的相似度可以为目标专利与每项第一专利之间的余弦相似度。具体地，可以根据以下公式2确定目标专利与任一项第一专利之间的相似度：

其中，v₁为目标专利对应的特征向量，v₂为任一项第一专利对应的特征向量，Simv₁v₂为目标专利与任一项第一专利之间的相似度。

可以理解的是，每项专利对应的特征向量是基于该专利中的特征词的词权重得到的，因此，若两项专利中不存在相同的特征词，则这两项专利之间的相似度为0，即这两项专利中不存在相似度。

由于预设数据库中的专利的数量较多，存在很多与目标专利相似性较低、甚至毫无关联的专利，因此，为了提高数据处理效率，减少计算量，可以对预设数据库中的专利进行筛选，得到第一专利。具体的：可以基于分布式检索系统ElasticSearch(一种搜索服务器)及SimHash算法(一种文本相似方法)，对预设数据库中的专利进行预筛选，将筛选得到的各第一专利中与目标专利对应于IPC的小类相同的专利确定为第一专利。

通过对预设数据库中的专利进行筛选，得到第一专利，可以避免确定目标专利与预设数据库中除目标专利之外的所有专利之间的相似度，减少计算量，提高数据处理效率。并且，还可以节省执行本申请实施例中提供的专利技术核心度的方法的执行主体的存储空间的开销。

在该实现方式中，通过基于TextRank文本等级算法，可以根据目标专利对应的词序列，快速确定出目标专利中所有的第一特征词，以及每个第一特征词在目标专利中的重要程度。通过基于TF-IDF算法，可以确定出目标专利中每个第一特征词在预设数据库中的重要程度。考虑到该第一特征词在目标专利中的重要程度以及目标专利所在的预设数据库中的重要程度，可以更精确地确定出该第一特征词对应于目标专利的词权重。

对于每个第一特征词，将该第一特征词映射为相同维度的向量，并将该第一特征词的映射后的向量与对应的词权重的乘积确定为该第一特征词的特征向量，将目标专利中所有第一特征词对应的特征向量进行加和处理，得到目标专利对应的特征向量。并基于同样的方式，确定出预设数据库中每项第一专利对应的特征向量，使得所得到的目标专利对应的特征向量的维度与每项第一专利对应的特征向量的维度均相同，可以更好地确定目标专利与每项第一专利之间的相似度。

可选地，根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，包括：

根据目标专利与每项第一专利之间的相似度，确定关联申请人的技术相似度；

对关联申请人的技术相似度进行归一化处理，将归一化处理后的技术相似度确定为关联申请人的技术竞争强度值；

将目标申请人的技术竞争强度值设置为1，并确定所有第一申请人的技术竞争强度值的第二总和；

对于每个第一申请人，将第一申请人的技术竞争强度值在第二总和中的占比，确定为第一申请人的领域强度值。

对于一个关联申请人，该关联申请人的技术相似度可以为该关联申请人的每项第一专利对应的相似度的和，也可以为该关联申请人的每项第一专利对应的相似度的平均值，也可以为该关联申请人的每项第一专利对应的相似度的中值等，本申请对具体确定关联申请人的技术相似度的方式不作限制。应该理解的是，若存在多个关联申请人，则每个关联申请人的技术相似度的确定方式应该保持一致。

在对关联申请人的技术相似度进行归一化处理时，可以通过确定所有关联申请人的技术相似度的总和，将每个关联申请人的技术相似度在该总和中的占比确定为该关联申请人的技术竞争强度值，实现对关联申请人的技术相似度进行归一化处理。具体地，可以通过以下公式3确定关联申请人的技术竞争强度值。

其中，D_q表示关联申请人q的技术相似度，T(D_q)表示关联申请人q的技术竞争强度值，n-1表示所有关联申请人q的总数量，上述第一申请人j的总数量应该为所有关联申请人q的总数量加目标申请人的数量(即，1)。

由于关联申请人的技术竞争强度值，是基于关联申请人的每项第一专利与目标申请人的目标专利的相似度确定的，基于此，可以视为目标申请人的目标专利与目标申请人的目标专利的相似度为1，对应地，可以将目标申请人的技术竞争强度值设置为1。

对于每个第一申请人，可以通过以下公式4确定第一申请人的领域强度值。

其中，

即为所有第一申请人的技术竞争强度值的第二总和，即所有第一申请人的技术竞争强度值的和。

通过基于目标专利与每项第一专利之间的相似度，确定关联申请人的技术相似度、技术竞争强度值，可以根据关联申请人的技术相似度、技术竞争强度值，可以更进一步地确定出该关联申请人在技术层面上与目标申请人之间的关联关系。通过将第一申请人的技术竞争强度值在第二总和中的占比，确定为第一申请人的领域强度值，可以确定出每个第一申请人对应的专利对目标专利所在领域的贡献程度。

可选地，根据目标专利与每项第一专利之间的相似度，确定关联申请人的技术相似度，包括：

获取预设数据库中、属于目标申请人的专利形成的专利列表，目标专利为专利列表中的任一专利；

对于专利列表中的每项目标专利，将与目标专利存在相似度的第一专利，确定为目标专利对应的相似专利；

将专利列表中每项目标专利对应的相似专利，形成相似专利集合；

将相似专利集合中、每项相似专利对应的第二申请人确定为关联申请人；

将属于关联申请人的相似专利对应的相似度进行累加，得到关联申请人的技术相似度。

由于在预设数据库中，目标申请人的专利不止一项，因此，可以将预设数据库中目标申请人的专利进行筛选，根据筛选得到的目标申请人的专利形成专利列表。可以根据上述确定目标专利与每项第一专利之间的相似度的方式，确定出该专利列表中所有目标专利分别与每项第一专利之间的相似度。

通过确定目标申请人的每项目标专利对应的相似专利，并根据每项目标专利对应的相似专利，形成相似专利集合。并根据相似专利集合中每项专利对应的第二申请人(即，每项相似专利的申请人)，确定为关联申请人，可以使得所确定的关联申请人为与目标申请人在技术层面存在关联关系的申请人。

如上文所记载的，由于目标专利与每项第一专利之间的相似度是指技术层面上的相似度，因此，通过将属于关联申请人的相似专利对应的相似度进行累加，可以快速、准确地得到关联申请人的技术相似度。

随着科学技术的发展，需要在一些领域做出深入的研究，例如互联网领域、大数据领域等，通常情况下，做出研究较多的领域也可以成为热门领域。因此，若专利列表中的目标专利所属的技术领域为比较热门的领域，则对应地，在预设数据库中，也会存在较多的目标专利对应的相似专利、较多的第二申请人。虽然在将所有第二申请人确定为关联申请人，并执行本申请实施例所提供的专利技术核心度的确定方式的情况下，准确度相对较高，但若第二申请人较多，可能也会增大数据量，影响数据处理效率。为了提高数据处理效率，本申请实施例还提供了以下可选的实施方式：

上述将相似专利集合中、每项相似专利对应的第二申请人确定为关联申请人，包括：

对于每个第二申请人，将相似专利集合中、属于第二申请人的相似专利对应的相似度进行累加，确定第二申请人的技术相似度；

将所有第二申请人的技术相似度进行排序，将排序前预定数量的技术相似度对应的第二申请人确定为关联申请人。

其中，预定数量的取值可以为实验值或经验值，本申请实施例对预设数量的具体取值不做限制，可以根据实际情况确定。例如，可以设置预定数量为50。也即，若第二申请人的个数少于或等于50，第二申请人即关联申请人。若第二申请人的个数大于50，则对将所有第二申请人的技术相似度进行排序，将排序前50个技术相似度对应的第二申请人确定为关联申请人。

通过将所有第二申请人的技术相似度进行排序，将排序前预定数量的技术相似度对应的第二申请人确定为关联申请人，在一定程度上，减少了系统开销，减少了数据量，提高了数据处理效率。

为便于更清楚的理解本申请实施例提供的专利技术核心度的确定方法的应用价值，下面结合一个具体应用场景实施例进行说明。本申请提供的方案可以应用于对任一专利进行技术核心度的确定的应用场景中，该方案可以实现为终端设备、终端设备对应的服务器等。

图2示出了本申请实施例提供的专利技术核心度的确定方法的流程图。如图2所示，该专利技术核心度的确定方法可以具体包括以下步骤。

步骤S11：获取预设数据库中、属于专利权人A的专利m(也即，上述目标专利)形成的专利列表M。

步骤S12：对于专利列表M中的每项专利m，根据以下步骤A，确定每项专利m与该预设数据库中除了专利列表之外的其他专利之间的相似度Sm(即，上述Simv₁v₂)。

根据预设数据库中、与每项专利m存在专利相似度Sm的相似专利，形成相似专利集合Nm。

确定该相似专利集合Nm中各项专利对应的专利权人集合Pm(也即，上述关联申请人)。

其中，以一项专利为例，步骤A可以具体包括：

步骤A1：基于TextRank算法，对该专利进行特征词抽取，得到该专利对应的至少一个特征词以及每个特征词的TextRank值，基于TF-IDF算法，确定每个特征词的TF-IDF值，基于每个特征词的TextRank值和TF-IDF值，确定每个特征词的词权重。

步骤A2：基于word2vec，对每个特征词映射为100维的向量，并将每个特征词映射后的向量与对应的词权重相乘，得到该特征词对应的特征向量，将该专利中所有特征词的特征向量相加，得到该专利的特征向量，即进行专利特征向量表示。

步骤A3：基于分布式检索系统ElasticSearch及SimHash算法，对预设数据库中的专利进行预筛选。

步骤A4：基于预筛选结果，根据IPC重合的相似性过滤策略，确定与该专利的IPC小类相同的专利。

步骤A5：确定该专利的特征向量以及与该专利的IPC小类相同的专利的特征向量之间的专利相似度(比如余弦相似度，

)，实现大规模专利的相似性计算(图中未示出)。

步骤S13：对于专利权人集合Pm中的每位专利权人(即，上述关联申请人)，进行该专利权人的所有专利对应的专利相似度Sm进行加和，得到该专利权人的总相似度(即，上述技术相似度D_q)。

步骤S14：对于专利权人集合Pm中的每位专利权人的总相似度进行归一化处理，即上述：对关联申请人的技术相似度进行归一化处理，得到专利权人集合Pm中的每位专利权人的技术竞争强度值(即，

)。

步骤S15：根据专利权人A及专利权人A的所有技术竞争对手(即，专利权人集合Pm中的每位专利权人)构成集合D，将专利权人A的技术竞争强度值设置为1，获得集合D中每个专利权人的技术竞争强度值(即，D_j)。

步骤S16：确定集合D中所有专利权人的技术竞争强度值的总和(即，上述第二总和)，对于集合D中每个专利权人，将该专利权人的技术竞争强度值在第二总和中的占比，确定为该专利权人的领域强度值(即，

)。

步骤S17：基于上述步骤A1，确定出集合D中每个专利权人的每项专利中的特征词及特征词的词权重(即，

)。

步骤S18：集合D中每个专利权人的每项专利中的特征词及特征词的词权重、集合D中每个专利权人的技术竞争强度值，确定专利权人A的专利列表M中的每项专利m的技术核心度(即，

)。具体地，可以通过以下步骤B确定一项专利m的技术核心度。

对于一项专利m，步骤B(图中未示出)可以具体包括：

步骤B1：对于该专利m中的每个特征词，将该特征词对应于集合D中一个专利权人的每项专利的词权重的总和，确定为该特征词对应于集合D中的该专利权人的目标词权重。直至确定出专利m中的每个特征词对应于集合D中的每个专利权人的目标词权重。

步骤B2：根据该专利m中的每个特征词对应于集合D中的一个专利权人的目标词权重，确定专利m中所有特征词对应于该专利权人的目标词权重的总和

直至确定出专利m中所有特征词对应于集合D中的每个专利权人的目标词权重的总和。

步骤B3：对于集合D中的一个专利权人，确定专利m中所有特征词对应于该专利权人的目标词权重的总和以及该专利权人的领域强度值，确定出二者的乘积，该乘积也即专利m对应于该专利权人的乘积(即，上述第一乘积)。

步骤B4：将专利m对应于集合D中所有专利权人的乘积的总和，确定为该专利m的技术核心度

通过步骤B可以确定出专利权人A的专利列表M中的每项专利m的技术核心度。

本申请实施例还提供了一种专利技术核心度的确定装置。图3示出了本申请实施例提供的专利技术核心度的确定装置的示意图。如图3所示，该装置30包括领域强度值确定模块301、目标词权重确定模块302、技术核心度确定模块303，其中，

领域强度值确定模块301，用于根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，目标申请人为目标专利对应的申请人，关联申请人为与目标申请人存在关联关系的申请人；

目标词权重确定模块302，用于根据每个第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定目标专利中每个第一特征词对应于每个第一申请人的目标词权重；

技术核心度确定模块303，用于基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度。

可选地，技术核心度确定模块303在基于每个第一特征词对应的目标词权重、每个第一申请人的领域强度值，确定目标专利的技术核心度时，具体用于：

可选地，领域强度值确定模块301在根据目标专利与预设数据库中除了目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值时，具体用于：

可选地，领域强度值确定模块301在根据目标专利与每项第一专利之间的相似度，确定关联申请人的技术相似度时，具体用于：

可选地，领域强度值确定模块301在将相似专利集合中、每项相似专利对应的第二申请人确定为关联申请人时，具体用于：

对于每个第二申请人，将相似专利集合中、属于第二申请人的相似专利对应的相似度进行累加，确定出第二申请人的技术相似度；

将所有第二申请人的技术相似度进行排序，将排序前预定数量的第二申请人确定为关联申请人。

可选地，对于每个第一申请人，目标词权重确定模块302在确定每个第一特征词对应于每个第一申请人的目标词权重时，具体用于：

其中，目标专利对应的特征向量是通过以下方式确定的：

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

基于与本申请实施例提供的专利的技术核心度的确定方法及装置相同的原理，本申请实施例中还提供了一种电子设备(如服务器)，该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选地，图4示出了本申请实施例所适用的一种电子设备的结构示意图，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种专利技术核心度的确定方法，其特征在于，所述方法包括：

根据目标专利与预设数据库中除了所述目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，所述目标申请人为所述目标专利对应的申请人，所述关联申请人为与所述目标申请人存在关联关系的申请人；

根据每个所述第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定所述目标专利中每个第一特征词对应于每个所述第一申请人的目标词权重；

基于每个第一特征词对应的目标词权重、每个所述第一申请人的领域强度值，确定所述目标专利的技术核心度。

2.根据权利要求1所述的方法，其特征在于，所述基于每个第一特征词对应的目标词权重、每个所述第一申请人的领域强度值，确定所述目标专利的技术核心度，包括：

确定所述目标专利中所有第一特征词对应的目标词权重的第一总和；

确定所述第一总和与对应的第一申请人的领域强度值的第一乘积；

将所述目标专利对应于所有所述第一申请人的第一乘积的总和，确定为所述目标专利的技术核心度。

3.根据权利要求1所述的方法，其特征在于，所述根据目标专利与预设数据库中除了所述目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，包括：

根据所述目标专利与每项所述第一专利之间的相似度，确定所述关联申请人的技术相似度；

对所述关联申请人的技术相似度进行归一化处理，将归一化处理后的技术相似度确定为所述关联申请人的技术竞争强度值；

将所述目标申请人的技术竞争强度值设置为1，并确定所有所述第一申请人的技术竞争强度值的第二总和；

对于每个所述第一申请人，将所述第一申请人的技术竞争强度值在所述第二总和中的占比，确定为所述第一申请人的领域强度值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标专利与每项所述第一专利之间的相似度，确定所述关联申请人的技术相似度，包括：

获取所述预设数据库中、属于所述目标申请人的专利形成的专利列表，所述目标专利为所述专利列表中的任一专利；

对于所述专利列表中的每项目标专利，将与所述目标专利存在相似度的第一专利，确定为所述目标专利对应的相似专利；

将所述专利列表中每项目标专利对应的相似专利，形成相似专利集合；

将所述相似专利集合中、每项相似专利对应的第二申请人确定为所述关联申请人；

将属于所述关联申请人的相似专利对应的相似度进行累加，得到所述关联申请人的技术相似度。

5.根据权利要求4所述的方法，其特征在于，所述将所述相似专利集合中、每项相似专利对应的第二申请人确定为所述关联申请人，包括：

对于每个所述第二申请人，将所述相似专利集合中、属于所述第二申请人的相似专利对应的相似度进行累加，确定所述第二申请人的技术相似度；

将所有所述第二申请人的技术相似度进行排序，将排序前预定数量的技术相似度对应的第二申请人确定为所述关联申请人。

6.根据权利要求1所述的方法，其特征在于，对于每个所述第一申请人，所述确定所述目标专利中每个第一特征词对应于每个所述第一申请人的目标词权重，包括：

对于每个第一特征词，将所述第一特征词对应于所述第一申请人的每项专利的词权重的总和，确定为所述第一特征词对应于所述第一申请人的目标词权重。

7.根据权利要求1所述的方法，其特征在于，对于每项目标专利，所述目标专利与预设数据库中除了所述目标专利之外的每项第一专利之间的相似度是通过以下方式确定的：

确定所述目标专利对应的特征向量，以及每项所述第一专利对应的特征向量；

基于所述目标专利对应的特征向量与每项所述第一专利对应的特征向量，确定所述目标专利与每项所述第一专利之间的相似度；

其中，所述目标专利对应的特征向量是通过以下方式确定的：

基于TextRank文本等级算法，根据所述目标专利对应的词序列，确定所述目标专利中所有的第一特征词以及每个第一特征词对应于所述目标专利的TextRank值；

基于TF-IDF词频-逆文本频率指数，确定每个第一特征词对应于所述预设数据库中的TF-IDF值；

对于每个第一特征词，基于所述第一特征词对应的TextRank值和所述第一特征词对应的TF-IDF值，确定所述第一特征词对应于所述目标专利的词权重；

对于每个第一特征词，对所述第一特征词进行预设维度的映射，并确定所述第一特征词映射后的向量与所述第一特征词的词权重的第二乘积，将所述第一特征词对应的第二乘积确定为所述第一特征词对应的特征向量；

将所述目标专利中所有第一特征词对应的特征向量进行加和处理，得到所述目标专利对应的特征向量。

8.一种专利技术核心度的确定装置，其特征在于，所述装置包括领域强度值确定模块、目标词权重确定模块、技术核心度确定模块，

领域强度值确定模块，用于根据目标专利与预设数据库中除了所述目标专利之外的每项第一专利之间的相似度，确定目标申请人以及关联申请人中每个第一申请人的领域强度值，所述目标申请人为所述目标专利对应的申请人，所述关联申请人为与所述目标申请人存在关联关系的申请人；

目标词权重确定模块，用于根据每个所述第一申请人的每项专利中的特征词以及每个特征词对应于所属专利的词权重，确定所述目标专利中每个第一特征词对应于每个所述第一申请人的目标词权重；

技术核心度确定模块，用于基于每个第一特征词对应的目标词权重、每个所述第一申请人的领域强度值，确定所述目标专利的技术核心度。

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。