CN116701633B

CN116701633B - 一种基于专利大数据的行业分类方法

Info

Publication number: CN116701633B
Application number: CN202310707911.7A
Authority: CN
Inventors: 李一鸣; 王�忠; 谢金浩; 余勇; 费永建
Original assignee: Shanghai Stock Exchange Technology Co ltd
Current assignee: Shanghai Stock Exchange Technology Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2024-06-18
Anticipated expiration: 2043-06-14
Also published as: CN116701633A

Abstract

本发明涉及行业分类领域，具体来说是一种基于专利大数据的行业分类方法，所述方法具体如下：S1.特征提取：对专利全文进行分词处理，采用TF‑IDF算法剔除误导词；S2.构建专利特征向量：筛选与目标企业专利相似的其他专利，每篇专利各抽取t个关键词，合并成一个向量，每篇专利对应一个向量，向量中的元素为每篇专利中每个关键词出现的频率，对词汇频率进行归一化，使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值。本发明优点在于：高效，计算全程由计算机处理，无需人工参与。精准，使用专利数据来进行行业划分，能有效的保障行业分类结果的准确性。真实性，专利的获得具有一定难度和技术壁垒，这保障了结果的真实可靠。

Description

一种基于专利大数据的行业分类方法

技术领域

本发明涉及行业分类领域，具体来说是一种基于专利大数据的行业分类方法。

背景技术

在经济高速发展的今天，新兴产业不断涌现，高新技术不断迭代。精准的行业分类，对掌握和预测企业的发展现状和未来走势、分析和研究产业的发展规律，把握和制定国家大政方针等都具有至关重要的作用。

然而，传统的行业分类方法是通过人工的方式，对有限的数量的企业进行归类和划分。这些传统的分类方法有三点不足，第一是效率低，对一家企业的行业划分是建立在对这家企业和所属行业非常熟悉的基础之上做的判断，且仅中国工商注册企业就已达千万量级，要想通过人工的方式对千万家企业进行分类是一件完全不可能的事情。诚如现阶段应用比较广泛的证监会、申万行业分类，也仅仅只是对3000多家上市公司进行分类；其次是精准度低，现阶段的行业分类，最细不过几百类。但是，现阶段社会分工不断细化，现有的行业分类已完全无法满足社会发展的需求。且许多企业的经营范围往往涉及多个行业，人工分类难上加难；最后是门槛高，每个行业都有自己特点，尤其对于一些新兴的高新行业，存在有较高的技术壁垒，如果有上万个行业，就要有上万个行业专家，这对人工分类提出了更高的要求。

发明内容

本发明要解决的技术问题是克服现有技术的不足，提供一种基于专利数据构建数学模型，挖掘企业专利数据与企业行业分类之间存在的潜在关系，打通企业专利数据->技术方向->主营业务->行业分类的数据通道的行业分类方法，该方法分类效率高、分类精准、分类内容全面。

为了实现上述目的，设计一种基于专利大数据的行业分类方法，所述方法具体如下：

S1.特征提取：对专利全文进行分词处理，采用TF-IDF算法剔除误导词；

S2.构建专利特征向量：筛选与目标企业专利相似的其他专利，每篇专利各抽取t个关键词，合并成一个向量，每篇专利对应一个向量，向量中的元素为每篇专利j中每个关键词N出现的频率tf_N,j，对词汇频率进行归一化，使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值，最终，向量表述为：

其中，V_j：专利j的特征向量；

S3.计算专利相似度：筛选与目标企业的所有专利相似的其他专利，每篇专利会对应一个企业，这些企业组成了第一次过滤的集合A

S4.构建企业特征向量，将所有IPC分类的大组作为一个向量，每家企业对应一个向量，向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值，最终，向量表述为

其中，W_k：企业k的特征向量，p_l,k：企业k拥有属于IPC大组l的专利数量，tp_k：企业k拥有的专利总数；

S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量，通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度，匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为：

S_i,j：企业i和企业j技术相似度,筛选S_i,j大于0.9的企业作为最终的行业分类集合。

本发明还具有如下优选的技术方案：

1.所述剔除误导词的计算公式如下：

其中，w_i,j：词汇i对专利j的影响程度，数值越小，表示该词汇对该专利影响越小，视为误导词；tf_i,j：词汇i在专利j中出现的频率；n_j：专利j中所有词汇的总数；N：专利总数；df_i：词汇i在专利库中出现的次

数，如果一个词汇在一篇专利中出现多次，统一按一次处理。

2.所述计算专利相似度方法具体如下：相似专利的筛选是通过计算两篇专利的特征向量的夹角余弦值来评估他们的相似度，余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似，计算公式为：

其中，D_i,j为专利i和专利j相似度，筛选D_i,j大于0.9的专利为相似专利。

3.所述步骤S1之前还包括数据清理步骤，所述数据清理步骤对数据库中专利数据进行清洗，根据工商登记数据，合并所有子企业，所有子企业专利在该方法下都计入母企业所有

本发明同现有技术相比，其优点在于：

1.高效，计算全程由计算机处理，无需人工参与。

2.精准，专利是企业自身最希望受到保护的知识产权，是企业赖以生存的根基，能客观反映企业的核心业务，使用专利数据来进行行业划分，能有效的保障行业分类结果的准确性；使用IPC分类大组(6000+)作为分类的原子，在结合原子之间排列组合，使得行业划分的粒度极其的细致。

3.真实性，专利的获得具有一定难度和技术壁垒，造假的概率更低，这保障了结果的真实可靠，也有效的避免的人为主观判断的影响。

4.全面，中国5000万工商注册的公司，凡是拥有专利，都能进行行业的划分，而不是如证监会、申万行业分类，只能对上市公司进行行业划分。

附图说明

图1是本发明的计算流程图。

具体实施方式

下面结合附图对本发明作进一步说明，本发明的结构和原理对本专业的人来说是非常清楚的。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明基于专利数据构建数学模型，挖掘企业专利数据与企业行业分类之间存在的潜在关系，打通企业专利数据->技术方向->主营业务->行业分类的数据通道。只需输入为一家企业名称，会输出为与这家企业具有相同定位的同行业竞争企业集合。

如图1所示，具体的计算流程如下：

第一步，数据清洗

对数据库中专利数据进行清洗，根据工商登记数据，合并所有子企业，所有子企业专利在该方法下都计入母企业所有。

第二步，特征提取

对专利全文进行分词处理，分词过程中考虑到一些如“根据”、“特征”、“优选”、“的”等一些专利常用词，它们对专利所描述的事务没有实质影响，但出现频率较高，会对特征提取造成一定的误导性影响。为了剔除误导词，采用TF-IDF算法进行处理，计算公式如下：

参数解释：

w_i,j：词汇i对专利j的影响程度，数值越小，表示该词汇对该专利影响越小，可视为误导词。

tf_i,j：词汇i在专利j中出现的频率。

n_j：专利j中所有词汇的总数。

N：专利总数。

df_i：词汇i在专利库中出现的次数，如果一个词汇在一篇专利中出现多次，统一按一次处理。

第三步，构建专利特征向量

筛选与目标企业专利相似的其他专利，每篇专利各抽取t个关键词，合并成一个向量，每篇专利对应一个向量，向量中的元素为每篇专利j中每个关键词N出现的频率tf_N,j。为了避免专利长度对计算造成的误导性影响，对词汇频率进行归一化，使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值。最终，向量表述为：

参数解释：

V_j：专利j的特征向量。

第四步，计算专利相似度

筛选与目标企业的所有专利相似的其他专利，每篇专利会对应一个申请人(企业)，这些企业组成了第一次过滤的集合A。

相似专利的筛选是通过计算两个篇专利的特征向量的夹角余弦值来评估他们的相似度。这里利用到了余弦特性：即余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0°，他们的方向更加一致，相应的相似度也越高。需要指出的是，在文本相似度判定中，因为文本特征向量定义的特殊性，其余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似。

计算公式为：

参数解释：

D_i,j：专利i和专利j相似度，筛选D_i,j大于0.9的专利为相似专利。

第五步，构建企业特征向量

将所有IPC分类的大组作为一个向量，每家企业对应一个向量，向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值。最终，向量表述为：

参数解释：

W_k：企业k的特征向量。

p_l,k：企业k拥有属于IPC大组l的专利数量。

tp_k：企业k拥有的专利总数。

第六步，技术相似度计算

通过上述方法初步筛选出的集合A，存在粒度较粗针对性较差的问题，可能会存在两家不同行业的企业拥有相似技术方向专利而被分到同一集合中的错误情况。以专利大户国家电网为例，因为该企业专利范围广，可能会在信息技术方面也申请专利，但是并不能判断国家电网和阿里巴巴为同一行业。

针对上述问题，对目标集合进行再次筛选。利用第五步中构建的企业特征向量，通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度。匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B。

计算公式为：

参数解释：

S_i,j：企业i和企业j技术相似度。

根据上述计算，筛选S_i,j大于0.9的企业作为最终的行业分类集合。

以上所述，仅为此发明的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案和新型的构思加于等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于专利大数据的行业分类方法，其特征在于所述方法具体如下：

S2.构建专利特征向量：筛选与目标企业专利相似的其他专利，每篇专利各抽取t个关键词，合并成一个向量，每篇专利对应一个向量，向量中的元素为每篇专利j中每个关键词N出现的频率tf_N,j，对词汇频率进行归一化，使用目标专利中目标关键词出现的次数与目标专利词汇总数n_j的比例作为目标关键词的归一化值，最终，向量表述为：

其中，V_j：专利j的特征向量；

S3.计算专利相似度：筛选与目标企业的所有专利相似的其他专利，每篇专利会对应一个企业，这些企业组成了第一次过滤的集合A；

2.如权利要求1所述的一种基于专利大数据的行业分类方法，其特征在于所述剔除误导词的计算公式如下：

其中，w_i,j：词汇i对专利j的影响程度，数值越小，表示该词汇对该专利影响越小，视为误导词；

tf_i,j：词汇i在专利j中出现的频率；

n_j：专利j中所有词汇的总数；

N：专利总数；

3.如权利要求1所述的一种基于专利大数据的行业分类方法，其特征在于所述计算专利相似度方法具体如下：相似专利的筛选是通过计算两篇专利的特征向量的夹角余弦值来评估他们的相似度，余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似，计算公式为：

4.如权利要求1所述的一种基于专利大数据的行业分类方法，其特征在于所述步骤S1之前还包括数据清理步骤，所述数据清理步骤对数据库中专利数据进行清洗，根据工商登记数据，合并所有子企业，所有子企业专利在该方法下都计入母企业所有。