CN116701633B - 一种基于专利大数据的行业分类方法 - Google Patents
一种基于专利大数据的行业分类方法 Download PDFInfo
- Publication number
- CN116701633B CN116701633B CN202310707911.7A CN202310707911A CN116701633B CN 116701633 B CN116701633 B CN 116701633B CN 202310707911 A CN202310707911 A CN 202310707911A CN 116701633 B CN116701633 B CN 116701633B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- vector
- patents
- target
- industry classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- ANBQYFIVLNNZCU-CQCLMDPOSA-N alpha-L-Fucp-(1->2)-[alpha-D-GalpNAc-(1->3)]-beta-D-Galp-(1->3)-[alpha-L-Fucp-(1->4)]-beta-D-GlcpNAc-(1->3)-beta-D-Galp Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]1[C@H](O[C@H]2[C@@H]([C@@H](O[C@@H]3[C@@H]([C@@H](O)[C@@H](O)[C@@H](CO)O3)NC(C)=O)[C@@H](O)[C@@H](CO)O2)O[C@H]2[C@H]([C@H](O)[C@H](O)[C@H](C)O2)O)[C@@H](NC(C)=O)[C@H](O[C@H]2[C@H]([C@@H](CO)O[C@@H](O)[C@@H]2O)O)O[C@@H]1CO ANBQYFIVLNNZCU-CQCLMDPOSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及行业分类领域,具体来说是一种基于专利大数据的行业分类方法,所述方法具体如下:S1.特征提取:对专利全文进行分词处理,采用TF‑IDF算法剔除误导词;S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利中每个关键词出现的频率,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数的比例作为目标关键词的归一化值。本发明优点在于:高效,计算全程由计算机处理,无需人工参与。精准,使用专利数据来进行行业划分,能有效的保障行业分类结果的准确性。真实性,专利的获得具有一定难度和技术壁垒,这保障了结果的真实可靠。
Description
技术领域
本发明涉及行业分类领域,具体来说是一种基于专利大数据的行业分类方法。
背景技术
在经济高速发展的今天,新兴产业不断涌现,高新技术不断迭代。精准的行业分类,对掌握和预测企业的发展现状和未来走势、分析和研究产业的发展规律,把握和制定国家大政方针等都具有至关重要的作用。
然而,传统的行业分类方法是通过人工的方式,对有限的数量的企业进行归类和划分。这些传统的分类方法有三点不足,第一是效率低,对一家企业的行业划分是建立在对这家企业和所属行业非常熟悉的基础之上做的判断,且仅中国工商注册企业就已达千万量级,要想通过人工的方式对千万家企业进行分类是一件完全不可能的事情。诚如现阶段应用比较广泛的证监会、申万行业分类,也仅仅只是对3000多家上市公司进行分类;其次是精准度低,现阶段的行业分类,最细不过几百类。但是,现阶段社会分工不断细化,现有的行业分类已完全无法满足社会发展的需求。且许多企业的经营范围往往涉及多个行业,人工分类难上加难;最后是门槛高,每个行业都有自己特点,尤其对于一些新兴的高新行业,存在有较高的技术壁垒,如果有上万个行业,就要有上万个行业专家,这对人工分类提出了更高的要求。
发明内容
本发明要解决的技术问题是克服现有技术的不足,提供一种基于专利数据构建数学模型,挖掘企业专利数据与企业行业分类之间存在的潜在关系,打通企业专利数据->技术方向->主营业务->行业分类的数据通道的行业分类方法,该方法分类效率高、分类精准、分类内容全面。
为了实现上述目的,设计一种基于专利大数据的行业分类方法,所述方法具体如下:
S1.特征提取:对专利全文进行分词处理,采用TF-IDF算法剔除误导词;
S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利j中每个关键词N出现的频率tfN,j,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值,最终,向量表述为:
其中,Vj:专利j的特征向量;
S3.计算专利相似度:筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个企业,这些企业组成了第一次过滤的集合A
S4.构建企业特征向量,将所有IPC分类的大组作为一个向量,每家企业对应一个向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值,最终,向量表述为
其中,Wk:企业k的特征向量,pl,k:企业k拥有属于IPC大组l的专利数量,tpk:企业k拥有的专利总数;
S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度,匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为:
Si,j:企业i和企业j技术相似度,筛选Si,j大于0.9的企业作为最终的行业分类集合。
本发明还具有如下优选的技术方案:
1.所述剔除误导词的计算公式如下:
其中,wi,j:词汇i对专利j的影响程度,数值越小,表示该词汇对该专利影响越小,视为误导词;tfi,j:词汇i在专利j中出现的频率;nj:专利j中所有词汇的总数;N:专利总数;dfi:词汇i在专利库中出现的次
数,如果一个词汇在一篇专利中出现多次,统一按一次处理。
2.所述计算专利相似度方法具体如下:相似专利的筛选是通过计算两篇专利的特征向量的夹角余弦值来评估他们的相似度,余弦值范围为[0,1],即向量夹角越趋向于90°,则两向量越不相似,计算公式为:
其中,Di,j为专利i和专利j相似度,筛选Di,j大于0.9的专利为相似专利。
3.所述步骤S1之前还包括数据清理步骤,所述数据清理步骤对数据库中专利数据进行清洗,根据工商登记数据,合并所有子企业,所有子企业专利在该方法下都计入母企业所有
本发明同现有技术相比,其优点在于:
1.高效,计算全程由计算机处理,无需人工参与。
2.精准,专利是企业自身最希望受到保护的知识产权,是企业赖以生存的根基,能客观反映企业的核心业务,使用专利数据来进行行业划分,能有效的保障行业分类结果的准确性;使用IPC分类大组(6000+)作为分类的原子,在结合原子之间排列组合,使得行业划分的粒度极其的细致。
3.真实性,专利的获得具有一定难度和技术壁垒,造假的概率更低,这保障了结果的真实可靠,也有效的避免的人为主观判断的影响。
4.全面,中国5000万工商注册的公司,凡是拥有专利,都能进行行业的划分,而不是如证监会、申万行业分类,只能对上市公司进行行业划分。
附图说明
图1是本发明的计算流程图。
具体实施方式
下面结合附图对本发明作进一步说明,本发明的结构和原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明基于专利数据构建数学模型,挖掘企业专利数据与企业行业分类之间存在的潜在关系,打通企业专利数据->技术方向->主营业务->行业分类的数据通道。只需输入为一家企业名称,会输出为与这家企业具有相同定位的同行业竞争企业集合。
如图1所示,具体的计算流程如下:
第一步,数据清洗
对数据库中专利数据进行清洗,根据工商登记数据,合并所有子企业,所有子企业专利在该方法下都计入母企业所有。
第二步,特征提取
对专利全文进行分词处理,分词过程中考虑到一些如“根据”、“特征”、“优选”、“的”等一些专利常用词,它们对专利所描述的事务没有实质影响,但出现频率较高,会对特征提取造成一定的误导性影响。为了剔除误导词,采用TF-IDF算法进行处理,计算公式如下:
参数解释:
wi,j:词汇i对专利j的影响程度,数值越小,表示该词汇对该专利影响越小,可视为误导词。
tfi,j:词汇i在专利j中出现的频率。
nj:专利j中所有词汇的总数。
N:专利总数。
dfi:词汇i在专利库中出现的次数,如果一个词汇在一篇专利中出现多次,统一按一次处理。
第三步,构建专利特征向量
筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利j中每个关键词N出现的频率tfN,j。为了避免专利长度对计算造成的误导性影响,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值。最终,向量表述为:
参数解释:
Vj:专利j的特征向量。
第四步,计算专利相似度
筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个申请人(企业),这些企业组成了第一次过滤的集合A。
相似专利的筛选是通过计算两个篇专利的特征向量的夹角余弦值来评估他们的相似度。这里利用到了余弦特性:即余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0°,他们的方向更加一致,相应的相似度也越高。需要指出的是,在文本相似度判定中,因为文本特征向量定义的特殊性,其余弦值范围为[0,1],即向量夹角越趋向于90°,则两向量越不相似。
计算公式为:
参数解释:
Di,j:专利i和专利j相似度,筛选Di,j大于0.9的专利为相似专利。
第五步,构建企业特征向量
将所有IPC分类的大组作为一个向量,每家企业对应一个向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值。最终,向量表述为:
参数解释:
Wk:企业k的特征向量。
pl,k:企业k拥有属于IPC大组l的专利数量。
tpk:企业k拥有的专利总数。
第六步,技术相似度计算
通过上述方法初步筛选出的集合A,存在粒度较粗针对性较差的问题,可能会存在两家不同行业的企业拥有相似技术方向专利而被分到同一集合中的错误情况。以专利大户国家电网为例,因为该企业专利范围广,可能会在信息技术方面也申请专利,但是并不能判断国家电网和阿里巴巴为同一行业。
针对上述问题,对目标集合进行再次筛选。利用第五步中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度。匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B。
计算公式为:
参数解释:
Si,j:企业i和企业j技术相似度。
根据上述计算,筛选Si,j大于0.9的企业作为最终的行业分类集合。
以上所述,仅为此发明的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案和新型的构思加于等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于专利大数据的行业分类方法,其特征在于所述方法具体如下:
S1.特征提取:对专利全文进行分词处理,采用TF-IDF算法剔除误导词;
S2.构建专利特征向量:筛选与目标企业专利相似的其他专利,每篇专利各抽取t个关键词,合并成一个向量,每篇专利对应一个向量,向量中的元素为每篇专利j中每个关键词N出现的频率tfN,j,对词汇频率进行归一化,使用目标专利中目标关键词出现的次数与目标专利词汇总数nj的比例作为目标关键词的归一化值,最终,向量表述为:
其中,Vj:专利j的特征向量;
S3.计算专利相似度:筛选与目标企业的所有专利相似的其他专利,每篇专利会对应一个企业,这些企业组成了第一次过滤的集合A;
S4.构建企业特征向量,将所有IPC分类的大组作为一个向量,每家企业对应一个向量,向量中的元素为每家企业该IPC分类大组的专利数量占该企业专利总数的比值,最终,向量表述为
其中,Wk:企业k的特征向量,pl,k:企业k拥有属于IPC大组l的专利数量,tpk:企业k拥有的专利总数;
S5.技术相似度计算:对目标集合进行再次筛选,利用步骤S4中构建的企业特征向量,通过计算两个家企业的特征向量的夹角余弦值来评估他们的相似度,匹配集合A中与目标企业具有相同技术布局的企业作为最终的行业分类集合B,计算公式为:
Si,j:企业i和企业j技术相似度,筛选Si,j大于0.9的企业作为最终的行业分类集合。
2.如权利要求1所述的一种基于专利大数据的行业分类方法,其特征在于所述剔除误导词的计算公式如下:
其中,wi,j:词汇i对专利j的影响程度,数值越小,表示该词汇对该专利影响越小,视为误导词;
tfi,j:词汇i在专利j中出现的频率;
nj:专利j中所有词汇的总数;
N:专利总数;
dfi:词汇i在专利库中出现的次数,如果一个词汇在一篇专利中出现多次,统一按一次处理。
3.如权利要求1所述的一种基于专利大数据的行业分类方法,其特征在于所述计算专利相似度方法具体如下:相似专利的筛选是通过计算两篇专利的特征向量的夹角余弦值来评估他们的相似度,余弦值范围为[0,1],即向量夹角越趋向于90°,则两向量越不相似,计算公式为:
其中,Di,j为专利i和专利j相似度,筛选Di,j大于0.9的专利为相似专利。
4.如权利要求1所述的一种基于专利大数据的行业分类方法,其特征在于所述步骤S1之前还包括数据清理步骤,所述数据清理步骤对数据库中专利数据进行清洗,根据工商登记数据,合并所有子企业,所有子企业专利在该方法下都计入母企业所有。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310707911.7A CN116701633B (zh) | 2023-06-14 | 2023-06-14 | 一种基于专利大数据的行业分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310707911.7A CN116701633B (zh) | 2023-06-14 | 2023-06-14 | 一种基于专利大数据的行业分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701633A CN116701633A (zh) | 2023-09-05 |
CN116701633B true CN116701633B (zh) | 2024-06-18 |
Family
ID=87830829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310707911.7A Active CN116701633B (zh) | 2023-06-14 | 2023-06-14 | 一种基于专利大数据的行业分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701633B (zh) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122382B (zh) * | 2017-02-16 | 2021-03-23 | 江苏大学 | 一种基于说明书的专利分类方法 |
CN108897805A (zh) * | 2018-06-15 | 2018-11-27 | 江苏大学 | 一种专利文本自动分类方法 |
KR102306822B1 (ko) * | 2019-10-01 | 2021-09-30 | 재단법인 한국특허정보원 | 머신러닝을 이용한 특허문서 자동분류 장치 및 방법 |
CN111126062B (zh) * | 2019-12-25 | 2021-09-24 | 北京中技华软科技服务有限公司 | 一种产业自动分类方法及系统 |
CN113449099B (zh) * | 2020-03-25 | 2024-02-23 | 瑞典爱立信有限公司 | 文本分类方法和文本分类设备 |
CN111626331B (zh) * | 2020-04-23 | 2023-10-20 | 南京辰阔网络科技有限公司 | 一种自动化行业分类装置及其工作方法 |
CN113704446A (zh) * | 2020-05-22 | 2021-11-26 | 国家电网有限公司信息通信分公司 | 一种专利推荐方法及专利推荐系统 |
CN111930946A (zh) * | 2020-08-18 | 2020-11-13 | 哈尔滨工程大学 | 一种基于相似性度量的专利分类方法 |
CN112182223A (zh) * | 2020-10-12 | 2021-01-05 | 浙江工业大学 | 一种基于领域本体的企业行业分类方法和系统 |
CN112487161A (zh) * | 2020-11-26 | 2021-03-12 | 北京智源人工智能研究院 | 一种面向企业需求的专家推荐方法、装置、介质及设备 |
CN113342982B (zh) * | 2021-06-24 | 2023-07-25 | 长三角信息智能创新研究院 | 融合RoBERTa和外部知识库的企业行业分类方法 |
CN113822061B (zh) * | 2021-08-13 | 2023-09-08 | 国网上海市电力公司 | 一种基于特征图构建的小样本专利分类方法 |
KR20230057841A (ko) * | 2021-10-22 | 2023-05-02 | 한국원자력 통제기술원 | 원자력 관련 산업체 데이터 수집, 분석 및 분류 시스템과 그 방법 |
-
2023
- 2023-06-14 CN CN202310707911.7A patent/CN116701633B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于专利分析的临近空间飞行器发展策略分析及启示——以谷歌高空气球为例;李一鸣等;《社会科学Ⅰ辑》;20191020;全文 * |
基于专利计量的企业技术相似性网络测度研究;张曦等;《情报杂志》;20110131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116701633A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mouzannar et al. | Damage Identification in Social Media Posts using Multimodal Deep Learning. | |
Bouktif et al. | Augmented textual features-based stock market prediction | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN103020643B (zh) | 基于提取核特征早期预测多变量时间序列类别的分类方法 | |
Maletic et al. | Data cleansing: A prelude to knowledge discovery | |
Van et al. | Two-stage feature selection for bearing fault diagnosis based on dual-tree complex wavelet transform and empirical mode decomposition | |
CN109840324B (zh) | 一种语义强化主题模型构建方法及主题演化分析方法 | |
Przybyła-Kasperek et al. | The strength of coalition in a dispersed decision support system with negotiations | |
Asadi et al. | Developing a course recommender by combining clustering and fuzzy association rules | |
Gliwa et al. | Models of social groups in blogosphere based on information about comment addressees and sentiments | |
Cai et al. | An efficient outlier detection method for data streams based on closed frequent patterns by considering anti-monotonic constraints | |
Jedrzejewski et al. | Opinion mining and social networks: A promising match | |
Jung et al. | Multivariate neighborhood trajectory analysis: an exploration of the functional data analysis approach | |
CN116701633B (zh) | 一种基于专利大数据的行业分类方法 | |
Waldherr et al. | Mining big data with computational methods | |
Malik et al. | Clustering web images using association rules, interestingness measures, and hypergraph partitions | |
AL-Rubaiee et al. | Techniques for improving the labelling process of sentiment analysis in the saudi stock market | |
Rahman et al. | Normalization of Unstructured Indonesian Tweet Text For Presidential Candidates Sentiment Analysis | |
Zhang et al. | Characteristic analysis of judgment debtors based on hesitant fuzzy linguistic clustering method | |
Medagoda et al. | Keywords based temporal sentiment analysis | |
CN115577274A (zh) | 一种基于多维度特征的企业批量聚类方法和系统 | |
Zhong et al. | Tracking idea flows between social groups | |
Pereda et al. | Machine learning analysis of complex networks in Hyperspherical space | |
CN114118299A (zh) | 一种结合相似性度量和社区发现的聚类方法 | |
Akyol | Clustering hotels and analyzing the importance of their features by machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |