CN114579749A - 专利数据的cpc分类方法及装置 - Google Patents
专利数据的cpc分类方法及装置 Download PDFInfo
- Publication number
- CN114579749A CN114579749A CN202210241147.4A CN202210241147A CN114579749A CN 114579749 A CN114579749 A CN 114579749A CN 202210241147 A CN202210241147 A CN 202210241147A CN 114579749 A CN114579749 A CN 114579749A
- Authority
- CN
- China
- Prior art keywords
- data
- cpc
- classification
- classified
- patent data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000005192 partition Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000004260 weight control Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利数据的CPC分类方法及装置,其中该方法包括:获取待分类的专利数据;将待分类的专利数据拆分为多个部分;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,分类模型包括多个分类子模型。本发明可以实现高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种专利数据的CPC分类方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前我国的CPC分类工作仍采用人工分类的方式进行,或通常采用欧洲专利局提供的IPC-CPC映射表进行粗略的自动分类转换,利用这类方法进行CPC分类的准确率很低,约为55%,并会导致大量的杂质引入,分类效率也低。
发明内容
本发明实施例提供一种专利数据的CPC分类方法,用以高效准确地对专利数据进行CPC分类,该方法包括:
获取待分类的专利数据;
将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
本发明实施例还提供一种专利数据的CPC分类装置,用以高效准确地对专利数据进行CPC分类,该装置包括:
获取单元,用于获取待分类的专利数据;
拆分单元,用于将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
特征向量化单元,用于根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
预测单元,用于将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述专利数据的CPC分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
本发明实施例中,专利数据的CPC分类方案,与现有技术中通过目前的IPC-CPC映射表进行粗略的自动分类转换进行CPC分类,效率和准确率都低的技术方案相比,通过:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型,实现了使用神经网络技术高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中专利数据的CPC分类方法的流程示意图;
图2为本发明实施例中预先训练得到神经网络CPC分类模型的流程示意图;
图3为本发明实施例中预先训练得到神经网络CPC分类模型的原理示意图;
图4为本发明实施例中专利数据的CPC分类的原理示意图;
图5为本发明实施例中专利数据的CPC分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
考虑到现有对专利数据进行CPC分类方案存在的技术问题,本发明实施例提出了一种专利数据的CPC分类方案,该方案在中国专利全过档数据的体量基础上,实现中国专利的CPC自动分类,且准确率和召回率高于采用欧洲专利局提供的IPC-CPC映射表进行自动分类的效果。下面对该专利数据的CPC分类方案进行详细介绍。
图1为本发明实施例中专利数据的CPC分类方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:获取待分类的专利数据;
步骤102:将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
步骤103:根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
步骤104:将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
本发明实施例提供的专利数据的CPC分类方法,工作时:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
与现有技术中通过目前的IPC-CPC映射表进行粗略的自动分类转换效率和准确率都低的技术方案相比,本发明实施例提供的专利数据的CPC分类方法实现了使用神经网络技术高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。下面进行详细介绍。
一、首先,介绍预先训练生成神经网络CPC分类模型的步骤。
在一个实施例中,如图2所示,上述专利数据的CPC分类方法还可以包括按照如下方法预先训练得到所述神经网络CPC分类模型:
步骤201:获取多个历史专利样本数据;所述历史专利样本数据包含CPC分类数据;
步骤202:将历史专利样本数据进行分组;
步骤203:对各组专利数据进行分词及关键词抽取,生成每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典;
步骤204:根据每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典,对所有历史专利样本数据进行特征向量化处理,得到所有历史专利样本数据对应的特征向量化数据;
步骤205:利用所有历史专利样本数据对应的特征向量化数据,训练神经网络模型得到所述神经网络CPC分类模型。
具体实施时,如图3所示,整体流程分三大部分:
1、数据前处理
将欧专局已含有CPC的数据对应加工到相应中国文献中,并可以通过数据分类器将已有标签数据按小类及小组进行分组分类。
2、向量化处理
对各组数据进行分词及关键词抽取,生成各组CPC词典、IPC词典、全文分词词典、关键词词典,在词典的基础上,将各个文档变为计算机可识别计算的向量组,为进一步增加文档间的区别度,可以使用LDA算法,对文档进行主题化加工,形成新的特征向量。该向量化处理的过程也可以参照下面的专利数据的特征化处理步骤。
3、模型训练
采用神经网络模型进行建模,将上一步生成的向量放入模型中进行多轮训练,使用测试集对训练结果进行评测,调整模型及训练参数,进一步优化训练结果。该训练步骤将重复多次,未来随着数据不断增长,可以定期开启此步骤,对模型进行优化训练。即在上述步骤205中,构建神经网络模型,选择合适的特征向量,对已有CPC标签的数据进行模型训练,得出各组相关的初级模型(分类子模型)。
具体实施时,训练神经网络模型得到神经网络CPC分类模型的步骤可以通过一个模型训练器来实现,该模型训练器构建神经网络模型,并在特征向量的基础上进行训练,得到分类模型(神经网络CPC分类模型)。在进行训练时,可以参照步骤101至步骤104所述,将专利数据进行不同部分的拆分,针对每一部分得到一个特征向量来进行模型训练。根据专利文献不同部分内容对应的特征向量训练模型,得到的不同部分对应的分类模型,后续实际预测时可以将不同部分内容对应的特征向量,输入到对应部分的专利分类模型中,得到多个子预测结果,综合各个子预测结果得到该专利文献的最终CPC分类号信息,分类精度高。
具体实施时,本发明实施例中神经网络CPC分类模型可以采用keras深度神经网络模型,可以提高专利数据的CPC分类的准确率和效率。
在一个实施例中,在上述数据前处理的步骤中,将历史专利样本数据进行分组,可以包括:按照IPC小类将历史专利样本数据进行分组。
具体实施时,经过大量的实验证明按照IPC小类将历史专利样本数据进行分组可以进一步提高专利数据的CPC分类的准确率。具体地,提取全部中国发明及新型专利数据,主要信息为公开号、公开日、名称、IPC、申请人、审查员、摘要、权利要求、说明书,按照IPC小类将专利分组,再通过分词器对专利的文本信息进行切词,并保留核心词汇。对每个组建立各类词表,最终通过词表将专利的文本信息转化为数字化的向量信息。并将数据区分为训练数据、测试数据以及待加工数据。
为了说明按照IPC小类将历史专利样本数据进行分组(分区)的优点,下面对数据-模型分区进行介绍。
在实验中,发现由于CPC分类体系过于庞大(超过20万细分类),采用单独一个大模型进行分类训练,会导致输出过于发散,分类效果很差。因此需要对数据进行分区,增加所需训练的模型的个数,即神经网络CPC分类模型包括多个分类子模型,从而降低每个模型的复杂性程度,提高分类准确率。通过实验发现:
表1不同的数据-模型分区策略对比表
其中,按照IPC大组和小组分区的方案,因为复杂度过高,耗时过长,在本发明实施例的实验中被放弃,仅做了模型废弃率的估算。
此外,本发明实施例选择使用IPC小类作为分区原则,也是因为根据过往研究显示,IPC的自动分类技术,在IPC小类级别会得到最优的70%准确率。选择IPC小类作为本发明实施例分区的原则,有利于本发明实施例的研究成果,同其他IPC自动分类研究成果进行结合,将CPC自动分类技术推广应用于未进行IPC分类的纯文本范畴,即利用训练好的神经网络CPC分类模型进行后续CPC分类分号的预测。多个分类子模型可以为使用IPC小类进行分区后得到的多个IPC小类的分类子模型,如上表1所示,模型的数目可以为766个,经过发明人大量实验验证,实际最终模型的数目为约630多个,因为有些分类下训练数据较少。优选地,每一分类子模型还可以对应专利文献不同部分(背景技术、附图说明、实施例等)对应的多个分类微模型(背景技术分类微模型、附图说明分类微模型、实施例分类微模型等),后续CPC分类号预测精度高。
具体实施时,通过上表1所示,除了按照IPC小类将历史专利样本数据进行分组提高CPC分类准确率之外,还可以使用IPC大类进行分组,或利用IPC大组分组等,也可以提高CPC分类准确率。
在一个实施例中,上述专利数据的CPC分类方法还可以包括:
获取多个历史专利样本数据;
根据多个历史专利样本数据形成测试数据;
利用所述测试数据对所述神经网络CPC分类模型进行优化处理,得到优化后的神经网络CPC分类模型。
具体实施时,获取多个历史专利样本数据用于形成测试集,将测试集处理成优化神经网络CPC分类模型的测试数据(特征向量化数据),具体形成测试数据的步骤可以参考上述步骤202至步骤204。对训练结果进行分析,针对问题集中(分类质量不高的小类)的点进行模型调整、细分类、数据调整等各种手段,优化分类效果,即对训练完成的模型进行评价分析,基于分析结果,结合分类业务规则,提出优化方案,并重复以上步骤,对模型进行优化训练,以达到较高的分类正确率。使用测试集对训练结果进行评测,调整模型及训练参数,进一步优化训练结果。该训练步骤将重复多次,未来随着数据不断增长,可以定期开启此步骤,对模型进行优化训练。
具体实施时,使用测试数据对初级模型进行评估,得出其相关准确率曲线及召回率曲线并加以分析,设定及格线,对于及格线以下的模型进行特征优化及参数调优,从而得到新的优化模型(优化后的神经网络CPC分类模型)。
具体实施时,上述得到优化后的神经网络CPC分类模型的步骤可以利用一个模型优化器来实现,该优化器对训练完的模型使用测试数据进行评价,对于效果较差的模型调整部分策略,从而进行优化。
具体实施时,在训练数据选择时,每个数据分区随机预留10%左右的数据(测试集)不进入训练,用于分类结果评判。评判使用准确率和召回率两个指标。准确率是:神经网络分类获得的CPC分类中,正确的CPC分类占据所有人工分类CPC的比例;召回率是:人工智能分类获得的CPC分类中,正确的CPC分类占据所有人工智能分类CPC的比例;从专利数据检索应用的角度而言,准确率影响的是查全率,召回率影响的是查准率。在当前阶段,准确率是主要指标,召回率是次要指标。整体准确率和召回率,按照是全分类集的准确率和召回率,按照模型数量进行平均计算。经过大量实验验证,最终平均准确率为67.55%,平均召回率为41.35%,关于验证优化还可以参见下面表4及其相关描述。由此可见,本发明实施例提供的专利数据的CPC分类方法提高了专利数据的CPC分类准确率和效率。
二、接着,为了便于理解,一同介绍上述步骤101至步骤103,即利用上述训练好的神经网络CPC分类模型进行实际预测CPC分类号过程的前三步。
在上述步骤101中,获取待分类的专利数据是没有CPC标签的专利数据,即输入数据源为没有CPC标签的专利数据。在上述步骤102中,可以利用训练时形成的词典及特征提取器直接将文档向量化。为了便于理解步骤102如何实施,下面详细介绍专利数据的特征化处理的过程。
具体实施时,进行神经网络训练或分类预测之前,需要对专利数据进行拆分,例如按照背景技术、附图说明、实施例等方式进行进一步的位置细分,分为不同的部分,可以得到更好的分类结果。然后,对每一部分内容进行特征向量化工作,以便作为神经网络的输入。
本发明实施例涉及的特征抽取字段,主要进行了如下几方面的探索和试验验证,如下表2所示:
表2特征选取字段及策略表
根据上述实验结果,采用了如下几个关键策略,即在一个实施例中,根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量,包括:根据词汇类特征的抽取策略,IPC类特征的选择策略,以及输入特征的分区分配策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量。下面对这个三个策略进行详细介绍。
1)词汇类特征的抽取(词汇类特征的抽取策略)。
主要来自专利的标题、摘要、权利要求项等技术文本类内容的文本抽取。全文说明书的词汇特征仍然保留,但权重控制的很低。
以动、名词为主的关键词特征作为独立特征,同时亦将不筛选词性的分词结果作为独立特征。采用此策略,实现以动、名词为主,同时也不舍弃其他词性词汇。
不同位置来源的特征彼此独立。
通过上述可知,在一个实施例中,所述词汇类特征的抽取策略可以包括:
将来自专利的标题、摘要和权利要求项技术文本类内容的文本进行特征抽取;
将动词或名词为主的关键词特征作为独立特征,将不筛选词性的分词结果作为独立特征;
将不同位置来源的特征彼此独立。
2)IPC类特征的选择(IPC类特征的选择策略)。
采用了分级冗余的策略。即分别采用了IPC分类的部、小类、大组、小组四级信息作为特征。
3)输入特征的分区分配(输入特征的分区分配策略)。
由于神经网络的输入特征向量,其特点在于特征位置的相对固定。因此对输入特征进行了固定分区划分,如下表3所示:
表3输入特征分配表
特征来源 | 分配特征数 |
名称 | 10 |
IPC | 10 |
摘要关键词 | 20 |
权利要求关键词 | 100 |
说明书关键词 | 100 |
摘要分词 | 200 |
权利要求分词 | 10000 |
说明书分词 | 10000 |
部 | 5 |
小类 | 5 |
大组 | 8 |
其中:所有关键词类特征,排序方法是依据权重。所有分词类特征,排序方法是依据文本顺序。所有分类型特征,排序方法是依据专利文献原有顺序。
三、接着,介绍上述步骤103,即利用上述训练好的神经网络CPC分类模型进行实际预测的步骤。
具体实施时,上述步骤103利用训练得到的CPC分类器(神经网络CPC分类模型),对文档向量(待分类的专利数据的特征向量)进行CPC预测,根据其IPC分组数量得到多组CPC结果(多个CPC分类子结果,如图4所示的CPC预测结果1,CPC预测结果2…CPC预测结果n),在对结果进一步进行排序打分最终得到预测结果。
具体实施时,神经网络CPC分类模型也可以称作CPC分类器,该分类器使用优化后的分类模型(神经网络CPC分类模型)对待加工数据进行加工,从而得到专利的CPC标签。
对于该预测的步骤103的进一步优选方案为:
由于CPC分类体系包含超过20万个分支,为了避免神经网络模型的输出过于发散,影响准确率。本文相关实验中,对于神经网络模型的输出,进行了预测区间约束。基本约束原则是:
1)对当前数据分区下的所有训练数据,进行CPC分类统计,并排序;
2)取CPC分类统计中,占训练数据总量前95%对应的CPC分类,作为集合A1;
3)取当前数据分区,所对应的IPC小类,在欧专局公布的IPC-CPC分类对照表上,查到该小类所对照的所有CPC分类,作为集合A2;
4)取集合A=A1∪A2,集合A即为当前数据分区的神经网络模型的输出分类预测区间;
为了控制分类结果的召回率,最终采信的分类输出个数,采用阈值分割的方法。保留神经网络分类预测正确率为40%以上的分类。
四、最后,介绍进一步优选的方案。
1)在实际分类过程中,可探索混合策略的可能性
将单纯的神经网络层分类,拓展为映射规则层、语义规则层和神经网络层的串行策略。待分类数据先经过两个规则层的强规则分类,最后再进行神经网络分类。
2)数据分区的进一步优化
考虑到部分IPC小类其实仍旧面临着分类过泛的问题。针对于训练数据过多,分类质量较差的数据分区,存在着数据再细分的可能性。
反之,对于分类质量差,训练数据过少,分类角度接近或雷同的小类,存在着数据合并的可能性。
3)特征选择的进一步优化
在特征选择方面,也存在着优化的空间。如果能够将图像信息作为分类的训练特征之一,也有可能会得到较好的结果。
对于数据结果分析,发现不同的IPC小类中,模型的分类效果良莠不齐,差距极大。
表4分类效果区段表
准确率 | 模型数量(个) | 占比 |
80%以上 | 125 | 19.75% |
70%-80% | 167 | 26.38% |
60%-70% | 186 | 29.38% |
50%-60% | 97 | 15.32% |
50%以下 | 58 | 9.16% |
因此,由上表4可知,使用预测模型(神经网络CPC分类模型)对测试数据进行CPC预测,对预测的结果按照IPC主分类号的小类进行分组,其中准确率达80%以上的占比19.75%,因此下一步优化可针对准确率较差的领域的特点,采用不同的特征选择策略,进一步优化神经网络CPC分类模型,进而使得神经网络CPC分类模型的CPC分类号预测精度高。
本发明实施例中还提供了一种专利数据的CPC分类装置,如下面的实施例所述。由于该装置解决问题的原理与专利数据的CPC分类方法相似,因此该装置的实施可以参见专利数据的CPC分类方法的实施,重复之处不再赘述。
图5为本发明实施例中专利数据的CPC分类装置的结构示意图,如图5所示,该装置包括:
获取单元01,用于获取待分类的专利数据;
拆分单元02,用于将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
特征向量化单元03,用于根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
预测单元04,用于将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
在一个实施例中,上述专利数据的CPC分类装置还可以包括训练单元,用于按照如下方法预先训练得到所述神经网络CPC分类模型:
获取多个历史专利样本数据;所述历史专利样本数据包含CPC分类数据;
将历史专利样本数据进行分组;
对各组专利数据进行分词及关键词抽取,生成每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典;
根据每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典,对所有历史专利样本数据进行特征向量化处理,得到所有历史专利样本数据对应的特征向量化数据;
利用所有历史专利样本数据对应的特征向量化数据,训练神经网络模型得到所述神经网络CPC分类模型。
在一个实施例中,将历史专利样本数据进行分组,可以包括:按照IPC小类将历史专利样本数据进行分组。
在一个实施例中,上述专利数据的CPC分类装置还可以包括:
历史数据获取单元,用于获取多个历史专利样本数据;
测试数据形成单元,用于根据多个历史专利样本数据形成测试数据;
优化单元,用于利用所述测试数据对所述神经网络CPC分类模型进行优化处理,得到优化后的神经网络CPC分类模型。
在一个实施例中,所述特征向量化单元02具体用于:根据词汇类特征的抽取策略,IPC类特征的选择策略,以及输入特征的分区分配策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量。
在一个实施例中,所述词汇类特征的抽取策略可以包括:
将来自专利的标题、摘要和权利要求项技术文本类内容的文本进行特征抽取;
将动词或名词为主的关键词特征作为独立特征,将不筛选词性的分词结果作为独立特征;
将不同位置来源的特征彼此独立。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述专利数据的CPC分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述专利数据的CPC分类方法。
本发明实施例中,专利数据的CPC分类方案,与现有技术中通过目前的IPC-CPC映射表进行粗略的自动分类转换进行CPC分类,效率和准确率都低的技术方案相比,通过:获取待分类的专利数据;将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型,实现了使用神经网络技术高效准确地对专利数据进行CPC分类,提高了专利数据的CPC分类准确率和效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种专利数据的CPC分类方法,其特征在于,包括:
获取待分类的专利数据;
将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
2.如权利要求1所述的专利数据的CPC分类方法,其特征在于,还包括按照如下方法预先训练得到所述神经网络CPC分类模型:
获取多个历史专利样本数据;所述历史专利样本数据包含CPC分类数据;
将历史专利样本数据进行分组;
对各组专利数据进行分词及关键词抽取,生成每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典;
根据每一组专利数据对应的CPC词典、IPC词典、全文分词词典和关键词词典,对所有历史专利样本数据进行特征向量化处理,得到所有历史专利样本数据对应的特征向量化数据;
利用所有历史专利样本数据对应的特征向量化数据,训练神经网络模型得到所述神经网络CPC分类模型。
3.如权利要求2所述的专利数据的CPC分类方法,其特征在于,将历史专利样本数据进行分组,包括:按照IPC小类将历史专利样本数据进行分组。
4.如权利要求2所述的专利数据的CPC分类方法,其特征在于,还包括:
获取多个历史专利样本数据;
根据多个历史专利样本数据形成测试数据;
利用所述测试数据对所述神经网络CPC分类模型进行优化处理,得到优化后的神经网络CPC分类模型。
5.如权利要求1所述的专利数据的CPC分类方法,其特征在于,根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量,包括:根据词汇类特征的抽取策略,IPC类特征的选择策略,以及输入特征的分区分配策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量。
6.如权利要求5所述的专利数据的CPC分类方法,其特征在于,所述词汇类特征的抽取策略包括:
将来自专利的标题、摘要和权利要求项技术文本类内容的文本进行特征抽取;
将动词或名词为主的关键词特征作为独立特征,将不筛选词性的分词结果作为独立特征;
将不同位置来源的特征彼此独立。
7.一种专利数据的CPC分类装置,其特征在于,包括:
获取单元,用于获取待分类的专利数据;
拆分单元,用于将待分类的专利数据拆分为多个部分,得到多个部分的待分类的专利数据;
特征向量化单元,用于根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;
预测单元,用于将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模型的多个分类子模型中,得到专利数据的多个CPC分类子结果;根据多个CPC分类子结果预测得到最终的CPC分类结果;所述神经网络CPC分类模型根据多个历史专利样本数据预先训练生成,所述神经网络CPC分类模型包括多个分类子模型。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210241147.4A CN114579749A (zh) | 2022-03-11 | 2022-03-11 | 专利数据的cpc分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210241147.4A CN114579749A (zh) | 2022-03-11 | 2022-03-11 | 专利数据的cpc分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579749A true CN114579749A (zh) | 2022-06-03 |
Family
ID=81779634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210241147.4A Pending CN114579749A (zh) | 2022-03-11 | 2022-03-11 | 专利数据的cpc分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579749A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN109684477A (zh) * | 2018-12-11 | 2019-04-26 | 北京极智感科技有限公司 | 一种专利文本特征提取方法及系统 |
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN111813945A (zh) * | 2020-09-14 | 2020-10-23 | 北京星光同创科技有限公司 | 一种基于fpaa的推断加速器构建方法 |
CN112015895A (zh) * | 2020-08-26 | 2020-12-01 | 广东电网有限责任公司 | 一种专利文本分类方法及装置 |
CN113989075A (zh) * | 2021-10-12 | 2022-01-28 | 中国科学技术大学 | 预测未来技术知识流动的方法 |
-
2022
- 2022-03-11 CN CN202210241147.4A patent/CN114579749A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN109684477A (zh) * | 2018-12-11 | 2019-04-26 | 北京极智感科技有限公司 | 一种专利文本特征提取方法及系统 |
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
WO2020207431A1 (zh) * | 2019-04-12 | 2020-10-15 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN112015895A (zh) * | 2020-08-26 | 2020-12-01 | 广东电网有限责任公司 | 一种专利文本分类方法及装置 |
CN111813945A (zh) * | 2020-09-14 | 2020-10-23 | 北京星光同创科技有限公司 | 一种基于fpaa的推断加速器构建方法 |
CN113989075A (zh) * | 2021-10-12 | 2022-01-28 | 中国科学技术大学 | 预测未来技术知识流动的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052583B (zh) | 电商本体构建方法 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN109791569B (zh) | 因果关系识别装置及存储介质 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN111767397A (zh) | 一种电力系统二次设备故障短文本数据分类方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112767386B (zh) | 基于主题特征和评分分布的图像美学质量评价方法及系统 | |
CN112148868A (zh) | 一种基于法条共现的法条推荐方法 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114880428B (zh) | 一种基于图神经网络的语篇成分识别方法 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN109508456B (zh) | 一种文本处理方法和装置 | |
CN115422324A (zh) | 一种文本处理方法及设备 | |
Xiao et al. | Automatic hierarchical classification of emotional speech | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
CN114299920A (zh) | 用于语音识别的语言模型的训练、语音识别方法及装置 | |
CN110263344B (zh) | 一种基于混合模型的文本情感分析方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |