CN109726299A

CN109726299A - 一种不完备专利自动标引方法

Info

Publication number: CN109726299A
Application number: CN201811606200.6A
Authority: CN
Inventors: 史晓雨; 冀倩倩; 尚明生
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-07
Anticipated expiration: 2038-12-19
Also published as: CN109726299B

Abstract

本发明为一种不完备专利自动标引方法，属于大数据人工智能深度学习领域。该方法包含以下步骤：S1：选择专利数据源，读取专利摘要、权利要求书、说明书等相关文本数据；S2：采用Word2ver和GloVe词向量技术进行向量训练，生成词库；S3，采用ISRI词干提取器对数据进行预处理；S4：结合词库，分别采用CNN和LSTM对实验集的专利特征进行提取，建立特征模型，并验证选取出词库和特征模型；S5：结合选取的词库和特征模型，逐一对测试集的专利进行标引。本发明提出了一种不完备专利自动标引方法，能够准确、全面、快速的完成专利分类任务，有利于构建专利大数据的智能分析决策系统，有利于对专利资源的有效整合、深度分析和挖掘及应用模式创新研究。

Description

一种不完备专利自动标引方法

技术领域

本发明涉及一种专利自动标引方法，属于大数据人工智能领域，尤其适用于大规模的专利标引处理。

背景技术

纵观当今世界，各国高度重视战略性新兴产业的培育和发展，着力在新一轮更高层次上的竞赛中抢占先机，积极创造和有效运用知识产权。尤其是在生物医药行业领域，知识产权大数据已成为各国竞争的焦点。通常，大数据中通常蕴含着丰富的知识和价值，通过对其深层次的分析和挖掘，可以为各行业或领域提供有效的精准化科学分析和决策支持。而专利作为知识产权的重要载体，俨然已经成为了一种重要的大数据战略资源，据不完全统计，专利文献含有世界每年发明创造成果的90～95％，充分利用专利文献进行技术创新，能够有效节约60％的时间和节省40％的科研资金的投入。

在大数据时代，对专利数据的有效收集、整理、挖掘分析和应用，可以为企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。因而，在互联网+发展的大趋势下，如何利用专利大数据的价值提升我国企业在产品研发方面的科技创新能力及战略决策效率，具有非常重要的社会效益和经济价值。

目前，对于专利的标引工作更多的还是依靠人工标引或者强约束策略式标引方法，所谓的强策式标引往往是领域专家依靠自身经验制定的关键词匹配规则，来对专利进行简单的标引分类。虽然这些方法都能够在一定程度上对专利达到标引分类的目的，但是人工标引方法效率低下，人力资源成本过高，而强策略式标引方法受限于领域专家的知识，准确率和查重率往往表现很不理想。

发明内容

有鉴于此，本发明提供一种专利自主标引签分类方法，能够自动提取专利特征，准确、快速的完成专利自主标引任务。

为达到上述目的，本发明提供如下技术方案：

一种不完备专利自动标引方法，包括如下步骤：

S1：选择专利数据源，读取专利摘要、权利要求书、说明书等相关文本数据；

S2：采用词向量技术进行向量训练，生成词库

S3：对数据进行预处理；

S4：结合词库，对实验集的专利特征进行提取，建立特征模型，并验证选取出词库和特征模型；

S5：结合选取的词库和特征模型，逐一对测试集的专利进行标引。

进一步，步骤S1根据所选取的专利数据源，将其分为实验集和测试集两部分，其中，已标引部分专利数据分为实验集，未标引部分专利数据为测试集；由于数据源中专利本身往往是不完备的，因此在这里我们并不对专利本身做太多完备性约束，只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。

进一步，步骤S2具体为：对S1所选的专利数据源所有的文本，分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)这两种NLP(natural language process，自然语言处理)的词向量技术，选择j种不同的词向量长度l来对每个单词或者单字进行词向量训练，生成2j个分别由N个l维词向量构成的词库，其中N为不同单词或者单字的数量。

进一步，步骤S3具体为：首先，将文本数据中的无用字符、停用词和低频词剔除；然后，根据NLP的词干提取技术，采用NLTK(natural language tool kit，自然语言处理工具包)库中的ISRI词干提取器对数据进行词干化，即将词语除去变化或衍生形式，转化为词干或原型形式的词标准化。

进一步，步骤S4采用深度学习技术，将实验集的专利按一定比例分成训练集和验证集，以及对应词库的词向量作为输入建立特征模型，具体为：

S401：根据用户需求，确定专利分类标引的类别；

S402：采用Goolge的GloVe通用词库，对训练集的采用卷积神经网络(Convolutional Neural Networks，CNN)特征模型训练，并用验证集作为基准实验；

S403：针对S2生成的不同的词库，分别采用卷积神经网络和基于Attention机制的长短期记忆网络(Long Short-Term Memory，LSTM)对训练集进行特征建模；同时，分别考虑模型是否带有国际专利分类号(IPC)属性，以及考虑神经网络层数等，对模型进行调整；

S404：采用S402的模型分别对验证集进行标引，对比基准实验的标引结果，评价特征模型训练效果，选择效果较好的词库，以及选择效果较好的参数模型作为特征模型。

进一步，步骤S5具体为：将测试集专利经过S3的预处理后，结合S404所选择的词库和特征模型，逐一对测试集的专利进行标引。

本发明的有益效果在于：本发明提供了一种不完备专利自主标引分类方法，利用NLP词向量技术建立技术领域的专业词库，利用深度学习技术自动提取专利特征，能够准确、快速的完成专利自标引任务，有利于构建专利大数据的智能分析决策系统，实现了对专利资源的有效整合、深度分析和挖掘及应用模式创新研究，具有查的“全”，查的“准”的特色。

附图说明

为了使本发明的目的、技术方案，本发明提供如下附图进行说明：

图1为一种不完备专利自动标引方法流程图；

图2为本发明实施例流程图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例：

针对缺乏面向医药专利的特定知识发现和挖掘模型及方法等问题，本实施例提供一种医药类英文专利自标签分类方法，结合图2，该方法包含以下步骤：

步骤一：

针对人工标引数据量小的问题，采用人工标引数据加上汤森路透的数据作为实验集，其标引结果如表1所示，按照8∶2的比例将实验集分为训练集和验证集，在这里我们并不对专利本身做太多完备性约束，只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。

表1训练集的标引结果

NME	DDD	NCP	NAM	BLA	NFP	BTN	NUS	NDT	NCF	MIP	NSP
												140591	52872	35464	101850	45140	132418	84968	70464	19012	15222	8445	81460

步骤二：词库生成；

对步骤一所选的专利数据源所有的文本，分别采用Word2ver和GloVe这两种NLP的词向量技术，选择3种词向量长度分别为10、30、50来对每个单词或者单字进行词向量训练，生成6个分别由N个10、30、50维词向量构成的词库，其中N为不同单词或者单字的数量。

步骤三：对数据进行预处理；

首先，将文本数据中的无用字符、停用词和低频词剔除；

然后，根据NLP的词干提取技术，采用采用维度为2000的ISRI词干提取器对数据进行词干化，得到了词标准化后的数据集。

步骤四：对专利特征进行提取；

首先，按照用户需求，确定划分专利类别；如表1所示，已知，使用的医药专利数据集分为以下12类：NME(化合物)，NDT(药物衍生物)，MIP(医药中间体)，NCF(晶型)，NFP(制剂)，NCP(组合物)，NUS(用途)，NSP(制备方法)，NAM(诊断、分析与测定专利)，DDD(给药装置)，BTN(生物技术专利)，BLA(生物药)。

其次，采用Goolge的GloVe通用词库，对训练集的采用卷积神经网络特征模型训练，并用验证集作为基准实验；

然后；针对步骤二的6个不同的词库，考虑到文本数据类型属于时序数据，分别采用卷积神经网络和长短期记忆网络对训练集进行特征建模；进一步考虑更细粒度分类的情形，长短期记忆网络采用基于Attention机制的向前向后长短期记忆网络(Bi-directionalLong Short-Term Memory，Bi-LSTM)：同时，分别考虑模型是否带有国际专利分类号(IPC)属性，以及考虑神经网络层数等，对模型进行调整；

最后，对比基准实验结果评价词向量训练效果，选择效果最优长度为10的GloVe词向量组成的词库，以及其对应的2层不带国际专利分类号(IPC)属性的基于Attention机制的Bi-LSTM模型作为特征模型。

步骤五：

将测试集专利经过步骤三的预处理后，结合效果最优的词库和特征模型，逐一对测试集的专利进行标引。

表2本发明方法对医药专利分类结果

	Precision	Recall
			NME	92.86％	90.72％
NDT	90.17％	87.22％
			MIP	91.27％	88.65％
NCF	94.51％	94.70％
			NFP	90.32％	90.74％
NCP	90.29％	83.80％
			NUS	81.31％	85.43％
NSP	86.72％	86.50％
			NAM	90.37％	93.31％
DDD	96.39％	96.09％
			BTN	85.37％	84.32％
BLA	84.77％	86.32％

如表2所示，其中，评价该分类结果的标准为查准率(Precision)和查全率(Recall)，结合表3，有Precision＝TP/(TP+FP)，Precision＝TP/(TP+FN)。

表3分类结果判定说明表

由表2可见，本发明方法在查准率和查全率上平均值分别为89.51％和88.98％，都接近90％，效果较好。

特别地，本发明方法的算法实现代码采用python，keras等，Word2ver、GloVe、ISRI、Goolge_GloVe、CNN、LTSM with Attention、Bi-LTSM witth Attention等算法均存在成熟的算法实现代码，可直接调用。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种不完备专利自动标引方法，其特征在于，该方法包含以下步骤：

S2：采用词向量技术进行向量训练，生成词库

S3：对数据进行预处理；

2.根据权利要求1所述的一种不完备专利自动标引方法，其特征在于，所述的步骤S1根据所选取的专利数据源，将其分为实验集和测试集两部分，其中，已标引部分专利数据分为实验集，未标引部分专利数据为测试集；由于数据源中专利本身往往是不完备的，因此在这里我们并不对专利本身做太多完备性约束，只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。

3.根据权利要求1所述的一种不完备专利自动标引方法，其特征在于，所述的步骤S2具体为：对S1所选的专利数据源所有的文本，分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)这两种NLP(natural language process，自然语言处理)的词向量技术，选择j种不同的词向量长度l来对每个单词或者单字进行词向量训练，生成2j个分别由N个l维词向量构成的词库，其中N为不同单词或者单字的数量。

4.根据权利要求1所述的一种不完备专利自动标引方法，其特征在于，所述的步骤S3具体为：首先，将文本数据中的无用字符、停用词和低频词剔除；然后，根据NLP的词干提取技术，采用NLTK(natural language tool kit，自然语言处理工具包)库中的ISRI词干提取器对数据进行词干化，即将词语除去变化或衍生形式，转化为词干或原型形式的词标准化。

5.根据权利要求1所述的一种不完备专利自动标引方法，其特征在于，所述步骤S4采用深度学习技术，将实验集的专利按一定比例分成训练集和验证集，以及对应词库的词向量作为输入建立特征模型，具体为：

S401：根据用户需求，确定专利分类标引的类别；

S402：采用Goolge的GloVe通用词库，对训练集的采用卷积神经网络(ConvolutionalNeural Networks，CNN)特征模型训练，并用验证集作为基准实验；

6.根据权利要求1所述的一种不完备专利自动标引方法其特征在于，所述步骤S5具体为：将测试集专利经过S3的预处理后，结合S404所选择的词库和特征模型，逐一对测试集的专利进行标引。