CN112818661A

CN112818661A - 一种专利技术关键词非监督提取方法

Info

Publication number: CN112818661A
Application number: CN202110116540.6A
Authority: CN
Inventors: 潘璇; 朱涛; 刘潇
Original assignee: Institute Of Science And Development Chinese Academy Of Sciences
Current assignee: Institute Of Science And Development Chinese Academy Of Sciences
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-18
Anticipated expiration: 2041-01-28
Also published as: CN112818661B

Abstract

本发明公开了一种专利技术关键词非监督提取方法，包括步骤100：对专利文本预处理，以提取专利文本描述的技术相关信息的关键词，并通过句法分析对关键词进行相互依存关系分析；步骤200：对关键词及其相互依存关系进行分析和隐藏特征提取，并将多维的隐藏特征压缩至1D权重数值信息，并对1D权重数值信息进行重要程度的表征和排序；步骤300：通过通用词表对表征排序后的所述1D权重数值信息进行过滤以得到候选关键词集合。通过构建语法分析树识别专利文本关键词，通过引入句法依存关系并制定词性和依存关系规则以构建词图；再基于词图构建出图结构的卷积神经网络，进行关键词隐藏特征提取、关键词权重排序，以完成关键词的高效提取。

Description

一种专利技术关键词非监督提取方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种专利技术关键词非监督提取方法。

背景技术

通过自动提取文本关键词可以帮助读者在不深入阅读文档的情况下迅速了解文档的主题和关键技术。但由于专利文本不具有类似论文关键词的字段，不利于对专利中关键技术和创新方法进行识别和标引。

经多年研究和开发，针对论文摘要、长篇科研论文全文、网页文档等各种场景设计并测试了多种方法和工具。例如目前常用的关键词提取方法可大致分为三类：①基于统计特征的关键词提取，主要利用词性、词频、逆文档频率等统计信息确定词的权重；②基于词图模型的关键词提取，主要通过构造文档语言网络图来确定重要的关键词；③基于主题模型的关键词提取，但是目前没有一种方法或工具成为主导或标准化的通用方法。

由于专利文本具有其特殊的组织格式和写作规范，尽管目前常用的关键词提取算法在提取网页文本和论文文献全文关键词信息的时候表现出色，但应用于专利文本关键词提取时则存在分词不准确、非相关词占比高、查全率和查准率低等问题，因此目前在专利文本的关键词提取技术方面也没有非常有效的方法和工具。

发明内容

本发明的目的在于提供一种专利技术关键词非监督提取方法，以解决现有技术中缺乏有效提取专利文本关键词技术的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种专利技术关键词非监督提取方法，包括如下步骤：

步骤100：对专利文本预处理，以提取专利文本描述的技术相关信息的关键词，并通过句法分析对所述关键词进行相互依存关系分析；

步骤200：对所述关键词及其相互依存关系进行分析和隐藏特征提取，并将多维的所述隐藏特征压缩至1D权重数值信息，并对所述1D权重数值信息进行重要程度的表征和排序；

步骤300：通过通用词表对表征排序后的所述1D权重数值信息进行过滤以得到候选关键词集合。

作为本发明的一种优选方案，所述文本预处理包括如下步骤：

步骤1100：通过语法解析树的构建完成对专利文本的句子分割和短语切分；

步骤1200：采用句法依存关系对句子中的词语进行词性标签分配和实体短语标注；

步骤1300：根据依存句法，以谓语作为句子的核心词语，围绕谓语动词通过分析语言单位内成分之间的依存关系揭示其句法结构，并定义各标签词语之间的依存关系；

步骤1400：确定词性和依存关系的选择规则。

作为本发明的一种优选方案，所述词性和依存关系的选择规则采用如下方法：

通过句法结构选定名词主语和直接宾语作为主要的分析对象，确定名词、代词以及与其具有形容词性或名词性的补语、修饰语、属性词等性状描述和修饰依存关系的词为关键词。

作为本发明的一种优选方案，对专利文本预处理后，对关键词提取包括如下步骤：

步骤2100：基于提取的关键词及其通过句法分析得到的依存关系利用图论与复杂网络建模工具networkx构建有向词图结构；

步骤2200：利用基于所述有向词图结构的卷积神经网络(GCN)提取关键词的隐藏特征；

步骤2300：通过卷积神经网络方法选取核心关键词节点作为聚类中心，对隐藏特征可视化的图节点进行变换使关键信息围绕所述聚类中心呈现；

步骤2400：对卷积神经网络输出的节点特征矩阵进行压缩得到1D权重数值信息，完成对所述1D权重数值信息的排序。

作为本发明的一种优选方案，所述有向词图结构的主要内容包括：M个节点代表的候选关键词，每个关键词均由维度为D的特征组进行表征。

作为本发明的一种优选方案，卷积神经网络算法作为构建候选关键词图数据的特征提取器，用于输出M个节点的特征矩阵为N维度，即构建出节点特征矩阵X'(M×N)。

作为本发明的一种优选方案，利用基于所述有向词图结构的卷积神经网络(GCN)提取关键词的隐藏特征的方法如下：

通过频谱图卷积的局部一阶逼近来激发卷积结构的选择，对局部图结构和节点特征进行隐含编码表示和学习，并将关键词投影至不同的空间位置，来分割不同的重要程度的关键词；

词图中的N个候选关键词构成表征各节点关系的邻接矩阵A(M×M)，以及节点特征矩阵X(M×D)；

多层神经网络中隐藏特征层的逐层间传播方式可用公式(6)表示：

其中，H为隐藏层的特征向量，σ是非线性激活函数，W是输入层到隐藏层的权重矩阵；

通过卷积神经网络(GCN)的所述模型公式(6)对所述图结构信息进行处理，得到关键词依存关系图结构隐含的模式并用所述隐含特征向量H表示。

作为本发明的一种优选方案，在图结构中选取关键节点是通过可视化方案标注完成的，过程如下：

首先，采用k-truss图结构的分解方案寻找关键词节点信息；

其次，通过fruchterman reingold算法对k-truss方法寻找的所述关键词节点信息进行可视化网络布局优化，通过图结构自动选取或人为抓取关键信息并参与选择关键节点

作为本发明的一种优选方案，基于图模型的傅里叶变换所构建的卷积神经网络，将图节点的关键信息通过神经网络的隐含特征层表达，进而通过隐含特征层投影映射至一维空间，完成关键词重要程度排序，且得到相对权重数值越高的候选关键词越重要。

作为本发明的一种优选方案，获得1D权重数值信息并排序的方法如下：

通过主成分分析(PCA)对卷积神经网络输出的节点特征矩阵X'(M×N)进行压缩，且在减少矩阵维数的同时尽可能保留原矩阵信息，通过协方差矩阵将输入矩阵的N维空间映射压缩降维至一维，得到Y(M×1)，即1D权重数值信息，再以权重为指标对得到的所述1D数值信息进行比较排序。

本发明与现有技术相比较具有如下有益效果：

本发明通过构建语法分析树识别专利文本关键词，通过设置句法依存关系并制定词性和依存关系规则以构建词图；再基于词图构建出图结构的卷积神经网络，进行关键词隐藏特征提取、关键词权重排序，以完成关键词的高效提取。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的关键词提取方法流程结构示意图；

图2为本发明实施例提供的专利文本句法依存关系分析图；

图3为本发明实施例提供的采用k-truss图结构方案展示GCN算法计算获取的核心关键词图；

图4为本发明实施例提供的主成分分析(PCA)对特征矩阵降维原理图；

图5为本发明实施例提供的关键词提取方法结果比较表图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

计算机智能化文本关键词提取方法主要有TextRank、Pagerank和TF-IDF关键词提取方法，这几种方法的主要实施原理及明显缺点如下：

(1)TF-IDF算法

算法TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)是一种基于统计特征的关键词提取方法，主要用于评估一个词对一个语料库中的其中一份文档的重要程度。该重要程度正比于词在该文档中出现的次数，反比于其在语料库中出现的频率。假设有一语料库为D＝{d_j}，d_j是语料库中第j个文档，t_i是文档中的候选词。

候选词t_i的词频计算公式为：

其中，n_i,j是候选词t_i在文档d_j中出现的次数；∑_kn_k,j是文档d_j中所有词汇出现次数的总和。

候选词t_i的逆文档频率的计算公式为：

其中，|D|是语料库中的文档总数，|*j:t_i∈d_j+|表示包含候选词t_i的文件数目(即n_i,j≠0的文档数目)，为避免候选词t_i不在语料库中而导致分母为零的情况出现，一般情况下公式(2)中使用1+|{j:t_i∈d_j}|。

候选词t_i的词频-逆文档频率的计算公式为：

TF-IDF_i,j＝TF_i,j×IDF_i (3)

TF-IDF_i,j的值越大说明候选词t_i的重要程度越高。

缺点：通过计算公式可以看出，TF-IDF算法提取关键词严重依赖语料库，需要选取质量较高且和所处理文本相符的语料库进行训练。另外，逆文档频率(IDF)是一种试图抑制噪声的加权，倾向于对语料库中频率小的词赋予更高的权重，这使得TF-IDF算法的精度不高。此外，通常认为在文本首句和尾句含有的信息比较重要，应当给出现在首句和尾句的关键词赋予较高权重，而TF-IDF算法没有考虑字或词的位置信息，从而也会影响关键词提取的精度。

(2)PageRank算法

谷歌公司为解决搜索引擎对互联网网页价值排序问题提出了PageRank算法。该算法原理是以每个网页作为节点(node)并以网页之间的超链接作为有向边(edge)，通过构造出互联网有向图迭代计算出每个节点的价值权重并排序。节点V_i的价值权重S(V_i)计算公式为：

其中，为避免没有链出导致价值权重S(V_i)为零的情况，引入阻尼系数并根据工程经验取d＝0.85；In(V_i)表示所有指向V_i的节点集合(链入节点集合)；Out(V_j)表示V_j指向节点的集合(链出节点集合)；|Out(V_j)|表示V_j指向节点的数量(链出节点数量)。

根据公式(4)可见PageRank的核心思想是：①指向V_i的节点数量越多则其价值权重S(V_i)越大，V_j指向节点数量越多则会降低V_i的价值权重；②指向V_i的节点的价值权重S(V_j)越大，则S(V_i)越大。本发明将该算法拓展应用到文本关键词提取时，将候选词作为节点，节点之间的有向边则通过依存句法分析(Dependency Parsing)来确定，最后利用复杂网络建模工具networkx构建完整的专利关键词有向图。

缺点：PageRank算法是基于引用关系确定关键词之间的有向连接，因而无法很好的捕捉整体词图的图结构特征。此外，每个关键词节点均比较依赖周边节点权重，当有些关键词节点权重异常高时其贡献会非常大，然后导致关键词都集中在该节点周围。

(3)TextRank算法

TextRank算法是根据PageRank算法改进而来的一种基于图的自然语言处理方法，不同的是，PageRank算法是基于有向边构造的有向图，而TextRank算法中的边是无向边，表示两个候选词处于设定长度的窗口中具有共现关系(co-occurrence)。每个候选词的价值权重计算公式为：

与公式(4)相比仅仅多了一个权重项w_ji，表示连接两个节点的边的重要程度。最后根据公式(5)迭代传播各个节点的价值权重，并递归计算直至收敛稳定。

缺点：TextRank主要依据文本元素之间的共现关系，因此文档的局部信息对结果的影响较大，无法体现与文本整体的关系。而且TextRank方法将共现频次作为两个节点之间的边权重值，词频越高则越容易被提取为关键词，导致不含技术意义的词更容易被提取出来，从而降低了关键词提取准确性。此外，分词和文本清洗对TextRank的结果影响较大。

基于以上常用关键词提取方法的使用缺陷，如图1所示，本发明提供了一种专利技术关键词非监督提取方法，包括如下步骤：

步骤100：对专利文本预处理，以提取专利文本描述的技术相关信息的关键词，并通过句法分析对关键词进行相互依存关系分析；

步骤200：对关键词及其相互依存关系进行分析和隐藏特征提取，并将多维的隐藏特征压缩至1D权重数值信息，并对1D权重数值信息进行重要程度的表征和排序；

步骤300：通过通用词表对表征排序后的1D权重数值信息进行过滤以得到候选关键词集合。

对于步骤100中的文本预处理过程包括如下步骤：

步骤1100：通过语法解析树的构建完成对专利文本句子的准确分割和短语切分；

步骤1200：采用句法依存关系(Syntactic Dependency)对句子中的词语进行词性标签分配和实体短语标注；

步骤1300：根据句法依存关系，以谓语作为句子的核心词语，围绕谓语动词通过分析语言单位内成分之间的依存关系揭示其句法结构，并定义各标签词语之间的依存关系。以句法依存关系代替TextRank共现窗口判断语言成分之间的关系，突破了共现窗口机制的不足，也比TF-IDF中的词频判断更加准确。

步骤1400：确定词性和依存关系的选择规则。通过句法结构选定名词主语和直接宾语作为主要的分析对象，确定名词、代词以及与其具有形容词性或名词性的补语、修饰语、属性词等性状描述和修饰依存关系的词为关键词。关键词中包含单词数量的上限和下限可根据具体需求人为设定，通常推荐将上限设为4(包含)，下限设为2(包含)。

本发明以专利摘要撰写中常见的首句规范写法为例对词性和依存关系的选择规则进行说明，如图2中所示，通过算法进行词性标注和句法分析，发现单词“disclosure”是该句的谓语动词，将其作为整个句子的核心词语可以向前和向后分别判断出名词主语“application”和直接宾语“material”。随后以直接宾语“material”为中心，向前可以分析出复合形容词定语“multilayer aluminum”，向后可以分析出从句中的直接宾语“core”及其复合形容词定语“aluminum alloy”。在对这句话进行理解并提取关键技术信息时，显然“multilayer aluminum material”和“aluminum alloy core”是最能表现出该专利主要技术特点的词组。因此，根据实际专利文本的写作方式和句法特点，名词主语和直接宾语将作为主要的分析对象，从词性角度则选定名词及其修饰词为有价值的候选词。

文本预处理模块(dp-module)，主要实现对专利文本描述的技术相关信息的提取功能，技术相关信息以关键词及其相互关系的形式展现。

对专利文本进行预处理后，对关键词提取包括如下步骤：

步骤2100：基于提取的关键词及其通过句法分析得到的依存关系利用图论与复杂网络建模工具networkx构建有向词图结构；有向词图结构的主要内容包括：M个节点代表的候选关键词，每个关键词均由维度为D的特征组进行表征。

步骤2200：利用基于有向词图结构的卷积神经网络(GCN)提取关键词的隐藏特征；主要方法过程如下：

其中，H为隐藏层的特征向量，σ是非线性激活函数，W是输入层到隐藏层的权重矩阵。

卷积神经网络(GCN)算法本质是构建候选关键词图数据的特征提取器，用于输出M个节点的特征矩阵为N维度，即构建出节点特征矩阵X'(M×N)。

传统关键词提取技术以文本的底层特征作为基础进行计算，而本发明是通过句法关系标注，构建有向图，基于图建立模型，并以此完成关键词提取。

步骤2300：通过卷积神经网络(GCN)方法选取核心关键词节点作为聚类中心，通过将以隐藏特征可视化的图节点进行变换后，关键信息围绕聚类中心呈现，即采用卷积神经网络(GCN)完成隐含特征学习，再将同一类别的信息聚类呈现。

需要说明的是，二维向量的隐含特征能够在平面内可视化展示，三维向量的隐含特征可以在三维空间中可视化展示，但多维向量则需要降维到三维(包括三维)以内展示。此处，可视化过程只是用于二维向量的隐含特征在平面的结果展示，用来表示模型确实有效地学习到了聚类中心的特征信息，也就是看到的聚类结果准确率。

在图结构中选取关键节点进行展示是通过可视化方案标注完成的。首先采用k-truss等图结构的分解方案，并通过fruchterman reingold算法进行可视化网络优化，尽可能使网络边长一致并减少交叉，能够让使用者迅速透过图结构抓住关键信息，可自动选择关键节点，或通过人为参与选择关键节点能够极大的提升图模型的效率。采用k-truss图结构方案展示GCN算法计算获取的核心关键词图，如图3中所示。

步骤2400：对卷积神经网络输出的节点特征矩阵进行压缩得到1D权重数值信息，完成对1D权重数值信息的排序。

由于关键信息是通过卷积神经网络(GCN)采用高维空间中的特征进行表示，为了方便进一步分析和对其重要程度进行排序，本发明通过主成分分析(PCA)对GCN输出的节点特征矩阵X'(M×N)进行压缩，且在减少矩阵维数的同时尽可能保留原矩阵信息，通过协方差矩阵将输入矩阵的N维空间映射压缩至一维，得到Y(M×1)。通过对1D信息按照权重指标进行排序，得到相对权重数值越高的候选关键词越重要，PCA降维计算过程如图4中所示。

在对专利文本预处理后的以上操作步骤组成关键词提取模块(GCN-module)，主要实现对专利文本中技术关键词及其相互关系的分析和隐藏特征提取，并将多维隐藏特征压缩至用户可识别的1D权重数值信息，并进行重要程度的表征和排序。

在关键词提取模块(GCN-module)中，本发明提出了一种结合图卷积网络(GCN)与主成分分析(PCA)的融合算法。传统的图模型并不依赖神经网络，而本发明基于图模型的傅里叶变换所构建的卷积神经网络，将图节点的关键信息通过神经网络的隐含特征层表达，进而通过隐含特征层投影映射至一维空间，完成关键词重要程度排序，使这一过程智能高效化。

并且，本发明通过将文本特征图结构化，并透过图结构的卷积方法寻找关键节点，在此基础上通过人机交互等可视化方案进行关键信息标注，辅助模型最大化信息提取效率，模型在寻找到图的内部结构特征中分析提取出关键信息。

最后，采用停用词表对候选关键词进行过滤，得到候选关键词的集合，根据用户需要可从1D信息权重数值由高向低进行筛选，取前P个关键词作为后续研究或其他用途。

为与同类技术进行类比，选取近十年材料领域的三方专利数据作为数据样本来源，基于incoPat同族专利数据库构建材料领域专利检索式，并形成三方专利数据集，时间窗2010年1月1日至2019年12月31日，共计包含225509件三方专利，采用同一组实际专利文本，针对本发明提出的一种结合句法分析和图卷积网络(GCN)模型的算法、常用的TextRank、Pagerank和TF-IDF关键词提取方法对数据样本中专利的标题、摘要进行关键词提取实验，并对结果进行对比分析，如图5中所示。

查准率是最能反映关键词提取效率的指标，通过实际测评和对比可见dp-GCN的查准率最高为76.6％，相比于第二名TF-IDF的62.6％有显著提升，提高了14个百分点。在前三名查全率大体相等的情况下，dp-GCN的调和数F1 Score也为最高的0.516，说明相对于其他三种方法，dp-GCN方法的查准率和查全率综合效果最佳。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种专利技术关键词非监督提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种专利技术关键词非监督提取方法，其特征在于，所述文本预处理包括如下步骤：

步骤1400：确定词性和依存关系的选择规则。

3.根据权利要求2所述的一种专利技术关键词非监督提取方法，其特征在于，所述词性和依存关系的选择规则采用如下方法：

4.根据权利要求3所述的一种专利技术关键词非监督提取方法，其特征在于，对专利文本预处理后，对关键词提取包括如下步骤：

步骤2200：构建并利用基于所述有向词图结构的卷积神经网络(GCN)提取关键词的隐藏特征；

步骤2300：通过所述卷积神经网络方法选取核心关键词节点作为聚类中心，并对隐藏特征可视化的图节点进行变换使关键信息围绕所述聚类中心呈现；

步骤2400：对卷积神经网络输出的节点特征矩阵进行压缩得到1D权重数值信息，并完成对所述1D权重数值信息的排序。

5.根据权利要求4所述的一种专利技术关键词非监督提取方法，其特征在于，所述有向词图结构的主要内容包括：M个节点代表的候选关键词，每个关键词均由维度为D的特征组进行表征。

6.根据权利要求5所述的一种专利技术关键词非监督提取方法，其特征在于，卷积神经网络算法作为构建候选关键词图数据的特征提取器，用于输出M个节点的特征矩阵为N维度，即构建出节点特征矩阵X'(M×N)。

7.根据权利要求6所述的一种专利技术关键词非监督提取方法，其特征在于，利用基于所述有向词图结构的卷积神经网络(GCN)提取关键词的隐藏特征的方法如下：

通过频谱图卷积的局部一阶逼近来激发卷积结构的选择，对局部图结构和节点特征进行隐含编码表示和学习，并将关键词投影至不同的空间位置，来分割不同重要程度的关键词；

8.根据权利要求4所述的一种专利技术关键词非监督提取方法，其特征在于，在图结构中选取关键节点是通过可视化方案标注完成的，过程如下：

首先，采用k-truss图结构的分解方案寻找关键词节点信息；

其次，通过fruchterman reingold算法对k-truss方法寻找的所述关键词节点信息进行可视化网络布局优化，通过图结构自动选取或人为抓取关键信息并参与选择关键节点。

9.根据权利要求6所述的一种专利技术关键词非监督提取方法，其特征在于，基于图模型的傅里叶变换所构建的卷积神经网络，将图节点的关键信息通过神经网络的隐含特征层表达，进而通过隐含特征层投影映射至一维空间，完成关键词重要程度排序，且得到相对权重数值越高的候选关键词越重要。

10.根据权利要求9所述的一种专利技术关键词非监督提取方法，其特征在于，获得1D权重数值信息并排序的方法如下：

通过主成分分析(PCA)对卷积神经网络输出的节点特征矩阵X'(M×N)进行压缩，且在减少矩阵维数的同时尽可能保留原矩阵信息，通过协方差矩阵将输入矩阵的N维空间映射压缩降维至一维，得到Y(M×1)，即1D数值信息，再以权重为指标对得到的所述1D数值信息进行比较排序。