CN112016323B

CN112016323B - 专利中技术短语的自动抽取方法

Info

Publication number: CN112016323B
Application number: CN202010887328.5A
Authority: CN
Inventors: 陈恩红; 刘淇; 马建辉; 刘烨; 武晗; 黄振亚; 王皓
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-04-02
Anticipated expiration: 2040-08-28
Also published as: CN112016323A

Abstract

本发明公开了一种专利中技术短语的自动抽取方法，包括：根据专利数据库，获得各领域专利文本以及类别信息；利用诸多既有的短语抽取、实体识别工具，构建专利中的候选技术短语的集合；根据技术短语的语义、统计特点，设计相应的评价指标来量化候选短语是技术短语的可能性；根据专利的多层级结构特点，设计了一种多层的抽取模型来抽取技术短语；最后在每个层级上筛选的到技术短语，合并得到专利的技术短语集合，即此专利的技术画像。

Description

专利中技术短语的自动抽取方法

技术领域

本发明涉及机器学习和基于专利分析的技术管理领域，尤其涉及一种专利中技术短语的自动抽取方法。

背景技术

专利是记录、保护科学技术创新的一个重要手段，现今各个高科技公司、组织都会将自己所研发的新型技术进行专利申请，以保护其知识产权等。而通过专利，也可以有效地挖掘出其中蕴含的科技创新规律，其中一个有效手段就是对于每一个专利构建技术画像，即判断其中涉及到的关键技术。所述技术画像，可以由专利文本中出现的技术短语表示，即构建技术画像可以等同为从专利中抽取技术短语。

技术短语即描述、表示一项特定技术的短语，之前没有工作直接针对于这方面的研究，但宏观上来说，短语抽取是自然语言处理领域的一项关键技术，已有的短语抽取的相关工作可以分为以下几类：

1)关键短语的抽取。

关键短语主要倾向于具有高度概括性、代表性的短语，被研究得也最为广泛。涉及到的方法有监督、半监督、无监督学习等方式。针对于关键短语的特点，领域专家还设计诸多特征，来衡量短语本身的概括性和代表性。

2)命名实体识别

目前，命名实体识别主要侧重于从文本中识别出其中的实体并划分到指定的类别。这类研究通常被视为一个序列标注问题，依赖大量的训练数据来进行有监督学习。同时也有一些开源的预训练模型可以使用。

3)概念的抽取

概念的抽取主要在文本中识别概念单词及概念短语，多使用无监督的学习方法来识别。这里的概念词与技术短语较为相近，但也有明显不同。比如“user preference”，“reproductive age”是一个概念词汇，但不是技术短语。

但是，目前的相关工作和技术短语抽取之间有较大的差异，无法直接应用于专利中技术短语的抽取、识别，难以实现专利技术画像的构建。

发明内容

本发明的目的是提供一种专利中技术短语的自动抽取方法，它是一种无监督的模型，可以利用公开的专利数据，从专利文本中抽取出能够代表技术的短语，从而针对特定的专利可以构建技术画像，方便专利分析以及技术研究。

本发明的目的是通过以下技术方案实现的：

一种专利中技术短语的自动抽取方法，包括：

通过专利数据库，获得各个领域内的专利文本信息，以及专利之上的技术类别描述信息；

对于每一份专利，按照专利文本的结构将专利文本信息分为N个层级，使用无监督方法对每一层级进行候选技术短语的抽取，并利用每一层级的候选技术短语各自构建短语图结构；

逐层级的为候选技术短语进行评分，再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系，迭代计算每个候选技术短语的最终分值，按照最终分值的大小筛选出技术短语，其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算，第一层级则结合技术类别描述信息进行候选技术短语的评分计算；

综合所有层级选出的技术短语，并进行去重合并，得到一份专利中技术短语。

由上述本发明提供的技术方案可以看出，利用既有的短语、实体抽取工具得到候选短语集合，然后利用技术短语的评价指数以及专利的多层结构特点，对候选技术短语进行打分，之后利用影响力传播算法对候选技术短语进行排序和筛选，相较于现有技术而言，极大地提高了抽取结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种专利中技术短语的自动抽取方法的流程图；

图2为本发明实施例提供的模型结构示意图；

图3为本发明实施例提供的数据格式的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种专利中技术短语的自动抽取方法，如图1所示，为该方法的主要流程；该方法是一种无监督的模型，模型结构如图2所示，该方法的通过分析专利的结构特点、技术短语的特性，将专利的多层级结构、技术短语的语义、统计特性建模到无监督技术短语抽取模型中。相较于现有技术而言，极大的提高了抽取结果的准确性。该方法主要包括：

步骤11、通过专利数据库，获得各个领域内的专利文本信息，以及专利之上的技术类别描述信息。

本发明实施例中，直接从专利数据库中获取专利数据以及专利的类别信息。其中，专利数据即为专利的文本信息；专利的类别信息即在专利之上的类别划分，例如，联合专利分类(CPC Group)体系。图3示例性地给出专利文本的结构以及专利之上的分类情况。

步骤12、对于每一份专利，按照专利文本的结构将专利文本信息分为N个层级，使用无监督方法对每一层级进行候选技术短语的抽取，并利用每一层级的候选技术短语各自构建短语图结构。

本步骤主要分为三个部分：1)专利的层级划分；2)各层级候选技术短语的抽取；3)构建候选短语图结构；各部分主要内容如下：

1)专利的层级划分。

如图3所示，每一个专利文本都包含多个层级：Title、Abstract、Claim。Title即为专利的名称；Abstract是专利的说明书摘要；Claim专利的权利要求书，包含多条长文本，目的是为了声明作者的权利；这三个部分均是技术短语的来源。在诸多专利之上，有一个分类体系，根据专利所涉及到的不同技术领域进行划分。在该体系中，各个类别的描述内容可以作为技术短语的一个样例，用来指导专利中技术短语的抽取。

同时，在专利的各个层级中，从Title到Claim，内容逐渐丰富，技术词在文本中的占比逐渐降低。一个可行的思路为分层级地抽取技术短语，并且利用上一个层级的抽取结果来指导当前层级的抽取。而专利分类体系的描述内容可以作为初始信息指导Title中技术短语的抽取。

2)各层级候选技术短语的抽取。

由于技术短语没有明确的语法特点方便识别，本发明希望先利用诸多短语抽取工具构建出一个巨大的候选集合，以此来保证候选短语的全面性；这个集合将在后续部分作为技术短语判别和筛选的基础。主要过程如下：

a、对于每一层级，利用若干经典的短语抽取、实体识别模型从专利文本中抽取候选短语。

b、将各个模型抽取出的候选短语进行整合，在过程中进行去重和简单的筛选。经过专家的研究和标注实践，大多数技术短语都为名词性短语，少部分为动词结尾的短语，所以在筛选时候，仅保留这两种类型的短语，以保证候选短语的质量。

本发明实施例所说的候选技术短语都是指相应的文本。

3)构建候选短语图结构。

本发明实施例中，候选技术短语之间的内部关联是一项重要的信息，也是从中筛选出技术短语的一个重要标准。为了更好的挖掘这部分内容，针对每一个层级中的候选短语，建立一个无向图。在无向图中，节点是候选技术短语，任意两个节点之间边的权重是这两个候选技术短语在语义空间的余弦相似度。

步骤13、逐层级的为候选技术短语进行评分，再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系，迭代计算每个候选技术短语的最终分值，从而筛选出技术短语，其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算，第一层级则结合技术类别描述信息进行候选技术短语的评分计算。

本步骤主要包括：候选技术短语打分、迭代计算最终分值、以及候选技术短语排序与筛选；主要说明如下：

1)候选技术短语打分。

进行候选技术短语打分之前，需要先进行主题的计算，所述主题通过上一层级候选技术短语或者技术类别描述信息通过聚类的方式得到。如之前所述可以利用上一层级的抽取结果来指导当前层级的抽取任务，因为上一层级的抽取结果在一定程度上体现了当前领域内专利涉及的技术概况，可以在语义空间中大概勾勒出一个范围，为当前层级的抽取提供一部分指导信息。主题的计算方式为：

对于当前专利的当前层级，首先挑选当前专利所属领域中所有专利上一层级的抽取结果中置信度较高的候选技术短语(具体在实现中挑选每个文本中排序第一的候选短语，如果是第一层级，则使用专利的技术类别描述信息来计算技术主题)，通过预先训练的词向量模型，映射到语义空间；在语义空间内进行聚类，并对于聚类结果中每个类别中的候选技术短语在语义空间内求得其质心，将质心作为主题，并将影响候选技术短语的打分。

上述主题的计算过程中，对于第一层级，是直接将技术类别描述信息进行映射，然后聚类，因为CPCGroup，即我们使用的这个分类，描述信息和希望的技术短语比较接近，只不过数量很少，所以我们把它作为一个初始的指导信息，而在一个领域内，CPCGroup中的类别有几十到几百不等，所以这些描述信息也可以聚类的。另外，不管是对于第一层用类别描述信息来获得主题，还是之后层级用上一层级的抽取结果获得主题，聚类得到的主题都应该是多个，这样才能够用于后续主题相关度指标的计算。

假设本发明实施例中某一领域包含N个专利，这N个专利在执行本步骤时，每一专利的第一层级都基于相同的技术类别描述信息进行候选技术短语的评分计算，之后的各个层级都是基于其他N-1个专利上一层级最终分值最高的技术短语进行评分计算。

相较于其他短语，技术短语在语义、统计层面有诸多特点。此部分通过多种评价指标，从多个角度对候选短语进行打分，进而最大程度的刻画其是技术短语的可能性。

候选技术短语打分的优选实施方式如下：

本发明实施例中，主要考虑考虑两类指标，第一类为语义评价指标，包括：主题相关度、语义关联性、语义独立性；第二类为统计评价指标，包括：自身长度、影响范围。各指标的计算方式如下：

第一类：语义评价指标。

a、主题相关度(Topic Relevance)。

主题相关度衡量当前候选技术短语与上一层级得到的技术主题之间的关联性。根据在主题生成步骤中得到的技术主题，计算当前候选技术短语与各个主题在语义空间之间的相关度，相关度越高表示当前候选技术短语和一个技术主题的相关性越强；计算公式为：

其中，θ_i是当前候选技术短语，Topic_k为第k个主题；上式实际上计算的是在语义空间中，当前短语和既有主题之间的最大余弦相似度。

b、语义关联性(Semantic Relation)。

语义关联性表示不同候选技术短语之间的关联。在一个专利中，往往会出现相似或相关的技术短语，它们在语义空间中往往有着相近的表征，之间的关联性也会更强，语义相关度即从这个角度来评价候选技术短语。具体来说，构建的候选短语图中，通过一个阈值T进行剪枝，之后使用节点的度来度量语义相关性，表示为：

其中，I表示示性函数，示性函数的含义是指括号内的条件满足，则取值为1，否则为0；分母的目的是对计算得到的度进行归一化处理；

c、语义独立性(Semantic Independence)。

语义独立性用来衡量候选技术短语的独立含义。技术短语不仅彼此之间有着较强的关联性，同时也必须有独立的技术含义，即不能单纯的是没有实际内涵的停用词组成的短语。具体来说，在语义空间中，通过计算当前候选技术短语和其他候选技术短语之间的语义距离即可衡量这种独立性，表示为：

其中，θ_i是当前候选技术短语，θ_j表示其余的候选技术短语。

在以上三个语义评价指标中，主题相关度侧重于当前短语和既有的技术主题之间的关联性，语义关联性和语义独立性则从两个角度量化技术短语在语境中的特点。

第二类：语义评价指标。

a、自身长度(Self Length)。

自身长度即计算候选技术短语中单词的个数，是一种简单直观的统计指标。根据专家对于技术短语的标注和统计，绝大多数技术短语都由2～4个单词组成，少数由5个单词组成。根据这一项统计规律，定义：

其中，len(θ_i)表示候选技术短语θ_i中单词的个数。

b、影响范围(Influence Sphere)。

影响范围是从出现频率的角度评价技术短语。在每一段专利文本中，技术短语往往会出现在多个句子中，因为其联系着一个段落中的不同部分，尤其对于长文本(如Claim这一层级)。从这个角度出发，影响范围统计当前文本中候选短语涉及到的句子的个数，具体计算方式如下：

其中，I表示示性函数，示性函数的含义是指括号内的条件满足，则取值为1，否则为0；sentence_l表示当前层级的文本中的各个句子。

上述的两种统计评价指标更为简单直观，而语义评价指标侧重于和技术主题之间的关联性以及候选短语之间的内部联系。通过这些评价指标，对于每一个候选技术短语可以得到五个角度的评分，这些分数后续经过加和与归一化之后，作为该候选技术短语在图中的权重。

2)迭代计算最终分值。

本发明实施例中，对于一份专利文本中的任一层级的候选技术短语构成的图结构，以及各个节点的权重，通过影响力传播算法(NE-rank)进行排序和筛选。

对于短语图结构G＝(V,E)，V是节点的集合，每一节点V_i即为一个候选技术短语，E为节点的边集合，两个节点V_i与V_j的边权重w_ji为两个候选技术短语在语义空间的余弦相似度。

平均初始化每一节点V_i的初始值：R(V_i)＝1/N，再利用下式进行值的更新：

其中，N为节点的数量，d为阻尼因子，是一个控制传播效率的超参数；j:V_j→V_i表示所有节点V_i连接的节点V_j；表示与节点V_j相邻的所有边的权重之和；w_ji表示节点V_i和V_j之间边的权重；W(V_i)为图中节点V_i的权重，也即相应候选技术短语的评分。

通过不断迭代，直到所有节点的R(V_i)变化小于设定的截止阈值，或者达到最大迭代轮次后，更新停止，最终得到的R(V_i)即为相应候选技术短语的最终分值。

3)候选技术短语排序与筛选。

基于上述迭代计算，可以得到每一候选技术短语的最终分值，按照最终分值进行降序排列，然后，选择排名靠前的K个技术短语。

以上操作是逐层级进行的，也即，对于三个层级，首先，结合技术类别描述信息为第一层级的候选技术短语进行评分、迭代计算最终分值，从而选出排名靠前的K个技术短语；然后，以第一层级中K个技术短语中排序第一的技术短语作为高置信度的短语来指导下一个层级中技术主题生成，从而也可以起到连接相邻层级的作用，基于技术主题为第二层级的候选技术短语评分，再迭代计算最终分值，从而选出排名靠前的K个技术短语；最后，对于第三个层级也做相同的操作，选出靠前的K个技术短语。

各层级的以上操作原理是相同的，但是，K的取值需要根据每一层级中句子的数目N_sen确定，根据对于部分专家标注的技术短语进行统计，K与N_sen之间存在如下统计关系：

其中，Title、Abstrac、Claim表示三个层级，分别为专利的名称、专利的说明书摘要、专利的权利要求书；也即对于Title与Abstract设置K＝2N_sen，对于claim，设置K＝N_sen。

步骤14、综合所有层级所选出的技术短语，并进行去重合并，得到一份专利中技术短语。

基于上述方案，对于每一层都提取出相应数目的候选技术短语，将所有候选技术短语去重合并，可以得到该专利的技术短语集合，即技术画像。

需要说明的是，图2所示的模型中给出的各候选技术短语仅用于示意说明。

本发明实施例上述方案，根据技术短语本身的语义和统计特点，以及专利数据本身的多层结构，设计了一种生成—评价—筛选的无监督模型来抽取专利中代表技术的短语，从而构建对于专利的技术画像。相比于现有技术而言，极大地提高了抽取结果的准确性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种专利中技术短语的自动抽取方法，其特征在于，包括：

综合所有层级选出的技术短语，并进行去重合并，得到一份专利中技术短语；

所述为每一候选技术短语评分包括：计算语义评价指标，包括：主题相关度、语义关联性、语义独立性；计算统计评价指标，包括：自身长度、影响范围；将五个数值经过加和与归一化处理后，得到每一候选技术短语评分；

主题相关度表示当前候选技术短语与各个主题在语义空间之间的相关度，计算公式为：

其中，θ_i是当前候选技术短语，Topic_k为第k个主题；所述主题通过上一层级候选技术短语或者技术类别描述信息通过聚类的方式得到；

语义关联性表示不同候选技术短语之间的关联，通过一个阈值T进行剪枝，之后使用节点的度来度量语义相关性，表示为：

语义独立性用来衡量候选技术短语的独立含义，通过当前候选技术短语和其他候选技术短语之间的语义距离来衡量，表示为：

其中，θ_i是当前候选技术短语，θ_j表示其余的候选技术短语；

自身长度即计算候选技术短语中单词的个数，定义为：

其中，len(θ_i)表示候选技术短语θ_i中单词的个数；

影响范围是从出现频率的角度评价技术短语，表示为：

其中，I表示示性函数，示性函数的含义是指括号内的条件满足，则取值为1，否则为0；sentence_i表示当前层级的文本中的各个句子；

所述利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系的方式包括：

对于短语图结构G＝(V,E)，V是节点的集合，每一节点V_i即为一个候选技术短语，E为节点的边集合，两个节点V_i与V_j的边权重w_ji为两个候选技术短语在语义空间的余弦相似度；

其中，N为节点的数量，d为阻尼因子，是一个控制传播效率的超参数；j:V_j→V_i表示所有节点V_i连接的节点V_j；表示与节点V_j相邻的所有边的权重之和；w_ji表示节点V_i和V_j之间边的权重；W(V_i)为图中节点V_i的权重，也即相应候选技术短语的评分；

2.根据权利要求1所述的一种专利中技术短语的自动抽取方法，其特征在于，按照专利文本的结构将专利文本信息分为三个层级，第一个层级为专利的名称，第二个层级为专利的说明书摘要，第三个层级为专利的权利要求书。

3.根据权利要求1或2所述的一种专利中技术短语的自动抽取方法，其特征在于，对于每一层级，利用短语抽取工具抽取候选技术短语；所述候选技术短语包括：名词性短语和/或以动词结尾的短语。

4.根据权利要求1所述的一种专利中技术短语的自动抽取方法，其特征在于，主题的计算方式为：

对于当前专利当前层级，首先挑选当前专利所属领域中所有专利中上一层级的抽取的最终分值最高的技术短语，如果是第一层级，则使用专利的技术类别描述信息，通过预先训练的词向量模型，将技术短语或者技术类别描述信息映射到语义空间；在语义空间内进行聚类，并对于聚类结果中每个类别中的候选技术短语在语义空间内求得其质心，将质心作为主题。

5.根据权利要求1或2所述的一种专利中技术短语的自动抽取方法，其特征在于，所述按照最终分值的大小筛选出技术短语包括：

按照最终分值进行降序排列，从中选出排名靠前的K个技术短语；

K的取值根据每一层级中句子的数目N_sen确定，K与N_sen之间存在如下统计关系：

其中，Title、Abstract、Claim表示三个层级，分别为专利的名称、专利的说明书摘要、专利的权利要求书；也即对于Title与Abstract设置K＝2N_sen，对于Claim，设置K＝N_sen。