CN115481636A

CN115481636A - 一种面向技术文献的技术功效矩阵构建方法

Info

Publication number: CN115481636A
Application number: CN202211117627.6A
Authority: CN
Inventors: 李波; 刘婷; 李辉; 曾洪; 王海洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-16

Abstract

本发明公开一种面向技术文献的专利技术功效提取方法，分析高端装备领域专利技术术语和功效术语的特征，提高中文专利中的技术术语和功效术语提取的精确性。本发明构建了面向技术术语和功效术语抽取的深度学习模型，并结合专利的句式规则，进行技术术语启发式特征的构造，通过构建功效术语特征词典，定位功效语句，加快模型的训练速度，提高抽取精度，为降低人工标注样本的成本以及避免数据集过小导致模型过拟合现象，采用一种自训练算法实现模型的弱监督学习。通过词聚类从中选择与专利文本主题最相近的技术术语，利用余弦相似度合并相似语义的术语，构建技术功效矩阵。

Description

一种面向技术文献的技术功效矩阵构建方法

技术领域

本发明涉及自然语言处理及专利挖掘领域。

背景技术

高端制造装备是实现制造业高质量发展的基石，存在巨大的技术创新需求。精准识别相关领域的技术发展态势、发现其关键技术机会、探究其创新路径方向及挖掘核心专利显得尤为迫切。通过专利可视化完成从晦涩难懂的非结构性专利信息向清晰可辨的结构化信息数据的转换，使得非专业人员能清楚了解专利背后隐藏的巨大研发价值，为后续研发提供可行思路。技术功效矩阵作为专利分析法中定性分析的一种具体表现形式，其可以独特的为设计者呈现出相关技术领域在发展过程中技术的聚集和疏散程度，帮助用户发现技术热点、薄弱点和发展路径，为后续创新方向的决策提供支持。

构建专利技术功效矩阵的主要难点在于技术术语和功效术语的提取。针对专利的技术术语和功效术语思维提取，传统方法主要有基于规则的方法、基于统计模型的方法和将两者进行结合的方法。传统方法在术语抽取过程中只考虑了术语本身特征及其在目标语料库的词频特征，使得术语抽取效果深受目标语料库规模和质量的影响。因此，学者逐渐将机器学习以及深度学习技术应用到术语抽取上。

利用机器学习技术进行术语抽取一般是将其看作特定领域的“命名实体”，采用命名实体识别的相关方法进行术语识别。对于领域内技术术语，由于技术术语多为“未登陆词”，即由多个词组成、不常见或者首次出现，会造成训练模型的准确率降低。对于功效术语，首先，由于功效术语的表达形式多种多样，有时分散在一个或多个语句中，难以进行直接抽取，其次，功效术语往往存在于专利的部分语句中，针对专利全文或专利摘要全文进行抽取时，往往会引入很多噪声且造成样本集不均匀。另外，针对中文高端装备领域专利，目前并不存在标准的数据集，人工标注预料成本较高。

基于上述原因，本文提出：针对技术术语，通过构建高端装备领域专利的技术术语的实体特征进行模型的训练，以提高模型抽取的准确率；针对功效术语，首先定位功效术语所在语句，以避免噪声信息以及样本不均匀对模型训练的影响，并将功效术语分解为主词(表示功效作用)和受词(表示属性)进行标注抽取，避免功效语句表达形式对抽取结果的影响。

本发明提出一种技术功效术语提取技术，从而实现对高端装备领域专利信息的精确抽取。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种自动的技术功效矩阵构建方法，完善技术术语和功效术语提取。

为了解决上述问题，本发明提出了一种面向技术文献的专利技术功效提取方法，包括以下步骤：

步骤1：利用工具LTP对技术文献进行分词、词性标注，在技术文献中，虽然技术功效短语的表达方式比较丰富，但是通常有比较固定的形式，词或词语是作为语句分析的基本单位，通过依存句法分析将句子所包含的语法单元或词语单元之间的关系，更换为句法分析树，将技术功效目标句分解为短语的嵌套和层叠的组合，强调句子中词语之间的依赖关系，提取具有依存关系的词对，例如：[延长/v，寿命/n，VOB]等，将复杂冗长的技术、功效术语转为词语组合的形式；对专利数据集的术语采用{B,I,O}的标签方案进行人工标注，即由标签{B,I}表示技术和功效术语，标签{O}表示非技术功效术语，构造模型训练数据集和测试数据集；

步骤2：由于术语语法特征差别较大，其上下文语义是术语抽取的重要依据，词向量包含的语义信息能增强理论术语的泛化性能，提升抽取的效果，因此对步骤1已标注的训练集采用skip-gram模型进行预训练，得到词向量；

步骤3：分别构建技术术语抽取模型和功效术语抽取模型；

步骤3.1：通过技术术语前后的线索词以及技术术语所具备的词语特征，构建技术术语实体特征；

步骤3.2：根据技术文献在表达功效的语句中存在的相应规则，构建功效属性词典，进行功效语句的定位，初步过滤功效语句构建功效术语；将功效语句的功效术语拆分为主词(如提高、增强等动词)与受词(如故障率、效率等宾词、名词等)分别进行提取；主词表示功效和作用的词语，受词表示主词所作用的属性；

步骤3.3：将词性、依存关系加入词向量中作为功效术语抽取模型的输入，将技术术语实体特征、词向量、词性、依存关系合并成向量矩阵作为技术术语抽取模型的输入；

步骤3.4：基于双向长短时记忆神经网络构建技术术语抽取模型和功效术语抽取模型；

步骤4：实现技术术语抽取模型和功效术语抽取模型的弱监督学习；使用自训练算法，利用已标注的少量数据和未标注数据对模型进行训练，进行模型的弱监督学习，减少人工标注样本集的人工成本，避免模型的过拟合；其具体步骤为：

步骤4.1：对抽取模型初始化，这里的抽取模型表示技术术语抽取模型或功效术语抽取模型，使用少量已标注数据对抽取模型进行训练；

步骤4.2：将训练出的抽取模型对未标注数据进行标注，采用判决算法计算每一标注判决的置信度，优选出置信度高于阈值的可信数据；

执行标准的硬判决Viterbi算法，以上一位置状态为前提，计算到当前位置得出的最大概率的状态作为最优隐含状态序列即幸存路径；

在执行过程中存储各子路径的分支度量值，即相邻两位置节点间的所有可能路径的分支度量值

存储节点x_t-1与节点x_t间所有子路径的分支度量值的公式如下：

其中，

表示t-1位置各标签的状态得分，

表示t-1位置各标签与t位置各标签间的转移得分，

表示t-1位置各标签的状态的得分；

计算各幸存子路径在路径竞争中被选择的概率，将其作为相应节点标注的置信度，t位置节点标注的置信度表示为：

其中，

为节点x_t-1与节点x_t间的幸存子路径度量值，

为节点x_t-1与节点x_t间的各子路径度量值；

步骤4.3：将这些可信数据与其预测标签一起进行模型的增量训练，训练后对剩下的未标注数据同样进行如上操作，以此不断迭代，直至没有高于阈值的数据为止；

步骤5：根据步骤4得到的抽取模型，对目标技术文献进行技术术语抽取和功效术语抽取，抽取结果分别技术术语向量和功效术语向量；

以名称中出现的术语作为种子词，利用余弦相似度计算各技术术语与种子词之间的相似度，选择相似度值最大的一个作为与主题最相近的技术主题词，余弦相似度公式为：

其中，A和B为术语对应的向量，A_i，B_i为对应向量中的元素，n表示元素总个数；

步骤6：判定术语相似度；

采用基于相似度理论的实体对齐方法，分别计算技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度，根据相似度的大小确定短语间是否具有相同含义，对相同语义词语进行合并；

步骤7：通过上述步骤获得技术方案的唯一技术主题词和多个功效术语，以技术主题词为横坐标，功效术语为纵坐标，交点表示对应技术方案数量，构建技术功效矩阵。

进一步的，所述步骤3.4的具体方法为：所述技术术语抽取模型和功效术语抽取模型都包括：输入层、隐藏层、输出层；

对于隐藏层前向序列

和隐藏层后向序列

t时刻的状态和输出分别表示为：

其中，x_t表示t时刻的输入数据，

表示x_t前向传播的权重矩阵，

表示

前向传播的权重矩阵，

表示前向传播的偏置，

表示后向传播的偏置，y′_t表示通过输出层预测节点的分类标签，b_y表示提取过程中的偏置值；

给定输入序列x＝{x₁,x₂,...,x_t-1,x_t,...}时，对于技术术语抽取模型，其输入序列为：x＝{w,s,d,c}，对于功效术语抽取模型，其输入序列为：x＝{w,s,d}，其中，w表示词向量，s表示词性向量，d表示依存关系向量，c表示技术术语实体特征向量；

当标注序列为y＝{y₁,y₂,...,y_t-1,y_t,...}时，标注序列的评估得分函数由下式表示：

其中，

表示t-1位置y_t-1转移到当前位置y_t的得分，

表示输入序列x＝{x₁,x₂,...,x_t-1,x_t,...}在t位置为y_t标签的得分，T表示标注序列的结束位置；

预测序列概率值表示为：

表示所有的可能序列，y_x表示输入序列x的所有可能标注序列；

输出层预测的序列标注输出为：

其中，argmax函数采用Viterbi算法求解输出最优的标注序列，即完成模型的输出。

进一步的，所述步骤4.2中计算到当前位置得出的最大概率的方法为：对于输入序列x＝{x₁,x₂,...,x_t-1,x_t}，输出序列为O＝{O₁,O₂,...,O_t}，初始序列状态P(x_i|S),转移概率序列P(x_j|x_i)表示从x_i转移到x_j的概率，P_ij表示i时刻输出O_i的情况下出现状态x_j的概率；

采用上述技术方案所产生的有益效果在于：本发明提供的一种面向专利的技术功效矩阵构建及系统实现，在两个方面提升了技术功效矩阵的构建效果：1)本发明分析领域内专利中技术术语存在的特征，总结了技术术语实体特征作为技术术语抽取模型的启发式特征，与词向量、词性、依存关系合并组成最终向量矩阵作为模型的输入，以增强模型的学习能力，提高技术术语提取准确率；2)本发明分析领域内专利中功效术语存在的功效语句的句法规则，构建功效属性词典，定位功效句，初步过滤功效语句作为功效术语抽取的数据集，以减少噪声数据对模型训练的影响。

附图说明

图1为本发明提供的一种面向专利的技术功效术语提取方法流程图。

图2为本发明提供的一种技术术语抽取模型结构图。

具体实施方法

下面结合附图，以高端装备燃气轮机为例，对本发明的具体实施方式作进一步详细描述。以下用于说明本发明，但不用来限制本发明的范围。

一种面向技术方案的技术功效提取方法实现，如图1所示，包含以下步骤：

步骤1：利用工具LTP对技术文献进行分词、词性标注，在专利中，虽然技术功效短语的表达方式比较丰富，但是通常有比较固定的形式，词或词语是作为语句分析的基本单位，通过依存句法分析能够将句子所包含的语法单元或词语单元之间的关系，准换为句法分析树，可以将技术功效目标句分解为短语的嵌套和层叠的组合，强调句子中词语之间的依赖关系，提取具有依存关系的词对，例如：[延长/v，寿命/n，VOB]等，进而将复杂冗长的技术、功效术语转为词语组合的形式。对专利数据集的术语采用{B,I,O}的标签方案进行人工标注，即由标签{B,I}表示技术和功效术语，标签{O}表示非技术功效术语，构造模型训练数据集和测试数据集；表1专利预处理示例

步骤2：由于在没有大量已标注预料的情况下，词向量包含的语义信息能增强术语抽取的泛化性能，提升抽取的效果，因此，本发明采用skip-gram模型预训练词向量，将其作为模型输入的词向量特征。

步骤3：分别构建技术术语和功效术语抽取的抽取模型。

步骤3.1：通过分析大量相关专利，通过技术词前后存在的线索词以及技术术语本身存在的词语特征，部分特征如表2所示，构建技术术语实体特征作为该模型进行术语抽取的启发式特征。

表2技术术语的部分特征

如“一种基于人工智能的新能源汽车安全预警方法及系统”加入其实体特征表述为“OOL₀L₀OOOOOOOOOOOOOOR₀R₀OR₀R₀”。

步骤3.2：通过分析大量领域内专利，通过专利在表达功效的语句中的规则，构建功效属性词典，部分内容如表3所示。另外，表达功效的语句往往存在于专利的尾句，部分存在于首句，分别赋予专利摘要内容尾句、首句及中间句由大到小的权重，按照权重大小根据功效词词典实现功效语句的初步过滤，构建功效术语抽取的数据集。

表3功效属性词典部分内容

由于中文专利中功效语句表达形式多种多样，无法直接从中提取功效术语。因此，对功效术语进行拆分为主词及受词分别进行提取。其中主词表示功效值，如提高、增强等，受词表示功效值进行修饰的属性，如故障率、效率等，两者合并为功效术语。

步骤3.3：将词性、依存关系加入词向量中作为功效术语抽取模型的输入，将技术术语实体特征、词向量、词性、依存关系合并组成最终向量矩阵作为技术术语抽取模型的输入。分别构建技术术语和功效术语抽取模型。

对于隐藏层前后序列

和隐藏层后向序列

t时刻的状态和输出分别表示为

其中，

是x_t前向传播的权重矩阵，

是

前向传播的权重矩阵，

是前向传播的偏置，

是后向传播的偏置。

在给定输入序列x＝{x₁,x₂,...,x_t-1,x_t,...}时，对于技术术语抽取模型，其输入序列为：x＝{w,s,d,c}，对于功效术语抽取模型，其输入序列为：x＝{w,s,d}，其中，w表示词向量，s表示词性向量，d表示依存关系向量，c表示技术术语实体特征向量。

当标注序列为y＝{y₁,y₂,...,y_t-1,y_t,...}时，其评估分数函数由下式表示

其中，

表示t-1位置y_t-1转移到当前位置y_t的得分，

表示输入序列x＝{x₁,x₂,...,x_t-1,x_t,...}在t位置为y_t标签的得分。

预测序列概率值表示为

输出层预测的序列标注输出为

步骤4：实现技术术语和功效术语模型的弱监督学习。使用自训练算法，利用已标注的少量数据和未标注数据对模型进行训练，进行模型的弱监督学习，减少人工标注样本集的人工成本，避免模型的过拟合。其具体步骤为：

步骤4.1：对抽取模型初始化，使用少量已标注数据对模型进行训练。

步骤4.2：将训练出的模型对未标注数据进行标注，采用一个判决算法计算每一标注判决的置信度，优选出置信度高于阈值的可信数据。

执行标准的硬判决Viterbi算法，得到最优隐含状态序列即幸存路径，并在执行过程中存储各子路径的分支度量值，即相邻两位置节点间的所有可能路径的分支度量值,

计算各幸存子路径在路径竞争中被选择的概率，将其作为相应节点标注的置信度。t位置节点标注的置信度表示为

其中，

为节点x_t-1与节点x_t间的幸存子路径度量值，

为节点x_t-1与节点x_t间的各子路径度量值。

步骤4.3：将这些可信数据与其预测标签一起进行模型的增量训练，训练后对剩下的未标注数据同样进行如上操作，以此不断迭代，直至没有高于阈值的数据为止。

步骤5：选取构建技术功效矩阵的专利技术主题词。一个专利中往往会存在多个技术术语，从中选取最符合专利主题的术语作为技术功效矩阵中的专利技术主题词。以专利名称中出现的术语作为种子词，利用余弦相似度计算术语与种子词之间的相似度，选择相似度值最大的一个作为与专利主题最相近的专利技术主题词以构建技术功效矩阵，余弦相似度公式为：

其中，A和B为术语对应的向量。

步骤6：判定术语相似度。如步骤2所述，已实现所有词向量的表示，在此基础上进一步实现专利技术主题词和功效术语的向量表示，采用基于相似度理论的实体对齐方法，分别计算专利技术主题词和功效术语向量间的余弦相似度来判定短语间的语义相似度，根据相似度的大小确定短语间是否具有相同含义，对相同语义词语进行合并。

步骤7：通过上述步骤获得专利的唯一专利技术主题词和多个功效术语，以专利技术主题词为横坐标，功效术语为纵坐标，交点表示对应专利数量，构建技术功效矩阵。

Claims

1.一种面向技术文献的专利技术功效提取方法，包括以下步骤：

步骤1：利用工具LTP对技术文献进行分词、词性标注，词或词语是作为语句分析的基本单位，通过依存句法分析将句子所包含的语法单元或词语单元之间的关系，更换为句法分析树，将技术功效目标句分解为短语的嵌套和层叠的组合，强调句子中词语之间的依赖关系，提取具有依存关系的词对，将复杂冗长的技术、功效术语转为词语组合的形式；对专利数据集的术语采用{B,I,O}的标签方案进行人工标注，即由标签{B,I}表示技术和功效术语，标签{O}表示非技术功效术语，构造模型训练数据集和测试数据集；

步骤3：分别构建技术术语抽取模型和功效术语抽取模型；

步骤3.2：根据技术文献在表达功效的语句中存在的相应规则，构建功效属性词典，进行功效语句的定位，初步过滤功效语句构建功效术语；将功效语句的功效术语拆分为主词与受词分别进行提取；主词表示功效和作用的词语，受词表示主词所作用的属性；

其中，

表示t-1位置各标签的状态得分，

表示t-1位置各标签与t位置各标签间的转移得分，

表示t-1位置各标签的状态的得分；

其中，

为节点x_t-1与节点x_t间的幸存子路径度量值，

为节点x_t-1与节点x_t间的各子路径度量值；

步骤6：判定术语相似度；

2.如权利要求1所述的一种面向技术文献的专利技术功效提取方法，其特征在于，所述技术术语抽取模型和功效术语抽取模型都包括：输入层、隐藏层、输出层；

对于隐藏层前向序列

和隐藏层后向序列

t时刻的状态和输出分别表示为：

其中，x_t表示t时刻的输入数据，

表示x_t前向传播的权重矩阵，

表示

前向传播的权重矩阵，

表示前向传播的偏置，

表示后向传播的偏置，y_t'表示通过输出层预测节点的分类标签，b_y表示提取过程中的偏置值；

其中，

表示t-1位置y_t-1转移到当前位置y_t的得分，

预测序列概率值表示为：

输出层预测的序列标注输出为：

3.如权利要求1所述的一种面向技术文献的专利技术功效提取方法，其特征在于，所述步骤4.2中计算到当前位置得出的最大概率的方法为：对于输入序列x＝{x₁,x₂,...,x_t-1,x_t}，输出序列为O＝{O₁,O₂,...,O_t}，初始序列状态P(x_i|S),转移概率序列P(x_j|x_i)表示从x_i转移到x_j的概率，P_ij表示i时刻输出O_i的情况下出现状态x_j的概率；