CN112101028A

CN112101028A - 一种多特征双向门控领域专家实体抽取方法及系统

Info

Publication number: CN112101028A
Application number: CN202010824303.0A
Authority: CN
Inventors: 李翔; 张柯文; 朱全银; 马甲林; 王媛媛; 方强强; 丁行硕; 成洁怡; 沈天宇
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-12-18
Anticipated expiration: 2040-08-17
Also published as: CN112101028B

Abstract

本发明公开了一种多特征双向门控领域专家实体抽取方法及系统。该方法首先通过构建领域专家语料库以训练实体抽取模型；接着，使用BERT方法进行字嵌入表示，对语料库专业领域词汇构造要素进行特征分析并提取边界特征；然后，利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系；最后，结合条件随机场模型实现命名实体识别，将抽取后的信息建立高质量的实体信息索引项返还WEB应用系统。本发明方法可有效抽取领域专家信息实体，充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能，从而解决人工特征提取成本高和专业新词无法识别等问题。

Description

一种多特征双向门控领域专家实体抽取方法及系统

技术领域

本发明属于自然语言处理和信息抽取技术领域，具体涉及一种多特征双向门控领域专家实体抽取方法及系统。

背景技术

传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果，以及专家简介中大量专业新词无法识别等问题。段大高、赵宁、韩忠明等人提出了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法(中国专利ZL201710006826.2)，通过将文本信息转换成词向量数学信息，然后进行向量相似度比较，并根据数字间的关系，来标注实体间的关系，但这种方法过度依赖人工标注的结果；张力文、程国艮等人提出了一种面向中文专利文本的实体抽取方法和系统(中国专利公开号CN 109101538A)，该方法和系统依据词性规则模板，无需人工标注便可对专利文本中的实体自动进行提取，克服了现有技术严重依赖大规模标注语料的缺陷，节省了标注的人力成本，却依赖于现有规则的制订，对新词提取无法识别；牛志超、马语菡、南海涛等人提出了一种基于BERT算法模型的知识图谱构建系统(中国专利公开号CN 110866125A)，通过使用BERT-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取，虽然模型使用神经网络之后保证了实体提取的快速性和精准性，但是对专业领域的关键词实体的识别率上还存在挑战。

虽然上述方法在实体抽取任务上取得了一定效果。然而，传统专家命名实体识别方法还存在以下问题：

1、存在过度依赖人工特征标注和分词效果；

2、专家简介中大量专业新词无法识别等问题。

发明内容

发明目的：为解决领域专家信息抽取过程中人工特征提取成本高和专业新词无法识别等问题，本发明提供一种多特征双向门控领域专家实体抽取方法及系统，充分利用领域专业术语在文档中的特征，结合门控神经网络可以从上下文中自动找到更有用的单词以提取指定类型的关键性信息。

技术方案：一种多特征双向门控领域专家实体抽取方法，包括以下步骤：

步骤1：获取领域专家语料库D1∈{d₁，d₂，...，d_N}，其中，d为单条领域专家文本，N为语料大小，对领域专家语料库D1中的语料进行标记，包括将领域关键词实体标记为Key；对标记后的语料库依次进行字符级切分和标记，完成全分词标注语料库D2的构建；

步骤2：定位全分词标注语料库D2中标记为Key的领域关键词实体，获取领域关键词实体的前后向特征，通过前后向特征生成二元共现词汇组，并利用二元共现词汇组构建边界特征向量矩阵E1；将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间，得到边界特征；

步骤3：对领域专家语料库D1进行预处理，并采用预处理后的数据对BERT语言模型进行训练，得到训练好的BERT语言模型BERT_Model，循环遍历领域专家语料库D1中每条领域专家文本，通过BERT_Model得到融合全文语义信息的字特征；

步骤4：拼接边界特征和字特征，得到基于多特征融合的向量数据集D3；基于双向门控神经网络和注意力机制，构建中文领域专家实体抽取模型Model，采用向量数据集D3对中文领域专家实体抽取模型Model进行训练，得到最终可用的中文领域专家实体抽取模型Model；

步骤5：将待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model，得到领域专家实体识别结果。

进一步的，在所述步骤1中，需对领域专家语料库进行预处理，所述预处理包括去重和去掉特殊字符；

在步骤1中，所述的对领域专家语料库D1中的语料进行标记，包括：

使用领域专业术语词汇与领域专家语料库D1中的领域关键词实体进行匹配，并标记为Key；

采用YEDDA工具，对领域专家语料库D1中的其他实体进行补充标记，标记类型记为type。

进一步的，所述全分词标注语料库D2由字符对(context，label)构成，其中，context表示切分后的单个字符，label：{offset-type}表示实体的标记，offset表示实体起始到结束的标识，表示为{B，M，E，S}，B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词，type表示非领域关键词实体的其他实体的标记类型。

进一步的，所述步骤2具体包括：

S201：定位全分词标注语料库D2中标记为Key的领域关键词实体；

S202：设定滑动窗口宽度width，滑动窗口，获取领域关键词实体在滑动窗口宽度width内所有边界的前后向特征；

S203：将前后向特征生成二元共现词汇组，统计各二元共现词汇组以前后顺序同时出现的频率，记为共现频次w；

S204：基于下式计算得到二元共现词汇组出现的概率f：

式中，f_i表示第i组二元共现词汇组出现的概率，w_i表示第i组二元共现词汇组的共现频次；

S205：构建边界特征矩阵E1＝(prev，next，w，f)，其中，prev表示二元共现词汇组中的前一个词汇，next表示二元共现词汇组中的后一个词汇，w为二元共现词汇组的共现频次，f为二元共现词汇组出现的概率；

S206：将全分词标注语料库D2中所有单条文本通过边界特征向量矩阵E1，映射至向量空间，得到文本中的边界特征

进一步的，所述S206具体包括以下步骤：

统计文本边界特征数，并根据下式计算文本中每个字符作为边界特征的可信度P(c_i)：

其中，c_i代表在全分词标注语料库D2中的第i个字符，

表示字符c_i作为边界的二元概率，

表示字符c_i在全分词标注语料库D2中的共现频次；

对可信度P(c_i)归一化处理，得到离散特征值：

式中，

表示字符c_i的边界特征值，round函数为四舍五入计算，k为切割值，用于控制离散化后的特征数，P_min表示最小可信度阈值，P_max表示最大可信度阈值。

进一步的，所述步骤3具体包括：

S301：对领域专家语料库D1中的语料按照句子进行切分；

S302：对每个句子进行字符化，将句子切分为Max_len个字，对超过长度Max_len的字符进行截断；

S303：句首以特殊字符[CLS]标记，句子之间用[SEP]字符连接，句末以[SEP]标记，句子中替换的词汇用[MASK]代替，长度不足用[PAD]补齐对应补全符号为0，真实字符以及特殊标记[CLS]和[SEP]对应为1，得到预处理后的语料；

S304：采用预处理后的语料对BERT语言模型进行训练，得到训练好的BERT语言模型BERT_Model；

S305：定义循环变量i1，i1赋初值为1；

S306：判断是否满足i1≤N，若满足则跳转到S307，否则得到文本中各个字融合全文语义信息的字特征

S307：采用BERT_Model将全分词标注语料库D2基于字符表示转换为字嵌入表示，并输出每个字的上下文表示；

S308：将字嵌入表示和上下文表示作为特征输入到BERT_Model的双向Transformer中，输出字向量序列

S309：i1＝i1+1，跳转至S306。

进一步的，所述步骤4具体包括：

S401：定义用于遍历全分词标注语料库D2的循环变量i2，i2赋初值1；

S402：判断是否满足i2≤N，若满足，则跳转到S403，否则跳转到S407；

S403：提取边界特征

S404：提取字特征

S405：拼接字特征

和边界特征

得到多特征融合后新的特征

S406：i2＝i2+1，跳转至S402；

S407：得到基于特征融合的向量数据集D3＝{X₁,X₂,...,X_N}，采用基于特征融合的向量数据集D3对中文领域专家实体抽取模型Model进行训练，得到最终可用的中文领域专家实体抽取模型Model，所述中文领域专家实体抽取模型Model为特征序列X为输入，以包含文本多特征的向量序列为输出。

进一步的，所述步骤5包括：

将待抽取领域专家文本进行预处理，该预处理与步骤3中对对领域专家语料库D1进行预处理相同；

将预处理后的待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model，通过训练好的模型参数，采用维特比算法计算最大可能的输出序列，将其作为最优命名实体识别结果，得到预测实体标签y；

基于预测实体标签y，建立高质量的领域专家实体信息索引项。

本发明还公开了一种多特征双向门控领域专家实体抽取系统，包括：

全分词标注语料库构建模块，执行如下操作：

获取领域专家语料库D1∈{d₁，d₂，...，d_N}，其中，d为单条领域专家文本，N为语料大小，对领域专家语料库D1中的语料进行标记，包括将领域关键词实体标记为Key；对标记后的语料库依次进行字符级切分和标记，完成全分词标注语料库D2的构建；

边界特征获取模块，执行如下操作：定位全分词标注语料库D2中标记为Key的领域关键词实体，获取领域关键词实体的前后向特征，通过前后向特征生成二元共现词汇组，并利用二元共现词汇组，构建边界特征向量矩阵E1；将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间，得到边界特征；

语言模型训练模块，执行如下操作：

对领域专家语料库D1进行预处理，并采用预处理后的数据对BERT语言模型进行训练，得到训练好的BERT语言模型BERT_Model；

字特征获取模块，执行如下操作：

循环遍历领域专家语料库D2中每条领域专家文本d，通过BERT_Model得到融合全文语义信息的字特征；

中文领域专家实体抽取模型Model构建及训练模块，执行如下操作：

拼接边界特征和字特征，得到基于多特征融合的向量数据集D3；基于双向门控神经网络和注意力机制，构建中文领域专家实体抽取模型Model，采用向量数据集D3对中文领域专家实体抽取模型Model进行训练，得到最终可用的中文领域专家实体抽取模型Model。

有益效果：本发明与现有技术相比，具有以下优点：

1、本发明基于网络爬虫挖掘数据集，利用第三方工具标记语料，通过统计方法提取边界特征和使用BERT语言模型抽取字特征，使用门控神经网络可以从上下文中自动找到更有用的单词以获得更好的NER性能，从而解决人工特征提取成本高和专业新词无法识别等问题；

2、本发明将自然语言处理与行业知识深度融合，深度挖掘包含领域特征文本，从而更好的对复杂文本进行处理。

附图说明

图1为本发明的总体流程图；

图2为图1中数据清洗的具体流程图；

图3为图1中抽取边界特征的具体流程图；

图4为图1中抽取字嵌入特征的具体流程图；

图5为图1中训练双向门控神经网络模型的具体流程图；

图6为图1的模型应用领域专家实体抽取的流程图。

具体实施方式

本发明的多特征双向门控领域专家实体抽取方法及系统，首先，挖掘网络文本并对其清洗及规范化，半自动标注构建领域专家简介语料库，通过该领域专家简介语料库以训练实体抽取模型；接着，使用BERT方法进行字嵌入表示，对语料库专业领域词汇构造要素进行特征分析并提取边界特征；然后，利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系；最后，结合边界特征构建条件随机场模型实现命名实体识别，调用实体抽取系统接口返回抽取结果至WEB应用系统。通过大数据技术对专家信息进行整理、分类和分析后，以不同的形式为高校、政府、企业提供精准的专家信息服务，可以构建高校科技人才与企业、政府的联通桥梁，解决人工特征提取成本高和专业新词无法识别等问题。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明涉及以下两种模型，现对这两种模型进行说明：

BERT模型采用Transfomer的编码器作为主体模型结构，舍弃了RNN循环式网络结构，引入了双向的语言模型任务，完全基于注意力机制对文本进行建模。通过注意力机制计算文本中每个词和所有词之间的相互关系，根据相互关系反应不同词之间的关联性及重要程度。以词与词之间的权重获得每个词新的表征，通过自身以及与其他词之间的关系得到全局性的表示。Transfomer则对输入的文本不断进行注意力机制层和非线性网络层的交叠得到最终文本的表达。将BERT模型引入实体抽取任务，不仅考虑到上下文信息，也充分利用了全局信息。在进行实体消歧上有很大的优势，在处理相似的未登录字符更容易被识别，提高了实体抽取模型的召回率。

BiGRU-CRF：双向GRU获取的上下文信息无法完全融入当前字符信息。在BiGRU神经网络中添加Attention机制，即在不同时刻计算输出特征向量的权重，突出字符的重要特征，从而提取文本上下文语义特征。CRF可以关注句子级别利用邻居标签信息，产生更高的标记精度。

为了使表述更为清楚，现对各名词解释如下：文本泛指纯文本，可以是一个句子或多个句子的组合；语料是一大段文本，是文本的集合；记录表示某一单条文本。

如图1所示的多特征双向门控领域专家实体抽取方法，包括如下步骤：

步骤1：对原始领域专家语料库D1∈{d₁，d₂，...，d_N}进行清洗，其中，d为单条领域专家文本，N为语料大小，该清洗包括但不限于去重和去特殊字符，使用领域专业术语词汇进行领域关键词匹配标记，领域关键词标记类型定义为Key；通过YEDDA工具对原始领域专家语料库D1中其他实体进行补充标记，标记类型定义为type，包括：专家名Name、机构名ORG、职称PRO和研究方向FIE；将标记后的语料基于字符级进行切分，以{B,M,E,S}进行标记，构建全分词标注语料库D2，全分词标注语料库D2以字符对(context，label)的形式进行存储，context表示切分后的单个字符，label：{offset-type}表示实体的标记，其中，offset表示实体起始到结束的标识，以{B，M，E，S}表示，B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词，type则表示定义的实体类型。以上过程可参见图2。

步骤2：定位全分词标注语料库D2中标记类型为Key的关键词实体，设定滑动窗口步长为width，滑动窗口，获取关键词实体在width宽度内所有边界的前后向特征；将前后向特征生成二元共现词汇组，并统计共现频次为w，该共现频次解释为两个词以前后顺序同时出现的频率；根据下式计算得到二元词汇组出现的概率f：

式中，f_i表示第i组共现词出现的概率，w_i表示第i组共现词出现的频次；

构建边界特征矩阵E1＝(prev，next，w，f)，其中，prev表示二元共现词汇组前一个词汇，next表示二元共现词汇组后一个词汇，w为全分词标注语料库D2中二元词汇组共现的频次，f为二元词汇组出现的概率；

将全分词标注语料库D2中文本记录通过边界特征向量矩阵E1按照式(2)和式(3)映射至向量空间，得到语料库边界特征

以上过程可参见图3。

具体的：统计文本边界特征数，并根据下式计算得到文本中每个字符作为边界特征的可信度P(c_i)：

其中，c_i代表全分词标注语料库D2中的第i个字符，

表示c_i作为边界的二元概率，

表示c_i在全分词标注语料库D2中的共现频次；

对可信度P(c_i)归一化处理，得到离散特征值；

式中，

表示字符c_i的边界特征值，round函数为四舍五入计算，k为切割值，控制离散化后的特征数，P_min表示最小可信度阈值，P_max表示最大可信度阈值。

步骤3：对原始领域专家语料库D1进行预处理，得到预处理后的语料数据，该预处理包括：

对原始领域专家语料库D1按照句子进行切分；

对每个句子进行文本字符化，使文本中的句子切分为Max_len个字，对超过长度Max_len的字符进行截断；

句首以特殊字符[CLS]标记，句子之间用[SEP]字符连接，句末以[SEP]标记，句子中替换的词汇用[MASK]代替，长度不足用[PAD]补齐对应补全符号为0，真实字符以及特殊标记[CLS]和[SEP]对应为1；

将预处理后的语料数据输入BERT模型训练，得到训练好的BERT语言模型BERT_Model；

循环遍历原始语料库D1中每条记录d，通过BERT语言模型得到字特征

具体过程为：

305：定义循环变量i1循环遍历数据集中每条记录d，i1赋初值为1；

306：若i1≤N，则跳转到307，否则跳转到310；

307：采用训练好的BERT语言模型BERT_Model将每个字转换为字嵌入并输出每个字的上下文表示；跳转到308；

308：将字嵌入表示和上下文表示作为特征输入到训练好的BERT语言模型BERT_Model的双向Transformer中，输出记录d的字向量序列

309：i1＝i1+1，跳转至306；

310：得到各个字融合全文语义信息的字特征

以上过程可参见图4。

步骤4：拼接边界特征

和字特征

得到基于多特征融合的向量数据集D3，根据基于多特征融合的向量数据集D3和双向门控神经网络，构建基于多特征双向门控神经网络的中文领域专家实体抽取模型Model；具体包括以下步骤：

401：定义循环变量i2遍历全分词标注语料库D2，i2赋初值1；

402：若i2≤N，则跳转到403，否则跳转到407；

403：获取第i2条记录的边界特征

404：获取第i2条记录的字特征

405：拼接字特征

和边界特征

得到多特征融合后新的特征

406：i2＝i2+1；跳转402；

407：得到基于特征融合的向量数据集D3＝{X₁,X₂,...,X_N}。

以特征序列X为例作为双向门控神经网络的输入，用Bi-GRU循环编码以获取输入序列的包含文本多特征的向量序列C＝{c₁,c₂,...,c_t}；获取输入序列的包含文本多特征的向量序列C＝{c₁,c₂,...,c_t}的过程为：

分别计算特征序列X在t时刻的语义输出

其中，

表示特征序列X在t时刻的前向语义输出，

表示特征序列X在t时刻的反向语义输出，h_t为融合后得到包含特征序列X上下文信息的语义输出；

根据下式计算t时刻不同时刻计算输出特征向量的权重α_t，突出字符的重要特征：

式中，h_t为包含序列上下文信息的语义输出，W₁为h_t的权重矩阵，b₁为h_t的偏置，M为输入序列X的长度；

当前字符权重矩阵α_t与文本特征向量h_t进行加权和，得到包含文本各字符重要性信息的多特征向量c_t；构建得到包含文本多特征的向量序列C＝{c₁,c₂,...,c_t}；

输入包含文本多特征的向量序列C＝{c₁,c₂,...,c_t}以及状态标签label，调用内置CRF函数并做状态转换解码。以上过程可参见图5。

步骤5：开放实体抽取系统接口API，创建线程池Thread Pool，判断线程池ThreadPool所有任务是否执行完毕；创建工作线程Child Thread，用户输入待抽取领域专家网络文本，创建领域专家实体抽取任务；对待抽取领域专家文本进行预处理，该预处理同步骤3中预处理过程；通过训练好的基于多特征双向门控神经网络模型Model预测实体标签y，具体为：采用维特比算法，训练好模型参数，用于计算条件概率最大的输出序列，最后得到预测实体标签y；封装实体抽取结果，建立高质量的领域专家实体信息索引项。返还WEB应用程序，领域专家实体抽取任务结束处理；结束Child Thread工作线程；关闭Thread Pool线程池；调用接口，建立高质量的领域专家实体信息索引项，WEB应用系统通过ECharts对实体信息进行可视化返回用户。以上过程可参见图6。

为了更好的说明本方法的有效性，通过收集高校官网25,053篇化工专家网络文本作为实验数据，通过1089条化工技术行业中英文关键词进行化工领域术语进行边界特征分析，统计出化工领域术语上下文边界二元词对数共194,750对，以BiLSTM-CRF为基线对于加入特征提取算法进行测试，模型通过多特征与非字嵌入特征提取随机生成向量作为神经网络模型的输入，对比多特征神经网络模型在实体抽取任务上带来的增益。基于多特征双向门控神经网络模型抽取专家实体信息，将信息抽取转换为序列标注问题，在识别结果中精确值和召回率的调和均值(F1值)较现有BiLSTM-CRF和IDCNN-CRF方法提高9.98％以上。

本发明经过有效抽取领域专家信息实体，充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能，从而解决人工特征提取成本高和专业新词无法识别等问题，可普遍适用于各个领域专家实体抽取任务，可与计算机系统结合，将自然语言处理与行业知识深度融合，从而更好地对复杂文本进行处理，满足人们信息检索的需求。

Claims

1.一种多特征双向门控领域专家实体抽取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法，其特征在于：在所述步骤1中，需对领域专家语料库进行预处理，所述预处理包括去重和去掉特殊字符；

3.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法，其特征在于：所述全分词标注语料库D2由字符对(context，label)构成，其中，context表示切分后的单个字符，label：{offset-type}表示实体的标记，offset表示实体起始到结束的标识，表示为{B，M，E，S}，B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词，type表示非领域关键词实体的其他实体的标记类型。

4.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法，其特征在于：所述步骤2具体包括：

S204：基于下式计算得到二元共现词汇组出现的概率f：