CN109740149A

CN109740149A - 一种基于远程监督的同义词提取方法

Info

Publication number: CN109740149A
Application number: CN201811554878.4A
Authority: CN
Inventors: 张涛; 刘前卫; 盛兴; 聂庆; 谢秋学; 贺芳; 雍志娟; 孙金; 吴培培; 常秀; 张楠; 商莹楠; 滕家雨; 赵生传; 张婷婷; 田书然
Original assignee: INDAA MEDIA INVESTMENT HOLDINGS Ltd; State Grid Corp of China SGCC; NARI Group Corp; Yantai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: INDAA MEDIA INVESTMENT HOLDINGS Ltd; State Grid Corp of China SGCC; NARI Group Corp; Yantai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-19
Publication date: 2019-05-10
Anticipated expiration: 2038-12-19
Also published as: CN109740149B

Abstract

本发明公开了一种基于远程监督的同义词提取方法，属于自然语言处理技术领域。该方法包括：建立领域中同义词的词汇句法模式模型；构建基于LSTM和CRF的远程监督神经网络学习模型，并使用领域词条进行训练，得到同义词发现的句子序列标注集；根据标注集，将语料库中的语句中的候选实体进行标注及配对，抽取实体后得到同义词。本发明通过利用基于百科知识库词条特性、结合领域同义词的相应词汇‑句法模式、通过远程监督学习和机器自主学习，获取领域同义词，该方法以机器处理为主，人工处理为辅，提高同义词获取的效率，在不降低精度的情况下，大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。

Description

一种基于远程监督的同义词提取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于远程监督的同义词提取方法。

背景技术

当前各种网络知识信息极大丰富，在文本知识机器理解方面，现有的字典词典是为人类学习和使用提供辅助，只是传统词典包含许多同义词，但这些词典是为人类搜索而编写的，很难被机器读取。为了获得机器可读的同义词数据库，当前已建立了一些同义词词典，如Princeton大学的心理学家创建的WordNet项目，它总共包含超过117,000 个同义词，其中单词之间的主要关系是同义词。在某些领域，如电力和医药，还有许多手工建立的域名同义词词典或百科全书。对于手动构建的同义词数据库，准确性很好，但限制也很明显，其覆盖范围太窄，封闭性又强，知识老化快速跟不上发展；而且它们需要大量的手工工作，人力成本高，效率低下。因此，大量的研究工作致力于从文本、词典、维基百科、搜索引擎等渠道自动提取同义词。根据Turney.P的定义，识别同义词的任务是“给定一个问题词和一组替代词，选择与问题词最相似的替代词组”。目前的大多数研究都是围绕这个定义进行研究，因此以封闭的方式工作。给定问题单词和目标单词，这些方法只能确定它们之间的同义关系，并且不能主动发现新的同义单词。

发明内容

发明目的：本发明要解决的技术问题是从领域中数百万个单词中选择发现同义词，从非结构化文本中模拟同义词提取问题，在没有任何先验知识的情况下在候选实体之间指示同义词，提供开放同义词提取的解决方法。

技术方案：为了解决上述技术问题，本发明采用以下技术方案：

一种基于远程监督的同义词提取方法，包括以下步骤：

建立领域中同义词的词汇句法模式模型；

构建基于LSTM和CRF的远程监督神经网络学习模型，并使用收集的领域词条进行训练，得到同义词发现的句子序列标注集；

基于上述神经网络处理方法与得到的标注集，将待处理语料库中的语句中的候选实体进行标注及配对，抽取实体后得到同义词。

优选地，所述同义词的词汇句法模式包括：

X又称(also named as)Y；

X即(also called as)Y

X简称(abbreviated as)Y

X别名(also named as)Y

X俗称(commonly called as)Y

X原名(also called as)Y

X外文名(Y)。

优选地，所述神经网络学习模型包括6层结构，具体如下：

1-2层为词向量处理层，用于对输入的句子进行分词，构建领域同义词的候选实体的向量；

3-5层为LSTM层，用于对候选实体向量进行训练，得到每个实体属于某个模式的可能性；

6层为CRF层，用于实现句子序列的标注。

优选地，所述词向量处理层的处理过程如下：使用NLP分词和POS词性标注方法对输入的句子进行分词，将分词后的含有N个字的句子即实体序列记作x：

x＝(x1,x2,...,xn)

以全部收集到的词汇集为词典，xi的数值表示第i个实体在字典中的id值，从而得到句子的one-hot向量，之后利用预训练或随机的embedding矩阵将句子中的值从one-hot向量映射到低维稠密的文字向量，从而得到一个低维度的embedding序列M。

优选地，所述LSTM层的处理过程如下：第三、四层采用双向循环LSTM层，将词向量处理层得到的候选实体向量序列作为双向LSTM各个时间的输入，得到了正向与反向的两个序列；在对应位置进行拼接得到完整的隐状态序列H；然后在第五层LSTM输出层将隐状态序列进行映射转换，得到每个实体属于某种模式的可能性。

优选地，所述CRF层的处理过程如下：

首先设置词法、句法规则约束，然后在标注集k增加start和end两个值，再基于规则构建一个(k+2)*(k+2)的得分矩阵K，矩阵每一个值代表了标注结果转换的概率或者得分，整个序列的最终打分由LSTM层和CRF层共同组成，假设一个长度等于句子长度的标签序列y＝(y1,y2,...,yn)，那么对于句子x的标签序列为y的打分为：

最后根据得分，通过softmax方法或者直接对得分结果进行操作，得到最后的标注结果，从而确认同义词的候选实体组合。

优选地，所述CRF层得到的句子序列标注集中标记及释义如下：

标记释义

ENT 候选实体对

B_DT 同义词关系的起始

C_DT 同义词关系的中心词

E_DT 同义词关系的结束

O 不表达同义词关系的词。

有益效果：

1、本发明通过利用基于百科知识库词条特性、结合能源同义词的相应词汇-句法模式、通过远程监督学习和机器自主学习，获取领域同义词，该方法以机器处理为主，人工处理为辅，提高同义词获取的效率，在不降低精度的情况下，大幅降低人工成本。

2、本发明提出了一种开放式的领域同义词提取框架，对现有词条的持续学习过程中，直接导入本方法，可以自动发现隐藏或新的同义词。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。

附图说明

图1是本发明的同义词提取方法流程图；

图2是根据本发明实施例的远程监督模型的结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，本发明使用长短期记忆网络(Long Short-TermMemory，LSTM)和条件随机场(Conditional RandomField，CRF)远程监督的方式发现同义词，并提出一个基于远程监督的同义词提取框架。该方法利用开放同义词提取方法在从网络规模的语料库中提取尽可能多的同义词，根据语义主动利用同义词，通过开放同义词提取方法提取语言的所有同义词。

在一个实施例中，以寻找能源标准字典中语义同义词的方法为例，描述具体实现过程如下。

S10、建立能源领域中同义词的词汇句法模式模型，模式以下表为例，能源领域常见的同义词句法模型定义为下述几种模式：

表1 能源同义词的相应词汇-句法模式

S20、构建神经网络学习模型并使用领域词条进行训练，得到同义词发现的句子序列标注集。

将从百度百科下载的能源领域词条数据库的词条含义作为想要提取的目标数据源，然后使用这些示例自动生成远程监督机器学习训练数据。应当理解，这里以百度百科能源词条的语义描述仅是为了例示的目的，而不是限制本发明的词条来源仅限于百度百科，在其他实施例中可以根据需要选择或建立相应的领域词条数据库。

这里采用基于中文语言的LSTM+CRF模型方法来实现标签序列标注，采用基于分词的CRF序列构建标注集。参照图2，远程监督机器学习模型共包括6层，在第一层输入句子，在第6层输出句子序列的标注，具体过程描述如下：

词向量处理层(1～2)：模型的前两层目标是构建能源领域同义词的候选实体的向量，这里可以采用任意分词工具和标注方法，需要注意的是分词需要考虑能源领域基础名词短语的特征，建议采用轻量级的NLP分词和POS词性标注方法，将分词后的含有N个字或词的句子(实体序列)记作x：

x＝(x1,x2,...,xn)

以全部收集到的词汇集为词典，xi的数值表示第i个实体在字典中的id值，从而得到句子的one-hot向量，之后利用预训练或随机的embedding矩阵将句子从one-hot向量映射到低维稠密的文字向量，从而得到一个低维度的embedding序列M。

LSTM层(3～5)：模型中间层是双向循环LSTM处理方法，其中第三、四层是双向的LSTM层，这里通过将上一层的embedding序列作为双向LSTM各个时间的输入，得到了正向与反向的两个序列，在对应位置进行拼接m是指正反向隐状态序列的维度，最终得到完整的隐状态序列H (n*m)。

双向层之上是接入的dropout层，该层的目的是将隐状态序列进行映射转换，这里需要注意的是dropout层的维度为标签集维度，假设为k，在经过dropout层处理后隐状态序列H将变为一个新的维度序列P(n*k)，这个矩阵P的值可以认为是每一个词在对应标签位的得分。这里转换视为将维度变换为和标签集一致，方便CRF层使用。

CRF层：模型的最上层是CRF层，CRF目的是利用已经标注过的信息来实现句子序列的标注，这里要针对能源领域的样本特征、词汇特征以及同义词句法模式来综合考虑句子序列的标注规则，同义词标注集定义如下：

表2 同义词发现的句子序列标注集

在设定好词法、句法规则约束后，为了增加CRF层的鲁棒性，在标注集k增加start和end两个值，然后基于规则自行构建一个(k+2)*(k+2)的得分矩阵K，矩阵每一个值代表了标注结果转换的概率或者得分，在上表中K是一个(5+2)*(5+2)的矩阵。经过CRF层矩阵的细化，整个序列的最终打分由LSTM层和CRF层共同组成，这里假设一个长度等于句子长度的标签序列y＝(y1,y2,...,yn)，那么对于句子x的标签序列为y 的打分为：

矩阵P为LSTM层的输出，最后根据得分，通过softmax方法或者直接对得分结果进行判断，得到最后的标注结果，从而最终确认句子的标注序列，进而得到同义词ENT。

S30、根据标注集对待处理的语料库进行同义词提取

基于上述神经网络处理方法与得到的标注集，可以将待处理的语料库中的语句中候选实体进行标注及配对，抽取实体后进行保存最终得到能源领域的同义词。

以上实施例中以能源领域为例，重点针对当前能源领域同义词，通过利用基于百科知识库词条特性、结合能源同义词的相应词汇-句法模式、通过远程监督学习和机器自主学习，获取领域同义词，提高同义词获取的效率，在不降低精度的情况下，大幅降低人工成本，该方法目前在能源领域的抽取精度可达到90％(在电力领域对三大百科(电力百科、百度百科、交互百科)的多次同义词抽取实验过程中，均达到了90％以上的结果)。但是应当理解，本发明的方法不限于能源领域，凡在本发明构思范围内的修改、替换，均应包含在本发明的范围内。本发明在自然语言处理和文本挖掘应用程序中有极大帮助，例如：信息检索，问答，文本摘要，语言生成和推荐领域具有广阔的应用前景。

Claims

1.一种基于远程监督的同义词提取方法，其特征在于，包括以下步骤：

建立领域中同义词的词汇句法模式模型；

2.根据权利要求1所述的基于远程监督的同义词提取方法，其特征在于，所述同义词的词汇句法模式包括：

X又称(also named as)Y；

X即(also called as)Y

X简称(abbreviated as)Y

X别名(also named as)Y

X俗称(commonly called as)Y

X原名(also called as)Y

X外文名(Y)。

3.根据权利要求1所述的基于远程监督的同义词提取方法，其特征在于，所述神经网络学习模型包括6层结构，具体如下：

6层为CRF层，用于实现句子序列的标注。

4.根据权利要求3所述的基于远程监督的同义词提取方法，其特征在于，所述词向量处理层的处理过程如下：使用NLP分词和POS词性标注方法对输入的句子进行分词，将分词后的含有N个字的句子即实体序列记作x：

x＝(x1,x2,...,xn)

5.根据权利要求3所述的基于远程监督的同义词提取方法，其特征在于，所述LSTM层的处理过程如下：第三、四层采用双向循环LSTM层，将词向量处理层得到的候选实体向量序列作为双向LSTM各个时间的输入，得到了正向与反向的两个序列；在对应位置进行拼接得到完整的隐状态序列H；然后在第五层LSTM输出层将隐状态序列进行映射转换，得到每个实体属于某种模式的可能性。

6.根据权利要求3所述的基于远程监督的同义词提取方法，其特征在于，所述CRF层的处理过程如下：

7.根据权利要求3所述的基于远程监督的同义词提取方法，其特征在于，所述CRF层得到的句子序列标注集中标记及释义如下：

标记释义

ENT 候选实体对

B_DT 同义词关系的起始

C_DT 同义词关系的中心词

E_DT 同义词关系的结束

O 不表达同义词关系的词。