CN107818080A

CN107818080A - 术语识别方法及装置

Info

Publication number: CN107818080A
Application number: CN201710868929.XA
Authority: CN
Inventors: 田亮; 孙凡; 武琼
Original assignee: New Translation Information Technology (beijing) Co Ltd
Current assignee: New Translation Information Technology (beijing) Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-03-20

Abstract

本发明提供一种术语识别方法及装置，通过获取数据集，对数据集进行数据处理，得到分词词集；对分词词集进行训练，得到词向量集合；将词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，预设模型包括：窗口层、至少一层隐藏层、输出层；词向量集合从窗口层输入，经过隐藏层对词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别，识别效率相较于现有技术中的CRF算法有所提升。

Description

术语识别方法及装置

技术领域

本发明涉及识别领域，尤其涉及一种术语识别方法及装置。

背景技术

术语识别作为信息抽取的基本任务，在问答系统、句法分析、机器翻译等领域中都有重要应用。一些专业技术领域，例如，医学领域，其医学术语与普通术语有着很大的区别，并且开放领域术语标注语料信息对医疗实体标注作用甚微。对于医学领域标注语料缺乏的情况，若由医学术语的专业人士进行分辨判断，则会大大提高医学领域术语标注的成本。

目前，在医学领域普遍使用的是条件随机场算法CRF(conditional random fieldalgorithm，简称“CRF”),但该算法不考虑语义信息，对于医学训练语料极度缺乏的情况，采用CRF算法会导致标注结果中出现大量无意义的标注结果。

发明内容

本发明提供一种术语识别方法及装置，用于解决通过现有识别方法对术语识别准确度不高的技术问题。

本发明的第一个方面是提供一种术语识别方法，包括：

获取数据集，对所述数据集进行数据处理，得到分词词集；

对所述分词词集进行训练，得到词向量集合；

将所述词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，所述预设模型包括：窗口层、至少一层隐藏层、输出层；

所述词向量集合从所述窗口层输入，经过所述隐藏层对所述词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。

可选的，所述对所述数据集进行数据处理，得到分词词集，包括：

所述数据集包括未标注数据，对所述未标注数据进行以下至少一种处理，特殊符号过滤、人工标注、分词、大小写转换，得到处理后的分词，形成所述分词词集。

可选的，所述对所述分词词集进行训练，得到词向量集合，包括：

基于句法上下文信息，对所述分词词集进行训练，得到词的分布式表达，形成所述词向量集合；其中，所述词的分布式表达包括对每个词语、每个词性的向量化表示。

可选的，所述窗口层以x表示，所述隐藏层以a表示，所述输出层以h表示，则相应的，所述预设模型为：

z＝Wx+b₁；

a＝f(z)，其中f(x)＝tanh(x)；

h＝η(V^Ta+b₂)，其中，

式中，W为所述窗口层的权重值，b₁为所述窗口层的偏置值；z为由所述窗口层输出并输入所述隐藏层的输入值；f为激活函数；V为所述隐藏层的权重值，b₂为所述隐藏层的偏置值；η为激活函数；m为由所述输出层输出的所述带有标签的词向量的个数；l标识所述输出层的节点下标；其中，θ为用于将抽取后的特征标记在词向量上的损失函数中模型参数，其可通过基于随机梯度下降的算法得到。

可选的，所述激活函数f包括：双曲正切函数，或者sigmoid函数；

所述激活函数η包括：softmax函数。

本发明的第二个方面是提供一种术语识别装置，包括：

处理模块，用于获取数据集，对所述数据集进行数据处理，得到分词词集；

训练模块，用于对所述分词词集进行训练，得到词向量集合；

计算模块，用于将所述词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，所述预设模型包括：窗口层、至少一层隐藏层、输出层；所述词向量集合从所述窗口层输入，经过所述隐藏层对所述词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。

可选的，所述数据集包括未标注数据，所述处理模块，具体用于对所述未标注数据进行以下至少一种处理，特殊符号过滤、人工标注、分词、大小写转换，得到处理后的分词，形成所述分词词集。

可选的，所述训练模块，具体用于基于句法上下文信息，对所述分词词集进行训练，得到词的分布式表达，形成所述词向量集合；其中，所述词的分布式表达包括对每个词语、每个词性的向量化表示。

z＝Wx+b₁；

a＝f(z)，其中f(x)＝tanh(x)；

h＝η(V^Ta+b₂)，其中，

所述激活函数η包括：softmax函数。

本发明提供的术语识别方法及装置，通过获取数据集，对所述数据集进行数据处理，得到分词词集；对所述分词词集进行训练，得到词向量集合；将所述词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，所述预设模型包括：窗口层、至少一层隐藏层、输出层；所述词向量集合从所述窗口层输入，经过所述隐藏层对所述词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别，识别效率相较于现有技术中的CRF算法有所提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例示出的本发明的术语识别方法的流程示意图；

图2为另一示例性实施例示出的本发明的术语识别方法的流程示意图；

图3为图2所示实施例的预设模型的结构示意图；

图4为一示例性实施例示出的本发明的术语识别装置的结构示意图。

具体实施方式

图1为一示例性实施例示出的本发明的术语识别方法的流程示意图，如图1所示，本实施例的术语识别方法，包括：

步骤101、获取数据集，对数据集进行数据处理，得到分词词集。

具体的，数据集可以包括：医学论文数据；通过对该医学论文中的文字符号等信息进行数据处理，得到分词词集，该数据处理过程可以利用程序将所有数据划分为训练集和测试集两部分。训练集中的词汇用于对术语识别的模型进行训练，而测试集中的词汇用于对训练得到术语识别模型进行测试。也就是说，将训练集放到术语识别的模型中进行训练，然后再利用训练得到的参数测试该模型的识别效果。

步骤102、对分词词集进行训练，得到词向量集合。

具体的，词向量是近年来常用来替代传统词袋的词表示方法，解决了词袋表示带来的维数灾难问题。通过训练语言模型得到的词向量蕴含了词汇的语义信息，基于某些算法，通过对分词词集进行训练还可以得到一定的词汇的相似度数据。此外，由于词向量的训练无需任何标注工作，所以围绕词向量进行研究可以减少很多工作量，也可以按需训练，也就是说，使用大量开放语料训练得到可泛用的良好的词向量表示，也可以选在同一领域的语料训练得到对某个领域专用的词向量，更可以根据任务直接进行训练。

对词向量的训练可以使用神经网络进行，在自然语言处理领域循环神经网络模型是应用较为广泛的神经网络之一。在自然语言处理领域，上文信息对下文的影响一般用语言模型来刻画，而循环神经网络RNN(Recurrent Neural Networks，简称“RNN”)模型利用一个循环反馈的隐层很自然的利用了上文信息，这是传统语言模型所不能做到的。其可被认为是深度神经网络中的一种类型，对于深度神经网络来说，其常用的一种技术就是预测训练技术。采用大规模语料进行无监督训练得到的词向量来初始化神经网络的参数，这要比现有技术中随机初始化训练可以得到更好的模型，主要是由于预训练得到的词向量可以利用大规模无标注数据，包含了训练数据中没有的信息，且能在一定程度上防止随机初始化的词向量在优化过程中陷入局部极值。对于数据稀缺的医疗领域来说，能够利用大规模无标注数据进行辅助训练师极有意义的。

步骤103、将词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，预设模型包括：窗口层、至少一层隐藏层、输出层。

具体的，在预设模型中，输入层和单级网络一样，该层只起到输入信号的输入作用，在计算网络的层数时通常不被记入。该层负责接收来自网络外部的信息，被记作第0层。在多级前馈网当中，隐藏层是指除输入层和输出层以外的其他各层叫做隐藏层。隐藏层不直接接受外界的信号,也不直接向外界发送信号。输出层是网络的最后一层，具有该网络的最大层号，负责输出网络的计算结果。该预设模型用于术语识别可以被看作为是一个分类问题，其输入是词向量表达与上下文词汇的词向量。这些词向量替代了传统机器学习方法人工定义的特征，将这些词向量输入到神经网络，然后通过隐藏层将这些词向量转换为另外一种形式的向量，再通过逻辑回归进行分类，得到每个词的术语名的概率，从而完成术语识别的工作。其中，逻辑回归是一种分类器模型，是通过函数运算对神经网络模型中的参数进行不断优化的模型。对于本实施例中的针对医学论文的预设模型，可以包含至少三层，第一层是输入层，第二层是隐藏层，第三层是输出层。其中，第二层的隐藏层中又可以包含有多层，具体的层数可以根据识别精度需求，以及计算效率，计算容量等进行综合考虑进行设定，本实施例对此不作具体地限定。

步骤104、词向量集合从窗口层输入，经过隐藏层对词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。

具体的，词向量集合作为输入量从输入层输入到该预设模型中，其中其可以为词的分布式表达，输入的词向量需要训练和优化模型参数；对词特征和词性特征进行传统的特征表示，任意两个词语之间或者任意两个词性标记之间都是孤立的、没有联系的。对词特征和词性特征进行分布式表示，即把每个词语或者每个词性标记都表示为一个低维实数向量，那么任意两个词语之间或者任意两个词性标记之间的欧式距离将更近。词语特征的分布式表示可解决机器学习中的维数灾难和局部泛化限制等问题，相比传统的特征表示方式可以更深入探索输入数据之间的固有联系，捕获其内部的语法、语义相似性。当遇到训练语料中未出现的词语或词性标记是，采用词语特征额分布式表达训练出的模型仍然能够有较好的表现。对于术语识别来说，需要考虑该词的上下文环境，因此，本实施例中的预设模型的神经网络输入层优选为窗口词向量，而不是单个词的词向量。可以定义窗口的大小为a，当c＝1时则表示输入是一个词向量。隐藏层可以有多层，为提高训练速度，下文中暂以单层作为隐藏层；隐藏层的输入也是窗口词向量，其为一个c×M的矩阵形式，其中，c为窗口大小，M为词向量的维度。输出层优选的，可以采用损失函数为二元交叉熵的逻辑分布器构成。隐藏层的输出作为逻辑回归的特征。逻辑回归将计算窗口的中心词作为各个类别的概率，也就是得到带有标签的词向量，该标签可以标识各个词向量的归属类别的概率。采用前馈神经网络，在训练语料上计算模型中的未知参数，未知参数主要包括隐藏层的若干参数，还包括逻辑回归中的变换矩阵W和偏执矩阵b。训练神经网络可以基于反向传播算法和随机梯度下降SGD(Stochastic gradient descent，简称“SGD”)算法，训练流程可以为，首先随机初始化网络全部参数，包含隐藏层参数。再者，随机挑选一个训练样本(x_i,y_i)，进行前向传播，将隐藏层的输出信息传递到逻辑回归模型，将所提取的最高级特征映射到相应的标记信息上，利用数据的标记值对模型进行有监督训练，并不断调整各个层之间的连接权值，减小模型的目标预测标记与实际标记之间的概率误差。再通过反向传播，计算前向传播过程中目标预测标记与实际标记之间的概率误差，并将该误差从逻辑回归函数向隐藏层传播，并不断调整隐藏层参数。从而通过不断地修改参数，提升对词向量特征标记的准确性，得到准确度高的标签词向量。

本实施例的术语识别方法，通过获取数据集，对数据集进行数据处理，得到分词词集；对分词词集进行训练，得到词向量集合；将词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，预设模型包括：窗口层、至少一层隐藏层、输出层；词向量集合从窗口层输入，经过隐藏层对词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别，识别效率相较于现有技术中的CRF算法有所提升。

图2为另一示例性实施例示出的本发明的术语识别方法的流程示意图，如图2所示，本实施例的术语识别方法包括：

步骤201、获取数据集；所获取到的数据集中包含有未标注数据。

步骤202、对未标注数据进行以下至少一种处理，特殊符号过滤、人工标注、分词、大小写转换。

步骤203、数据处理后得到处理后的分词，形成分词词集。

步骤204、基于句法上下文信息，对分词词集进行训练，得到词的分布式表达，形成词向量集合。

具体的，可以先用无标签的数据对词进行训练，从医学论文等输入的句子中自动学习一系列抽象的特征，并通过反向传播算法来训练模型参数。模型分多层，第一层抽取每个词的特征，第二层从此窗口中抽取特征，并将其看作一系列的局部或全局结构，从而区别传统的词袋魔心。其中，词的分布式表达可以包括对每个词语、每个词性的向量化表示。

步骤205、将词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，预设模型包括：窗口层、至少一层隐藏层、输出层。

步骤206、词向量集合从窗口层输入，经过隐藏层对词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。

具体的，可以参考图3所示的预设模型的结构图，为了描述便捷，图3中的窗口层、隐藏层、输出层被简化为3层的模型，其中，窗口层以x表示，隐藏层以a表示，输出层以h表示，简化模型中的j、k、l分别表示窗口层，隐藏层和输出层的节点下标。x表示输入的词向量，W和b₁分别是第一层网络的权重和偏置项。f是激活函数，可以取双曲正切或者sigmoid函数。V和b₂分别是隐藏层网络的权重和偏置项。η也是激活函数，但一般最后一层取softmax。模型的数学描述如下(1)～(3)公式所示。其中，m是输出的标签个数，f取双曲正切，η取softmax。

z＝Wx+b₁；(1)

a＝f(z)，其中f(x)＝tanh(x)；(2)

h＝η(V^Ta+b₂)，其中，

式(1)中的x表示输入的词向量，W为所述窗口层的权重值，b₁为所述窗口层的偏置值，z为由所述窗口层输出并输入所述隐藏层的输入值；

式(2)中的h表示输出层的标签，f为激活函数(可以为双曲正切函数，或者sigmoid函数)，a表示隐藏层；

式(3)中的V为隐藏层的权重值，V取转置得到V^T，b₂为隐藏层的偏置值；η为激活函数(可以为softmax函数)；m为由输出层输出的带有标签的词向量的个数；l标识输出层的节点下标；其中，θ为用于将抽取后的特征标记在词向量上的损失函数中模型参数，其可通过基于随机梯度下降的算法得到。

其中，损失函数，是描述系统在不同参数(parameter)值之下的损失，更通俗地说，在统计学中损失函数是一种衡量损失和错误程度的函数。如果把样本的分布看作多线分布，则容易写出样本联合概率的解析表达式，而后用极大似然估计求解。其中，目标函数如下公式(4)所示，n是样本量，e是隐藏层节点个数，c是窗口大小，d是词向量维度。对目标函数进行如下处理，将极大化似然转化为极小化负对数似然，其中，取对数的目的可以简化后面的求导公式，取负号将极大问题转化为标准的极小问题。在损失函数中除了极小化负对数似然，还增加了W和V的L2正则项。原因是softmax函数的参数存在冗余，也就是极小点不唯一，为了将解唯一化，增加该正则项。另一方面，L2正则从概率角度看相当于对参数增加了高斯先验，控制了参数的方差，惩罚过大的参数，对于提高模型的泛化能力有帮助。因子λ用于调节正则项的权重，取值越大，对大参数的惩罚越大。需要注意的是正则项中不包含偏置参数b₁和b₁。

对于上式(4)目标函数表示的损失函数的模型的训练，可以基于随机梯度下降的算法，对n个样本进行训练，以下仅以更新一个样本为例进行说明，其中，由上式(4)得到式子(5)。

式(5)中，λ是学习率，此处λ取作c的值，式(6)中，t是学习率。下面给出图3中所示的每个参数的梯度计算公式：

令输出层的h＝η(x⁽ⁱ⁾)，

需要说明的是，随机梯度下降的方法有一个重要的参数就是上述提到的学习率，学习率太大，模型会快速收敛，但是精度不高，反之如何学习率太小，精度高，但是收敛速度慢。因此，上述各个参数需要通过改变学习率进行反复搜索的方法确定。

图4为一示例性实施例示出的本发明的术语识别装置的结构示意图，如图4所示，本实施例的术语识别装置，包括：

处理模块1，用于获取数据集，对数据集进行数据处理，得到分词词集。

训练模块2，用于对分词词集进行训练，得到词向量集合。

计算模块3，用于将词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，预设模型包括：窗口层、至少一层隐藏层、输出层；词向量集合从窗口层输入，经过隐藏层对词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。

本实施例的术语识别装置，通过获取数据集，对所述数据集进行数据处理，得到分词词集；对所述分词词集进行训练，得到词向量集合；将所述词向量集合作为输入，输入到包含至少3层结构的预设模型中；其中，所述预设模型包括：窗口层、至少一层隐藏层、输出层；所述词向量集合从所述窗口层输入，经过所述隐藏层对所述词向量进行特征抽取，并将抽取后的特征标记在词向量上，训练后得到带有标签的词向量。从而实现对未标注语料的快速和准确地识别，识别效率相较于现有技术中的CRF算法有所提升。

在上述实施例的基础上，进一步地，本实施例的术语识别装置，还可以包括：

可选的，数据集包括未标注数据，处理模块1，具体用于对未标注数据进行以下至少一种处理，特殊符号过滤、人工标注、分词、大小写转换，得到处理后的分词，形成分词词集。

可选的，训练模块2，具体用于基于句法上下文信息，对分词词集进行训练，得到词的分布式表达，形成词向量集合；其中，词的分布式表达包括对每个词语、每个词性的向量化表示。

可选的，窗口层以x表示，隐藏层以a表示，输出层以h表示，则相应的，预设模型为：

z＝Wx+b₁；

a＝f(z)，其中f(x)＝tanh(x)；

h＝η(V^Ta+b₂)，其中，

式中，W为窗口层的权重值，b₁为窗口层的偏置值；z为由窗口层输出并输入隐藏层的输入值；f为激活函数；V为隐藏层的权重值，b₂为隐藏层的偏置值；η为激活函数；m为由输出层输出的带有标签的词向量的个数；l标识输出层的节点下标；其中，θ为用于将抽取后的特征标记在词向量上的损失函数中模型参数，其可通过基于随机梯度下降的算法得到。

可选的，激活函数f包括：双曲正切函数，或者sigmoid函数；

激活函数η包括：softmax函数。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种术语识别方法，其特征在于，包括：

获取数据集，对所述数据集进行数据处理，得到分词词集；

对所述分词词集进行训练，得到词向量集合；

2.根据权利要求1所述的方法，其特征在于，所述对所述数据集进行数据处理，得到分词词集，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述分词词集进行训练，得到词向量集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述窗口层以x表示，所述隐藏层以a表示，所述输出层以h表示，则相应的，所述预设模型为：

z＝Wx+b₁；

a＝f(z)，其中f(x)＝tanh(x)；

h＝η(V^Ta+b₂)，其中，

5.根据权利要求4所述的方法，其特征在于，

所述激活函数f包括：双曲正切函数，或者sigmoid函数；

所述激活函数η包括：softmax函数。

6.一种术语识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

所述数据集包括未标注数据，所述处理模块，具体用于对所述未标注数据进行以下至少一种处理，特殊符号过滤、人工标注、分词、大小写转换，得到处理后的分词，形成所述分词词集。

8.根据权利要求7所述的装置，其特征在于，

所述训练模块，具体用于基于句法上下文信息，对所述分词词集进行训练，得到词的分布式表达，形成所述词向量集合；其中，所述词的分布式表达包括对每个词语、每个词性的向量化表示。

9.根据权利要求8所述的装置，其特征在于，所述窗口层以x表示，所述隐藏层以a表示，所述输出层以h表示，则相应的，所述预设模型为：

z＝Wx+b₁；

a＝f(z)，其中f(x)＝tanh(x)；

h＝η(V^Ta+b₂)，其中，

10.根据权利要求9所述的装置，其特征在于，

所述激活函数f包括：双曲正切函数，或者sigmoid函数；

所述激活函数η包括：softmax函数。