CN110298016A

CN110298016A - 一种词性标注方法及装置

Info

Publication number: CN110298016A
Application number: CN201810235359.5A
Authority: CN
Inventors: 张鹏
Original assignee: Putian Information Technology Co Ltd
Current assignee: Putian Information Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2019-10-01

Abstract

本发明实施例提供一种词性标注方法及装置。所述方法包括根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；对所有的特征向量通过加权求和得到输入向量组；根据所述输入向量组得到所述待处理文本中各个分词的词性标注，本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组，从而能够在后续的计算过程中，更加快速、准确得得到待处理文本中每个分词的词性和词频。

Description

一种词性标注方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种词性标注方法及装置。

背景技术

词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。词性标注对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。

现在技术中对于词性标注的一种模型为基于词频的一种神经网络模型，至少包括BGRU(Bidirection Gated Recurrent Unit，双向门循环单元)、 CNN(ConvolutionalNeural Network，卷积神经网络)、BLSTM(Long Short-Term Memory，长短期记忆网络)和CRF(Conditional Random Field Algorithm，条件随机场算法)。该模型采用CNN与BGRU作为特征提取层，其中CNN用来提取词内部的字向量特征V2，BGRU用来提取不包含稀有词的词向量特征V3。而后将原始文本的词向量V1与V2、V3向量直接连接，即V＝[V1,V2,V3]。将向量V输入到BLSTM隐藏层采用Sigmoid 作为激活函数进行非线性计算，最终结果一部分输出到CRF层用来进行词性预测，同时另一部分用来预测词频。

现有技术中对于提取到的特征向量采用直接输入的方式使模型的计算效率低且准确率不高。

发明内容

本发明实施例提供一种词性标注方法及装置，用以解决现有技术中对于提取到的特征向量采用直接输入的方式使模型的计算效率低且准确率不高。

第一方面，本发明实施例提供了一种词性标注方法，包括：

根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；

对所有的特征向量通过加权求和得到输入向量组；

根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

第二方面，本发明实施例提供了一种用于词性标注方法的装置，包括：

输入模块，用于根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；

加权模块，用于对所有的特征向量通过加权求和得到输入向量组；

测算模块，用于根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

第三方面，本发明实施例还提供了一种电子设备，包括：

处理器、存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该电子设备的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

对所有的特征向量通过加权求和得到输入向量组；

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：

对所有的特征向量通过加权求和得到输入向量组；

本发明实施例提供的词性标注方法及装置，通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组，从而能够在后续的计算过程中，更加快速、准确得得到待处理文本中每个分词的词性和词频。

附图说明

图1为本发明实施例的词性标注方法流程图；

图2为本发明实施例的用于词性标注方法的装置结构图；

图3为本发明实施例的另一用于词性标注方法的装置结构图；

图4为本发明实施例的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的词性标注方法流程图，图2为本发明实施例的用于词性标注方法的装置结构图，如图1所示，所述方法包括：

步骤S01、根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词。

本发明实施例的词性标注方法，主要通过建立并训练完成的词性标注模型来实现，最终能够将任意得到的待处理文本中进行分词处理并给出每个分词的词性和词频。其中所述词性标注模型可以是一种神经网络模型，并且根据实际的需要来对该模型进行分层和架构，对此并不作具体的限定，本发明实施例，也仅给出了其中的一种举例说明，将所述词性标注模型以四层神经网络模型架构为例，按先后顺序包括有输入层、第一隐藏层、第二隐藏层和输出层。

在获取待处理文本后，输入层会根据该待处理文本得到至少两组特征向量组。

进一步地，所述根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组，具体为：

根据预先获取的待处理文本得到待处理文本的第一词特征向量组、第二词特征向量组和字特征向量组；其中所述第二词特征向量由去除了所有稀有分词的待处理文本得到。

由输入层得到的至少两组特征向量组可以根据实际的需要由不同的分词工具和模块来获取，本发明实施例仅给出了其中的一种举例。通过输入层得到三组特征向量组，分别为第一词特征向量组，第二词特征向量组和第三字特征向量组。

先利用分词工具，例如Word2Vec等，对得到的待处理文本进行分词和向量嵌入，得到每个分词的词向量，例如，待处理文本为“我爱吃北京烤鸭”，则通过Word2Vec分词和向量嵌入，该处理文本可以被分为“我”、“爱”、“吃”、“北京烤鸭”四个分词，并分别得到每个分词的词向量a1,a2,a3,a4，将每个分词的词向量组合为第一词特征向量组V₁。

所述第二词特征向量组，为所述待处理文本去除其中所有的稀有分词后得到的。同样以“我爱吃北京烤鸭”为例，经过分词后可以判断“北京烤鸭”为稀有分词，所以将北京烤鸭移除并采用Nan标识进行标记，得到的待处理文本为“我爱吃****”，将“我爱吃****”通过Word2Vec重新分词和向量嵌入后，得到的每个分词的词向量。将新得到的所有词向量再通过BGRU模块进行词特征提取工作就可以得到第二词特征向量组V₃。

所述字特征向量组则是对所述将待处理文本进行分字和向量嵌入后得到的，即将待处理文本通过Word2Vec得到其中每个字，例如“我”、“爱”、“吃”、“北”、“京”、“烤”、“鸭”的字向量，将所有的字向量输入到CNN模块后进行特征提取工作就可以得到字特征向量组V₂。

步骤S02、对所有的特征向量通过加权求和得到输入向量组。

现有技术中直接将得到的第一词特征向量组V₁、第二词特征向量组V₃和字特征向量组V₂连接后得到输入向量组V＝[V₁,V₂,V₃]，此时，得到的向量组的维数即为V₁，V₂，V3维数的相加，则后续的计算过程中就会因为维数过长而导致消耗大量的时间。另外，通过CNN和BGRU提取得到的第二特征向量组和字特征向量组与直接通过分词工具得到的第一特征向量组相比，往往占据辅助地位，且其中的特征向量互有重复。

为了解决上述的问题，可以先将所有的特征向量由所述第一隐藏层通过加权求和的方式来得到输入向量组V。具体可以由下式得到：

V＝W₁₁V₁+W₁₂V₂+W₁₃V₃，

其中的权值W₁₁、W₁2和W₁₃可以通过标准语料库的前期训练得到。此时得到的输入向量组V既可以部分抵销三个特征向量组之间的重复特征，还可以大大降低输入向量组V的维度。

步骤S03、根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

将得到的输入向量组V输入到所述第二隐藏层中，最后经过输出层的计算可以得到所述待处理文本中各个分词的词性和词频。具体的方法有很多，本发明实施例仅给出了其中的一种举例说明。

进一步地，如图2所示，所述第二隐藏层采用BLSTM网络，所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注，具体为：

对所述输入向量组通过激活函数输入到BLSTM网络，再由CRF网络得到所述待处理文本中各个分词的词性，同时由所述Softmax函数模块得到所述待处理文本中各个分词的词频。

将BLSTM网络作为第二隐藏层，将CRF网络和SoftMax函数模块作为输出层。上述实施例中得到输入向量将通过激励函数输入到BLSTM网络中，通过计算后，得到的一部分输出进入到CRF网络中用来进行词性预测，以得到每个分词的词性，而另一部分输出则由Softmax函数模块得到每个分词的词频，进而转换成归一化的概率，即判断每个分词为稀有词和正常词的概率。若稀有词的概率高则输出1，正常词的概率高则输出0。

本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组，从而能够在后续的计算过程中，更加快速、准确得得到待处理文本中每个分词的词性和词频。

基于上述实施例，进一步地，所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注，具体为：

对所述输入向量组采用立方激活函数，并得到所述待处理文本中各个分词的词性标注。

为了能够进一步考量到三个特征向量组之间的相互作用，可以将立方函数作为BLSTM网络的激活函数，同时还可以在输入向量V上加上偏置b，用来加快对词性标注模型进行训练时的速度且增强网络的灵活性。

至此，BLSTM网络接收到的向量组V_in＝(V+b)³。其中，所述偏置b可以为值为1的矩阵。

本发明实施例通过将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组V，再加上偏置b，并采用立方函数作为激活函数输入到 BLSTM网络中从而能够在后续的计算过程中，更加快速、准确得得到待处理文本中每个分词的词性和词频。

基于上述实施例，进一步地，在所述步骤S01前还包括：

新建用于对所有的特征向量进行加权求和的加权求和公式，并初始化所述加权求和公式的权值；

获取标准语料库，并根据标准语料库对所述加权求和公式的权值进行训练。

在通过词性标注模型得对获取的待处理文本进行处理前，需要先根据自身的需要新建一个用于对所有的特征向量进行加权求和的加权求和公式，并初始化其中的权值，例如W11、W12和W13。

另一种方法，则是新建一个包含有该加权求和公式的词性标注模型，并对其中的各个参数进行初始化设置，所述参数中包括有该加权求和公式的权值。

然后获取标准语料库，例如人民日报1998年上半年词性标注语料库，其中包含有已经准确实现词性标注。利用该标准语料库就可以对新建的加权求和公式或者词性标注模型进行训练，通过对其中各个参数的不断校正使该词性标注模型能够对其它任意待处理文本进行准确的词性标注。

进一步地，所述根据标准语料库对所述加权求和公式的权值进行训练，具体为：

根据标准语料库，采用自适应转矩(Adaptive moment estimation，Adam) 算法对预设的损失函数进行优化。

具体的训练过程可以通过所述词性标注模型的对待处理文本的结果与标准语料库之间的损失函数，以最小化该损失函数为目标，采用Adam算法来对词性标注模型中的参数进行逐步跌代校准。

进一步地，所述损失函数为所述词性的负对数似然概率度量和所述词频的交叉熵损失函数之和。

其中所述损失函数可以由两部分组成，分别为由词频得到的交叉熵损失函数L_freq和CRF的词性到的负对数似然概率度量L_CRF。公式分别如下：

L_freq＝-(plogq+(1-p)log(1-q))，

L_total＝L_freq+L_CRF。

其中，所述Adam算法可以采用每3000步学习率进行一次指数衰减，衰减基数为0.1。

本发明实施例通过获取到的标准语料库对新建的词性标注模型进行训练，进而全名词性标注模型能够将得到的待处理文本的多个特征向量组进行加权求和得到输入向量组，从而能够在后续的计算过程中，更加快速、准确得得到待处理文本中每个分词的词性和词频。

图3为本发明实施例的用于词性标注方法的装置结构示意图，如图3所示，所述装置至少包括：输入模块10，加权模块11和测算模块12，其中，

所述输入模块10用于根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；所述加权模块11用于对所有的特征向量通过加权求和得到输入向量组；所述测算模块12用于根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

先由所述输入模块10获取待处理文本，然后根据该待处理文本得到至少两组特征向量组。

由输入模块10得到的至少两组特征向量组可以根据实际的需要由不同的分词工具和模块来获取，本发明实施例仅给出了其中的一种举例。通过输入模块10得到三组特征向量组，分别为第一词特征向量组，第二词特征向量组和第三字特征向量组。

所述输入模块10将所有的特征向量输入到加权模块11，将所有的特征向量由所述第一隐藏层通过加权求和的方式来得到输入向量组V。具体可以由下式得到：

V＝W₁₁V₁+W₁₂V₂+W₁₃V₃，

然后，所述加权模块11会将得到的输入向量组V发送给测算模块12。所述测算模块12经过计算可以得到所述待处理文本中各个分词的词性和词频。具体的方法有很多，本发明实施例仅给出了其中的一种举例说明。

将输入向量组通过激励函数输入到BLSTM网络中，通过计算后，得到的一部分输出进入到CRF网络中用来进行词性预测，以得到每个分词的词性，而另一部分输出则由Softmax函数模块得到每个分词的词频，进而转换成归一化的概率，即判断每个分词为稀有词和正常词的概率。若稀有词的概率高则输出1，正常词的概率高则输出0。

本发明实施例提供的装置用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

图4为本发明实施例的电子设备结构示意图。如图4所示，所述电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，所述处理器601和所述存储器602通过所述总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；对所有的特征向量通过加权求和得到输入向量组；根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；对所有的特征向量通过加权求和得到输入向量组；根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组；其中，所述待处理文本至少包括一个分词；对所有的特征向量通过加权求和得到输入向量组；根据所述输入向量组得到所述待处理文本中各个分词的词性标注。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种词性标注方法，其特征在于，包括：

对所有的特征向量通过加权求和得到输入向量组；

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注，具体为：

3.根据权利要求1所述的方法，其特征在于，所述根据预先获取的待处理文本得到所述待处理文本的至少两组特征向量组，具体为：

4.根据权利要求1所述的方法，其特征在于，所述根据所述输入向量组得到所述待处理文本中各个分词的词性标注，具体为：

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述方法，其特征在于，所述根据标准语料库对所述加权求和公式的权值进行训练，具体为：

根据标准语料库，采用自适应转矩(Adaptive moment estimation，Adam)算法对预设的损失函数进行优化。

7.根据权利要求6所述的方法，其特征在于，所述损失函数为所述词性的负对数似然概率度量和所述词频的交叉熵损失函数之和。

8.一种用于词性标注方法的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。