CN110083820B

CN110083820B - 一种基准分词模型的改进方法及装置

Info

Publication number: CN110083820B
Application number: CN201810079276.1A
Authority: CN
Inventors: 赵琦; 韦玮
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2023-06-27
Anticipated expiration: 2038-01-26
Also published as: CN110083820A

Abstract

本发明实施例提供一种基准分词模型的改进方法及装置，所述方法包括：获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的。所述装置执行上述方法。本发明实施例提供的基准分词模型的改进方法及装置，通过添加三联子训练样本模块至基准分词模型，能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

Description

一种基准分词模型的改进方法及装置

技术领域

本发明实施例涉及中文处理技术领域，具体涉及一种基准分词模型的改进方法及装置。

背景技术

在基于中文的自然语言处理中，由于中文不像英文中词与词之间有固定的自然分界符，以及中文自身的复杂性，中文分词一直是中文信息处理任务中的难题。

专业领域中文分词需求日益增大，然而，现有可用于训练的标注语料大多为通用领域的语料，将通用语料库训练出来的分词模型应用于专业领域时，分词准确率会大幅降低，而为每个专业领域都单独训练，不仅需要耗费极大的人力物力，而且通用性较差。

因此，如何提高现有分词模型在专业领域分词的准确率，并简化模型的训练过程，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基准分词模型的改进方法及装置。

第一方面，本发明实施例提供一种基准分词模型的改进方法，所述方法包括：

获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；

添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

第二方面，本发明实施例提供一种基准分词模型的改进装置，所述装置包括：

获取单元，用于获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；

添加单元，用于添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

本发明实施例提供的基准分词模型的改进方法及装置，通过添加三联子训练样本模块至基准分词模型，能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基准分词模型的改进方法流程示意图；

图2为本发明实施例三联子训练样本训练的示意图；

图3为本发明实施例基准分词模型的改进装置结构示意图；

图4为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例基准分词模型的改进方法流程示意图，如图1所示，本发明实施例提供的一种基准分词模型的改进方法，包括以下步骤：

S1：获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列。

具体的，装置获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列。通用领域可以理解为应用相对广泛的领域，例如新闻等；为了保证基准分词模型的高效使用，需要基准分词模型预先学习通用领域的语料库。第一标记样本可以理解为基于通用领域的训练样本，基准分词模型可以包括多个第一标记样本，每一个第一标记样本可以包括第一特征向量和与第一特征向量对应的第一标记序列。例如：D^l _g＝{(x¹,y¹),(x²,y²),(x³,y³)...(x^N,y^N)}表示任一个第一标记样本D^l _g，其中的“l”表示标记样本、“g”表示通用领域；(x¹,y¹)～(x^N,y^N)表示这个D^l _g中的N个第一特征向量，这N个第一特征向量中的每一个第一特征向量一一对应有第一标记序列，可以采用(B、M、E、S)的形式表示，其中，B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词；这样就将中文分词的问题转换为序列标记的问题，例如：给定一个长度为T的中文句子x＝(x₁,x₂,x₃...x_t)，x₁～x_t表示每一个字符，可以通过学习通用领域特征信息，给出该中文句子对应的标记序列y＝(y₁,y₂,y₃...y_t)，y₁～y_t表示每一个字符对应的标记，即B、M、E、S中的任一个，最后的分词结果可以是BE、BME、S等。

S2：添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

具体的，装置添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。专业领域特征信息可以包括专业领域文本特征信息。三联子训练样本模块可以理解为集成的三联子训练样本集合，第二标记样本可以理解为基于专业领域的训练样本，专业领域可以理解为应用相对狭窄的领域，例如某一工程技术领域等，每一个第二标记样本可以包括第二特征向量和与第二特征向量对应的第二标记序列。例如：D^l _s＝{(X¹,Y¹),(X²,Y²),(X³,Y³)...(X^N,Y^N)}表示任一个第二标记样本D^l _s，其中的“l”表示标记样本、“s”表示专业领域；(X¹，Y¹)～(X^N,Y^N)表示这个D^l _s中的N个第二特征向量，这N个第二特征向量中的每一个第二特征向量一一对应有第二标记序列，可以采用(B、M、E、S)的形式表示，具体说明可参照上述第一标记序列，不再赘述。三联子训练样本的获取可以如下：

随机获取一个第一特征向量

和对应的第一标记序列，例如该第一标记序列为B；选择与所述第一标记序列具有相同标记序列的第二特征向量/>

以及具有不同标记序列的第二特征向量/>

即在多个第二特征向量中选择一个标记序列也为B的第二特征向量

在多个第二特征向量中选择一个标记序列不为B(可以是M、E、S中的之一)的第二特征向量/>

对所述第一特征向量/>

所述第二特征向量/>

所述第二特征向量/>

进行训练，以获取所述三联子训练样本，图2为本发明实施例三联子训练样本训练的示意图，如图2所示，三联子训练使正样本/>

(对应图2中的positive)距离/>

尽可能的近，使负样本/>

(对应图2中的negative)距离/>

尽可能的远。

进一步地，可以根据如下预设的损失函数对所述第一特征向量

所述第二特征向量/>

所述第二特征向量/>

进行训练：

其中，loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、

是/>

的在欧几里得空间的向量、/>

是/>

的在欧几里得空间的向量、/>

是/>

的在欧几里得空间的向量、α是预设的判定边界、为0～1之间的小数。

通过上述损失函数，希望

和/>

两个相同标记序列的特征向量之间的距离加上预设的判定边界α后小于/>

和/>

两个不同标记序列的特征向量之间的距离，即

可以采用现有成熟技术，分别对第一特征向量

第二特征向量/>

第二特征向量/>

求偏导数，采用梯度下降最快的方向，即为损失函数最小，采用反向传播算法，不断调整神经网络参数，并不断的输出损失函数的值，直到计算出一个满意的值，就可以停止训练。因此每次随机选择一个第一特征向量进行训练，并不要求对第一特征向量都遍历训练一次，因为训练一次调整一次神经网络参数，还可以采用大批量的随机训练。训练过程中最小化损失函数，调整网络结构参数，直到网络可以很好的区分不同序列的特征向量。使网络学习到专业领域的特征信息，从而提高模型的跨领域分词性能。

本发明实施例提供的基准分词模型的改进方法，通过添加三联子训练样本模块至基准分词模型，能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

在上述实施例的基础上，所述三联子训练样本的获取，包括：

随机获取一个第一特征向量

和对应的第一标记序列。

具体的，装置随机获取一个第一特征向量

和对应的第一标记序列。可参照上述实施例，不再赘述。

选择与所述第一标记序列具有相同标记序列的第二特征向量

以及具有不同标记序列的第二特征向量/>

具体的，装置选择与所述第一标记序列具有相同标记序列的第二特征向量

以及具有不同标记序列的第二特征向量/>

可参照上述实施例，不再赘述。

对所述第一特征向量

所述第二特征向量/>

所述第二特征向量/>

进行训练，以获取所述三联子训练样本。

具体的，装置对所述第一特征向量

所述第二特征向量/>

所述第二特征向量

进行训练，以获取所述三联子训练样本。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，通过分别获取与第一标记序列具有相同标记序列，以及不同标记序列的第二特征向量，并组成三联子训练样本，进一步能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

在上述实施例的基础上，所述对所述第一特征向量

所述第二特征向量/>

所述第二特征向量/>

进行训练，包括：

根据预设的损失函数对所述第一特征向量

所述第二特征向量/>

所述第二特征向量/>

进行训练，其中，所述预设的损失函数为：

是/>

的在欧几里得空间的向量、/>

是/>

的在欧几里得空间的向量、/>

是/>

具体的，装置根据预设的损失函数对所述第一特征向量

所述第二特征向量

所述第二特征向量/>

进行训练，其中，所述预设的损失函数为：

是/>

的在欧几里得空间的向量、/>

是/>

的在欧几里得空间的向量、/>

是/>

的在欧几里得空间的向量、α是预设的判定边界、为0～1之间的小数。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，通过预设的损失函数对三联子训练样本进行训练，有助于更好地获取训练结果。

在上述实施例的基础上，采用反向传播算法计算所述预设的损失函数。

具体的，装置采用反向传播算法计算所述预设的损失函数。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，通过采用反向传播算法计算预设的损失函数，能够进一步有助于更好地获取训练结果。

在上述实施例的基础上，所述第一标记序列和所述第二标记序列通过如下形式表示：

(B、M、E、S)

其中，B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词。

具体的，装置中的所述第一标记序列和所述第二标记序列通过如下形式表示：

(B、M、E、S)

其中，B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，通过(B、M、E、S)的形式，能够更加简便地表示第一标记序列和第二标记序列。

在上述实施例的基础上，所述专业领域特征信息包括专业领域文本特征信息。

具体的，装置中的所述专业领域特征信息包括专业领域文本特征信息。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，通过将专业领域特征信息选定为专业领域文本特征信息，进一步能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

在上述实施例的基础上，所述基准分词模型预先学习通用领域的语料库。

具体的，装置中的所述基准分词模型预先学习通用领域的语料库。可参照上述实施例，不再赘述。

本发明实施例提供的基准分词模型的改进方法，使基准分词模型预先学习通用领域的语料库，能够更准确地在通用领域进行分词。

图3为本发明实施例基准分词模型的改进装置结构示意图，如图3所示，本发明实施例提供了一种基准分词模型的改进装置，包括获取单元1和添加单元2，其中：

获取单元1用于获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加单元2用于添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

具体的，获取单元1用于获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加单元2用于添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

本发明实施例提供的基准分词模型的改进装置，通过添加三联子训练样本模块至基准分词模型，能够提高现有的基准分词模型在专业领域分词的准确率，并简化模型的训练过程。

本发明实施例提供的基准分词模型的改进装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图4为本发明实施例提供的电子设备实体结构示意图，如图4所示，所述电子设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401、存储器402通过总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取通用领域的基准分词模型的第一标记样本；第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列；添加三联子训练样本模块至所述基准分词模型，以获取改进的基准分词模型；三联子训练样本是根据所述第一特征向量和所述第一标记序列，以及第二特征向量和与第二特征向量对应的第二标记序列获取的；其中，所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。