CN110083820B - 一种基准分词模型的改进方法及装置 - Google Patents

一种基准分词模型的改进方法及装置 Download PDF

Info

Publication number
CN110083820B
CN110083820B CN201810079276.1A CN201810079276A CN110083820B CN 110083820 B CN110083820 B CN 110083820B CN 201810079276 A CN201810079276 A CN 201810079276A CN 110083820 B CN110083820 B CN 110083820B
Authority
CN
China
Prior art keywords
feature vector
word segmentation
eigenvector
segmentation model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810079276.1A
Other languages
English (en)
Other versions
CN110083820A (zh
Inventor
赵琦
韦玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Original Assignee
Potevio Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potevio Information Technology Co Ltd filed Critical Potevio Information Technology Co Ltd
Priority to CN201810079276.1A priority Critical patent/CN110083820B/zh
Publication of CN110083820A publication Critical patent/CN110083820A/zh
Application granted granted Critical
Publication of CN110083820B publication Critical patent/CN110083820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种基准分词模型的改进方法及装置,所述方法包括:获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的。所述装置执行上述方法。本发明实施例提供的基准分词模型的改进方法及装置,通过添加三联子训练样本模块至基准分词模型,能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。

Description

一种基准分词模型的改进方法及装置
技术领域
本发明实施例涉及中文处理技术领域,具体涉及一种基准分词模型的改进方法及装置。
背景技术
在基于中文的自然语言处理中,由于中文不像英文中词与词之间有固定的自然分界符,以及中文自身的复杂性,中文分词一直是中文信息处理任务中的难题。
专业领域中文分词需求日益增大,然而,现有可用于训练的标注语料大多为通用领域的语料,将通用语料库训练出来的分词模型应用于专业领域时,分词准确率会大幅降低,而为每个专业领域都单独训练,不仅需要耗费极大的人力物力,而且通用性较差。
因此,如何提高现有分词模型在专业领域分词的准确率,并简化模型的训练过程,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基准分词模型的改进方法及装置。
第一方面,本发明实施例提供一种基准分词模型的改进方法,所述方法包括:
获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
第二方面,本发明实施例提供一种基准分词模型的改进装置,所述装置包括:
获取单元,用于获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加单元,用于添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
本发明实施例提供的基准分词模型的改进方法及装置,通过添加三联子训练样本模块至基准分词模型,能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基准分词模型的改进方法流程示意图;
图2为本发明实施例三联子训练样本训练的示意图;
图3为本发明实施例基准分词模型的改进装置结构示意图;
图4为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例基准分词模型的改进方法流程示意图,如图1所示,本发明实施例提供的一种基准分词模型的改进方法,包括以下步骤:
S1:获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列。
具体的,装置获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列。通用领域可以理解为应用相对广泛的领域,例如新闻等;为了保证基准分词模型的高效使用,需要基准分词模型预先学习通用领域的语料库。第一标记样本可以理解为基于通用领域的训练样本,基准分词模型可以包括多个第一标记样本,每一个第一标记样本可以包括第一特征向量和与第一特征向量对应的第一标记序列。例如:Dl g={(x1,y1),(x2,y2),(x3,y3)...(xN,yN)}表示任一个第一标记样本Dl g,其中的“l”表示标记样本、“g”表示通用领域;(x1,y1)~(xN,yN)表示这个Dl g中的N个第一特征向量,这N个第一特征向量中的每一个第一特征向量一一对应有第一标记序列,可以采用(B、M、E、S)的形式表示,其中,B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词;这样就将中文分词的问题转换为序列标记的问题,例如:给定一个长度为T的中文句子x=(x1,x2,x3...xt),x1~xt表示每一个字符,可以通过学习通用领域特征信息,给出该中文句子对应的标记序列y=(y1,y2,y3...yt),y1~yt表示每一个字符对应的标记,即B、M、E、S中的任一个,最后的分词结果可以是BE、BME、S等。
S2:添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
具体的,装置添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。专业领域特征信息可以包括专业领域文本特征信息。三联子训练样本模块可以理解为集成的三联子训练样本集合,第二标记样本可以理解为基于专业领域的训练样本,专业领域可以理解为应用相对狭窄的领域,例如某一工程技术领域等,每一个第二标记样本可以包括第二特征向量和与第二特征向量对应的第二标记序列。例如:Dl s={(X1,Y1),(X2,Y2),(X3,Y3)...(XN,YN)}表示任一个第二标记样本Dl s,其中的“l”表示标记样本、“s”表示专业领域;(X1,Y1)~(XN,YN)表示这个Dl s中的N个第二特征向量,这N个第二特征向量中的每一个第二特征向量一一对应有第二标记序列,可以采用(B、M、E、S)的形式表示,具体说明可参照上述第一标记序列,不再赘述。三联子训练样本的获取可以如下:
随机获取一个第一特征向量
Figure BDA0001560514520000051
和对应的第一标记序列,例如该第一标记序列为B;选择与所述第一标记序列具有相同标记序列的第二特征向量/>
Figure BDA0001560514520000052
以及具有不同标记序列的第二特征向量/>
Figure BDA0001560514520000053
即在多个第二特征向量中选择一个标记序列也为B的第二特征向量
Figure BDA0001560514520000054
在多个第二特征向量中选择一个标记序列不为B(可以是M、E、S中的之一)的第二特征向量/>
Figure BDA0001560514520000055
对所述第一特征向量/>
Figure BDA0001560514520000056
所述第二特征向量/>
Figure BDA0001560514520000057
所述第二特征向量/>
Figure BDA0001560514520000058
进行训练,以获取所述三联子训练样本,图2为本发明实施例三联子训练样本训练的示意图,如图2所示,三联子训练使正样本/>
Figure BDA0001560514520000059
(对应图2中的positive)距离/>
Figure BDA00015605145200000510
尽可能的近,使负样本/>
Figure BDA00015605145200000511
(对应图2中的negative)距离/>
Figure BDA00015605145200000512
尽可能的远。
进一步地,可以根据如下预设的损失函数对所述第一特征向量
Figure BDA0001560514520000061
所述第二特征向量/>
Figure BDA0001560514520000062
所述第二特征向量/>
Figure BDA0001560514520000063
进行训练:
Figure BDA0001560514520000064
其中,loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、
Figure BDA0001560514520000065
是/>
Figure BDA0001560514520000066
的在欧几里得空间的向量、/>
Figure BDA0001560514520000067
是/>
Figure BDA0001560514520000068
的在欧几里得空间的向量、/>
Figure BDA0001560514520000069
是/>
Figure BDA00015605145200000610
的在欧几里得空间的向量、α是预设的判定边界、为0~1之间的小数。
通过上述损失函数,希望
Figure BDA00015605145200000611
和/>
Figure BDA00015605145200000612
两个相同标记序列的特征向量之间的距离加上预设的判定边界α后小于/>
Figure BDA00015605145200000613
和/>
Figure BDA00015605145200000614
两个不同标记序列的特征向量之间的距离,即
Figure BDA00015605145200000615
可以采用现有成熟技术,分别对第一特征向量
Figure BDA00015605145200000616
第二特征向量/>
Figure BDA00015605145200000617
第二特征向量/>
Figure BDA00015605145200000618
求偏导数,采用梯度下降最快的方向,即为损失函数最小,采用反向传播算法,不断调整神经网络参数,并不断的输出损失函数的值,直到计算出一个满意的值,就可以停止训练。因此每次随机选择一个第一特征向量进行训练,并不要求对第一特征向量都遍历训练一次,因为训练一次调整一次神经网络参数,还可以采用大批量的随机训练。训练过程中最小化损失函数,调整网络结构参数,直到网络可以很好的区分不同序列的特征向量。使网络学习到专业领域的特征信息,从而提高模型的跨领域分词性能。
本发明实施例提供的基准分词模型的改进方法,通过添加三联子训练样本模块至基准分词模型,能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。
在上述实施例的基础上,所述三联子训练样本的获取,包括:
随机获取一个第一特征向量
Figure BDA00015605145200000619
和对应的第一标记序列。
具体的,装置随机获取一个第一特征向量
Figure BDA00015605145200000620
和对应的第一标记序列。可参照上述实施例,不再赘述。
选择与所述第一标记序列具有相同标记序列的第二特征向量
Figure BDA0001560514520000071
以及具有不同标记序列的第二特征向量/>
Figure BDA0001560514520000072
具体的,装置选择与所述第一标记序列具有相同标记序列的第二特征向量
Figure BDA0001560514520000073
以及具有不同标记序列的第二特征向量/>
Figure BDA0001560514520000074
可参照上述实施例,不再赘述。
对所述第一特征向量
Figure BDA0001560514520000075
所述第二特征向量/>
Figure BDA0001560514520000076
所述第二特征向量/>
Figure BDA0001560514520000077
进行训练,以获取所述三联子训练样本。
具体的,装置对所述第一特征向量
Figure BDA0001560514520000078
所述第二特征向量/>
Figure BDA0001560514520000079
所述第二特征向量
Figure BDA00015605145200000710
进行训练,以获取所述三联子训练样本。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,通过分别获取与第一标记序列具有相同标记序列,以及不同标记序列的第二特征向量,并组成三联子训练样本,进一步能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。
在上述实施例的基础上,所述对所述第一特征向量
Figure BDA00015605145200000711
所述第二特征向量/>
Figure BDA00015605145200000712
所述第二特征向量/>
Figure BDA00015605145200000713
进行训练,包括:
根据预设的损失函数对所述第一特征向量
Figure BDA00015605145200000714
所述第二特征向量/>
Figure BDA00015605145200000715
所述第二特征向量/>
Figure BDA00015605145200000716
进行训练,其中,所述预设的损失函数为:
Figure BDA00015605145200000717
其中,loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、
Figure BDA00015605145200000718
是/>
Figure BDA00015605145200000719
的在欧几里得空间的向量、/>
Figure BDA00015605145200000720
是/>
Figure BDA00015605145200000721
的在欧几里得空间的向量、/>
Figure BDA00015605145200000722
是/>
Figure BDA00015605145200000723
的在欧几里得空间的向量、α是预设的判定边界、为0~1之间的小数。
具体的,装置根据预设的损失函数对所述第一特征向量
Figure BDA00015605145200000724
所述第二特征向量
Figure BDA00015605145200000725
所述第二特征向量/>
Figure BDA00015605145200000726
进行训练,其中,所述预设的损失函数为:
Figure BDA0001560514520000081
其中,loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、
Figure BDA0001560514520000082
是/>
Figure BDA0001560514520000083
的在欧几里得空间的向量、/>
Figure BDA0001560514520000084
是/>
Figure BDA0001560514520000085
的在欧几里得空间的向量、/>
Figure BDA0001560514520000086
是/>
Figure BDA0001560514520000087
的在欧几里得空间的向量、α是预设的判定边界、为0~1之间的小数。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,通过预设的损失函数对三联子训练样本进行训练,有助于更好地获取训练结果。
在上述实施例的基础上,采用反向传播算法计算所述预设的损失函数。
具体的,装置采用反向传播算法计算所述预设的损失函数。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,通过采用反向传播算法计算预设的损失函数,能够进一步有助于更好地获取训练结果。
在上述实施例的基础上,所述第一标记序列和所述第二标记序列通过如下形式表示:
(B、M、E、S)
其中,B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词。
具体的,装置中的所述第一标记序列和所述第二标记序列通过如下形式表示:
(B、M、E、S)
其中,B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,通过(B、M、E、S)的形式,能够更加简便地表示第一标记序列和第二标记序列。
在上述实施例的基础上,所述专业领域特征信息包括专业领域文本特征信息。
具体的,装置中的所述专业领域特征信息包括专业领域文本特征信息。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,通过将专业领域特征信息选定为专业领域文本特征信息,进一步能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。
在上述实施例的基础上,所述基准分词模型预先学习通用领域的语料库。
具体的,装置中的所述基准分词模型预先学习通用领域的语料库。可参照上述实施例,不再赘述。
本发明实施例提供的基准分词模型的改进方法,使基准分词模型预先学习通用领域的语料库,能够更准确地在通用领域进行分词。
图3为本发明实施例基准分词模型的改进装置结构示意图,如图3所示,本发明实施例提供了一种基准分词模型的改进装置,包括获取单元1和添加单元2,其中:
获取单元1用于获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加单元2用于添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
具体的,获取单元1用于获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加单元2用于添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
本发明实施例提供的基准分词模型的改进装置,通过添加三联子训练样本模块至基准分词模型,能够提高现有的基准分词模型在专业领域分词的准确率,并简化模型的训练过程。
本发明实施例提供的基准分词模型的改进装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图4为本发明实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401、存储器402通过总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (8)

1.一种基准分词模型的改进方法,其特征在于,包括:
获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的;
所述三联子训练样本的获取,包括:
随机获取一个第一特征向量
Figure FDA0004125850660000011
和对应的第一标记序列;
选择与所述第一标记序列具有相同标记序列的第二特征向量
Figure FDA0004125850660000012
以及具有不同标记序列的第二特征向量/>
Figure FDA0004125850660000013
对所述第一特征向量
Figure FDA0004125850660000014
所述第二特征向量/>
Figure FDA0004125850660000015
所述第二特征向量/>
Figure FDA0004125850660000016
进行训练,以获取所述三联子训练样本;
所述对所述第一特征向量
Figure FDA0004125850660000017
所述第二特征向量/>
Figure FDA0004125850660000018
所述第二特征向量/>
Figure FDA0004125850660000019
进行训练,包括:
根据预设的损失函数对所述第一特征向量
Figure FDA00041258506600000110
所述第二特征向量/>
Figure FDA00041258506600000111
所述第二特征向量/>
Figure FDA00041258506600000112
进行训练,其中,所述预设的损失函数为:
Figure FDA00041258506600000113
其中,loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、
Figure FDA00041258506600000114
是/>
Figure FDA00041258506600000115
的在欧几里得空间的向量、/>
Figure FDA00041258506600000116
是/>
Figure FDA00041258506600000117
的在欧几里得空间的向量、
Figure FDA00041258506600000118
是/>
Figure FDA00041258506600000119
的在欧几里得空间的向量、α是预设的判定边界、为0~1之间的小数。
2.根据权利要求1所述的方法,其特征在于,采用反向传播算法计算所述预设的损失函数。
3.根据权利要求1至2任一所述的方法,其特征在于,所述第一标记序列和所述第二标记序列通过如下形式表示:
(B、M、E、S)
其中,B表示字符在词语中的位置为词首、M表示字符在词语中的位置为词中、E表示字符在词语中的位置为词尾、S表示字符为单字词。
4.根据权利要求1至2任一所述的方法,其特征在于,所述专业领域特征信息包括专业领域文本特征信息。
5.根据权利要求1至2任一所述的方法,其特征在于,所述基准分词模型预先学习通用领域的语料库。
6.一种基准分词模型的改进装置,其特征在于,包括:
获取单元,用于获取通用领域的基准分词模型的第一标记样本;第一标记样本包括第一特征向量和与第一特征向量对应的第一标记序列;
添加单元,用于添加三联子训练样本模块至所述基准分词模型,以获取改进的基准分词模型;三联子训练样本是根据所述第一特征向量和所述第一标记序列,以及第二特征向量和与第二特征向量对应的第二标记序列获取的;其中,所述第二特征向量和所述第二标记序列是从包括有专业领域特征信息的第二标记样本中获取的;
所述三联子训练样本的获取,包括:
随机获取一个第一特征向量
Figure FDA0004125850660000021
和对应的第一标记序列;
选择与所述第一标记序列具有相同标记序列的第二特征向量
Figure FDA0004125850660000022
以及具有不同标记序列的第二特征向量/>
Figure FDA0004125850660000023
对所述第一特征向量
Figure FDA0004125850660000024
所述第二特征向量/>
Figure FDA0004125850660000025
所述第二特征向量/>
Figure FDA0004125850660000026
进行训练,以获取所述三联子训练样本;
所述对所述第一特征向量
Figure FDA0004125850660000027
所述第二特征向量/>
Figure FDA0004125850660000028
所述第二特征向量/>
Figure FDA0004125850660000029
进行训练,包括:
根据预设的损失函数对所述第一特征向量
Figure FDA00041258506600000210
所述第二特征向量/>
Figure FDA00041258506600000211
所述第二特征向量/>
Figure FDA00041258506600000212
进行训练,其中,所述预设的损失函数为:
Figure FDA0004125850660000031
其中,loss是预设的损失函数、i是三联子训练样本中的第i个、M是三联子训练样本的样本总数、
Figure FDA0004125850660000032
是/>
Figure FDA0004125850660000033
的在欧几里得空间的向量、/>
Figure FDA0004125850660000034
是/>
Figure FDA0004125850660000035
的在欧几里得空间的向量、
Figure FDA0004125850660000036
是/>
Figure FDA0004125850660000037
的在欧几里得空间的向量、α是预设的判定边界、为0~1之间的小数。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN201810079276.1A 2018-01-26 2018-01-26 一种基准分词模型的改进方法及装置 Active CN110083820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810079276.1A CN110083820B (zh) 2018-01-26 2018-01-26 一种基准分词模型的改进方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810079276.1A CN110083820B (zh) 2018-01-26 2018-01-26 一种基准分词模型的改进方法及装置

Publications (2)

Publication Number Publication Date
CN110083820A CN110083820A (zh) 2019-08-02
CN110083820B true CN110083820B (zh) 2023-06-27

Family

ID=67412732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810079276.1A Active CN110083820B (zh) 2018-01-26 2018-01-26 一种基准分词模型的改进方法及装置

Country Status (1)

Country Link
CN (1) CN110083820B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于半监督CRF的跨领域中文分词;邓丽萍等;《中文信息学报》;20170715(第04期);47-50页 *

Also Published As

Publication number Publication date
CN110083820A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN110263162B (zh) 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110717331B (zh) 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
WO2019232772A1 (en) Systems and methods for content identification
CN111291165B (zh) 训练词向量嵌入模型的方法及装置
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN109192225B (zh) 语音情感识别和标注的方法及装置
CN110222329B (zh) 一种基于深度学习的中文分词方法和装置
CN109948140B (zh) 一种词向量嵌入方法及装置
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN111611802B (zh) 多领域实体识别方法
CN112633423B (zh) 文本识别模型的训练方法、文本识别方法、装置及设备
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN109753976B (zh) 语料标注装置和方法
CN112069820B (zh) 模型训练方法、模型训练装置和实体抽取方法
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
CN110610006B (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN110083820B (zh) 一种基准分词模型的改进方法及装置
US20230259717A1 (en) Learning method and information processing apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant