CN108280064B - 分词、词性标注、实体识别及句法分析的联合处理方法 - Google Patents

分词、词性标注、实体识别及句法分析的联合处理方法 Download PDF

Info

Publication number
CN108280064B
CN108280064B CN201810167568.0A CN201810167568A CN108280064B CN 108280064 B CN108280064 B CN 108280064B CN 201810167568 A CN201810167568 A CN 201810167568A CN 108280064 B CN108280064 B CN 108280064B
Authority
CN
China
Prior art keywords
word
vector
node
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810167568.0A
Other languages
English (en)
Other versions
CN108280064A (zh
Inventor
郭平
常薇
辛欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810167568.0A priority Critical patent/CN108280064B/zh
Publication of CN108280064A publication Critical patent/CN108280064A/zh
Application granted granted Critical
Publication of CN108280064B publication Critical patent/CN108280064B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及分词、词性标注、实体识别及句法分析的处理方法,是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法,属于自然语言处理技术领域。核心思想如下:首先分步构建出联合模型;然后利用现有的实体数据和成分句法树数据构造出联合句法树数据;接着从联合句法树数据中提取出训练数据;再使用训练数据对联合模型进行训练,最后使用训练好的联合模型对待分析的中文语句进行分析,得到作为分析结果的联合句法树。该方法有效地避免了错误传播问题,并且是一种基于转移的分析方法,保证了本发明的执行速度。

Description

分词、词性标注、实体识别及句法分析的联合处理方法
技术领域
本发明涉及分词、词性标注、实体识别及句法分析的联合处理方法,属于自然语言处理技术领域。
背景技术
分词、词性标注、实体识别和句法分析都属于自然语言处理领域中重要的基础任务。分词,就是让模型能够准确地识别句子中的词,因为在一些语言中,例如中文,在句子中是没有明显的分词标记的,词与词之间没有间隔,而在进行文本分析的时候,往往需要使用到词级别的文本,所以,分词成为了一项必需的基础任务。词性标注,就是判断句子中每个词的语法范畴,确定其词性并加以标注。实体识别,就是识别句子中具有特定意义的实体,主要包括人名、地名、机构名等。句法分析,主要包括成分句法分析和依存句法分析,本发明中涉及的是成分句法分析,成分句法分析就是获取整个句子的合乎语法的句法结构,句法结构一般用树状数据结构表示,所以分析结果通常称为句法树。做好这四项基础任务,是分析和理解自然语言的关键,也是信息抽取、问答系统、机器翻译等自然语言上层任务的重要基础。
在传统方式下,自然语言处理的中基础分析任务都是单独完成的,不同任务之间通过管道方式进行,即首先对待分析的中文语句进行分词,然后在分词的基础上进行词性标注和实体识别,然后在前面两步的基础上进行句法分析。这种管道式的处理方法有一个不可避免的问题,即错误传播问题,在前面任务中产生的错误分析结果会随着分析的进行传播到后面的任务中,从而影响分析的准确性。所以,为了解决错误传播的问题,一些学者提出了一些联合模型,将分词、词性标注、实体识别和句法分析中的两项或者是三项任务进行联合,在分析文本的时候不使用管道式的方法,而使用联合模型来处理,从而避免了错误传播的问题。本发明受此启发,提出一种联合处理方法,该方法能够同时解决四项任务,在解决的任务数量上多于以前的模型方法。同样,因为是一种联合方法,本发明同样能够避免管道式方法的错误传播问题。在句法分析的方法上划分,句法分析又可以分为基于图的分析方法和基于转移的分析方法,本发明的分析方法使用的是基于转移的分析方法,基于转移的分析方法具有比基于图的分析方法更快的执行速度。
本发明通过为待分析的中文语句生成联合句法树,完成对该语句的分词、词性标注、实体识别和成分句法分析。联合句法树是本发明提出的一种带有实体标签节点的成分句法树。在联合句法树中,分词的结果可以从句法树的叶子节点中获得,每一个单独的叶子节点都是一个词;词性标注和实体识别的结果可以从叶子节点的父节点(上一层节点)中获得,若一个词属于某类实体,则该节点的父节点就是实体节点,表示该节点的实体类型,否则该节点的父节点是词性节点,表示该节点的词性类型;成分句法分析的结果就是句法树的其他节点。由此,一个联合句法树包含上述四项任务的分析结果。
发明内容
本发明的目的是为了解决传统方法中以管道的方式进行分词、词性标注、实体识别和成分句法分析任务时产生错误在任务之间传播,从而导致任务准确率下降的问题,提供了分词、词性标注、实体识别及句法分析的联合处理方法,是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法,该方法有效地避免了错误传播问题,并且是一种基于转移的分析方法,保证了本发明的执行速度。
为实现上述目的,本发明的核心思想如下:首先构建模型,使用监督学习训练出模型,然后使用训练好的模型对待分析的中文语句进行分析;其中,监督学习是使用有标签的训练数据对模型进行训练,从而得到训练好的模型,然后再使用训练好的模型对无标签的数据进行分类,得到包含分类标签的结果,即有标签的分析结果;对于本发明而言,因为目前没有直接能够使用的训练数据,所以我们需要使用现有的数据逐步构建出要使用的训练数据,然后用训练数据训练构建出的模型;当模型训练好之后,我们就可以使用模型对中文语句进行分析,得到有标签的分析结果。
本发明的整体流程如下:
首先分步构建出联合模型;
然后利用现有的实体数据和成分句法树数据构造出联合句法树数据;
其中,联合句法树数据是构造训练数据要使用的中间数据,一棵联合句法树同时包含了分词、词性标注、实体识别和成分句法分析这四项任务的分析结果;因此,使用训练好的模型对待分析的中文语句进行分析时,要让模型的输出是一棵联合句法树;
再从联合句法树数据中提取出训练数据;
然后使用训练数据对联合模型进行训练,得出训练好的联合模型;
最后使用训练好的联合模型对待分析的中文语句进行分析,得到有标签的分析结果,即包含分析结果的联合句法树;
为实现上述目的,本发明所采用的技术方案如下:
分词、词性标注、实体识别及句法分析的联合处理方法,包括以下步骤:
步骤1:构建一个联合模型,具体包括:定义联合模型结构,定义联合模型的转移动作集合,定义特征模板,定义特征向量的计算方法,定义联合模型的训练方法以及联合模型的损失函数,具体包括如下子步骤:
步骤1.1定义联合模型结构;
其中,定义联合模型结构具体包括3个部分,首先是n-gram bi-LSTM神经网络,用来计算特征字串向量;然后是分析模型,用来提取状态特征和执行转移动作;最后是多层人工神经网络,用来根据状态特征选择将要执行的转移动作;
其中,n-gram bi-LSTM神经网络由x个独立的bi-LSTM神经网络组成,分别用来对待分析语句中长度为1至x的字串的预训练向量进行进一步转换,即n-gram中的n的取值为1至x,使用n-gram bi-LSTM神经网络生成带有上下文信息的特征字串向量;
分析模型由两个队列和一个栈构成,分别记为q1,q2和s;
其中,q1中存放的是待分析的中文语句,q2中存放的是从q1中移进的字,具体依据步骤1.2中执行转移动作shift而存储对应的结果,s中存放的是归约的结果,具体依据步骤1.2中执行转移动作reduce(t)、reduce-unary(l)、reduce-binary(l)以及terminate而存储对应的结果;
多层人工神经网络由两个隐藏层和一个softmax函数组成,用来接收特征向量作为神经网络的输入,特征向量经过两个隐藏层的转换,然后通过softmax函数计算出表示转移动作概率的向量,即转移动作概率向量,从输入层到第一个隐藏层的权值矩阵为W1,偏置为b1,第一个隐藏层到第二个隐藏层的权值矩阵为W2,偏置为b2,softmax函数的参数矩阵为Ws,隐藏层的激活函数使用ReLU激活函数;
步骤1.2定义联合模型的转移动作集合;
将转移动作集合记为T,其中包含以下转移动作;
其中,shift是将q1中的第一个字移入q2,即执行shift时,q2中存放的是从q1中移进的字;
reduce(t)是将q2中的所有字归约成一个词,并为该词判断词性类别或实体类别,类别为t,然后生成一个新的节点,将该词和所带标签作为节点的属性,将这个新的节点移进s,并清空q2;即:执行reduce(t)时,s中存放的是对q2进行归约的结果;
reduce-unary(l)是将s的栈顶第一个节点出栈并进行一元归约,归约生成一个新的节点,并为该节点判断成分类别为l,然后将新生成的节点入栈,即新生成的节点是父节点,而被归约的节点是子节点;即:执行reduce-unary(l)时,s中存放的则是对s中栈顶第一个节点进行一元归约的结果;
reduce-binary(l)是将s的栈顶的前两个节点出栈并进行二元归约,归约生成一个新的节点,并为该节点判断成分类别为l,将该节点入栈,即新生成的节点是父节点,而归约前的栈顶的第一个节点是右孩子节点,第二个节点是左孩子节点;即:当执行reduce-binary(l)时,s中存放的则是对s中栈顶前两个节点进行二元归约的结果;
terminate:将s中的唯一节点出栈,即句法树的根节点出栈,结束分析过程;
其中,分析过程是指使用训练好的联合模型,对待分析的中文语句进行分析,具体对应步骤3的操作;
步骤1.3定义特征模板:联合模型中的分析模型依据如下表1所示的特征模板从队列和栈的状态中提取特征:
表1特征模板
Figure BDA0001584903220000031
Figure BDA0001584903220000041
其中,s表示栈,q1表示队列1,q2表示队列2,w表示词,c表示字,t表示词性标签,l表示成分标签,数字0,1,…,k-1表示节点在栈或队列中的位置,其中k-1表示最后一个位置,s0w表示栈顶的第一个节点所表示的词,s1w表示栈顶的第二个节点所表示的词;q10c表示队列1中的第一个字,同理q11c表示队列1中的第二个字,q20c表示队列2中的第一个字,q2k-1c表示队列2中的最后一个字;
若栈顶的第一个节点中的标签表示的是词性类别,则标签特征使用s0t,若栈顶的第一个节点中的标签表示的是成分类别,则标签特征使用s0l;
若栈顶的第二个节点中的标签表示的是词性类别,则标签特征使用s1t,若栈顶的第二个节点中的标签表示的是成分类别,则标签特征使用s1l;
因为在分析过程中,队列1和队列2中的内容都没有词性标签或成分标签,所以q10c,q11c,q20c和q2k-1c对应的标签特征是“无”;
步骤1.4定义特征向量的计算方法;
定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签向量,所以首先说明预训练字向量和词向量的方法;在分析某中文语句的过程中,为了使预训练的字向量,词向量和由字向量生成的字串向量能够携带该语句的上下文信息,使用n-gram bi-LSTM神经网络,对待分析语句中需要使用的预训练字向量,词和由字向量生成的字串向量进行转换,得到n-gram bi-LSTM神经网络的输出向量,将输出向量进行拼接,得到转换后的特征字串向量,特征向量由特征字串向量和标签向量组成,具体为:
1.4.1使用Skip-Gram模型和从百度新闻爬取的2G大小的新闻数据预训练字向量和词向量,然后从字向量中提取按字频从高到低排序后的前Nw个常用字及其向量组成预训练的字表,记为character_table,字频是字在新闻数据中出现的频次,从词向量中提取按词频从高到低排序后的前Nw个常用词及其向量组成预训练的词表,记为word_table,词频是词在新闻数据中出现的频次,character_table中的第i个字向量记为
Figure BDA0001584903220000042
word_table中的第i个词向量记为
Figure BDA0001584903220000043
字向量和词向量维度均为dw,即
Figure BDA0001584903220000044
Figure BDA0001584903220000045
character_table对应的字向量矩阵为Ec
Figure BDA0001584903220000046
word_table对应的词向量矩阵为Ew
Figure BDA0001584903220000047
随机初始化的标签向量组成标签向量表tl_table,标签向量表的大小为Ntl,标签向量记为
Figure BDA0001584903220000048
维度为dtl,即
Figure BDA0001584903220000049
tl_table对应的标签向量矩阵为Etl
Figure BDA00015849032200000410
1.4.2构建x个n-gram bi-LSTM神经网络,并且使n-gram中n的取值依次为1至x,即依次为1-gram,2-gram,3-gram,……,x-gram,当n等于1时,待分析的中文语句中的第j个字cj所对应的1-gram bi-LSTM神经网络的输入向量为cj的字向量,用
Figure BDA00015849032200000518
表示从character_table中提取出的cj的字向量,当n大于1时,cj所对应的n-gram bi-LSTM神经网络的输入向量为待分析的语句中cj…cj+n-1这个字串所对应的词向量或字串向量,即当cj…cj+n-1这个字串能够对应word_table中的某个词时,则使用这个词的词向量作为cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure BDA0001584903220000051
表示该词向量,若word_table中没有这个字串对应的词时,使用该字串的字串向量作为cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure BDA0001584903220000052
表示该字串的字串向量;用
Figure BDA0001584903220000053
对字cj对应的n-gram bi-LSTM神经网络的输入向量作统一的表示,字cj生成
Figure BDA0001584903220000054
的方法如下:
当n-gram中的n等于1时,若character_table中有cj对应的字向量,则
Figure BDA0001584903220000055
若没有cj对应的字向量,则使用character_table中的UNK字向量,即
Figure BDA0001584903220000056
当n-gram中的n大于1时,若word_table中有cj…cj+n-1对应的词向量,则
Figure BDA0001584903220000057
若没有cj…cj+n-1对应的词向量,则使用对应的字串向量,即
Figure BDA0001584903220000058
其中
Figure BDA0001584903220000059
的计算公式如公式(1):
Figure BDA00015849032200000510
公式(1)中,若字串cj…cj+n-1中的某个字在character_table中检索不到,则使用
Figure BDA00015849032200000511
代替不存在的字向量来计算
Figure BDA00015849032200000512
词wj生成
Figure BDA00015849032200000513
的方法与字cj生成
Figure BDA00015849032200000514
的方法类似,区别在于:当n等于1时,
Figure BDA00015849032200000515
等于词首字的字向量;当n大于1时,依次从词首字取长度为n的部分,根据字cj生成
Figure BDA00015849032200000516
的方法中当n大于1时的方法获得词的
Figure BDA00015849032200000517
若词的长度小于n,则取在待分析语句中与该词尾部相邻的字进行长度补齐,使补齐后的长度n为,再根据字cj生成
Figure BDA0001584903220000061
的方法中当n大于1时的方法获得词的
Figure BDA0001584903220000062
字串cj…cj+n-1生成
Figure BDA0001584903220000063
的方法与字cj生成
Figure BDA0001584903220000064
的方法类似,区别在于:当n等于1时,
Figure BDA0001584903220000065
等于字串首字的字向量;当n大于1时,依次从字串首字取长度为n的部分,根据字cj生成
Figure BDA0001584903220000066
的方法中当n大于1时的方法获得字串的
Figure BDA0001584903220000067
若字串的长度小于n,则取在待分析语句中与该字串尾部相邻的字进行长度补齐,使补齐后的长度n为,再根据字cj生成
Figure BDA0001584903220000068
的方法中当n大于1时的方法获得字串的
Figure BDA0001584903220000069
因此,一个字,对于x个n-gram bi-LSTM神经网络,会有x个
Figure BDA00015849032200000610
并且有
Figure BDA00015849032200000611
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量,记为
Figure BDA00015849032200000612
Figure BDA00015849032200000613
同理,一个词,对于x个n-gram bi-LSTM神经网络,会有x个
Figure BDA00015849032200000614
并且有
Figure BDA00015849032200000615
Figure BDA00015849032200000616
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure BDA00015849032200000617
Figure BDA00015849032200000618
一个字串,对于x个n-gram bi-LSTM神经网络,会有x个
Figure BDA00015849032200000619
并且有
Figure BDA00015849032200000620
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure BDA00015849032200000621
Figure BDA00015849032200000622
1.4.3根据步骤1.3定义的特征模板和分析模型的当前状态,获得相应的特征字串向量和标签向量,若某个特征为空,则使用对应该特征的NULL向量代替该向量,然后将这些向量进行首尾拼接得到特征向量,该向量就是用来表示当前状态的完整特征的特征向量;
步骤1.5定义联合模型的训练方法以及联合模型的损失函数;
其中,定义联合模型的训练方法为随机梯度下降法;定义联合模型的损失函数为(2):
Figure BDA00015849032200000623
其中,i表示的是第i个训练数据,ti是第i个训练数据中的转移动作,
Figure BDA00015849032200000624
是多层人工神经网络输出结果中ti的概率,
Figure BDA00015849032200000625
是l2正则化项,θ是待训练的所有模型参数,包括{W1,b1,W2,b2,Ws,Etl}和n-gram bi_LSTM神经网络的参数;
步骤2:生成训练数据,包括:生成联合句法树数据,再基于联合句法树数据生成训练数据,然后使用训练数据训练联合模型,得出训练好的联合模型;具体为:
步骤2.1生成联合句法树数据:针对当前没有能够直接使用的训练数据的情况,我们需要用现有的数据生成联合句法树数据作为生成训练数据的中间数据,然后以此生成训练数据,使用ontonotes5.0中文数据中的实体数据(数据文件后缀名为.name)和成分句法树数据(数据文件后缀名为.parse)生成联合句法树数据,具体如下:
步骤2.1.1使用现有工具将成分句法树数据进行二叉化转换,生成二叉化的句法树;
步骤2.1.2在二叉化的句法树中加入实体标签节点,规则如下:若句法树中某个节点ni下的所有叶子节点组成的字串在实体数据中对应一个实体,则将ni下的所有叶子节点合并为一个新的叶子节点,然后为新的叶子节点增加一个新的父节点,新的父节点是由实体标签形成的节点,而新的实体标签节点的父节点是ni,而在ni下的所有原来的节点则全部被删去,由此方法依次将实体数据中的实体标签加入到成分句法树中,生成联合句法树数据;
步骤2.2基于联合句法树数据生成训练数据:根据定义的模型损失函数,需要从联合句法树数据中提取出状态特征与转移动作对,所有的状态特征与转移动作对构成训练数据集,具体包括如下子步骤:
步骤2.2.1根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树的过程中,分析模型产生的所有状态特征,这些状态特征按出现顺序形成状态序列st1,st2,…,sty-1,sty
步骤2.2.2根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树的过程中,分析模型执行的所有转移动作,这些转移动作按执行顺序形成转移动作序列t1,t2,…,ty-1,ty
步骤2.2.3将状态特征序列与转移动作序列一一对应,组成状态特征与转移动作对,所有的状态特征与转移动作对构成训练数据集
Figure BDA0001584903220000071
m表示训练数据总数;
步骤2.3使用训练数据训练联合模型,得出训练好的联合模型,具体过程为:训练步骤1.5中提及的联合模型参数θ,具体为:使用生成的训练数据对联合模型进行训练,直至模型已经收敛或者达到迭代次数上限,n-gram bi_LSTM神经网络会将训练数据中的状态特征转换成特征向量,训练的目标是使多层人工神经网络输出的转移动作概率向量中,训练数据中的转移动作所对应的那一维的值最大;
步骤3:使用步骤2输出的训练好的联合模型,对待分析的中文语句进行分析,生成对应的联合句法树,从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果,具体为:
步骤3.1初始化联合模型中的分析模型,即设置分析模型中的s和q2为空,q1中是待分析的中文语句;
步骤3.2进行分析,按顺序循环执行步骤3.2中的各个步骤:
步骤3.2.1若没有执行terminate转移动作,则从联合模型中的分析模型中提取状态特征,然后根据状态特征使用联合模型中的n-gram bi_LSTM神经网络计算出当前状态的特征向量,然后执行步骤3.2.2,若已经执行terminate转移动作,则直接执行步骤3.3;
步骤3.2.2将步骤3.2.1计算出的特征向量输入到联合模型中的多层人工神经网络中,根据多层人工神经网络的计算结果,即转移动作概率向量,选择转移动作概率向量的各个维度中概率值最大的那一维对应的转移动作,作为下一步要执行的转移动作;
步骤3.2.3使用3.2.2选择出的转移动作更新分析模型的状态,然后返回步骤3.2.1;
步骤3.3输出联合句法树,即分析结果,然后结束分析过程;
其中,联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果,其中,联合句法树的所有叶子节点表示分词结果,每一个单独的叶子节点都是一个词,叶子节点的上一层节点即叶子节点的父节点表示词性标注和实体识别的结果,该层的节点或为词性标签或为实体标签,当该层的某一节点对应的叶子节点是实体的时候,该节点就是实体标签,表示实体识别的结果,否则该节点就是词性标签,表示词性标注的结果,该层再往上的各层节点都是成分标签,表示成分句法分析的结果;
至此,从步骤1到步骤3,完成了分词、词性标注、实体识别及句法分析的联合处理方法。
有益效果
分词、词性标注、实体识别及句法分析的联合处理方法,与现有技术相比,具有如下有益效果:
1.本发明所述方法将分词、词性标注、实体识别、成分句法分析四项基础任务进行联合处理,通过一次完整的分析过程,就可以获得这四项任务的分析结果,而不用依次处理这四项任务;
2.本发明所述方法中的联合模型因为联合解决了上述四项任务,因此有效避免了传统管道式方法所带来的错误传播问题,在一定程度上提高了分析结果的准确率;
3.本发明所述方法采用联合模型,并使用了基于转移的分析方法,使得本发明具有较快的执行速度。
附图说明
图1是本发明分词、词性标注、实体识别及句法分析的联合处理方法的步骤1至步骤3,即模型从构建到训练,再到用于分析使用的流程图;
图2是本发明分词、词性标注、实体识别及句法分析的联合处理方法中步骤2提及的用于生成联合句法树数据的一棵成分句法树的示意图;
图3是根据本发明提出的方法,使用现有的实体数据和成分句法树数据生成的一棵联合句法树的示意图;
图4是从细节上描述,通过分析状态特征获得转移动作概率向量的过程示意图;
图5是在分析“全球第五个迪斯尼乐园即将在这里向公众开放”这句语句的过程中,在某一个状态下,使用n-gram bi-LSTM神经网络对字向量,词向量和由字向量生成的字串向量进行转换的示意图。
实施例
本实施例描述了本发明“分词、词性标注、实体识别及句法分析的联合处理方法”从构建模型到训练模型,再到使用模型分析中文语句的完整流程。
图1为本发明所提方法实施的流程图,为了更清楚地说明相关内容,我们还将结合其他附图来共同说明。
步骤A:根据本发明的目的,构建一个联合模型,包括:定义联合模型结构,定义特征模板,定义联合模型的转移动作集合,定义特征向量的计算方法,定义联合模型的训练方法以及联合模型的损失函数,具体为:
步骤A.1定义联合模型结构:
首先构建n-gram bi-LSTM神经网络,结构如图5中间部分所示,本发明中有4个bi-LSTM神经网络,分别对应1-gram,2-gram,3-gram和4-gram;然后构建分析模型,结构如图5下方部分所示,由两个队列和一个栈构成,分别为q1,q2和s;最后是多层人工神经网络,由两个隐藏层和一个softmax函数组成,结构如图4上部分所示;
步骤A.2定义联合模型的转移动作集合:
转移动作集合中包括5个转移动作,分别是shift,reduce(t),reduce-unary(l),reduce-binary(l)和terminate,转移动作的执行内容同发明内容中步骤1.2一致;
步骤A.3定义特征模板:
特征模板如表1所示。
关于特征模板的具体说明,同发明内容中步骤1.3一致;
步骤A.4定义特征向量的计算方法:
首先,根据发明内容中的步骤1.4.1生成预训练的字表和词表以及随机初始化的标签向量表,然后根据发明内容中的步骤1.4.2对预训练的向量生成特征字串向量,举例说明,如图5中间部分所示,我们要获得“全”字的特征字串向量,那么方式如下:对1-gram bi-LSTM输入从字表中检索到的“全”字的预训练字向量,若检索不到,则用UNK字向量代替,得到bi-LSTM的正向和反向的两个输出向量;对2-gram bi-LSTM输入从词表中检索到的“全球”这一词的预训练词向量,若检索不到,则用从字表中检索到的“全”字和“球”字的预训练字向量求平均值得到的向量代替,若其中的字向量也检索不到,则对应的字向量用UNK字向量代替,再求平均值;与2-gram bi-LSTM同理,得到“全球第”的预训练向量输入到3-grambi-LSTM,得到“全球第五”的预训练向量输入到4-gram bi-LSTM中。同样,2-gram bi-LSTM,3-gram bi-LSTM和4-gram bi-LSTM都各自会产生两个输出向量,加上1-gram bi-LSTM的输出向量,一共8个输出向量,将这8个输出向量进行首尾拼接,得到“全”字的特征字串向量。如图5所示,根据特征模板,从图5所示的状态中提取到的特征有:s0w为空,对应的特征字串向量使用NULL特征字串向量;s1w为空,对应的特征字串向量使用NULL特征字串向量;q20c是“全”,使用“全”的特征字串向量;q2k-1c为空,对应的特征字串向量使用NULL特征字串向量;q10c是“球”,使用“球”的特征字串向量;q11c是“第”,使用“第”的特征字串向量;s0t或s0l为空,对应的向量使用标签向量表中的NULL标签向量;s1t或s1l为空,对应的向量使用标签向量表中的NULL标签向量。将上述提及的向量依次首尾拼接,得到分析模型当前状态的特征向量;
步骤A.5定义联合模型的训练方法以及联合模型的损失函数:
定义的损失函数及其说明,同发明内容中步骤1.5一致。在实际使用中,我们需要为用到的向量和参数矩阵设置具体的维度。对于预训练的字向量和词向量以及随机初始化的标签向量,设置维度均为50维,即
Figure BDA0001584903220000101
Figure BDA0001584903220000102
那么,使用字向量和词向量计算得到的特征字串向量的维度为50×8=400维,即
Figure BDA0001584903220000103
特征向量是由根据特征模板提取或计算相应的向量然后拼接得到的,所以,特征向量的维度为400×6+50×2=2500;多层人工神经网络最后通过softmax函数,获得的是转移动作概率向量,所以我们先来确定联合模型中的多层人工神经网络输出的转移动作概率向量的维度,我们将转移动作概率向量记为
Figure BDA0001584903220000104
影响
Figure BDA0001584903220000105
维度的因素有转移动作集合T中的转移动作的数量和词性标签,实体标签以及成分标签的数量,其中:shift对应1维;reduce(t),t的取值在词性标签和实体标签集合中,根据训练数据可得词性标签有35个,实体标签有18个,所以reduce(t)对应53维;reduce-unary(l),l的取值在成分标签集合中,根据训练数据可得成分标签有30个,所以reduce(l)对应30维;与reduce-unary(l)同理,reduce-binary(l)也对应30维;terminate对应1维,因此,
Figure BDA0001584903220000106
的维度为1+53+30+30+1=115维,即
Figure BDA0001584903220000107
多层人工神经网络的输入为2500维,输出为115维,因此我们令两个隐藏层的维度依次下降,设置:
Figure BDA0001584903220000108
Figure BDA0001584903220000109
步骤B:根据本发明及本实施例的目的,生成训练数据,包括:生成联合句法树数据,然后基于联合句法树数据生成训练数据,然后使用训练数据训练联合模型,具体为:
步骤B.1生成联合句法树数据:
本实施例使用实体数据和成分句法树数据来生成联合句法树数据,使用的实体数据例如“全球<ENAMEX TYPE="ORDINAL">第五</ENAMEX>个<ENAMEX TYPE="FAC">迪斯尼乐园</ENAMEX>即将在这里向公众开放。”,其中,在<ENAMEX></ENAMEX>标签之内的是实体,TYPE="ORDINAL"表示实体类型为“ORDINAL”,使用的成分句法树数据例如“(IP(NP(NP(NN全球))(QP(OD第五)(CLP(M个)))(NP(NR迪斯尼)(NN乐园)))(VP(ADVP(AD即将))(PP(P在)(NP(PN这里)))(PP(P向)(NP(NN公众)))(VP(VV开放)))(PU。))”,将该数据以树的形式画出来则如图2所示。将成分句法树数据和实体数据按照发明内容中的步骤2.1进行联合,则会得到联合句法树数据,其中二叉化工具使用的是ZPar开源代码中的“binarize.py”,然后对二叉化结果中的各个成分节点,只保留成分标记,去掉辅助标记,再与实体数据进行联合。使用上述的例子,生成的联合句法树为“(IP(NP(NP(NN全球))(NP(QP(OD(NER-ORDINAL第五))(CLP(M个)))(NP(NER-FAC迪斯尼乐园))))(IP(VP(ADVP(AD即将))(VP(PP(P在)(NP(PN这里)))(VP(PP(P向)(NP(NN公众)))(VP(VV开放)))))(PU。)))”,将该数据以树的形式画出来则如图3所示。
步骤B.2基于联合句法树数据生成训练数据:
本发明的训练数据是状态特征与转移动作对集合,具体到本实施例,例如,如果从“(IP(NP(NP(NN全球))(NP(QP(OD(NER-ORDINAL第五))(CLP(M个)))(NP(NER-FAC迪斯尼乐园))))(IP(VP(ADVP(AD即将))(VP(PP(P在)(NP(PN这里)))(VP(PP(P向)(NP(NN公众)))(VP(VV开放)))))(PU。)))”中提取训练数据,参照图5下方所示,我们可以从队列和栈中获得当前的状态,即“s0w:NULL,s1w:NULL,q10c:球,q11c:第,q20c:全,q2k-1c:NULL,s0t:NULL,s1t:NULL”,从联合句法树中,根据本发明定义的转移动作集合,我们可以知道,在当前状态下,分析模型将要执行的动作是shift。由此,上述状态和转移动作构成了一个训练数据对,即“s0w:NULL,s1w:NULL,q10c:球,q11c:第,q20c:全,q2k-1c:NULL,s0t:NULL,s1t:NULL;shift”。同理可得本发明的训练数据集。
步骤B.3使用训练数据训练联合模型:
使用生成的训练数据对联合模型进行训练,直至模型已经收敛或者达到迭代次数上限。我们可以通过模型分析的准确率变化来判断模型是否收敛,准确率是根据状态特征,模型判断出正确转移动作的训练数据数量与所有训练数据数量的比值,当相邻三轮训练得到的准确率的变化小于一个很小的数(可以取0.00001)时,我们可以认为模型已经收敛,可以停止训练;或者当模型已经迭代到了人为设置次数的上限(比如200轮,一轮对应使用完整的训练集训练一次),我们也可以停止训练;
步骤C:根据本发明及本实施例的目的,使用训练好的联合模型,对待分析的中文语句进行分析,生成对应的联合句法树,从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果,例如,待分析的中文语句为“全球第五个迪斯尼乐园即将在这里向公众开放。”,分析过程具体为:
步骤C.1初始化分析模型:设置s和q2为空,q1中是待分析的中文语句,如下表所示;
Figure BDA0001584903220000121
步骤C.2进行分析,分析过程的步骤说明同发明内容中步骤3.2一致,这里我们用表格的方式举例说明对一句话进行分析的完整过程,并且我们假定多层人工神经网络每一步判断的转移动作都是正确的(目的就是为了展示模型是如何进行分析的),表格中的状态是当前分析模型的状态,转移动作是根据当前状态判断出将要执行的转移动作,序号n所对应的状态是序号n-1的状态执行了序号n-1的转移动作生成的,s列的表格中的括号表示节点,表格如下:
Figure BDA0001584903220000122
Figure BDA0001584903220000131
Figure BDA0001584903220000141
执行terminate之后,(IP)出栈,分析结束;
步骤C.3输出联合句法树;
(IP)为根节点,通过树的遍历,从(IP)开始遍历,可以得到联合句法树,即分析结果,如图3所示。
至此,步骤A至C,从构建联合模型到准备训练数据,再到训练和使用模型,我们通过本实施例,展示了一种分词、词性标注、实体识别、句法分析的联合处理方法的执行过程。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (4)

1.分词、词性标注、实体识别及句法分析的联合处理方法,其特征在于:整体流程如下:
首先,分步构建出联合模型,具体包括如下子步骤:
步骤1.1定义联合模型结构;
其中,定义联合模型结构具体包括3个部分,首先是n-gram bi-LSTM神经网络,用来计算特征字串向量;然后是分析模型,用来提取状态特征和执行转移动作;最后是多层人工神经网络,用来根据状态特征选择将要执行的转移动作;
其中,n-gram bi-LSTM神经网络由x个独立的bi-LSTM神经网络组成,分别用来对待分析语句中长度为1至x的字串的预训练向量进行进一步转换,即n-gram中的n的取值为1至x,使用n-gram bi-LSTM神经网络生成带有上下文信息的特征字串向量;
分析模型由两个队列和一个栈构成,分别记为q1,q2和s;
其中,q1中存放的是待分析的中文语句,q2中存放的是从q1中移进的字,具体依据步骤1.2中执行转移动作shift而存储对应的结果,s中存放的是归约的结果,具体依据步骤1.2中执行转移动作reduce(t)、reduce-unary(l)、reduce-binary(l)以及terminate而存储对应的结果;
多层人工神经网络由两个隐藏层和一个softmax函数组成,用来接收特征向量作为神经网络的输入,特征向量经过两个隐藏层的转换,然后通过softmax函数计算出表示转移动作概率的向量,即转移动作概率向量,从输入层到第一个隐藏层的权值矩阵为W1,偏置为b1,第一个隐藏层到第二个隐藏层的权值矩阵为W2,偏置为b2,softmax函数的参数矩阵为Ws,隐藏层的激活函数使用ReLU激活函数;
步骤1.2定义联合模型的转移动作集合;
将转移动作集合记为
Figure FDA0002478427130000011
其中包含以下转移动作;
其中,shift是将q1中的第一个字移入q2,即执行shift时,q2中存放的是从q1中移进的字;
reduce(t)是将q2中的所有字归约成一个词,并为该词判断词性类别或实体类别,类别为t,然后生成一个新的节点,将该词和所带标签作为节点的属性,将这个新的节点移进s,并清空q2;即:执行reduce(t)时,s中存放的是对q2进行归约的结果;
reduce-unary(l)是将s的栈顶第一个节点出栈并进行一元归约,归约生成一个新的节点,并为该节点判断成分类别为l,然后将新生成的节点入栈,即新生成的节点是父节点,而被归约的节点是子节点;即:执行reduce-unary(l)时,s中存放的则是对s中栈顶第一个节点进行一元归约的结果;
reduce-binary(l)是将s的栈顶的前两个节点出栈并进行二元归约,归约生成一个新的节点,并为该节点判断成分类别为l,将该节点入栈,即新生成的节点是父节点,而归约前的栈顶的第一个节点是右孩子节点,第二个节点是左孩子节点;即:当执行reduce-binary(l)时,s中存放的则是对s中栈顶前两个节点进行二元归约的结果;
terminate:将s中的唯一节点出栈,即句法树的根节点出栈,结束分析过程;
其中,分析过程是指使用训练好的联合模型,对待分析的中文语句进行分析,具体对应步骤3的操作;
步骤1.3定义特征模板:联合模型中的分析模型依据特征模板从队列和栈的状态中提取特征;
其中,特征模板具体为:
1)字或词特征为s0w,则标签特征为s0t或s0l;
2)字或词特征为s1w,则标签特征为s1t或s1l;
3)字或词特征为q10c,则无标签特征;
4)字或词特征为q11c,则无标签特征;
5)字或词特征为无q20c,则无标签特征;
6)字或词特征为q2k-1c,则无标签特征;
其中,s表示栈,q1表示队列1,q2表示队列2,w表示词,c表示字,t表示词性标签,l表示成分标签,数字0,1,…,k-1表示节点在栈或队列中的位置,其中k-1表示最后一个位置,s0w表示栈顶的第一个节点所表示的词,s1w表示栈顶的第二个节点所表示的词;q10c表示队列1中的第一个字,同理q11c表示队列1中的第二个字,q20c表示队列2中的第一个字,q2k-1c表示队列2中的最后一个字;
若栈顶的第一个节点中的标签表示的是词性类别,则标签特征使用s0t,若栈顶的第一个节点中的标签表示的是成分类别,则标签特征使用s0l;
若栈顶的第二个节点中的标签表示的是词性类别,则标签特征使用s1t,若栈顶的第二个节点中的标签表示的是成分类别,则标签特征使用s1l;
因为在分析过程中,队列1和队列2中的内容都没有词性标签或成分标签,所以q10c,q11c,q20c和q2k-1c对应的标签特征是“无”;
步骤1.4定义特征向量的计算方法;
定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签向量,所以首先说明预训练字向量和词向量的方法;在分析某中文语句的过程中,为了使预训练的字向量,词向量和由字向量生成的字串向量能够携带该语句的上下文信息,使用n-gram bi-LSTM神经网络,对待分析语句中需要使用的预训练字向量,词向量和由字向量生成的字串向量进行转换,得到n-gram bi-LSTM神经网络的输出向量,将输出向量进行拼接,得到转换后的特征字串向量,特征向量由特征字串向量和标签向量组成,具体为:
1.4.1使用Skip-Gram模型和从百度新闻爬取的2G大小的新闻数据预训练字向量和词向量,然后从字向量中提取按字频从高到低排序后的前Nw个常用字及其向量组成预训练的字表,记为character_table,字频是字在新闻数据中出现的频次,从词向量中提取按词频从高到低排序后的前Nw个常用词及其向量组成预训练的词表,记为word_table,词频是词在新闻数据中出现的频次,character_table中的第i个字向量记为
Figure FDA0002478427130000021
word_table中的第i个词向量记为
Figure FDA0002478427130000022
字向量和词向量维度均为dw,即
Figure FDA0002478427130000023
Figure FDA0002478427130000024
character_table对应的字向量矩阵为Ec
Figure FDA0002478427130000025
word_table对应的词向量矩阵为Ew
Figure FDA0002478427130000026
随机初始化的标签向量组成标签向量表tl_table,标签向量表的大小为Ntl,标签向量记为
Figure FDA0002478427130000027
维度为dtl,即
Figure FDA0002478427130000031
tl_table对应的标签向量矩阵为Etl
Figure FDA0002478427130000032
1.4.2构建x个n-gram bi-LSTM神经网络,并且使n-gram中n的取值依次为1至x,即依次为1-gram,2-gram,3-gram,……,x-gram,当n等于1时,待分析的中文语句中的第j个字cj所对应的1-gram bi-LSTM神经网络的输入向量为cj的字向量,用
Figure FDA0002478427130000033
表示从character_table中提取出的cj的字向量,当n大于1时,cj所对应的n-gram bi-LSTM神经网络的输入向量为待分析的语句中cj…cj+n-1这个字串所对应的词向量或字串向量,即当cj…cj+n-1这个字串能够对应word_table中的某个词时,则使用这个词的词向量作为cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure FDA0002478427130000034
表示该词向量,若word_table中没有这个字串对应的词时,使用该字串的字串向量作为cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure FDA0002478427130000035
表示该字串的字串向量;用
Figure FDA0002478427130000036
对字cj对应的n-gram bi-LSTM神经网络的输入向量作统一的表示,字cj生成
Figure FDA0002478427130000037
的方法如下:
当n-gram中的n等于1时,若character_table中有cj对应的字向量,则
Figure FDA0002478427130000038
若没有cj对应的字向量,则使用character_table中的UNK字向量,即
Figure FDA0002478427130000039
当n-gram中的n大于1时,若word_table中有cj…cj+n-1对应的词向量,则
Figure FDA00024784271300000310
Figure FDA00024784271300000311
若没有cj…cj+n-1对应的词向量,则使用对应的字串向量,即
Figure FDA00024784271300000312
其中
Figure FDA00024784271300000313
的计算公式如公式(1):
Figure FDA00024784271300000314
公式(1)中,若字串cj…cj+n-1中的某个字在character_table中检索不到,则使用
Figure FDA00024784271300000315
代替不存在的字向量来计算
Figure FDA00024784271300000316
词wj生成
Figure FDA00024784271300000317
的方法与字cj生成
Figure FDA00024784271300000318
的方法类似,区别在于:当n等于1时,
Figure FDA00024784271300000319
等于词首字的字向量;当n大于1时,依次从词首字取长度为n的部分,根据字cj生成
Figure FDA00024784271300000320
的方法中当n大于1时的方法获得词的
Figure FDA00024784271300000321
若词的长度小于n,则取在待分析语句中与该词尾部相邻的字进行长度补齐,使补齐后的长度为n,再根据字cj生成
Figure FDA00024784271300000322
的方法中当n大于1时的方法获得词的
Figure FDA00024784271300000323
字串cj…cj+n-1生成
Figure FDA0002478427130000041
的方法与字cj生成
Figure FDA0002478427130000042
的方法类似,区别在于:当n等于1时,
Figure FDA0002478427130000043
等于字串首字的字向量;当n大于1时,依次从字串首字取长度为n的部分,根据字cj生成
Figure FDA0002478427130000044
的方法中当n大于1时的方法获得字串的
Figure FDA0002478427130000045
若字串的长度小于n,则取在待分析语句中与该字串尾部相邻的字进行长度补齐,使补齐后的长度为n,再根据字cj生成
Figure FDA0002478427130000046
的方法中当n大于1时的方法获得字串的
Figure FDA0002478427130000047
因此,一个字,对于x个n-gram bi-LSTM神经网络,会有x个
Figure FDA0002478427130000048
并且有
Figure FDA0002478427130000049
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量,记为
Figure FDA00024784271300000410
Figure FDA00024784271300000411
同理,一个词,对于x个n-gram bi-LSTM神经网络,会有x个
Figure FDA00024784271300000412
并且有
Figure FDA00024784271300000413
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure FDA00024784271300000414
Figure FDA00024784271300000415
一个字串,对于x个n-gram bi-LSTM神经网络,会有x个
Figure FDA00024784271300000416
并且有
Figure FDA00024784271300000417
经过x个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure FDA00024784271300000418
Figure FDA00024784271300000419
1.4.3根据步骤1.3定义的特征模板和分析模型的当前状态,获得相应的特征字串向量和标签向量,若某个特征为空,则使用对应该特征的NULL向量代替该向量,然后将这些向量进行首尾拼接得到特征向量,该向量就是用来表示当前状态的完整特征的特征向量;
步骤1.5定义联合模型的训练方法以及联合模型的损失函数;
其中,定义联合模型的训练方法为随机梯度下降法;定义联合模型的损失函数为(2):
Figure FDA00024784271300000420
其中,i表示的是第i个训练数据,ti是第i个训练数据中的转移动作,
Figure FDA00024784271300000421
是多层人工神经网络输出结果中ti的概率,
Figure FDA00024784271300000422
是l2正则化项,θ是待训练的所有模型参数,包括{W1,b1,W2,b2,Ws,Etl}和n-gram bi_LSTM神经网络的参数;
然后,利用现有的实体数据和成分句法树数据构造出联合句法树数据;
其中,联合句法树数据是构造训练数据要使用的中间数据,一棵联合句法树同时包含了分词、词性标注、实体识别和成分句法分析这四项任务的分析结果;因此,使用训练好的模型对待分析的中文语句进行分析时,要让模型的输出是一棵联合句法树;
再从联合句法树数据中提取出训练数据;
然后使用训练数据对联合模型进行训练,得出训练好的联合模型;
最后使用训练好的联合模型对待分析的中文语句进行分析,得到有标签的分析结果,即包含分析结果的联合句法树。
2.根据权利要求1所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特征在于:包括以下步骤:
步骤1:构建一个联合模型,具体包括:定义联合模型结构,定义联合模型的转移动作集合,定义特征模板,定义特征向量的计算方法,定义联合模型的训练方法以及联合模型的损失函数;
步骤2:生成训练数据,包括:生成联合句法树数据,再基于联合句法树数据生成训练数据,然后使用训练数据训练联合模型,得出训练好的联合模型;
步骤3:使用步骤2输出的训练好的联合模型,对待分析的中文语句进行分析,生成对应的联合句法树,从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果。
3.根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特征在于:步骤2,具体为:
步骤2.1生成联合句法树数据:针对当前没有能够直接使用的训练数据的情况,我们需要用现有的数据生成联合句法树数据作为生成训练数据的中间数据,然后以此生成训练数据,使用ontonotes5.0中文数据中的实体数据和成分句法树数据生成联合句法树数据,具体如下:
步骤2.1.1使用现有工具将成分句法树数据进行二叉化转换,生成二叉化的句法树;
步骤2.1.2在二叉化的句法树中加入实体标签节点,规则如下:若句法树中某个节点ni下的所有叶子节点组成的字串在实体数据中对应一个实体,则将ni下的所有叶子节点合并为一个新的叶子节点,然后为新的叶子节点增加一个新的父节点,新的父节点是由实体标签形成的节点,而新的实体标签节点的父节点是ni,而在ni下的所有原来的节点则全部被删去,由此方法依次将实体数据中的实体标签加入到成分句法树中,生成联合句法树数据;
步骤2.2基于联合句法树数据生成训练数据:根据定义的模型损失函数,需要从联合句法树数据中提取出状态特征与转移动作对,所有的状态特征与转移动作对构成训练数据集,具体包括如下子步骤:
步骤2.2.1根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树的过程中,分析模型产生的所有状态特征,这些状态特征按出现顺序形成状态序列st1,st2,…,sty-1,sty
步骤2.2.2根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树的过程中,分析模型执行的所有转移动作,这些转移动作按执行顺序形成转移动作序列t1,t2,…,ty-1,ty
步骤2.2.3将状态特征序列与转移动作序列一一对应,组成状态特征与转移动作对,所有的状态特征与转移动作对构成训练数据集
Figure FDA0002478427130000051
m表示训练数据总数;
步骤2.3使用训练数据训练联合模型,得出训练好的联合模型,具体为:训练步骤1.5中提及的联合模型参数θ,具体为:使用生成的训练数据对联合模型进行训练,直至模型已经收敛或者达到迭代次数上限,n-gram bi_LSTM神经网络会将训练数据中的状态特征转换成特征向量,训练的目标是使多层人工神经网络输出的转移动作概率向量中,训练数据中的转移动作所对应的那一维的值最大。
4.根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特征在于:步骤3,具体为:
步骤3.1初始化联合模型中的分析模型,即设置分析模型中的s和q2为空,q1中是待分析的中文语句;
步骤3.2进行分析,按顺序循环执行步骤3.2中的各个步骤:
步骤3.2.1若没有执行terminate转移动作,则从联合模型中的分析模型中提取状态特征,然后根据状态特征使用联合模型中的n-gram bi_LSTM神经网络计算出当前状态的特征向量,然后执行步骤3.2.2,若已经执行terminate转移动作,则直接执行步骤3.3;
步骤3.2.2将步骤3.2.1计算出的特征向量输入到联合模型中的多层人工神经网络中,根据多层人工神经网络的计算结果,即转移动作概率向量,选择转移动作概率向量的各个维度中概率值最大的那一维对应的转移动作,作为下一步要执行的转移动作;
步骤3.2.3使用3.2.2选择出的转移动作更新分析模型的状态,然后返回步骤3.2.1;
步骤3.3输出联合句法树,即分析结果,然后结束分析过程;
其中,联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果,其中,联合句法树的所有叶子节点表示分词结果,每一个单独的叶子节点都是一个词,叶子节点的上一层节点即叶子节点的父节点表示词性标注和实体识别的结果,该层的节点或为词性标签或为实体标签,当该层的某一节点对应的叶子节点是实体的时候,该节点就是实体标签,表示实体识别的结果,否则该节点就是词性标签,表示词性标注的结果,该层再往上的各层节点都是成分标签,表示成分句法分析的结果。
CN201810167568.0A 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法 Expired - Fee Related CN108280064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810167568.0A CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810167568.0A CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Publications (2)

Publication Number Publication Date
CN108280064A CN108280064A (zh) 2018-07-13
CN108280064B true CN108280064B (zh) 2020-09-11

Family

ID=62808857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810167568.0A Expired - Fee Related CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Country Status (1)

Country Link
CN (1) CN108280064B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807096A (zh) * 2018-08-02 2020-02-18 鼎复数据科技(北京)有限公司 一种小样本集上的信息对匹配方法及系统
CN109145293B (zh) * 2018-08-06 2021-05-28 中国地质大学(武汉) 一种面向案情的关键词提取方法及系统
CN109284374B (zh) * 2018-09-07 2024-07-05 百度在线网络技术(北京)有限公司 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
CN109271516B (zh) * 2018-09-26 2020-09-15 清华大学 一种知识图谱中实体类型分类方法及系统
CN110955748B (zh) * 2018-09-26 2022-10-28 华硕电脑股份有限公司 语意处理方法、电子装置以及非暂态电脑可读取记录媒体
CN111178492B (zh) * 2018-11-09 2020-12-11 安徽寒武纪信息科技有限公司 计算装置及相关产品、执行人工神经网络模型的计算方法
CN109684440B (zh) * 2018-12-13 2023-02-28 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN111538817B (zh) * 2019-01-18 2024-06-18 北京京东尚科信息技术有限公司 人机交互方法和装置
CN110008332B (zh) * 2019-02-13 2020-11-10 创新先进技术有限公司 通过强化学习提取主干词的方法及装置
CN109871893B (zh) * 2019-02-18 2020-10-16 清华大学 基于循环时域保持生成的行为预测方法和装置
CN110059324B (zh) * 2019-04-26 2022-12-13 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN111950278B (zh) * 2019-05-14 2024-09-06 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN110298036B (zh) * 2019-06-06 2022-07-22 昆明理工大学 一种基于词性增量迭代的在线医疗文本症状识别方法
CN110288011B (zh) * 2019-06-17 2024-09-10 平安科技(深圳)有限公司 文本样本打标方法、装置、设备及计算机可读存储介质
CN110309511B (zh) * 2019-07-04 2022-12-09 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN111008283B (zh) * 2019-10-31 2023-06-20 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统
CN111160035B (zh) * 2019-12-31 2023-06-20 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
CN111325016B (zh) * 2020-02-04 2024-02-02 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN112052684A (zh) * 2020-09-07 2020-12-08 南方电网数字电网研究院有限公司 电力计量的命名实体识别方法、装置、设备和存储介质
CN112561038A (zh) * 2020-12-21 2021-03-26 之江实验室 一种批数据集构建方法、装置、电子设备及存储介质
CN112560441B (zh) * 2020-12-22 2024-02-09 东北大学 自下而上规则结合神经网络的成分句法分析树构造方法
CN112784576B (zh) * 2021-01-13 2022-07-29 哈尔滨工程大学 一种文本依存句法分析方法
CN112836506B (zh) * 2021-02-24 2024-06-28 中国人民解放军国防科技大学 一种基于上下文语义的信源编译码方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks;Hashimoto Kazuma 等;《Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing》;20170930;1923-1933 *
LTP: A chinese language technology platform;Che Wanxiang 等;《Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations》;20100831;13-16 *
中文词法句法语义联合分析模型研究;张梅山;《中国博士学位论文全文数据库 信息科技辑》;20150215(第02期);I138-39 *
基于字符的中文分词、词性标注和依存句法分析联合模型;郭振 等;《中文信息学报》;20141115(第06期);正文第2-8页引言、第2-4节及图2、表1 *
基于循环神经网络的依存句法分析模型研究;张俊驰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170615(第06期);I138-1573 *
汉语依存句法分析技术研究;郭振;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151015(第10期);I138-580 *
面向依存句法分析优化技术的研究;马骥;《中国博士学位论文全文数据库 信息科技辑》;20170315(第03期);正文第50页第3.9节 *

Also Published As

Publication number Publication date
CN108280064A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280064B (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN104462066B (zh) 语义角色标注方法及装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN112214996B (zh) 一种面向科技信息文本的文本摘要生成方法及系统
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
Pichl et al. Alquist 2.0: Alexa prize socialbot based on sub-dialogue models
CN110516145B (zh) 一种基于句向量编码的信息搜索方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113779988A (zh) 一种通信领域过程类知识事件抽取方法
CN114692568A (zh) 一种基于深度学习的序列标注方法及应用
CN117371523A (zh) 基于人机混合增强的教育知识图谱构建方法与系统
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN112765983A (zh) 一种基于结合知识描述的神经网络的实体消歧的方法
CN116561251A (zh) 一种自然语言处理方法
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200911

CF01 Termination of patent right due to non-payment of annual fee