CN108280064A - 分词、词性标注、实体识别及句法分析的联合处理方法 - Google Patents

分词、词性标注、实体识别及句法分析的联合处理方法 Download PDF

Info

Publication number
CN108280064A
CN108280064A CN201810167568.0A CN201810167568A CN108280064A CN 108280064 A CN108280064 A CN 108280064A CN 201810167568 A CN201810167568 A CN 201810167568A CN 108280064 A CN108280064 A CN 108280064A
Authority
CN
China
Prior art keywords
word
vector
node
data
conjunctive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810167568.0A
Other languages
English (en)
Other versions
CN108280064B (zh
Inventor
郭平
常薇
辛欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810167568.0A priority Critical patent/CN108280064B/zh
Publication of CN108280064A publication Critical patent/CN108280064A/zh
Application granted granted Critical
Publication of CN108280064B publication Critical patent/CN108280064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明涉及分词、词性标注、实体识别及句法分析的处理方法,是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法,属于自然语言处理技术领域。核心思想如下:首先分步构建出联合模型;然后利用现有的实体数据和成分句法树数据构造出联合句法树数据;接着从联合句法树数据中提取出训练数据;再使用训练数据对联合模型进行训练,最后使用训练好的联合模型对待分析的中文语句进行分析,得到作为分析结果的联合句法树。该方法有效地避免了错误传播问题,并且是一种基于转移的分析方法,保证了本发明的执行速度。

Description

分词、词性标注、实体识别及句法分析的联合处理方法
技术领域
[0001] 本发明涉及分词、词性标注、实体识别及句法分析的联合处理方法,属于自然语言 处理技术领域。
背景技术
[0002] 分词、词性标注、实体识别和句法分析都属于自然语言处理领域中重要的基础任 务。分词,就是让模型能够准确地识别句子中的词,因为在一些语言中,例如中文,在句子中 是没有明显的分词标记的,词与词之间没有间隔,而在进行文本分析的时候,往往需要使用 到词级别的文本,所以,分词成为了一项必需的基础任务。词性标注,就是判断句子中每个 词的语法范畴,确定其词性并加以标注。实体识别,就是识别句子中具有特定意义的实体, 主要包括人名、地名、机构名等。句法分析,主要包括成分句法分析和依存句法分析,本发明 中涉及的是成分句法分析,成分句法分析就是获取整个句子的合乎语法的句法结构,句法 结构一般用树状数据结构表示,所以分析结果通常称为句法树。做好这四项基础任务,是分 析和理解自然语言的关键,也是信息抽取、问答系统、机器翻译等自然语言上层任务的重要 基础。
[0003] 在传统方式下,自然语言处理的中基础分析任务都是单独完成的,不同任务之间 通过管道方式进行,即首先对待分析的中文语句进行分词,然后在分词的基础上进行词性 标注和实体识别,然后在前面两步的基础上进行句法分析。这种管道式的处理方法有一个 不可避免的问题,即错误传播问题,在前面任务中产生的错误分析结果会随着分析的进行 传播到后面的任务中,从而影响分析的准确性。所以,为了解决错误传播的问题,一些学者 提出了一些联合模型,将分词、词性标注、实体识别和句法分析中的两项或者是三项任务进 行联合,在分析文本的时候不使用管道式的方法,而使用联合模型来处理,从而避免了错误 传播的问题。本发明受此启发,提出一种联合处理方法,该方法能够同时解决四项任务,在 解决的任务数量上多于以前的模型方法。同样,因为是一种联合方法,本发明同样能够避免 管道式方法的错误传播问题。在句法分析的方法上划分,句法分析又可以分为基于图的分 析方法和基于转移的分析方法,本发明的分析方法使用的是基于转移的分析方法,基于转 移的分析方法具有比基于图的分析方法更快的执行速度。
[0004] 本发明通过为待分析的中文语句生成联合句法树,完成对该语句的分词、词性标 注、实体识别和成分句法分析。联合句法树是本发明提出的一种带有实体标签节点的成分 句法树。在联合句法树中,分词的结果可以从句法树的叶子节点中获得,每一个单独的叶子 节点都是一个词;词性标注和实体识别的结果可以从叶子节点的父节点(上一层节点)中获 得,若一个词属于某类实体,则该节点的父节点就是实体节点,表示该节点的实体类型,否 则该节点的父节点是词性节点,表示该节点的词性类型;成分句法分析的结果就是句法树 的其他节点。由此,一个联合句法树包含上述四项任务的分析结果。
发明内容
[0005] 本发明的目的是为了解决传统方法中以管道的方式进行分词、词性标注、实体识 别和成分句法分析任务时产生错误在任务之间传播,从而导致任务准确率下降的问题,提 供了分词、词性标注、实体识别及句法分析的联合处理方法,是一种联合处理分词、词性标 注、实体识别和成分句法分析任务的方法,该方法有效地避免了错误传播问题,并且是一种 基于转移的分析方法,保证了本发明的执行速度。
[0006] 为实现上述目的,本发明的核心思想如下:首先构建模型,使用监督学习训练出模 型,然后使用训练好的模型对待分析的中文语句进行分析;其中,监督学习是使用有标签的 训练数据对模型进行训练,从而得到训练好的模型,然后再使用训练好的模型对无标签的 数据进行分类,得到包含分类标签的结果,即有标签的分析结果;对于本发明而言,因为目 前没有直接能够使用的训练数据,所以我们需要使用现有的数据逐步构建出要使用的训练 数据,然后用训练数据训练构建出的模型;当模型训练好之后,我们就可以使用模型对中文 语句进行分析,得到有标签的分析结果。
[0007] 本发明的整体流程如下:
[0008] 首先分步构建出联合模型;
[0009] 然后利用现有的实体数据和成分句法树数据构造出联合句法树数据;
[0010] 其中,联合句法树数据是构造训练数据要使用的中间数据,一棵联合句法树同时 包含了分词、词性标注、实体识别和成分句法分析这四项任务的分析结果;因此,使用训练 好的模型对待分析的中文语句进行分析时,要让模型的输出是一棵联合句法树;
[0011] 再从联合句法树数据中提取出训练数据;
[0012] 然后使用训练数据对联合模型进行训练,得出训练好的联合模型;
[0013] 最后使用训练好的联合模型对待分析的中文语句进行分析,得到有标签的分析结 果,即包含分析结果的联合句法树;
[0014] 为实现上述目的,本发明所采用的技术方案如下:
[0015] 分词、词性标注、实体识别及句法分析的联合处理方法,包括以下步骤:
[0016] 步骤1:构建一个联合模型,具体包括:定义联合模型结构,定义联合模型的转移动 作集合,定义特征模板,定义特征向量的计算方法,定义联合模型的训练方法以及联合模型 的损失函数,具体包括如下子步骤:
[0017] 步骤1.1定义联合模型结构;
[0018] 其中,定义联合模型结构具体包括3个部分,首先是n-gram bi-LSTM神经网络,用 来计算特征字串向量;然后是分析模型,用来提取状态特征和执行转移动作;最后是多层人 工神经网络,用来根据状态特征选择将要执行的转移动作;
[0019] 其中,n-gram bi-LSTM神经网络由X个独立的M-LSTM神经网络组成,分别用来对 待分析语句中长度为1至X的字串的预训练向量进行进一步转换,即n-gram中的η的取值为1 至X,使用n-gram bi-LSTM神经网络生成带有上下文信息的特征字串向量;
[0020] 分析模型由两个队列和一个栈构成,分别记为Φ,屯和8;
[0021] 其中,qi中存放的是待分析的中文语句,q2中存放的是从qi中移进的字,具体依据 步骤1.2中执行转移动作shift而存储对应的结果,s中存放的是归约的结果,具体依据步骤 1 · 2中执行转移动作reduce (t)、reduce_unary (I)、reduce_binary (1)以及terminate而存 储对应的结果;
[0022] 多层人工神经网络由两个隐藏层和一个softmax函数组成,用来接收特征向量作 为神经网络的输入,特征向量经过两个隐藏层的转换,然后通过softmax函数计算出表示转 移动作概率的向量,即转移动作概率向量,从输入层到第一个隐藏层的权值矩阵为W1,偏置 为bi,第一个隐藏层到第二个隐藏层的权值矩阵为W2,偏置为b2, softmax函数的参数矩阵为 Ws,隐藏层的激活函数使用ReLU激活函数;
[0023] 步骤1.2定义联合模型的转移动作集合;
[0024] 将转移动作集合记为T,其中包含以下转移动作;
[0025] 其中,shift是将qi中的第一个字移入q2,即执行shift时,q2中存放的是从qi中移 进的字;
[0026] reduce (t)是将q2中的所有字归约成一个词,并为该词判断词性类别或实体类别, 类别为t,然后生成一个新的节点,将该词和所带标签作为节点的属性,将这个新的节点移 进s,并清空q2;即:执行reduce⑴时,s中存放的是对q2进行归约的结果;
[0027] reduce-unary⑴是将s的栈顶第一个节点出栈并进行一元归约,归约生成一个新 的节点,并为该节点判断成分类别为1,然后将新生成的节点入栈,即新生成的节点是父节 点,而被归约的节点是子节点;即:执行reduce-unary⑴时,s中存放的则是对s中栈顶第一 个节点进行一元归约的结果;
[0028] reduce-binary (1)是将s的栈顶的前两个节点出栈并进行二元归约,归约生成一 个新的节点,并为该节点判断成分类别为1,将该节点入栈,即新生成的节点是父节点,而归 约前的栈顶的第一个节点是右孩子节点,第二个节点是左孩子节点;即:当执行reduce-binary (1) 时, s 中存放的则是对s 中栈顶前两个节点进行二元归约的结果;
[0029] terminate:将s中的唯一节点出栈,S卩句法树的根节点出栈,结束分析过程;
[0030] 其中,分析过程是指使用训练好的联合模型,对待分析的中文语句进行分析,具体 对应步骤3的操作;
[0031] 步骤1.3定义特征模板:联合模型中的分析模型依据如下表1所示的特征模板从队 列和栈的状态中提取特征:
[0032] 表1特征模板
Figure CN108280064AD00101
[0035] 其中,s表示栈,qi表示队列I,q2表示队列2,w表示词,c表示字,t表示词性标签,1表 示成分标签,数字〇,1,…,k-Ι表示节点在栈或队列中的位置,其中k-Ι表示最后一个位置, s〇w表示栈顶的第一个节点所表示的词,slw表示栈顶的第二个节点所表示的词;qi0c表示 队列1中的第一个字,同理qdc表示队列1中的第二个字,q20c表示队列2中的第一个字,q2k_ Ic表不队列2中的最后一个字;
[0036] 若栈顶的第一个节点中的标签表示的是词性类别,则标签特征使用S〇t,若栈顶的 第一个节点中的标签表示的是成分类别,则标签特征使用sOl;
[0037] 若栈顶的第二个节点中的标签表示的是词性类别,则标签特征使用slt,若栈顶的 第二个节点中的标签表示的是成分类别,则标签特征使用si 1;
[0038] 因为在分析过程中,队列1和队列2中的内容都没有词性标签或成分标签,所以 qiOc,qilc,q2〇c和q2k_lc对应的标签特征是“无”;
[0039]步骤1.4定义特征向量的计算方法;
[0040] 定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签 向量,所以首先说明预训练字向量和词向量的方法;在分析某中文语句的过程中,为了使预 训练的字向量,词向量和由字向量生成的字串向量能够携带该语句的上下文信息,使用n-gram bi-LSTM神经网络,对待分析语句中需要使用的预训练字向量,词和由字向量生成的 字串向量进行转换,得到n-gram bi-LSTM神经网络的输出向量,将输出向量进行拼接,得到 转换后的特征字串向量,特征向量由特征字串向量和标签向量组成,具体为:
[0041] 1.4.1使用Skip-Gram模型和从百度新闻爬取的2G大小的新闻数据预训练字向量 和词向量,然后从字向量中提取按字频从高到低排序后的前Nw个常用字及其向量组成预训 练的字表,记为character_table,字频是字在新闻数据中出现的频次,从词向量中提取按 词频从高到低排序后的前Nw个常用词及其向量组成预训练的词表,记为worcLtable,词频 是词在新闻数据中出现的频次,character_table中的第i个字向量记为,word_table中
Figure CN108280064AD00111
的第i个词向量记为
Figure CN108280064AD00112
,字向量和词向量维度均为dw,即
Figure CN108280064AD00113
:character_table对 应的字向量矩阵为Ee且
Figure CN108280064AD00114
',word_table对应的词向量矩阵为Ew且
Figure CN108280064AD00115
随机初始化的标签向量组成标签向量表tl_table,标签向量表的大小为Nti,标签向量记为
Figure CN108280064AD00116
,维度为dti,SP
Figure CN108280064AD00117
,tl_table对应的标签向量矩阵为Etl且
Figure CN108280064AD00118
[0042] 1.4.2构建X个n-gram bi-LSTM神经网络,并且使n-gram中η的取值依次为1至X,即 依次为l-gram,2-gram,3-gram,......,x-gram,当η等于1时,待分析的中文语句中的第j个字 Cj所对应的1-gram bi-LSTM神经网络的输入向量为Cj的字向量,用
Figure CN108280064AD00119
表示从character_ table中提取出的Cj的字向量,当η大于1时,Cj所对应的n-gram bi-LSTM神经网络的输入向 量为待分析的语句中VCj+H这个字串所对应的词向量或字串向量,即当VCj+H这个字 串能够对应word_table中的某个词时,则使用这个词的词向量作为Cj所对应的n-gram bi-LSTM神经网络的输入向量,用'
Figure CN108280064AD001110
表示该词向量,若word_table中没有这个字串对应 的词时,使用该字串的字串向量作为Cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure CN108280064AD001111
表示该字串的字串向量;用
Figure CN108280064AD001112
:对字Cj对应的n-gram bi-LSTM神经网络的输入向 量作统一的表不,字Cj生成
Figure CN108280064AD001113
的方法如下:
[0043] 当n-gram中的η等于1时,若character_table中有c j对应的字向量,则
Figure CN108280064AD001114
若没有cj对应的字向量,则使用character_tabI e中的UNK字向量,BP ^
Figure CN108280064AD001115
[0044] 当n-gram中的η大于1时,若word_table中有Cj…Cj + n-i对应的词向量,贝Ij
Figure CN108280064AD001116
若没有Cj…Cj + n-i对应的词向量,则使用对应的字串向量,即
Figure CN108280064AD00121
,其中
Figure CN108280064AD00122
的计算公式如公式(1):
[0045]
Figure CN108280064AD00123
[0046] 公式⑴中,若字串Cj"_Cj+n-i中的某个字在character_table中检索不到,则使用
Figure CN108280064AD00124
代替不存在的字向量来计算
Figure CN108280064AD00125
[0047] 词巧生成
Figure CN108280064AD00126
的方法与字Cj生成
Figure CN108280064AD00127
的方法类似,区别在于:当η等于1时:
Figure CN108280064AD00128
等于词首字的字向量;当η大于1时,依次从词首字取长度为η的部分,根据字生成
Figure CN108280064AD00129
的 方法中当η大于1时的方法获得词的
Figure CN108280064AD001210
,若词的长度小于η,则取在待分析语句中与该词尾 部相邻的字进行长度补齐,使补齐后的长度η为,再根据字Cj生成
Figure CN108280064AD001211
的方法中当η大于1时 的方法获得词的
Figure CN108280064AD001212
[0048] 字串CfCjt1生成
Figure CN108280064AD001213
的方法与字Cj生成
Figure CN108280064AD001214
的方法类似,区别在于:当η等于1 时,
Figure CN108280064AD001215
等于字串首字的字向量;当η大于1时,依次从字串首字取长度为η的部分,根据字Cj 生成
Figure CN108280064AD001216
的方法中当η大于1时的方法获得字串的
Figure CN108280064AD001217
,若字串的长度小于η,则取在待分 析语句中与该字串尾部相邻的字进行长度补齐,使补齐后的长度η为,再根据字Cj生成
Figure CN108280064AD001218
的方法中当η大于1时的方法获得字串的
Figure CN108280064AD001219
[0049] 因此,一个字,对于X个n-gram bi-LSTM神经网络,会有X个
Figure CN108280064AD001220
.并且有
Figure CN108280064AD001221
,经过X个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些 向量首尾拼接,得到特征字串向量,记为
Figure CN108280064AD001222
Figure CN108280064AD001223
;同理,一个词,对于X个n- gram bi-LSTM神经网络,会有X个
Figure CN108280064AD001224
_并且有
Figure CN108280064AD001225
,经过x个n-gram bi-LSTM神经网 络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure CN108280064AD001226
Figure CN108280064AD001227
,一个字串,对于X个n-gram bi-LSTM神经网络,会有Xf1
Figure CN108280064AD001228
,并且有
Figure CN108280064AD001229
,经过X个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些 向量首尾拼接,得到特征字串向量
Figure CN108280064AD001230
Figure CN108280064AD001231
[0050] 1.4.3根据步骤1.3定义的特征模板和分析模型的当前状态,获得相应的特征字串 向量和标签向量,若某个特征为空,则使用对应该特征的NULL向量代替该向量,然后将这些 向量进行首尾拼接得到特征向量,该向量就是用来表示当前状态的完整特征的特征向量;
[0051] 步骤1.5定义联合模型的训练方法以及联合模型的损失函数;
[0052] 其中,定义联合模型的训练方法为随机梯度下降法;定义联合模型的损失函数为 (2):
[0053]
Figure CN108280064AD001232
[0054] 其中,i表示的是第i个训练数据,U是第i个训练数据中的转移动作,
Figure CN108280064AD001233
是多层人 工神经网络输出结果中^的概率,
Figure CN108280064AD001234
是I2正则化项,Θ是待训练的所有模型参数,包括 {ffi,bi,W2,b2,Ws,Eu}和n-gram bi_LSTM神经网络的参数;
[0055] 步骤2:生成训练数据,包括:生成联合句法树数据,再基于联合句法树数据生成训 练数据,然后使用训练数据训练联合模型,得出训练好的联合模型;具体为:
[0056] 步骤2.1生成联合句法树数据:针对当前没有能够直接使用的训练数据的情况,我 们需要用现有的数据生成联合句法树数据作为生成训练数据的中间数据,然后以此生成训 练数据,使用〇nt〇n〇tes5.0中文数据中的实体数据(数据文件后缀名为.name)和成分句法 树数据(数据文件后缀名为.parse)生成联合句法树数据,具体如下:
[0057] 步骤2.1.1使用现有工具将成分句法树数据进行二叉化转换,生成二叉化的句法 树;
[0058] 步骤2.1.2在二叉化的句法树中加入实体标签节点,规则如下:若句法树中某个节 点m下的所有叶子节点组成的字串在实体数据中对应一个实体,则将m下的所有叶子节点 合并为一个新的叶子节点,然后为新的叶子节点增加一个新的父节点,新的父节点是由实 体标签形成的节点,而新的实体标签节点的父节点是m,而在m下的所有原来的节点则全部 被删去,由此方法依次将实体数据中的实体标签加入到成分句法树中,生成联合句法树数 据;
[0059] 步骤2.2基于联合句法树数据生成训练数据:根据定义的模型损失函数,需要从联 合句法树数据中提取出状态特征与转移动作对,所有的状态特征与转移动作对构成训练数 据集,具体包括如下子步骤:
[0060] 步骤2.2.1根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句 法树的过程中,分析模型产生的所有状态特征,这些状态特征按出现顺序形成状态序列 Stl,st2,…,sty-1,Sty;
[0061] 步骤2.2.2根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句 法树的过程中,分析模型执行的所有转移动作,这些转移动作按执行顺序形成转移动作序 列 tl,t2,.",ty-l,ty;
[0062] 步骤2.2.3将状态特征序列与转移动作序列一一对应,组成状态特征与转移动作 对,所有的状态特征与转移动作对构成训练数据集
Figure CN108280064AD00131
表示训练数据总数;
[0063] 步骤2.3使用训练数据训练联合模型,得出训练好的联合模型,具体过程为:训练 步骤1.5中提及的联合模型参数Θ,具体为:使用生成的训练数据对联合模型进行训练,直至 模型已经收敛或者达到迭代次数上限,n-gram bi_LSTM神经网络会将训练数据中的状态特 征转换成特征向量,训练的目标是使多层人工神经网络输出的转移动作概率向量中,训练 数据中的转移动作所对应的那一维的值最大;
[0064] 步骤3:使用步骤2输出的训练好的联合模型,对待分析的中文语句进行分析,生成 对应的联合句法树,从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果, 具体为:
[0065] 步骤3.1初始化联合模型中的分析模型,即设置分析模型中的^Pq2为空,q冲是待 分析的中文语句;
[0066] 步骤3.2进行分析,按顺序循环执行步骤3.2中的各个步骤:
[0067] 步骤3.2.1若没有执行terminate转移动作,则从联合模型中的分析模型中提取状 态特征,然后根据状态特征使用联合模型中的n-gram bi_LSTM神经网络计算出当前状态的 特征向量,然后执行步骤3.2.2,若已经执行terminate转移动作,则直接执行步骤3.3;
[0068] 步骤3.2.2将步骤3.2.1计算出的特征向量输入到联合模型中的多层人工神经网 络中,根据多层人工神经网络的计算结果,即转移动作概率向量,选择转移动作概率向量的 各个维度中概率值最大的那一维对应的转移动作,作为下一步要执行的转移动作;
[0069] 步骤3.2.3使用3.2.2选择出的转移动作更新分析模型的状态,然后返回步骤 3.2.1;
[0070] 步骤3.3输出联合句法树,即分析结果,然后结束分析过程;
[0071] 其中,联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果,其 中,联合句法树的所有叶子节点表示分词结果,每一个单独的叶子节点都是一个词,叶子节 点的上一层节点即叶子节点的父节点表示词性标注和实体识别的结果,该层的节点或为词 性标签或为实体标签,当该层的某一节点对应的叶子节点是实体的时候,该节点就是实体 标签,表示实体识别的结果,否则该节点就是词性标签,表示词性标注的结果,该层再往上 的各层节点都是成分标签,表示成分句法分析的结果;
[0072] 至此,从步骤1到步骤3,完成了分词、词性标注、实体识别及句法分析的联合处理 方法。
[0073] 有益效果
[0074] 分词、词性标注、实体识别及句法分析的联合处理方法,与现有技术相比,具有如 下有益效果:
[0075] 1.本发明所述方法将分词、词性标注、实体识别、成分句法分析四项基础任务进行 联合处理,通过一次完整的分析过程,就可以获得这四项任务的分析结果,而不用依次处理 这四项任务;
[0076] 2.本发明所述方法中的联合模型因为联合解决了上述四项任务,因此有效避免了 传统管道式方法所带来的错误传播问题,在一定程度上提高了分析结果的准确率;
[0077] 3.本发明所述方法采用联合模型,并使用了基于转移的分析方法,使得本发明具 有较快的执行速度。
附图说明
[0078] 图1是本发明分词、词性标注、实体识别及句法分析的联合处理方法的步骤1至步 骤3,即模型从构建到训练,再到用于分析使用的流程图;
[0079] 图2是本发明分词、词性标注、实体识别及句法分析的联合处理方法中步骤2提及 的用于生成联合句法树数据的一棵成分句法树的示意图;
[0080] 图3是根据本发明提出的方法,使用现有的实体数据和成分句法树数据生成的一 棵联合句法树的示意图;
[0081] 图4是从细节上描述,通过分析状态特征获得转移动作概率向量的过程示意图;
[0082] 图5是在分析“全球第五个迪斯尼乐园即将在这里向公众开放”这句语句的过程 中,在某一个状态下,使用n-gram bi-LSTM神经网络对字向量,词向量和由字向量生成的字 串向量进行转换的示意图。 实施例
[0083] 本实施例描述了本发明“分词、词性标注、实体识别及句法分析的联合处理方法” 从构建模型到训练模型,再到使用模型分析中文语句的完整流程。
[0084] 图1为本发明所提方法实施的流程图,为了更清楚地说明相关内容,我们还将结合 其他附图来共同说明。
[0085] 步骤A:根据本发明的目的,构建一个联合模型,包括:定义联合模型结构,定义特 征模板,定义联合模型的转移动作集合,定义特征向量的计算方法,定义联合模型的训练方 法以及联合模型的损失函数,具体为:
[0086] 步骤A. 1定义联合模型结构:
[0087] 首先构建n-gram bi-LSTM神经网络,结构如图5中间部分所示,本发明中有4个bi-LSTM神经网络,分别对应1-gram,2-gram,3-gram和4-gram;然后构建分析模型,结构如图5 下方部分所示,由两个队列和一个栈构成,分别为和s;最后是多层人工神经网络,由两 个隐藏层和一个sof tmax函数组成,结构如图4上部分所示;
[0088] 步骤A. 2定义联合模型的转移动作集合:
[0089] 转移动作集合中包括5个转移动作,分别是shift,reduce (t),reduce_unary (1), reduce-binary (1)和terminate,转移动作的执行内容同发明内容中步骤1.2—致;
[0090] 步骤A. 3定义特征模板:
[0091] 特征模板如表1所示。
[0092] 关于特征模板的具体说明,同发明内容中步骤1.3—致;
[0093] 步骤A. 4定义特征向量的计算方法:
[0094] 首先,根据发明内容中的步骤1.4.1生成预训练的字表和词表以及随机初始化的 标签向量表,然后根据发明内容中的步骤1.4.2对预训练的向量生成特征字串向量,举例说 明,如图5中间部分所示,我们要获得“全”字的特征字串向量,那么方式如下:对I -gram b i -LSTM输入从字表中检索到的“全”字的预训练字向量,若检索不到,则用UNK字向量代替,得 至Ijbi-LSTM的正向和反向的两个输出向量;对2-gram bi-LSTM输入从词表中检索到的“全 球”这一词的预训练词向量,若检索不到,则用从字表中检索到的“全”字和“球”字的预训练 字向量求平均值得到的向量代替,若其中的字向量也检索不到,则对应的字向量用UNK字向 量代替,再求平均值;与2-gram M-LSTM同理,得到“全球第”的预训练向量输入到3-gram bi-LSTM,得到“全球第五”的预训练向量输入到4-gram bi-LSTM中。同样,2-gram bi-LSTM, 3-gram bi-LSTM和4-gram bi-LSTM都各自会产生两个输出向量,加上1-gram bi-LSTM的输 出向量,一共8个输出向量,将这8个输出向量进行首尾拼接,得到“全”字的特征字串向量。 如图5所示,根据特征模板,从图5所示的状态中提取到的特征有:sOw为空,对应的特征字串 向量使用NULL特征字串向量;sIw为空,对应的特征字串向量使用NULL特征字串向量;q20c 是“全”,使用“全”的特征字串向量;q2k_ I c为空,对应的特征字串向量使用NULL特征字串向 量;qi0c是“球”,使用“球”的特征字串向量;qdc是“第”,使用“第”的特征字串向量;sOt或 s01为空,对应的向量使用标签向量表中的NULL标签向量;sit或sll为空,对应的向量使用 标签向量表中的NULL标签向量。将上述提及的向量依次首尾拼接,得到分析模型当前状态 的特征向量;
[0095] 步骤A. 5定义联合模型的训练方法以及联合模型的损失函数:
[0096] 定义的损失函数及其说明,同发明内容中步骤1.5—致。在实际使用中,我们需要 为用到的向量和参数矩阵设置具体的维度。对于预训练的字向量和词向量以及随机初始化 的标签向量,设置维度均为50维,S卩
Figure CN108280064AD00161
,且
Figure CN108280064AD00162
;那么,使用字向量和 词向量计算得到的特征字串向量的维度为50 X 8 = 400维,S卩
Figure CN108280064AD00163
:特征向量是由根 据特征模板提取或计算相应的向量然后拼接得到的,所以,特征向量的维度为400 X 6+50 X 2 = 2500;多层人工神经网络最后通过softmax函数,获得的是转移动作概率向量,所以我们 先来确定联合模型中的多层人工神经网络输出的转移动作概率向量的维度,我们将转移动 作概率向量记为
Figure CN108280064AD00164
,影响
Figure CN108280064AD00165
维度的因素有转移动作集合T中的转移动作的数量和词性标 签,实体标签以及成分标签的数量,其中:shift对应1维;reduce (t),t的取值在词性标签和 实体标签集合中,根据训练数据可得词性标签有35个,实体标签有18个,所以reduce (t)对 应53维;reduce-unary (1),1的取值在成分标签集合中,根据训练数据可得成分标签有30 个,所以reduce⑴对应30维;与reduce-unary⑴同理,reduce-binary⑴也对应30维; terminate对应1维,因此,
Figure CN108280064AD00166
的维度为1+53+30+30+1 = 115维,S卩
Figure CN108280064AD00167
i多层人工神 经网络的输入为2500维,输出为115维,因此我们令两个隐藏层的维度依次下降,设置:
Figure CN108280064AD00168
[0097] 步骤B:根据本发明及本实施例的目的,生成训练数据,包括:生成联合句法树数 据,然后基于联合句法树数据生成训练数据,然后使用训练数据训练联合模型,具体为:
[0098] 步骤B. 1生成联合句法树数据:
[0099] 本实施例使用实体数据和成分句法树数据来生成联合句法树数据,使用的实体数 据例如“全球〈ENAMEX TYPE = 〃0RDINAL〃>第五〈/ENAMEX〉个〈ENAMEX TYPE = 〃FAC〃>迪斯尼 乐园〈/ENAMEX〉即将在这里向公众开放。”,其中,在〈ENAMEXX/ENAMEX〉标签之内的是实体, TYPE = "ORDINAL〃表示实体类型为“ORDINAL”,使用的成分句法树数据例如“ (IP (NP (NP (NN 全球))細_第五)(〇^(1个)))(即(冊迪斯尼)(顺乐园)))听_¥?_即将))肿屮在) (NP (PN这里)))(PP (P向)(NP⑽公众)))(VP (W开放)))(PU。))”,将该数据以树的形式画出 来则如图2所示。将成分句法树数据和实体数据按照发明内容中的步骤2.1进行联合,则会 得到联合句法树数据,其中二叉化工具使用的是ZPar开源代码中的“binarize.py”,然后对 二叉化结果中的各个成分节点,只保留成分标记,去掉辅助标记,再与实体数据进行联合。 使用上述的例子,生成的联合句法树为“(IP (NP (NP (NN全球))(NP (QP (㈤(NER-0RDINAL第 五))(〇2(1个)))(陬(陬1«^(:迪斯尼乐园))))(1?〇^0〇¥?0〇即将))〇^屮?屮在)(陬屮~ 这里)))听肿屮向)(即(顺公众)))撕^开放)))))屮1]。)))”,将该数据以树的形式画出 来则如图3所示。
[0100] 步骤B. 2基于联合句法树数据生成训练数据:
[0101] 本发明的训练数据是状态特征与转移动作对集合,具体到本实施例,例如,如果从 “(IP (NP (NP (NN全球))(NP (QP (0D (NER-0RDINAL第五))(CLP (M个)))(NP (NER-FAC迪斯尼乐 园))))(IP (VP (ADVP (AD即将))(VP (PP (P在)(NP (PN这里)))(VP (PP (P向)(NP (NN公众)))(VP (VV开放)))))(PU。)))”中提取训练数据,参照图5下方所示,我们可以从队列和栈中获得当 前的状态,即 “sOw:NULL,slw:NULL,qiOc:球,qilc:第,q2〇c:全,q2k_lc:NULL,sOt:NULL, Slt:NULL”,从联合句法树中,根据本发明定义的转移动作集合,我们可以知道,在当前状态 下,分析模型将要执行的动作是shift。由此,上述状态和转移动作构成了一个训练数据对, 艮P “sOw:NULL,slw:NULL,qiOc:球,qilc:第,q2〇c:全,q2k_lc:NULL,sOt:NULL,sit :NULL; shift”。同理可得本发明的训练数据集。
[0102] 步骤B. 3使用训练数据训练联合模型:
[0103] 使用生成的训练数据对联合模型进行训练,直至模型已经收敛或者达到迭代次数 上限。我们可以通过模型分析的准确率变化来判断模型是否收敛,准确率是根据状态特征, 模型判断出正确转移动作的训练数据数量与所有训练数据数量的比值,当相邻三轮训练得 到的准确率的变化小于一个很小的数(可以取0.00001)时,我们可以认为模型已经收敛,可 以停止训练;或者当模型已经迭代到了人为设置次数的上限(比如200轮,一轮对应使用完 整的训练集训练一次),我们也可以停止训练;
[0104] 步骤C:根据本发明及本实施例的目的,使用训练好的联合模型,对待分析的中文 语句进行分析,生成对应的联合句法树,从而获得分词、词性标注、实体识别和成分句法分 析的联合标注结果,例如,待分析的中文语句为“全球第五个迪斯尼乐园即将在这里向公众 开放。”,分析过程具体为:
[0105] 步骤C.1初始化分析模型:设置8和(12为空,(^中是待分析的中文语句,如下表所示;
[0106]
Figure CN108280064AD00171
[0107]步骤C. 2进行分析,分析过程的步骤说明同发明内容中步骤3.2—致,这里我们用 表格的方式举例说明对一句话进行分析的完整过程,并且我们假定多层人工神经网络每一 步判断的转移动作都是正确的(目的就是为了展示模型是如何进行分析的),表格中的状态 是当前分析模型的状态,转移动作是根据当前状态判断出将要执行的转移动作,序号η所对 应的状态是序号η-1的状态执行了序号η-1的转移动作生成的,s列的表格中的括号表示节 点,表格如下:
[0108]
Figure CN108280064AD00181
Figure CN108280064AD00191
[0110]
Figure CN108280064AD00201
[0111] 执行terminate之后,(IP)出栈,分析结束;
[0112] 步骤C. 3输出联合句法树;
[0113] (IP)为根节点,通过树的遍历,从(IP)开始遍历,可以得到联合句法树,S卩分析结 果,如图3所不。
[0114] 至此,步骤A至C,从构建联合模型到准备训练数据,再到训练和使用模型,我们通 过本实施例,展示了一种分词、词性标注、实体识别、句法分析的联合处理方法的执行过程。
[0115] 以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公 开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范 围。

Claims (5)

1. 分词、词性标注、实体识别及句法分析的联合处理方法,其特征在于:是一种联合处 理分词、词性标注、实体识别和成分句法分析任务的方法,该方法有效地避免了错误传播问 题,并且是一种基于转移的分析方法,保证了执行速度;核心思想如下:首先构建模型,使用 监督学习训练出模型,然后使用训练好的模型对待分析的中文语句进行分析;其中,监督学 习是使用有标签的训练数据对模型进行训练,从而得到训练好的模型,然后再使用训练好 的模型对无标签的数据进行分类,得到包含分类标签的结果,即有标签的分析结果;对于本 发明而言,因为目前没有直接能够使用的训练数据,所以我们需要使用现有的数据逐步构 建出要使用的训练数据,然后用训练数据训练构建出的模型;当模型训练好之后,我们就可 以使用模型对中文语句进行分析,得到有标签的分析结果; 整体流程如下: 首先,分步构建出联合模型; 然后,利用现有的实体数据和成分句法树数据构造出联合句法树数据; 其中,联合句法树数据是构造训练数据要使用的中间数据,一棵联合句法树同时包含 了分词、词性标注、实体识别和成分句法分析这四项任务的分析结果;因此,使用训练好的 模型对待分析的中文语句进行分析时,要让模型的输出是一棵联合句法树; 再从联合句法树数据中提取出训练数据; 然后使用训练数据对联合模型进行训练,得出训练好的联合模型; 最后使用训练好的联合模型对待分析的中文语句进行分析,得到有标签的分析结果, 即包含分析结果的联合句法树。
2. 根据权利要求1所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特 征在于:包括以下步骤: 步骤1:构建一个联合模型,具体包括:定义联合模型结构,定义联合模型的转移动作集 合,定义特征模板,定义特征向量的计算方法,定义联合模型的训练方法以及联合模型的损 失函数; 步骤2:生成训练数据,包括:生成联合句法树数据,再基于联合句法树数据生成训练数 据,然后使用训练数据训练联合模型,得出训练好的联合模型; 步骤3:使用步骤2输出的训练好的联合模型,对待分析的中文语句进行分析,生成对应 的联合句法树,从而获得分词、词性标注、实体识别和成分句法分析的联合标注结果。
3. 根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特 征在于:步骤1,具体包括如下子步骤: 步骤1.1定义联合模型结构; 其中,定义联合模型结构具体包括3个部分,首先是n-gram bi-LSTM神经网络,用来计 算特征字串向量;然后是分析模型,用来提取状态特征和执行转移动作;最后是多层人工神 经网络,用来根据状态特征选择将要执行的转移动作; 其中,n-gram bi-LSTM神经网络由X个独立的bi-LSTM神经网络组成,分别用来对待分 析语句中长度为1至X的字串的预训练向量进行进一步转换,即n-gram中的η的取值为1至X, 使用n-gram bi-LSTM神经网络生成带有上下文信息的特征字串向量; 分析模型由两个队列和一个栈构成,分别记为qi,q2和s; 其中,Q1中存放的是待分析的中文语句,q2中存放的是从Q1中移进的字,具体依据步骤 I. 2中执行转移动作shift而存储对应的结果,S中存放的是归约的结果,具体依据步骤I. 2 中执行转移动作reduce⑴、reduce-unary (I)、reduce_binary⑴以及terminate而存储对 应的结果; 多层人工神经网络由两个隐藏层和一个softmax函数组成,用来接收特征向量作为神 经网络的输入,特征向量经过两个隐藏层的转换,然后通过softmax函数计算出表示转移动 作概率的向量,即转移动作概率向量,从输入层到第一个隐藏层的权值矩阵为W1,偏置为h, 第一个隐藏层到第二个隐藏层的权值矩阵为W2,偏置为b2,softmax函数的参数矩阵为Ws,隐 藏层的激活函数使用ReLU激活函数; 步骤1.2定义联合模型的转移动作集合; 将转移动作集合记为了,其中包含以下转移动作; 其中,shift是将qi中的第一个字移入q2,即执行shift时,q2中存放的是从qi中移进的 字; reduce (t)是将q2中的所有字归约成一个词,并为该词判断词性类别或实体类别,类别 为t,然后生成一个新的节点,将该词和所带标签作为节点的属性,将这个新的节点移进s, 并清空q2;即:执行reduce⑴时,s中存放的是对q2进行归约的结果; reduce-unary (1)是将s的栈顶第一个节点出栈并进行一元归约,归约生成一个新的节 点,并为该节点判断成分类别为1,然后将新生成的节点入栈,即新生成的节点是父节点,而 被归约的节点是子节点;即:执行reduce-unary⑴时,s中存放的则是对s中栈顶第一个节 点进行一元归约的结果; reduce-binary (1)是将s的栈顶的前两个节点出栈并进行二元归约,归约生成一个新 的节点,并为该节点判断成分类别为1,将该节点入栈,即新生成的节点是父节点,而归约前 的栈顶的第一个节点是右孩子节点,第二个节点是左孩子节点;即:当执行reduce-binary (1)时,s中存放的则是对s中栈顶前两个节点进行二元归约的结果; terminate:将s中的唯一节点出栈,S卩句法树的根节点出栈,结束分析过程; 其中,分析过程是指使用训练好的联合模型,对待分析的中文语句进行分析,具体对应 步骤3的操作; 步骤1.3定义特征模板:联合模型中的分析模型依据如下表1所示的特征模板从队列和 栈的状态中提取特征: 表1特征模板
Figure CN108280064AC00031
其中,s表示栈,qi表示队列I,q2表示队列2,w表示词,c表示字,t表示词性标签,1表示成 分标签,数字〇, 1,…,k_l表不节点在栈或队列中的位置,其中k_l表不最后一个位置,sOw表 示栈顶的第一个节点所表示的词,slw表示栈顶的第二个节点所表示的词;qi0c表示队列1 中的第一个字,同理qi Ic表不队列1中的第二个字,q2〇c表不队列2中的第一个字,q2k_lc表 示队列2中的最后一个字; 若栈顶的第一个节点中的标签表示的是词性类别,则标签特征使用s〇t,若栈顶的第一 个节点中的标签表示的是成分类别,则标签特征使用sOl; 若栈顶的第二个节点中的标签表示的是词性类别,则标签特征使用sit,若栈顶的第二 个节点中的标签表示的是成分类别,则标签特征使用si 1; 因为在分析过程中,队列1和队列2中的内容都没有词性标签或成分标签,所以qi0c, qilc,q2〇c和q2k_lc对应的标签特征是“无”; 步骤1.4定义特征向量的计算方法; 定义特征向量的计算方法需要使用预训练的字向量、词向量和随机初始化的标签向 量,所以首先说明预训练字向量和词向量的方法;在分析某中文语句的过程中,为了使预训 练的字向量,词向量和由字向量生成的字串向量能够携带该语句的上下文信息,使用n-gram bi-LSTM神经网络,对待分析语句中需要使用的预训练字向量,词向量和由字向量生 成的字串向量进行转换,得到n-gram bi-LSTM神经网络的输出向量,将输出向量进行拼接, 得到转换后的特征字串向量,特征向量由特征字串向量和标签向量组成,具体为:
1.4.1使用Skip-Gram模型和从百度新闻爬取的2G大小的新闻数据预训练字向量和词 向量,然后从字向量中提取按字频从高到低排序后的前Nw个常用字及其向量组成预训练的 字表,记为c h a r a c t e r _ t a b I e,字频是字在新闻数据中出现的频次,从词向量中提取按词频 从高到低排序后的前Nw个常用词及其向量组成预训练的词表,记为worcLtable,词频是词 在新闻数据中出现的频次,character_table中的第i个字向量记为
Figure CN108280064AC00041
,word_table中的第i 个词向量记为4'字向量和词向量维度均为dw,即
Figure CN108280064AC00042
,character_table对应的字 向量矩阵为e脾‘:XASword_table对应的词向量矩阵为e 随机初 始化的标签向量组成标签向量表tl_table,标签向量表的大小为Nti,标签向量记为ef,维度 为dti,SP
Figure CN108280064AC00043
,tl_table对应的标签向量矩阵为Etl且Eti έ
1.4.2构建X个n-gram bi-LSTM神经网络,并且使n-gram中η的取值依次为1至X,即依 次为I-gram,2-gram,3-gram,......,x_gram,当η等于1时,待分析的中文语句中的第j个字Cj 所对应的l-gram bi-LSTM神经网络的输入向量为Cj的字向量,用表示从character_ table中提取出的Cj的字向量,当η大于1时,Cj所对应的n-gram bi-LSTM神经网络的输入向 量为待分析的语句中VCj+H这个字串所对应的词向量或字串向量,即当VCj+H这个字 串能够对应word_table中的某个词时,则使用这个词的词向量作为Cj所对应的n-gram bi-LSTM 神经网络的输入向量,用
Figure CN108280064AC00044
表示该词向量,若word_table中没有这个字串对应 的词时,使用该字串的字串向量作为Cj所对应的n-gram bi-LSTM神经网络的输入向量,用
Figure CN108280064AC00045
表示该字串的字串向量;用I
Figure CN108280064AC00046
对字Cj对应的n-gram bi-LSTM神经网络的输入 向量作统一的表不,字Cj生成
Figure CN108280064AC00047
的方法如下: 当n-gram中的η等于1时,若character_table中有Cj对应的字向量,贝=吃,若没 有cj对应的字向量,则使用character_tabI e中的UNK字向量,SP
Figure CN108280064AC00048
当n-gram中的η大于1时,若word_table中有Cj…Cj+n-i对应的词向量,贝Ij
Figure CN108280064AC00051
Figure CN108280064AC00052
若没有Cj…Cjt1对应的词向量,则使用对应的字串向量,S卩
Figure CN108280064AC00053
,其 中
Figure CN108280064AC00054
的计算公式如公式(1):
Figure CN108280064AC00055
Cl) 公式⑴中,若字串Cj…Cj+n-i中的某个字在character_table中检索不到,则使用
Figure CN108280064AC00056
代替不存在的字向量来计算
Figure CN108280064AC00057
词Wj生成
Figure CN108280064AC00058
的方法与字Cj生成
Figure CN108280064AC00059
的方法类似,区别在于:当η等于1时,
Figure CN108280064AC000510
等于 词首字的字向量;当η大于1时,依次从词首字取长度为η的部分,根据字Cj生成
Figure CN108280064AC000511
的方法 中当η大于1时的方法获得词的
Figure CN108280064AC000512
,若词的长度小于η,则取在待分析语句中与该词尾部相 邻的字进行长度补齐,使补齐后的长度η为,再根据字Cj生成
Figure CN108280064AC000513
的方法中当η大于1时的方 法获得词的
Figure CN108280064AC000514
字串Cj…Cjt1生成
Figure CN108280064AC000515
的方法与字Cj生成
Figure CN108280064AC000516
的方法类似,区别在于:当η等于1时,
Figure CN108280064AC000517
等于字串首字的字向量;当η大于1时,依次从字串首字取长度为η的部分,根据字生 成的方法中当η大于1时的方法获得字串的
Figure CN108280064AC000518
,若字串的长度小于η,则取在待分析 语句中与该字串尾部相邻的字进行长度补齐,使补齐后的长度η为,再根据字Cj生成
Figure CN108280064AC000519
的 方法中当η大于1时的方法获得字串的
Figure CN108280064AC000520
; 因此,一个字,对于X个n-gram bi-LSTM神经网络,会有X个
Figure CN108280064AC000521
,并且有
Figure CN108280064AC000522
经 过X个n-gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接, 得到特征字串向量,记为> ^
Figure CN108280064AC000523
司理,一个词,对于X个n-gram bi-LSTM神 经网络,会有X个
Figure CN108280064AC000524
.并且有
Figure CN108280064AC000525
,经过X个n-gram bi-LSTM神经网络的转换,会有 2x个对应的输出向量,将这些向量首尾拼接,得到特征字串向量
Figure CN108280064AC000526
一 个字串,对于X个n-gram bi-LSTM神经网络,会有X个
Figure CN108280064AC000527
,并且有
Figure CN108280064AC000528
经过x个n_ gram bi-LSTM神经网络的转换,会有2x个对应的输出向量,将这些向量首尾拼接,得到特征 字串向量
Figure CN108280064AC000529
1.4.3根据步骤1.3定义的特征模板和分析模型的当前状态,获得相应的特征字串向 量和标签向量,若某个特征为空,则使用对应该特征的NULL向量代替该向量,然后将这些向 量进行首尾拼接得到特征向量,该向量就是用来表示当前状态的完整特征的特征向量; 步骤1.5定义联合模型的训练方法以及联合模型的损失函数; 其中,定义联合模型的训练方法为随机梯度下降法;定义联合模型的损失函数为(2):
Figure CN108280064AC000530
(2) 其中,i表示的是第i个训练数据,U是第i个训练数据中的转移动作,恥是多层人工神 经网络输出结果中的概率,
Figure CN108280064AC00061
是I2正则化项,Θ是待训练的所有模型参数,包括(W1J1, W2,b2,Ws,Etr}和n-gram bi_LSTM神经网络的参数。
4. 根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特 征在于:步骤2,具体为: 步骤2.1生成联合句法树数据:针对当前没有能够直接使用的训练数据的情况,我们需 要用现有的数据生成联合句法树数据作为生成训练数据的中间数据,然后以此生成训练数 据,使用〇ntonotes5.0中文数据中的实体数据(数据文件后缀名为.name)和成分句法树数 据(数据文件后缀名为.parse)生成联合句法树数据,具体如下: 步骤2.1.1使用现有工具将成分句法树数据进行二叉化转换,生成二叉化的句法树; 步骤2.1.2在二叉化的句法树中加入实体标签节点,规则如下:若句法树中某个节点m 下的所有叶子节点组成的字串在实体数据中对应一个实体,则将m下的所有叶子节点合并 为一个新的叶子节点,然后为新的叶子节点增加一个新的父节点,新的父节点是由实体标 签形成的节点,而新的实体标签节点的父节点是m,而在m下的所有原来的节点则全部被删 去,由此方法依次将实体数据中的实体标签加入到成分句法树中,生成联合句法树数据; 步骤2.2基于联合句法树数据生成训练数据:根据定义的模型损失函数,需要从联合句 法树数据中提取出状态特征与转移动作对,所有的状态特征与转移动作对构成训练数据 集,具体包括如下子步骤: 步骤2.2.1根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树 的过程中,分析模型产生的所有状态特征,这些状态特征按出现顺序形成状态序列St1, SΪ2,’ · _,S ty-1,S ty ; 步骤2.2.2根据定义的特征模板和转移动作集合,提取出由中文语句生成联合句法树 的过程中,分析模型执行的所有转移动作,这些转移动作按执行顺序形成转移动作序列t, Ϊ2 , ·'' , ty-1 , ty ; 步骤2.2.3将状态特征序列与转移动作序列一一对应,组成状态特征与转移动作对,所 有的状态特征与转移动作对构成训练数据集
Figure CN108280064AC00062
m表示训练数据总数; 步骤2.3使用训练数据训练联合模型,得出训练好的联合模型,具体为:训练步骤1.5中 提及的联合模型参数Θ,具体为:使用生成的训练数据对联合模型进行训练,直至模型已经 收敛或者达到迭代次数上限,n-gram bi_LSTM神经网络会将训练数据中的状态特征转换成 特征向量,训练的目标是使多层人工神经网络输出的转移动作概率向量中,训练数据中的 转移动作所对应的那一维的值最大。
5. 根据权利要求2所述的分词、词性标注、实体识别及句法分析的联合处理方法,其特 征在于:步骤3,具体为: 步骤3.1初始化联合模型中的分析模型,即设置分析模型中的8和屯为空,qi中是待分析 的中文语句; 步骤3.2进行分析,按顺序循环执行步骤3.2中的各个步骤: 步骤3.2.1若没有执行terminate转移动作,贝Ij从联合模型中的分析模型中提取状态特 征,然后根据状态特征使用联合模型中的n-gram bi_LSTM神经网络计算出当前状态的特征 向量,然后执行步骤3.2.2,若已经执行terminate转移动作,贝Ij直接执行步骤3.3; 步骤3.2.2将步骤3.2.1计算出的特征向量输入到联合模型中的多层人工神经网络中, 根据多层人工神经网络的计算结果,即转移动作概率向量,选择转移动作概率向量的各个 维度中概率值最大的那一维对应的转移动作,作为下一步要执行的转移动作; 步骤3.2.3使用3.2.2选择出的转移动作更新分析模型的状态,然后返回步骤3.2.1; 步骤3.3输出联合句法树,即分析结果,然后结束分析过程; 其中,联合句法树中包含了分词、词性标注、实体识别和成分句法分析的结果,其中,联 合句法树的所有叶子节点表示分词结果,每一个单独的叶子节点都是一个词,叶子节点的 上一层节点即叶子节点的父节点表示词性标注和实体识别的结果,该层的节点或为词性标 签或为实体标签,当该层的某一节点对应的叶子节点是实体的时候,该节点就是实体标签, 表示实体识别的结果,否则该节点就是词性标签,表示词性标注的结果,该层再往上的各层 节点都是成分标签,表示成分句法分析的结果。
CN201810167568.0A 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法 Active CN108280064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810167568.0A CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810167568.0A CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Publications (2)

Publication Number Publication Date
CN108280064A true CN108280064A (zh) 2018-07-13
CN108280064B CN108280064B (zh) 2020-09-11

Family

ID=62808857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810167568.0A Active CN108280064B (zh) 2018-02-28 2018-02-28 分词、词性标注、实体识别及句法分析的联合处理方法

Country Status (1)

Country Link
CN (1) CN108280064B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145293A (zh) * 2018-08-06 2019-01-04 中国地质大学(武汉) 一种面向案情的关键词提取方法及系统
CN109271516A (zh) * 2018-09-26 2019-01-25 清华大学 一种知识图谱中实体类型分类方法及系统
CN109284374A (zh) * 2018-09-07 2019-01-29 百度在线网络技术(北京)有限公司 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN109871893A (zh) * 2019-02-18 2019-06-11 清华大学 基于循环时域保持生成的行为预测方法和装置
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN111178492A (zh) * 2018-11-09 2020-05-19 中科寒武纪科技股份有限公司 计算装置及相关产品、执行人工神经网络模型的计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326923A1 (en) * 2006-05-15 2009-12-31 Panasonic Corporatioin Method and apparatus for named entity recognition in natural language
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326923A1 (en) * 2006-05-15 2009-12-31 Panasonic Corporatioin Method and apparatus for named entity recognition in natural language
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
EP3136257A2 (en) * 2015-08-27 2017-03-01 Xerox Corporation Document-specific gazetteers for named entity recognition
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHE WANXIANG 等: "LTP: A chinese language technology platform", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS: DEMONSTRATIONS》 *
HASHIMOTO KAZUMA 等: "A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks", 《PROCEEDINGS OF THE 2017 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
张俊驰: "基于循环神经网络的依存句法分析模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张梅山: "中文词法句法语义联合分析模型研究", 《中国博士学位论文全文数据库 信息科技辑》 *
郭振 等: "基于字符的中文分词、词性标注和依存句法分析联合模型", 《中文信息学报》 *
郭振: "汉语依存句法分析技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马骥: "面向依存句法分析优化技术的研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145293A (zh) * 2018-08-06 2019-01-04 中国地质大学(武汉) 一种面向案情的关键词提取方法及系统
CN109145293B (zh) * 2018-08-06 2021-05-28 中国地质大学(武汉) 一种面向案情的关键词提取方法及系统
CN109284374A (zh) * 2018-09-07 2019-01-29 百度在线网络技术(北京)有限公司 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN109271516A (zh) * 2018-09-26 2019-01-25 清华大学 一种知识图谱中实体类型分类方法及系统
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
CN111178492A (zh) * 2018-11-09 2020-05-19 中科寒武纪科技股份有限公司 计算装置及相关产品、执行人工神经网络模型的计算方法
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN109871893A (zh) * 2019-02-18 2019-06-11 清华大学 基于循环时域保持生成的行为预测方法和装置
CN109871893B (zh) * 2019-02-18 2020-10-16 清华大学 基于循环时域保持生成的行为预测方法和装置

Also Published As

Publication number Publication date
CN108280064B (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN108280064A (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN107133220A (zh) 一种地理学科领域命名实体识别方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN107818164A (zh) 一种智能问答方法及其系统
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN109062939A (zh) 一种面向汉语国际教育的智能导学方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109902171B (zh) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN108960317A (zh) 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109840322A (zh) 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110516240A (zh) 一种基于Transformer的语义相似度计算模型DSSM技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant