CN110309511A - 基于共享表示的多任务语言分析系统及方法 - Google Patents

基于共享表示的多任务语言分析系统及方法 Download PDF

Info

Publication number
CN110309511A
CN110309511A CN201910600598.0A CN201910600598A CN110309511A CN 110309511 A CN110309511 A CN 110309511A CN 201910600598 A CN201910600598 A CN 201910600598A CN 110309511 A CN110309511 A CN 110309511A
Authority
CN
China
Prior art keywords
word
hidden layer
indicate
label
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910600598.0A
Other languages
English (en)
Other versions
CN110309511B (zh
Inventor
车万翔
刘洋
赵妍妍
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910600598.0A priority Critical patent/CN110309511B/zh
Publication of CN110309511A publication Critical patent/CN110309511A/zh
Application granted granted Critical
Publication of CN110309511B publication Critical patent/CN110309511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。

Description

基于共享表示的多任务语言分析系统及方法
技术领域
本发明属于语言分析技术领域,具体涉及一种语言分析系统及方法。
背景技术
但是,目前语言分析技术(如分词、词性标注、实体识别、句法分析、语义分析等)中,每一个任务都是使用不同的方法独立实现的,通过分析结果的传递实现耦合,其间没有进行任何的融合,标注语料知识上得不到共享,分析准确率低。而且每个任务模块都是独立运算的,分析速度慢。
发明内容
本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。
基于共享表示的多任务语言分析系统,包括:
表示层模型:表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1
分词模块:针对R1中每个字隐层表示的向量通过一个线性层运算,映射到一个4维的 BMES标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2
分析模块,包括词性标注子模块;每个子模块的输入均为分词模块的输出结果R2
词性标注子模块:针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性;
进一步地,所述的分析模块还包括实体识别子模块;
实体识别子模块:针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。
进一步地,所述的分析模块还包括依存句法分析子模块;
句法分析子模块:针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
进一步地,所述的分析模块还包括语义角色标注子模块;
语义角色标注子模块:针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用 softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
基于共享表示的多任务语言分析方法,包括以下步骤:
步骤1、表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1
步骤2、针对R1中每个字隐层表示向量通过一个线性层运算,映射到一个4维的BMES 标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
步骤3、以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2
步骤4、以步骤3的输出结果R2为输入进行分析,包括以下步骤:
针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性。
进一步地,步骤4所述以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。
进一步地,步骤4所述以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
进一步地,步骤4所述以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
有益效果:
本发明通过共享表示层的方法,使得不同任务模块的大部分模型参数和运算可以共享,这就极大减少了系统资源占用,提高了分析速度。同时共享的表示层能够使得不同任务标注语料知识可以充分的进行融合,相比现有技术在各个任务上分析的准确率更高。
附图说明
图1为基于共享表示的多任务语言分析的流程图;
图2为本发明分词级别表示筛选示意图;
图3为词性标注示意图;
图4为实体识别示意图;
图5为本发明使用流程示意图。
具体实施方式
具体实施方式一:
本实施方式为基于共享表示的多任务语言分析系统,包括:
表示层模型:表示层模型使用的是BERT编码器结构(一种基于注意力的层叠结构模型)的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1,维度为c*d,c表示句中字的数量,d表示隐层维度;
分词模块:针对R1中每个字隐层表示的向量通过一个线性层运算,映射到一个4维的 BMES标签空间(分别代表词开始、词中间、词结尾、单字成词),使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2,维度为w*d,w表示句中词的数量,d表示隐层维度;
结合图2进行说明,将“我爱中国”(字序列)输入表示层,每个字表达的向量通过一个线性层(Linear)和softmax函数,词序列为“我”、“爱”、“中国”,还有一个标点符号“。”,然后以每个词的首字位置的隐层表示作为该词的分布式表示,也就是说“我”、“爱”、“中”的向量表示就是“我”、“爱”、“中国”的表示,对应矩阵的表示为R2
分析模块,包括词性标注子模块;每个子模块的输入均为分词模块的输出结果R2
词性标注子模块:针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性;结合图3进行说明,“我”、“爱”、“中国”对应的向量,通过一个线性层(Linear)和softmax函数,词性分为对应为“r(代词)”、“v(动词)”、“ns(地名)”,以及一个“wp(标点符号)”。
具体实施方式二:
本实施方式为基于共享表示的多任务语言分析系统,其中所述的分析模块还包括实体识别子模块;
实体识别子模块:针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签(每个命名实体X对应B-X,M-X,E-X,S-X 四种标签,分别表示实体开始,实体中间,实体结尾和单词实体,使用O标签表示该标注词不在任何一个实体中)空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。结合图4进行说明,“张三”、“是”、“全国”、“律协”、“会员”、“。”对应的向量,通过双向长短时记忆网络(Bi-LSTM Layer)和条件随机场模型(CRF Layer),在BMESO实体标签空间解码为“S-Nh”、“O”、“B-Ni”、“E-Ni”、“O”、“O”,“S-Nh”、“B-Ni”、“E-Ni”中“-”后面的“Nh”为人名,“Ni”为机构名。
其他结构与具体实施方式一相同。
具体实施方式三:
本实施方式为基于共享表示的多任务语言分析系统,其中所述的分析模块还包括依存句法分析子模块;
句法分析子模块:针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
其他结构与具体实施方式一或二相同。
具体实施方式四:
本实施方式为基于共享表示的多任务语言分析系统,其中所述的分析模块还包括语义角色标注子模块;
语义角色标注子模块:针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间(每个论元 X对应B-X,I-X两种标签,分别表示论元开始,论元继续,使用O标签表示该标注词不在任何一个论元中),使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
其他结构与具体实施方式一至三之一相同。
具体实施方式五:结合图1说明本实施方式,
本实施方式为基于共享表示的多任务语言分析方法,包括以下步骤:
步骤1、表示层模型使用的是BERT编码器结构(一种基于注意力的层叠结构模型)的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1,维度为c*d,c表示句中字的数量,d表示隐层维度;
步骤2、针对R1中每个字隐层表示向量通过一个线性层运算,映射到一个4维的BMES 标签空间(分别代表词开始、词中间、词结尾、单字成词),使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
步骤3、以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2,维度为w*d,w表示句中词的数量,d表示隐层维度;
步骤4、以步骤3的输出结果R2为输入进行分析,包括以下步骤:
针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性。
具体实施方式六:
本实施方式为基于共享表示的多任务语言分析方法,以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签(每个命名实体X对应B-X,M-X,E-X,S-X四种标签,分别表示实体开始,实体中间,实体结尾和单词实体,使用O标签表示该标注词不在任何一个实体中)空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。
其他步骤与具体实施方式五相同。
具体实施方式七:
本实施方式为基于共享表示的多任务语言分析方法,以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
其他步骤与具体实施方式五或六相同。
具体实施方式八:
本实施方式为基于共享表示的多任务语言分析方法,以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间(每个论元X对应B-X,I-X两种标签,分别表示论元开始,论元继续,使用O标签表示该标注词不在任何一个论元中),使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
其他步骤与具体实施方式五至七之一相同。
具体实施方式五、六、七或八对应的模型需要经过如图5所示的流程进行训练和使用,具体包括以下步骤:
a、针对需要训练的任务收集相应的语料,并进行标注。
b、训练神经网络前由预训练好的BERT模型隐层初始化共享的隐层表示,预训练使用带遮罩的语言模型和连续句子预测任务在大规模中文文本上进行。对于分词任务语料则将字级别隐层表示矩阵R1传入分词模型执行至步骤2,优化BMES标签序列损失即可停止流程。对于其他任务语料的训练,则根据标注的数据对应的正确分词结果直接执行步骤3、步骤4,优化进行对应任务损失即可。
c、参考流程进行分析预测,收集步骤2中的分词序列结果和步骤4中的全部其他分析结果输出即可。
在多任务训练的过程中,由于不同任务的数据集规模相差较大,这使得小数据量任务往往不能得到有效的训练。在我们训练时,采用了一种下降指数概率采样方法(Annealed Sampling)在不同任务不同规模的数据集上选择训练样本。该方法在训练前会先对所有数据集数据量进行统计,在训练中,安装概率随机选择一个任务的一批数据样本进行训练,概率的计算公式如下:
其中,Pi表示每个训练批次随机选择第i个数据集中的训练数据的概率,Ni为第i个数据集规模,e为当前训练轮数,E为训练总轮数。该公式保证了在训练开始时,首先按照正常的数据集比例对模型参数调优,随着训练轮次增加,大数据集任务收敛较为充分时,即可不断地增加小数据集任务样本的学习,从而在不丢失大数据集任务性能的同时,使小数据集任务得到充分的学习,从而更好地提高这些任务的性能。
实施例
本实施例以具体实施方式二的方式进行说明,即分析模块包括词性标注子模块和实体识别子模块;本实施例中采用人民日报数据集作为分词、词性、实体识别标注语料。由于语料原始划分中存在不同任务上训练集与测试集有相同句子的情況,我们对语料进行了重新的划分和筛选,分词词性使用相同划分并将所有测试集中出现的句在训练、开发集中删除。整理后的训练语料如表1所示。
表1多任务实验数据集
本实施例中,将实验分为两个部分进行。第一部分是系统性能试验。我们希望验证多任务学习带来的知识迁移,对各个任务性能,特别是端到端系统的提升;同时,我们希望探究在同样引入额外知识的设置下,比较使用任务级联方式显式増加特征与利用多任务方式使特征在表示层中深度融合两种方法的差异。第二部分是系统效率试验。通过实验实际测试多任务系统通过共享隐层表示计算,带来的分析速度提升和资源占用下降。
使用三种模型设置来进行以上实验。
设置一、独立模型。在此设置下我们独立地对分词,词性和实体识别模型进行模型训练,作为我们对比的基准。独立训练的模型与上文介绍的多任务模型相同,不同的是,任务将独占全部的BERT隐层用于优化自身任务指标。
设置二、级联实体识别模型。由于词性标签特征可以有效地提升实体识别任务性能,为了与多任务学习这种通过共享参数的形式隐式融合不同任务特征的方法。我们在这里增加了,使用词性标注模型显式地给实体识别任务模型提供自动词性信息的对比基线设置。在这种设置下,我们使用设置一中训练的词性标注模型,为实体识别数据集进行了词性标注。并使用该自动词性数据集对3.4.3中介绍的词性特征拼接实体识别基线模型进行训练。
设置三、多任务模型。使用以上三个数据集数据对我们的分词、词性标注、实体识别联合模型进行了训练。该设置下也仅对应一个模型,但此模型有三个头部,可以进行分词、词性标注和实体识别的多重任务。
与前面相似,在模型训练时,使用bert-base-chinese预训练参数对隐层表示模型进行了初始化,采用学习率初始化为5e-5的预热Adam优化器更新模型参数。由于分词词性训练集与实体识别训练集规模相差过大,这可能导致小数据集难以收敛,我们采用了前文提到的下降指数概率采样方式在不同任务数据集中采样训练数据。
系统性能实验
首先在每个任务各自的测试集上以上三个设置的5个模型进行了独立的测试,这里的词性和实体识别是建立在黄金分词之上的。另外,我们也在实体识别测试集上抽取了未标注的文本,对每个设置下的系统进行了分词、词性实体识别整体流程的端到端测试,来综合评估系统性能。分词任务没有前置任务,端到端性能与直接测试等价;拼接特征模型设置下,系统分词、词性都与独立模型设置等价。以上内容没有进行测试。
系统效率实验
为了验证多任务模型在时间和系统资源占用上的优势。我们模拟多任务语言分析系统生产环境下部署运行的场景,在人民日报实体识别数据集测试集的1000句语料的生文本上,对多任务模型和级联的独立模型进行了运行时间的测试。本系统采用Python3语言的Pytorch机器学习框架开发。本实验中,我们使用的机器CPU型号为mtel(R)Xeon(R)Gold5118CPU 2.30GHz,装载Centos7操作系统,模型在图像卡(GPU)中进行运算,使用的GPU 型号为NVIDIA Geforce GM 1080Ti。
系统性能实验结果与分析
使用前文介绍的三种模型设置分别进行了相关任务测试集测试与实体识别端到端测试。模型性能如表2所示。其中词性使用精确评价,实体识别使用F值进行评价。
表2多任务实验系统性能结果
从实验结果中我们发现,多任务模型相比独立训练的模型在各个任务上以及端到端的测试中均有所提升,在实体识别任务中提升非常明显(+1.42%)。实验结果表明,我们的多任务模型在多任务联合学习的过程中,深度融合了各个任务的标注知识,通过共享参数的形式对其进行了跨任务的迁移,从而使得任务性能得到了有效提升。
拼接词性特征的模型显式的利用了自动的词性信息,相较独立序列的实体识别模型提升了0.37%,这种拼接仅仅是对两种表示进行了简单连接,而多任务学习模型将词性任务特征提供的知识隐式与文本特征表示深度融合,又将性能提升1.05%。可以说,对于上下文相关词表示构建的模型来说,相比对任务进行级联的知识迁移,多任务学习无疑是一种更好的增加任务相关特征信息方法。
系统效率实验结果与分析
我们使用10000句语料对级联的独立模型和多任务模型进行了运行时间测试,表3中展示了在对语料进行分词、词性、实体识别完整预测的所用总体时间,也对其中每一层网络的前向运行时间进行了统计。最终,通过总体预测时间计算了平均分析速度。
表3所任务实验系统时间效率结果
由上表能够发现,多任务模型由于共享了BERT表示层计算结果,相比每个任务需要重新计算表示层的独立模型的级联系统所用分析时间更少,多任务分析速度有两倍以上的显著提升。通过对每一层分析时间的分别统计法相,与我们设想的相似,在三个任务组成的多任务系统中,独立模型相比多任务模型在表示层计算使用了近乎3倍时间,在整个系统中这部分又是计算复杂的,占用整体分析时间最多,减少表示层的计算可以有效的降低分析时间,显著提升系统分析效率。
由于深度学习框架内存池技术的系能优化,观测运行时内存难以反映模型具体存储占用情况,我们使用模型参数规模来衡量模型的现骨干层使用的空间。并按照目前常用的压缩模型配置,使用16位浮点数表示模型参数,计算出了不同模型理论空间占用情况,结果见表4所示。
表4多任务实验系统空间占用结果
可以发现,BERT表示层包含了模型几乎全部参数,在独立模型级联系统中,由于每个任务都使用了独立的表示,使用参数模型为多任务模型的三倍。多任务模型,使用共享的表示层结构计算所有任务,极大地减少了系统空间占用。

Claims (8)

1.基于共享表示的多任务语言分析系统,其特征在于,包括:
表示层模型:表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1
分词模块:针对R1中每个字隐层表示的向量通过一个线性层运算,映射到一个4维的BMES标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2
分析模块,包括词性标注子模块;每个子模块的输入均为分词模块的输出结果R2
词性标注子模块:针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性。
2.根据权利要求1所述的基于共享表示的多任务语言分析系统,其特征在于,所述的分析模块还包括实体识别子模块;
实体识别子模块:针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。
3.根据权利要求1所述的基于共享表示的多任务语言分析系统,其特征在于,所述的分析模块还包括依存句法分析子模块;
句法分析子模块:针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
4.根据权利要求1、2或3所述的基于共享表示的多任务语言分析系统,其特征在于,所述的分析模块还包括语义角色标注子模块;
语义角色标注子模块:针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
5.基于共享表示的多任务语言分析方法,其特征在于,包括以下步骤:
步骤1、表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1
步骤2、针对R1中每个字隐层表示向量通过一个线性层运算,映射到一个4维的BMES标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
步骤3、以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2
步骤4、以步骤3的输出结果R2为输入进行分析,包括以下步骤:
针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性。
6.根据权利要求5所述的基于共享表示的多任务语言分析方法,其特征在于,步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段。
7.根据权利要求5所述的基于共享表示的多任务语言分析方法,其特征在于,步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树。
8.根据权利要求5、6或7所述的基于共享表示的多任务语言分析方法,其特征在于,步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
CN201910600598.0A 2019-07-04 2019-07-04 基于共享表示的多任务语言分析系统及方法 Active CN110309511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910600598.0A CN110309511B (zh) 2019-07-04 2019-07-04 基于共享表示的多任务语言分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910600598.0A CN110309511B (zh) 2019-07-04 2019-07-04 基于共享表示的多任务语言分析系统及方法

Publications (2)

Publication Number Publication Date
CN110309511A true CN110309511A (zh) 2019-10-08
CN110309511B CN110309511B (zh) 2022-12-09

Family

ID=68078980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910600598.0A Active CN110309511B (zh) 2019-07-04 2019-07-04 基于共享表示的多任务语言分析系统及方法

Country Status (1)

Country Link
CN (1) CN110309511B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125331A (zh) * 2019-12-20 2020-05-08 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN112613316A (zh) * 2020-12-31 2021-04-06 北京师范大学 一种生成古汉语标注模型的方法和系统
WO2021081945A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN113011173A (zh) * 2019-12-20 2021-06-22 北大方正集团有限公司 单位的识别方法、装置、设备以及存储介质
CN113127431A (zh) * 2020-01-10 2021-07-16 浙江大学 智能多任务特征数据共享方法及装置
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
CN117436459A (zh) * 2023-12-20 2024-01-23 商飞智能技术有限公司 一种动词加动词的语义关系识别方法和装置
CN117436459B (zh) * 2023-12-20 2024-05-31 商飞智能技术有限公司 一种动词加动词的语义关系识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032035A1 (en) * 2015-07-28 2017-02-02 Microsoft Technology Licensing, Llc Representation Learning Using Multi-Task Deep Neural Networks
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108681538A (zh) * 2018-05-28 2018-10-19 哈尔滨工业大学 一种基于深度学习的动词短语省略消解方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN109923557A (zh) * 2016-11-03 2019-06-21 易享信息技术有限公司 使用连续正则化训练联合多任务神经网络模型

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032035A1 (en) * 2015-07-28 2017-02-02 Microsoft Technology Licensing, Llc Representation Learning Using Multi-Task Deep Neural Networks
CN109923557A (zh) * 2016-11-03 2019-06-21 易享信息技术有限公司 使用连续正则化训练联合多任务神经网络模型
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108681538A (zh) * 2018-05-28 2018-10-19 哈尔滨工业大学 一种基于深度学习的动词短语省略消解方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU X 等: "Multi-Task Deep Neural Networks for Natural Language Understanding", 《HTTPS://ARXIV.ORG/ABS/1901.11504》 *
刘洋: "上下文相关的词表示及其领域迁移研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021081945A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN111125331A (zh) * 2019-12-20 2020-05-08 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN113011173A (zh) * 2019-12-20 2021-06-22 北大方正集团有限公司 单位的识别方法、装置、设备以及存储介质
CN111125331B (zh) * 2019-12-20 2023-10-31 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN113127431A (zh) * 2020-01-10 2021-07-16 浙江大学 智能多任务特征数据共享方法及装置
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
CN112613316A (zh) * 2020-12-31 2021-04-06 北京师范大学 一种生成古汉语标注模型的方法和系统
CN117436459A (zh) * 2023-12-20 2024-01-23 商飞智能技术有限公司 一种动词加动词的语义关系识别方法和装置
CN117436459B (zh) * 2023-12-20 2024-05-31 商飞智能技术有限公司 一种动词加动词的语义关系识别方法和装置

Also Published As

Publication number Publication date
CN110309511B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN110309511A (zh) 基于共享表示的多任务语言分析系统及方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN107133224B (zh) 一种基于主题词的语言生成方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN110032633A (zh) 多轮对话处理方法、装置和设备
CN110795552A (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN111428470B (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN112417854A (zh) 中文文档抽取式摘要方法
CN113158671B (zh) 一种结合命名实体识别的开放域信息抽取方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
CN115186147A (zh) 对话内容的生成方法及装置、存储介质、终端
CN113204624B (zh) 一种多特征融合的文本情感分析模型及装置
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN116644759B (zh) 语句中方面类别及其语义极性的提取方法和系统
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115510860A (zh) 一种文本情感分析方法、装置、电子设备及存储介质
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN114519092A (zh) 一种面向中文领域大规模复杂关系数据集构建框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant