CN109255119A - 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 - Google Patents

一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 Download PDF

Info

Publication number
CN109255119A
CN109255119A CN201810789114.7A CN201810789114A CN109255119A CN 109255119 A CN109255119 A CN 109255119A CN 201810789114 A CN201810789114 A CN 201810789114A CN 109255119 A CN109255119 A CN 109255119A
Authority
CN
China
Prior art keywords
sentence
neural network
trunk
network
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810789114.7A
Other languages
English (en)
Other versions
CN109255119B (zh
Inventor
陈涛
吴明芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN201810789114.7A priority Critical patent/CN109255119B/zh
Publication of CN109255119A publication Critical patent/CN109255119A/zh
Application granted granted Critical
Publication of CN109255119B publication Critical patent/CN109255119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统,本发明分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给多任务参数共享层网络;多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给双向LSTM神经网络的输入层;经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。本发明采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法,能够提高系统准确性、反应速度和容错性。

Description

一种基于分词和命名实体识别的多任务深度神经网络的句子 主干分析方法及系统
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统。
背景技术
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。
本发明的基本思想是:首先,使用三个带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,上述三个任务分别在三个独立的神经网络上进行训练,三个任务的神经网络分别输出特征向量传递给多任务参数共享层网络;(2)多任务参数共享层网络使用全连接的神经网络对上述三个任务传递来的特征向量进行拼接和训练,然后将训练的结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;(3)经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
其中,中文分词是使用计算机和自然语言处理技术自动将中文句子切分成词的序列。命名实体,英文为Named Entity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition,NER) 作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机构名、时间、货币等。句子主干分析是指使用计算机和自然语言处理技术自动对中文句子中的主语、谓语、宾语等关键信息进行标示,即进行结构化表示。
随着网络信息技术的不断发展,尤其是大数据、云计算、移动互联网的发展,越来越多的人通过网络分享自己的观点、体验和心情。这种开放、自由的信息共享与流动方式带来了信息的巨大积累。然而,这些积累的信息大多是以自然语言、声音、图像、视频等非结构化的形式保存的,急需一种技术能够自动、高效的从这些信息中提取知识。随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一。它对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义,它是将人工智能、自然语言处理应用于企业生产,提高企业生产效率和竞争优势的重要技术措施之一。
现有的句子主干分析技术多采用单一任务的方式进行分析,未考虑其它相关任务的有利影响,而句子是由词构成的,句子主干多为命名实体,在训练句子主干分析模型的同时,在不增加人工标注语料的情况下,通过对分词语料、命名实体识别语料的进行多任务同时训练和学习,将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中,有利于提高句子主干分析的效果。
发明内容
针对现有技术的不足,本发明提供一种能够利用中文分词、命名实体识别模型训练中学习到的语言学特征知识的基于多任务学习和深度神经网络的自动句子主干分析方法、系统。
本发明的技术方案为:一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,包括以下步骤:
S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;
S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;
S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
进一步的,步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:
输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;
测试集中的句子则是未经过分词的中文句子;
带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。
进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:
输入的中文命名实体识别语料分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B 表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;
将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向 LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。
进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;
将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待;
带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。
进一步的,步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量,这些向量具有一定的与所训练任务相关的句法或语义信息;将上述特征向量传递给下一层网络,即多任务参数共享层网络,用于多任务机器学习。
进一步的,步骤S1)中,所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成,其中,BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成,因此,它可以同时从前后两个方向学习句子序列的信息;CRF层由一个基于概率统计的条件随机场模型构成;双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。
进一步的,步骤S2)中,多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,具体如下:
全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间,任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络;
多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量,每个任务输出一个特征向量,三个特征向量收尾相连拼接成一个长向量,输入给多任务参数共享层网络。
进一步的,步骤S2)中,将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,具体如下:
全连接的神经网络的训练误差结果经过归一化后,反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,用于调整这三个网络中神经元的权值和输入向量的值。
进一步的,步骤S3)中,经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列,具体如下:
经过多个周期的迭代训练后,当整个网络达到收敛或者训练周期达到设定的最大训练周期数,迭代训练停止;
将带有句子主干标注信息的结果序列输出,并利用可视化方式将其呈现给用户。
本发明还提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统,所述系统包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
多任务参数共享模块:将上述三个模块输出的特征向量进行拼接和训练,将训练结果反向传递给负责三个任务的神经网络的输入层;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
本发明的有益效果为:本发明采用基于深度学习的人工神经网络和基于分词和命名实体识别和句子主干分析的多任务学习方法,针对不同任务分别训练和优化深度神经网络,通过多任务参数共享和误差反馈机制,将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中,提高句子主干分析的效果,满足工业界对大规模文本语料处理的实际需求。
附图说明
图1是本发明的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法的流程示意图;
图2是本发明的实施例中命名实体识别的BIO标记结果示意图;
图3是本发明的实施例中的句子主干分析Y/N标记结果示意图;
图4是本发明的实施例中基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
本发明提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统,本发明分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给多任务参数共享层网络;然后,多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;最后,经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
本发明采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法,能够提高系统准确性、反应速度和容错性。
如图1所示,该句子主干分析方法包括以下步骤:
S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;
S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;
S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
进一步的,步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:
输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;如:句子“我爱自然语言处理。”分词后为:“我爱自然语言处理。”;
测试集中的句子则是未经过分词的中文句子;
带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。
进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:
输入的中文命名实体识别语料分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B 表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;例如:
例如分好词的句子“我爱自然语言处理。”进行人工命名实体标注后的结果是:“我/O爱/O自然/B语言/I处理/I。/O”,即将“自然语言处理”作为一个特有的命名实体对待,“自然”是该命名实体的开始词,标记为B,“语言”和“处理”都是该命名实体的中间词或结尾词,标记为I,其他的词包括“我”、“爱”以及标点符号“。”都是命名实体之外的词,标记为O;
将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向 LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。
进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;
将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待;
带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。
进一步的,步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量,这些向量具有一定的与所训练任务相关的句法或语义信息;将上述特征向量传递给下一层网络,即多任务参数共享层网络,用于多任务机器学习。
进一步的,步骤S1)中,所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成,其中,BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成,因此,它可以同时从前后两个方向学习句子序列的信息;CRF层由一个基于概率统计的条件随机场模型构成;双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。
进一步的,步骤S2)中,多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,具体如下:
全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间,任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络,采用全连接的神经网络可以比较充分的学习多任务的共享参数;
多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量,每个任务输出一个特征向量,三个特征向量收尾相连拼接成一个长向量,输入给多任务参数共享层网络。
进一步的,步骤S2)中,将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,具体如下:
全连接的神经网络的训练误差结果经过归一化后,反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,用于调整这三个网络中神经元的权值和输入向量的值。
进一步的,步骤S3)中,经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列,具体如下:
经过多个周期的迭代训练后,当整个网络达到收敛或者训练周期达到设定的最大训练周期数,迭代训练停止;
将带有句子主干标注信息的结果序列输出,并利用可视化方式将其呈现给用户。
例如,对于待分析的句子“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将待分析句子输入到双向LSTM网络中进行分词,结果如下:“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将上述结果中的每一个词输入到另一个双向LSTM网络中中,进行命名实体识别,分析结果如图2所示。其中识别出的命名实体包括“自然语言处理”、“计算机科学”、“人工智能”、“研究方向”。最后将上述结果输入的第三个双向LSTM网络中进行句子主干的分析,分析结果如图3所示,得到的句子主干为“自然语言处理是研究方向”。
如图4所示,所述的系统包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
多任务参数共享模块:将上述三个模块输出的特征向量进行拼接和训练,将训练结果反向传递给负责三个任务的神经网络的输入层;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (10)

1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:
S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;
S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;
S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
2.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:
输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;
测试集中的句子则是未经过分词的中文句子;
带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。
3.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:
输入的中文命名实体识别语料分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;
将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。
4.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;
将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待;
带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。
5.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量,这些向量具有一定的与所训练任务相关的句法或语义信息;将上述特征向量传递给下一层网络,即多任务参数共享层网络,用于多任务机器学习。
6.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成,其中,BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成,因此,它可以同时从前后两个方向学习句子序列的信息;CRF层由一个基于概率统计的条件随机场模型构成;双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。
7.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S2)中,多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,具体如下:
全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间,任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络;
多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量,每个任务输出一个特征向量,三个特征向量收尾相连拼接成一个长向量,输入给多任务参数共享层网络。
8.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S2)中,将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,具体如下:
全连接的神经网络的训练误差结果经过归一化后,反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,用于调整这三个网络中神经元的权值和输入向量的值。
9.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S3)中,经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列,具体如下:
经过多个周期的迭代训练后,当整个网络达到收敛或者训练周期达到设定的最大训练周期数,迭代训练停止;
将带有句子主干标注信息的结果序列输出,并利用可视化方式将其呈现给用户。
10.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统,其特征在于,包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
多任务参数共享模块:将上述三个模块输出的特征向量进行拼接和训练,将训练结果反向传递给负责三个任务的神经网络的输入层;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
CN201810789114.7A 2018-07-18 2018-07-18 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 Active CN109255119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810789114.7A CN109255119B (zh) 2018-07-18 2018-07-18 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810789114.7A CN109255119B (zh) 2018-07-18 2018-07-18 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Publications (2)

Publication Number Publication Date
CN109255119A true CN109255119A (zh) 2019-01-22
CN109255119B CN109255119B (zh) 2023-04-25

Family

ID=65048644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810789114.7A Active CN109255119B (zh) 2018-07-18 2018-07-18 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Country Status (1)

Country Link
CN (1) CN109255119B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536123A (zh) * 2018-03-26 2018-09-14 北京交通大学 长短时记忆网络结合神经网络的列控车载设备的故障诊断方法
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110134949A (zh) * 2019-04-26 2019-08-16 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110222329A (zh) * 2019-04-22 2019-09-10 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法
CN110309511A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN110619877A (zh) * 2019-09-27 2019-12-27 安徽咪鼠科技有限公司 应用于激光笔的语音识别人机交互方法、装置、系统和存储介质
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110852103A (zh) * 2019-10-28 2020-02-28 青岛聚好联科技有限公司 一种命名实体识别方法及装置
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111222325A (zh) * 2019-12-30 2020-06-02 北京富通东方科技有限公司 一种双向栈式循环神经网络的医疗语义标注方法和系统
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
EP3646245A4 (en) * 2019-04-25 2020-07-01 Alibaba Group Holding Limited IDENTIFICATION OF INSTANCES IN ELECTRONIC MEDICAL FILES
CN111368545A (zh) * 2020-02-28 2020-07-03 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111611893A (zh) * 2020-05-14 2020-09-01 青岛翰林汇力科技有限公司 应用神经网络深度学习的智能测判方法
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651270A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 对法律数据完成多任务语义标注的可视化方法和装置
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112925887A (zh) * 2019-12-05 2021-06-08 北京四维图新科技股份有限公司 交互方法和装置、电子设备、存储介质、文本识别方法
CN113536791A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 命名实体识别方法和装置
CN113761904A (zh) * 2020-06-05 2021-12-07 阿里巴巴集团控股有限公司 文本识别模型的训练方法、装置、电子设备及存储介质
CN114004233A (zh) * 2021-12-30 2022-02-01 之江实验室 一种基于半训练和句子选择的远程监督命名实体识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536123A (zh) * 2018-03-26 2018-09-14 北京交通大学 长短时记忆网络结合神经网络的列控车载设备的故障诊断方法
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN109918644B (zh) * 2019-01-26 2022-12-16 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109872775B (zh) * 2019-02-21 2021-04-30 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110222329A (zh) * 2019-04-22 2019-09-10 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
EP3646245A4 (en) * 2019-04-25 2020-07-01 Alibaba Group Holding Limited IDENTIFICATION OF INSTANCES IN ELECTRONIC MEDICAL FILES
US10740561B1 (en) 2019-04-25 2020-08-11 Alibaba Group Holding Limited Identifying entities in electronic medical records
CN110134949A (zh) * 2019-04-26 2019-08-16 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法
CN110263159B (zh) * 2019-05-28 2022-07-26 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法
CN112116095B (zh) * 2019-06-19 2024-05-24 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN110309511A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN110309511B (zh) * 2019-07-04 2022-12-09 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN110619877A (zh) * 2019-09-27 2019-12-27 安徽咪鼠科技有限公司 应用于激光笔的语音识别人机交互方法、装置、系统和存储介质
CN110781682B (zh) * 2019-10-23 2023-04-07 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110852103A (zh) * 2019-10-28 2020-02-28 青岛聚好联科技有限公司 一种命名实体识别方法及装置
CN110826334A (zh) * 2019-11-08 2020-02-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110826334B (zh) * 2019-11-08 2023-04-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN110941700B (zh) * 2019-11-22 2022-08-09 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN112925887A (zh) * 2019-12-05 2021-06-08 北京四维图新科技股份有限公司 交互方法和装置、电子设备、存储介质、文本识别方法
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法
CN111222325A (zh) * 2019-12-30 2020-06-02 北京富通东方科技有限公司 一种双向栈式循环神经网络的医疗语义标注方法和系统
CN111209738B (zh) * 2019-12-31 2021-03-26 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111259673B (zh) * 2020-01-13 2023-05-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111368545A (zh) * 2020-02-28 2020-07-03 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111368545B (zh) * 2020-02-28 2024-04-30 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN113536791A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 命名实体识别方法和装置
CN111611893A (zh) * 2020-05-14 2020-09-01 青岛翰林汇力科技有限公司 应用神经网络深度学习的智能测判方法
CN111611893B (zh) * 2020-05-14 2024-03-19 龙立强人工智能科技(苏州)有限公司 应用神经网络深度学习的智能测判方法
CN111651271B (zh) * 2020-05-19 2021-07-20 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651270A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 对法律数据完成多任务语义标注的可视化方法和装置
CN113761904A (zh) * 2020-06-05 2021-12-07 阿里巴巴集团控股有限公司 文本识别模型的训练方法、装置、电子设备及存储介质
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112380849B (zh) * 2020-11-20 2024-05-28 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN114004233A (zh) * 2021-12-30 2022-02-01 之江实验室 一种基于半训练和句子选择的远程监督命名实体识别方法

Also Published As

Publication number Publication date
CN109255119B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN109255119A (zh) 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
Huang et al. Deep sentiment representation based on CNN and LSTM
CN109766277B (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110427463A (zh) 搜索语句响应方法、装置及服务器和存储介质
CN109241520B (zh) 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
Alcoforado et al. ZeroBERTo: Leveraging zero-shot text classification by topic modeling
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Yirtici et al. Regional-CNN-based enhanced Turkish sign language recognition
CN114117070A (zh) 一种知识图谱的构建方法、系统及存储介质
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112364743A (zh) 一种基于半监督学习和弹幕分析的视频分类方法
Chen et al. A survey of multi-label text classification based on deep learning
CN115587591A (zh) 一种基于mrc的事件抽取方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN113221531B (zh) 一种多模型动态协同的语义匹配方法
Garcia et al. Fakerecogna: A new brazilian corpus for fake news detection
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、系统及介质
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
Meng et al. Regional bullying text recognition based on two-branch parallel neural networks
CN114970557B (zh) 基于知识增强的跨语言结构化情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant