CN109241520B - 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 - Google Patents
一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 Download PDFInfo
- Publication number
- CN109241520B CN109241520B CN201810789276.0A CN201810789276A CN109241520B CN 109241520 B CN109241520 B CN 109241520B CN 201810789276 A CN201810789276 A CN 201810789276A CN 109241520 B CN109241520 B CN 109241520B
- Authority
- CN
- China
- Prior art keywords
- neural network
- sentence
- sentences
- training
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统,本发明首先对中文句子进行分词,将其切分成词的序列,然后对词序列进行命名实体识别,将属于同一个命名实体的词合并,最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。本发明采用基于深度学习的人工神经网络和从词到命名实体再到句子的多层语义元素结构信息相结合的方法,针对不同层次的结构信息分别训练和优化深度神经网络,通过多层误差反馈提高句子主干分析的效果。该方法能够提高系统准确性、反应速度和容错性。
Description
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统。
背景技术
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。本发明的基本思想是:首先,对中文句子进行分词,将其切分成词的序列;然后,对上述词的序列进行命名实体识别,将属于同一个命名实体的多个词进行合并,并表示为同一个命名实体;最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。
命名实体,英文为Named Entity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition,NER)作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机构名、时间、货币等。
随着信息技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一,对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义,它是将人工智能、自然语言处理应用于企业生产,提高企业生产效率和竞争优势的重要技术措施之一。
对于需要处理大量文本数据的行业而言,随着各类数字化业务的开拓,如何在浩如烟海的数字化资料中获取想要的信息,发掘数据中隐藏的商机(如用户的兴趣与需求、市场的变化等)是大数据处理行业面对的直接挑战。但是,现有的技术大多是利用机器学习方法(如最大熵模型)对预处理过(如分词、词性标注、断句等)的句子进行分析,未考虑句子中从词到命名实体(如是人名、地名、机构名等)到句子的层次结构,更没有一种利用此类多层结构的句子主干分析方法,分析效果有限。对大规模文本而言,急需一种比较实用的能够代替人工处理的方式对句子主干进行分析的方法。
发明内容
针对现有技术的不足,本发明提供一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法、系统及系统,本发明的首先对中文句子进行分词,将其切分成词的序列,然后对词序列进行命名实体识别,将属于同一个命名实体的词合并,最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。
本发明采用基于深度学习的人工神经网络和句子中语义元素的多层结构信息相结合的方法,能够提高系统准确性、反应速度和容错性。
本发明的技术方案为:一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法,包括以下步骤:
S1)、使用双向LSTM神经网络对输入的中文句子进行分词,并将分词误差传递给下一层神经网络;
S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别,并将识别误差传递给下一层神经网络传递;
S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析,并将分析误差反向传递回整个网络的输入层;
S4)、经过多个周期的迭代训练后,当句子主干分析的训练误差收敛或训练周期达到一定数量时,输出带有句子主干标注信息的结果序列。
进一步的,上述技术方案中,步骤S1)中,使用双向LSTM神经网络对输入的中文句子进行分词,具体如下:
输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;
测试集中的句子则是未经过分词的中文句子;
双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。
进一步的,上述方法中,步骤S1)中,将分词误差传递给下一层神经网络的具体如下:
双向LSTM网络对输入的句子进行分词,将分词的结果与训练集中人工标注的结果进行对比,对比结果中不同于人工标注结果的分词方案则为训练误差,神经网络将训练误差数字化和归一化后,传递给下一层神经网络,即负责命名实体识别的神经网络。
进一步的,在上述方法中,步骤S2)中,使用双向LSTM神经网络对分好词的句子进行命名实体识别,具体如下:与步骤S1)相似,输入到双向LSTM网络的中文句子同样分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词,将带有上述BIO标记的人工标注好命名实体的训练集句子输入到双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。
在上述方法中,步骤S2)中,将命名实体识别误差传递给下一层网络,具体如下:
双向LSTM网络对输入的句子进行命名实体识别,将命名实体识别的结果与训练集中人工标注的命名实体BIO标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,向上传递给负责句子主干分析的神经网络。
在上述方法中,步骤S3)中,使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析如下所述:与前面的步骤S1)和步骤S2)相似,将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待,双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。
在上述方法中,步骤S3)中,将分析误差反向传递回整个网络的输入层,具体如下:
双向LSTM网络对输入的句子进行句子主干分析,将分析结果与训练集中人工标注的句子主干标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,反向传递给整个网络的输入层,即负责分词的双向LSTM网络的输入层。
在上述方法中,步骤S4)中,经过多个周期的迭代训练后,得到带有句子主干标注信息的结果序列,然后利用可视化方法将其呈现给用户。
本发明还提供一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析系统,所述系统包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
本发明的有益效果为:本发明采用基于深度学习的人工神经网络和从词到命名实体再到句子的多层结构信息相结合的方法,针对不同层次的结构信息分别训练和优化深度神经网络,通过多层误差反馈提高句子主干分析的效果,满足工业界对大规模文本语料处理的实际需求;
本发明采用基于深度学习的人工神经网络和句子中语义元素的多层结构信息相结合的方法,能够提高系统准确性、反应速度和容错性。
附图说明
图1是本发明的分析方法的流程图;
图2是本发明的实施例中的命名实体识别的BIO标记结果示意图;
图3是本发明的实施例的句子主干分析Y/N标记结果示意图;
图4是本发明的实施例中基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法及系统,本发明的首先对中文句子进行分词,将其切分成词的序列,然后对词序列进行命名实体识别,将属于同一个命名实体的词合并,最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。
本发明采用基于深度学习的人工神经网络和句子中语义元素的多层结构信息相结合的方法,能够提高系统准确性、反应速度和容错性。
如图1所示,该句子主干分析方法具体包括以下步骤:
S1)、使用双向LSTM神经网络对输入的中文句子进行分词,并将分词误差传递给下一层神经网络;
S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别,并将识别误差传递给下一层神经网络传递;
S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析,并将分析误差反向传递回整个网络的输入层;
S4)、经过多个周期的迭代训练后,当句子主干分析的训练误差收敛或训练周期达到一定数量时,输出带有句子主干标注信息的结果序列。
步骤S1)中,使用双向LSTM神经网络对输入的中文句子进行分词,具体如下:
输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;例如:句子“我爱自然语言处理。”分词后为:“我爱自然语言处理。”;
测试集中的句子则是未经过分词的中文句子;
双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能;
LSTM神经网络又称长短时记忆网络(Long Short-Term Memory network,LSTM)是由德国科学家Sepp Hochreiter和Juergen Schmidhub在90年代中期提出的一种循环神经网络。此类网络能够缓解普通循环神经网络(Recurrent Neural Network,RNN)在训练过程中存在的梯度消失问题。循环神经网络是一种典型的人工神经网络序列标注模型,其特征是隐含层单元首尾连接,构成一个有向环结构。它以任意序列作为输入,使用内部记忆单元学习动态时序特征。在自然语言处理中,循环神经网络首先被当作一类语言模型提出,通过当前的一系列词去预测下一个可能出现的词,而后在序列标注相关的诸多任务中得到应用。LSTM是针对梯度消失问题而设计的一类RNN网络架构,通过特殊的开关门机制,可以高效的学习长距离的依赖关系。在一些序列标注任务中需要获取序列前向和后向两个方面的上下文信息,双向LSTM通过两个LSTM,一个从前往后,一个从后向前,能够学习序列前后两个方向上的信息。上述前后两个方向的信息作为两个LSTM的输出,首尾拼接传递给网络的输出层,进行有监督的序列信息预测。
上述方法中,步骤S1)中,将分词误差传递给下一层神经网络的具体如下:
双向LSTM网络对输入的句子进行分词,将分词的结果与训练集中人工标注的结果进行对比,对比结果中不同于人工标注结果的分词方案则为训练误差,神经网络将训练误差数字化和归一化后,传递给下一层神经网络,即负责命名实体识别的神经网络。
在上述方法中,步骤S2)中,使用双向LSTM神经网络对分好词的句子进行命名实体识别,具体如下:与步骤S1)相似,输入到双向LSTM网络的中文句子同样分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词,例如分好词的句子“我爱自然语言处理。”进行人工命名实体标注后的结果是:“我/O爱/O自然/B语言/I处理/I。/O”,即将“自然语言处理”作为一个特有的命名实体对待,“自然”是该命名实体的开始词,标记为B,“语言”和“处理”都是该命名实体的中间词或结尾词,标记为I,其他的词包括“我”、“爱”以及标点符号“。”都是命名实体之外的词,标记为O;
将带有上述BIO标记的人工标注好命名实体的训练集句子输入到双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。
在上述方法中,步骤S2)中,将命名实体识别误差传递给下一层网络,具体如下:
双向LSTM网络对输入的句子进行命名实体识别,将命名实体识别的结果与训练集中人工标注的命名实体BIO标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,向上传递给负责句子主干分析的神经网络。
在上述方法中,步骤S3)中,使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析如下所述:与前面的步骤S1)和步骤S2)相似,将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待,双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。
在上述方法中,步骤S3)中,将分析误差反向传递回整个网络的输入层,具体如下:
双向LSTM网络对输入的句子进行句子主干分析,将分析结果与训练集中人工标注的句子主干标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,反向传递给整个网络的输入层,即负责分词的双向LSTM网络的输入层。
在上述方法中,步骤S4)中,经过多个周期的迭代训练后,得到带有句子主干标注信息的结果序列,然后利用可视化方法将其呈现给用户。
如图2所示,通过BIO标记法标记“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”将待分析句子输入到双向LSTM网络中进行分词,结果如下:“自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。”。将上述结果中的每一个词输入到另一个双向LSTM网络中,进行命名实体识别,分析结果如图2所示。其中识别出的命名实体包括“自然语言处理”、“计算机科学”、“人工智能”、“研究方向”。最后将上述结果输入的第三个双向LSTM网络中进行句子主干的分析,分析结果如图3所示,得到的句子主干为“自然语言处理是研究方向”;
如图4所示,所述系统包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (3)
1.一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法,其特征在于,包括以下步骤:
S1)、使用双向LSTM神经网络对输入的中文句子进行分词,并将分词误差传递给下一层神经网络;
其中,使用双向LSTM神经网络对输入的中文句子进行分词,具体如下:输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;
测试集中的句子则是未经过分词的中文句子;
双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能;
将分词误差传递给下一层神经网络,具体如下:
双向LSTM网络对输入的句子进行分词,将分词的结果与训练集中人工标注的结果进行对比,对比结果中不同于人工标注结果的分词方案则为训练误差,神经网络将训练误差数字化和归一化后,传递给下一层神经网络,即负责命名实体识别的神经网络;
S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别,与步骤S1)相似,输入到双向LSTM网络的中文句子同样分为训练集和测试集两类;
训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词,将带有上述BIO标记的人工标注好命名实体的训练集句子输入到双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;
将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别;
并将识别误差传递给下一层神经网络传递;具体如下:
双向LSTM网络对输入的句子进行命名实体识别,将命名实体识别的结果与训练集中人工标注的命名实体BIO标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,向上传递给负责句子主干分析的神经网络;
S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析,与前面的步骤S1)和步骤S2)相似,将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到双向LSTM网络中,进行训练;
其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;
将上一层网络识别出来的命名实体作为一个长词看待,双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能;
并将分析误差反向传递回整个网络的输入层;具体如下:
双向LSTM网络对输入的句子进行句子主干分析,将分析结果与训练集中人工标注的句子主干标记结果进行对比,对比结果中不同于人工标注结果的标记被认为是训练误差,神经网络将训练误差数字化和归一化后,反向传递给整个网络的输入层,即负责分词的双向LSTM网络的输入层;
S4)、经过多个周期的迭代训练后,当句子主干分析的训练误差收敛或训练周期达到一定数量时,输出带有句子主干标注信息的结果序列。
2.根据权利要求1所述的一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法,其特征在于:步骤S4)中,经过多个周期的迭代训练后,得到带有句子主干标注信息的结果序列,然后利用可视化方法将其呈现给用户。
3.一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析系统,其特征在于:所述的系统用于权利要求1或2所述的分析方法,所述的系统包括:
中文分词模块,用于将中文句子文本切分成词汇序列;
命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;
句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;
结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789276.0A CN109241520B (zh) | 2018-07-18 | 2018-07-18 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789276.0A CN109241520B (zh) | 2018-07-18 | 2018-07-18 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241520A CN109241520A (zh) | 2019-01-18 |
CN109241520B true CN109241520B (zh) | 2023-05-23 |
Family
ID=65072145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810789276.0A Active CN109241520B (zh) | 2018-07-18 | 2018-07-18 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241520B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134949B (zh) * | 2019-04-26 | 2022-10-28 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN110489742B (zh) * | 2019-07-15 | 2021-10-01 | 北京三快在线科技有限公司 | 一种分词方法、装置、电子设备及存储介质 |
CN110704633B (zh) * | 2019-09-04 | 2023-07-21 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111859968A (zh) * | 2020-06-15 | 2020-10-30 | 深圳航天科创实业有限公司 | 一种文本结构化方法、文本结构化装置及终端设备 |
CN112257447A (zh) * | 2020-10-22 | 2021-01-22 | 北京众标智能科技有限公司 | 基于深度网络as-lstm的命名实体识别系统及识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108038104A (zh) * | 2017-12-22 | 2018-05-15 | 北京奇艺世纪科技有限公司 | 一种实体识别的方法及装置 |
-
2018
- 2018-07-18 CN CN201810789276.0A patent/CN109241520B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109241520A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255119B (zh) | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 | |
CN109241520B (zh) | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN109858041B (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
Madala et al. | Automated identification of component state transition model elements from requirements | |
Lin et al. | Research on named entity recognition method of metro on-board equipment based on multiheaded self-attention mechanism and CNN-BiLSTM-CRF | |
Liu et al. | Deep bi-directional interaction network for sentence matching | |
Yao | Attention-based BiLSTM neural networks for sentiment classification of short texts | |
Xi et al. | Research on deep learning for natural language processing | |
Zhang et al. | A named entity recognition method towards product reviews based on BiLSTM-attention-CRF | |
CN113361259B (zh) | 一种服务流程抽取方法 | |
CN114298052B (zh) | 一种基于概率图的实体联合标注关系抽取方法和系统 | |
CN116204643A (zh) | 一种基于多任务学习知识增强的级联标签分类方法 | |
Bellan et al. | Leveraging pre-trained language models for conversational information seeking from text | |
Qian et al. | A multi-task mrc framework for chinese emotion cause and experiencer extraction | |
Siddique | Unsupervised and Zero-Shot Learning for Open-Domain Natural Language Processing | |
Li et al. | Clause fusion-based emotion embedding model for emotion-cause pair extraction | |
Hu et al. | Semantic sequence labeling model of power dispatching based on deep long short term memory network | |
Hung et al. | Application of Adaptive Neural Network Algorithm Model in English Text Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |