CN107239445A - 一种基于神经网络的新闻事件抽取的方法及系统 - Google Patents
一种基于神经网络的新闻事件抽取的方法及系统 Download PDFInfo
- Publication number
- CN107239445A CN107239445A CN201710391227.7A CN201710391227A CN107239445A CN 107239445 A CN107239445 A CN 107239445A CN 201710391227 A CN201710391227 A CN 201710391227A CN 107239445 A CN107239445 A CN 107239445A
- Authority
- CN
- China
- Prior art keywords
- event
- sentence
- trigger word
- candidate
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络的新闻事件抽取的方法及系统,该方法的步骤为:对训练语料原始文本进行数据预处理;将以词向量表示的事件句序列传入到双向长短时记忆网络,利用双向长短时记忆网络来训练得到每个候选触发词的语义特征;将以词向量表示的事件句序列传入到卷积神经网络中,利用卷积神经网络训练得到候选触发词所在事件句的全局特征;根据候选触发词的语义特征与候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。本发明能够快速准确的抽取新闻事件,处理不规范语句中包含的新闻事件,具有效率高和普遍适用性的特点。
Description
技术领域
本发明涉及自然语言处理,尤其涉及一种基于双向长短时记忆网络(BiLSTM)与卷积神经网络(CNN)结合的新闻事件抽取方法及系统。
背景技术
随着计算机的发展和互联网的日益普及,大量信息以电子文本的形式出现在人们面前。在大量的网络文本中,如何发掘有价值的新闻事件已经成为迫切需要解决的问题,事件抽取正是在这种背景下产生的。作为信息抽取的一个子任务,事件抽取是信息抽取的研究热点,它的研究内容是自动的从自然文本中发现特定类型的事件及其事件元素。
从文本中抽取相应的事件通常是通过识别事件的触发词来实现的,所以触发词是识别事件实例的关键。
专利号为CN201210321193.1的专利文献公开了一种事件抽取方法,利用触发词形态结构,结合义原相似度来扩展触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例,提高了事件抽取的召回率。专利号为CN201410108447.0的专利文献公开了一种新闻原子事件抽取方法,首先利用初步融合规则库和信息单元融合规则库对词性和命名体识别结果进行融合,然后利用核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行事件抽取。
基于上述研究现状,针对新闻事件抽取主要存在以下问题:第一、对新闻事件的判别主要依赖于触发词本身,忽视了上下文关系,在遇到具有歧义的候选触发词时,容易造成事件类别的判断错误。第二,网络文本尤其是微博文本多为不规范语句,当前的事件抽取方法缺乏从不规范语句中提取事件的研究。
发明内容
本发明的目的是克服已有技术中的不足之处,提供一种基于神经网络的新闻事件抽取的方法及系统,以消除候选触发词歧义并且能够处理不规范语句的新闻事件。
为实现上述目的,本发明采用的技术方案为:
一种基于神经网络的新闻事件抽取的方法,包括以下步骤:
步骤S1,对训练语料原始文本进行数据预处理:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
步骤S2,将以词向量表示的事件句序列传入到双向长短时记忆网络,利用双向长短时记忆网络来训练得到每个候选触发词的语义特征;
步骤S3,将以词向量表示的事件句序列传入到卷积神经网络中,利用卷积神经网络训练得到候选触发词所在事件句的全局特征;
步骤S4,根据步骤S2中得到的候选触发词的语义特征与步骤S3中获得的候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
步骤S1具体为:
步骤S11,采用自然语言处理工具对训练语料原始文本进行分句,分词和命名体识别,使训练语料原始文本以事件句和每句包含若干个词汇呈现,则事件句表达为L={w1,w2,…,wi,…,wn},其中wi为句子中第i个词,n表示事件句长度;
步骤S12,根据分词和命名体识别结果,对事件句进行人工标注,在标注过程中,将非触发词标记为无类型,触发词根据所属新闻事件类别进行标注,得到事件句序列;
步骤S13,通过开源工具包word2vec训练得到词向量,采用Skip-gram模型,根据训练得到的词向量,将事件句序列中每个词表述为一个300长度的向量;
步骤S14,将每个事件句处理成词向量表述的序列形式,即每个候选触发词wi以一个300长度的词向量xi来表示,事件句表述为L={x1,x2,…,xi,…,xn}。
步骤S2具体为:
步骤S21,假设事件句表述为L={x1,x2,…,xi,…,xn},其中xi为第i个候选触发词的词向量,n表示句子长度;
步骤S22,将L作为一个序列传入长短时记忆网络,得到序列的输出结果FW={fw1,fw2,…,fwi,…,fwn},其中,fwi表示第i个候选触发词经过长短时记忆网络提取出来的语义特征;
步骤S23,将L进行反转即L′={xn,xn-1,…,xi,…,x1},将反向序列L′传入长短时记忆网络,得到反向序列的输出结果BW={bw1,bw2,…,bwi,…,bwn},其中,bwi个候选触发词经过反向长短时记忆网络提取出来的语义特征;
步骤S24,将双向长短时记忆网络获得输出结果的FW与BW进行拼接,得到句子L经过双向长短时记忆网络的输出结果,即O={r1,r2,…,ri,…,rn},其中ri=[fwi:bwi]。
步骤S3具体为:
步骤S31,假设事件句表述为L={x1,x2,…,xi,…,xn},其中xi为第i个单词的词向量,n表示句子长度;
步骤S32,对事件句采取卷积操作,计算公式为:
Ci=f(wTxi:i-h+1+b)
其中,f是激活函数,Ci表示卷积得到的特征,w表示权重矩阵,h表示卷积核大小,i:i-h+1表示第i个词到第i-h+1个词,b表示偏置;
通过滑动窗口,对所有词进行卷积得到特征图;
步骤S33,使用最大池化,对特征图进行池化,得到事件句的全局特征Co。
步骤S4具体为:
步骤S31,将双向长短时记忆网络获得的候选触发词语义特征O={r1,r2,…,ri,…,rn}与卷积神经网络提取出的句子全局特征Co进行级联,得到输出向量Ot=[O:Co];
步骤S32,使用softmax对输出向量Ot进行分类,获得新闻事件预测的类型。
一种基于神经网络的新闻事件抽取的系统,包括文本与处理模块、神经网络训练模块、新闻事件预测模块,其中:
所述文本与处理模块用于对训练语料原始文本进行数据预处理,包括:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
所述神经网络训练模块包括双向长短时记忆网络训练模块和卷积神经网络训练模块,双向长短时记忆网络训练模块用于将以词向量表示的事件句序列训练,得到每个候选触发词的语义特征;卷积神经网络训练模块用于将以词向量表示的事件句序列训练,得到候选触发词所在事件句的全局特征;
所述新闻事件预测模块用于根据神经网络训练模块得到的候选触发词的语义特征与候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
有益效果:由于采用了上述技术方案,本发明与现有技术相比具有如下有益效果:
1、本发明采用了双向长短时记忆网络(BiLSTM),能够根据候选触发词的上下文信息消除候选触发词的歧义。比如“一辆车撞上了高速公路的护栏。”和“今天我去吃饭的时候正好撞上了好久不见的同学。”,以上两个句子中触发词都为“撞上”,前者属于交通事故类事件,后者属于遇见类事件。采用BiLSTM提取候选触发词语义信息时,能够根据句子的上下文信息判断出候选触发词的实际意思,可有效避免词汇的歧义现象,从而提高新闻事件分类的准确率。
2、本发明采用卷积神经网络(CNN)抽取出的句子全局特征,当句子是不规范语句时,根据句子的全局特征与候选触发词的语义特征共同判断,可以准确的判断出事件类别。因此,本发明可以解决不规范语句的新闻事件识别问题。
附图说明
图1是本发明提供的基于神经网络的新闻事件抽取方法及系统的流程图;
图2是基于双向长短时记忆网络(BiLSTM)和卷积神经网络(CNN)的新闻事件抽取的关键步骤工作流程;
图3是卷积神经网络(CNN)结构示意图。
具体实施方式
下面通过具体实施方式对本发明做进一步的描述。
如图1所示为一种基于神经网络的新闻事件抽取的系统,包括文本与处理模块、神经网络训练模块、新闻事件预测模块,其中:
文本与处理模块用于对训练语料原始文本进行数据预处理,包括:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
神经网络训练模块包括双向长短时记忆网络训练模块和卷积神经网络训练模块,双向长短时记忆网络训练模块用于将以词向量表示的事件句序列训练,得到每个候选触发词的语义特征;卷积神经网络训练模块用于将以词向量表示的事件句序列训练,得到候选触发词所在事件句的全局特征;
新闻事件预测模块用于根据神经网络训练模块得到的候选触发词的语义特征与候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
下面结合具体实例对本发明做进一步说明。
一种基于神经网络的新闻事件抽取的方法,本示例语句为:“11时25分,S20外圈沪渝立交发生一起3车追尾事故。”已知在该句子中事件触发词为“追尾”,所属的新闻事件类别为交通事故。
步骤一、对该事件句进行分词,命名体识别。可得:
11时25分\O S20外圈\O 沪渝立交\O 发生\O一起\O 3车\O 追尾\Y 事故\O
事件触发词“追尾”被标记为属于交通事故,其余候选触发词标记为无类别,获得该事件句的序列标注L={w1,w2,…,wi,…,wn},其中,wi为事件句中第i个词,n表示事件句长度。
选取足够大的语料,使用开源工具包word2vec进行词向量的训练,选取Skip-gram模型,每个词表述为一个300长度的向量。
则最终该事件句可表述为:L={x1,x2,…,xi,…,xn},其中xi为事件句中第i个词的300维的向量,n表示事件句长度。
步骤二、将待训练的事件句L={x1,x2,…,xi,…,xn}传入到双向长短时记忆网络(BiLSTM),利用BiLSTM来训练得到的每个候选触发词的语义特征,如图2。
将句子L作为一个序列传入长短时记忆网络(LSTM),得到序列的输出结果FW={fw1,fw2,…,fwi,…,fwn}。fwi表示第i个候选触发词经过LSTM提取出来的语义特征,n表示事件句长度。其中对于fwi的计算过程如下:
定义xt为t时刻的输入词向量,ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid回归层,Ui,Uf,Uc,Uo为不同状态下针对输入xt的权重矩阵,Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量;
(1)在t时刻遗忘门的计算如(1)式所示:
ft=σ(Wf·[ht-1,xt]+bf) (1)
(2)在t时刻更新ht-1中存储的所有信息,计算公式如(2)、(3)式所示:
it=σ(Wi·[ht-1,xt]+bi) (2)
上式中,it表示t时刻决定需要更新的值、表示确定更新的信息。
(3)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息,计算公式为式(4):
(4)在t时刻的输出如式(5)所示,并更新ht,计算公式如式(6):
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
其中ot为t时刻的输出;ht为t时刻隐藏层的向量。最终,fwt=ot,即句子中第t个词的输出为fwt。
同理得出BW={bw1,bw2,…,bwi,…,bwn},将双向LSTM获得输出结果的FW与BW进行拼接,得到句子L经过双向长短时记忆网络(BiLSTM)的输出结果,即O={r1,r2,…,ri,…,rn},其中ri=[fwi:bwi]。
步骤三、将待训练的事件句L={x1,x2,…,xi,…,xn}传入到卷积神经网络(CNN)中,利用CNN获取候选触发词所在句子的全局特征,如图3。
(1)对句子采取卷积操作,计算公式为(7):
Ci=f(wTxi:i-h+1+b) (7)
其中,f是激活函数,Ci表示卷积得到的特征,w表示权重矩阵,h表示卷积核大小,i:i-h+1表示第i个词到第i-h+1个词,b表示偏置;
通过滑动窗口,对所有词进行卷积得到特征图。
(2)使用最大池化,对特征图进行池化,得到句子特征Co。
步骤四、根据步骤二所得事件句L={x1,x2,…,xi,…,xn}的语义特征O={r1,r2,…,ri,…,rn}(其中候选触发词xi对应语义特征为ri),和步骤三所得事件句L的全局特征Co,进行分类,从而所属的新闻事件类别。
将步骤二所得事件句L={x1,x2,…,xi,…,xn}的语义特征O={r1,r2,…,ri,…,rn}(其中候选触发词xi对应语义特征为ri),和步骤三所得事件句L的全局特征Co进行级联,得到输出向量Ot=[O:Co];使用softmax对输出向量Ot进行分类,获得新闻事件预测的类型。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于神经网络的新闻事件抽取的方法,其特征在于:包括以下步骤:
步骤S1,对训练语料原始文本进行数据预处理:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
步骤S2,将以词向量表示的事件句序列传入到双向长短时记忆网络,利用双向长短时记忆网络来训练得到每个候选触发词的语义特征;
步骤S3,将以词向量表示的事件句序列传入到卷积神经网络中,利用卷积神经网络训练得到候选触发词所在事件句的全局特征;
步骤S4,根据步骤S2中得到的候选触发词的语义特征与步骤S3中获得的候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
2.根据权利要求1所述的基于神经网络的新闻事件抽取的方法,其特征在于:步骤S1具体为:
步骤S11,采用自然语言处理工具对训练语料原始文本进行分句,分词和命名体识别,使训练语料原始文本以事件句和每句包含若干个词汇呈现,则事件句表达为L={w1,w2,…,wi,…,wn},其中wi为句子中第i个词,n表示事件句长度;
步骤S12,根据分词和命名体识别结果,对事件句进行人工标注,在标注过程中,将非触发词标记为无类型,触发词根据所属新闻事件类别进行标注,得到事件句序列;
步骤S13,通过开源工具包word2vec训练得到词向量,采用Skip-gram模型,根据训练得到的词向量,将事件句序列中每个词表述为一个300长度的向量;
步骤S14,将每个事件句处理成词向量表述的序列形式,即每个候选触发词wi以一个300长度的词向量xi来表示,事件句表述为L={x1,x2,…,xi,…,xn}。
3.根据权利要求1所述的基于神经网络的新闻事件抽取的方法,其特征在于:步骤S2具体为:
步骤S21,假设事件句表述为L={x1,x2,…,xi,…,xn},其中xi为第i个候选触发词的词向量,n表示句子长度;
步骤S22,将L作为一个序列传入长短时记忆网络,得到序列的输出结果FW={fw1,fw2,…,fwi,…,fwn},其中,fwi表示第i个候选触发词经过长短时记忆网络提取出来的语义特征;
步骤S23,将L进行反转即L′={xn,xn-1,…,xi,…,x1},将反向序列L′传入长短时记忆网络,得到反向序列的输出结果BW={bw1,bw2,…,bwi,…,bwn},其中,bwi个候选触发词经过反向长短时记忆网络提取出来的语义特征;
步骤S24,将双向长短时记忆网络获得输出结果的FW与BW进行拼接,得到句子L经过双向长短时记忆网络的输出结果,即O={r1,r2,…,ri,…,rn},其中ri=[fwi:bwi]。
4.根据权利要求1所述的基于神经网络的新闻事件抽取的方法,其特征在于:步骤S3具体为:
步骤S31,假设事件句表述为L={x1,x2,…,xi,…,xn},其中xi为第i个单词的词向量,n表示句子长度;
步骤S32,对事件句采取卷积操作,计算公式为:
Ci=f(wTxi:i-h+1+b)
其中,f是激活函数,Ci表示卷积得到的特征,w表示权重矩阵,h表示卷积核大小,i:i-h+1表示第i个词到第i-h+1个词,b表示偏置;
通过滑动窗口,对所有词进行卷积得到特征图;
步骤S33,使用最大池化,对特征图进行池化,得到事件句的全局特征Co。
5.根据权利要求1所述的基于神经网络的新闻事件抽取的方法,其特征在于:步骤S4具体为:
步骤S31,将双向长短时记忆网络获得的候选触发词语义特征O={r1,r2,…,ri,…,rn}与卷积神经网络提取出的句子全局特征Co进行级联,得到输出向量Ot=[O:Co];
步骤S32,使用softmax对输出向量Ot进行分类,获得新闻事件预测的类型。
6.一种基于神经网络的新闻事件抽取的系统,其特征在于:包括文本与处理模块、神经网络训练模块、新闻事件预测模块,其中:
所述文本与处理模块用于对训练语料原始文本进行数据预处理,包括:对训练语料原始文本进行分句,得到事件句,然后对事件句进行分词、命名体识别;根据人工标注的新闻事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列;并将事件句序列以词向量的形式进行表述;
所述神经网络训练模块包括双向长短时记忆网络训练模块和卷积神经网络训练模块,双向长短时记忆网络训练模块用于将以词向量表示的事件句序列训练,得到每个候选触发词的语义特征;卷积神经网络训练模块用于将以词向量表示的事件句序列训练,得到候选触发词所在事件句的全局特征;
所述新闻事件预测模块用于根据神经网络训练模块得到的候选触发词的语义特征与候选触发词所在句子的全局特征,利用softmax作为分类器来对每个候选触发词进行分类,从而找出新闻事件的触发词,并根据触发词类型,判断该事件所属类型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710391227.7A CN107239445A (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络的新闻事件抽取的方法及系统 |
PCT/CN2017/089136 WO2018218706A1 (zh) | 2017-05-27 | 2017-06-20 | 一种基于神经网络的新闻事件抽取的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710391227.7A CN107239445A (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络的新闻事件抽取的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107239445A true CN107239445A (zh) | 2017-10-10 |
Family
ID=59984603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710391227.7A Pending CN107239445A (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络的新闻事件抽取的方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107239445A (zh) |
WO (1) | WO2018218706A1 (zh) |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109192300A (zh) * | 2018-08-17 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 智能问诊方法、系统、计算机设备和存储介质 |
CN109282837A (zh) * | 2018-10-24 | 2019-01-29 | 福州大学 | 基于lstm网络的布拉格光纤光栅交错光谱的解调方法 |
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109325116A (zh) * | 2018-08-23 | 2019-02-12 | 武大吉奥信息技术有限公司 | 一种基于深度学习的城市事件自动分类派发方法及装置 |
CN109446326A (zh) * | 2018-11-01 | 2019-03-08 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
CN109446299A (zh) * | 2018-08-27 | 2019-03-08 | 中国科学院信息工程研究所 | 基于事件识别的搜索电子邮件内容的方法及系统 |
CN109522406A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 文本语义匹配方法、装置、计算机设备和存储介质 |
CN109558591A (zh) * | 2018-11-28 | 2019-04-02 | 中国科学院软件研究所 | 中文事件检测方法及装置 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
CN109670172A (zh) * | 2018-12-06 | 2019-04-23 | 桂林电子科技大学 | 一种基于复合神经网络的景区异常事件抽取方法 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN109948646A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种时序数据相似度度量方法及度量系统 |
CN109947932A (zh) * | 2017-10-27 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种推送信息分类方法及系统 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN110019807A (zh) * | 2017-12-27 | 2019-07-16 | 航天信息股份有限公司 | 一种商品分类方法及装置 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110276068A (zh) * | 2019-05-08 | 2019-09-24 | 清华大学 | 法律案情分析方法及装置 |
CN110287491A (zh) * | 2019-06-25 | 2019-09-27 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN110334213A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
CN110377738A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110674303A (zh) * | 2019-09-30 | 2020-01-10 | 北京明略软件系统有限公司 | 事件语句处理方法、装置、计算机设备和可读存储介质 |
CN110704598A (zh) * | 2019-09-29 | 2020-01-17 | 北京明略软件系统有限公司 | 一种语句信息的抽取方法、抽取装置及可读存储介质 |
CN111125520A (zh) * | 2019-12-11 | 2020-05-08 | 东南大学 | 一种面向新闻文本的基于深度聚类模型的事件线抽取方法 |
CN111611218A (zh) * | 2020-04-24 | 2020-09-01 | 武汉大学 | 一种基于深度学习的分布式异常日志自动识别方法 |
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112507680A (zh) * | 2020-11-13 | 2021-03-16 | 北京航空航天大学 | 一种交通运行信息提取与态势预警方法及装置 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN115292568A (zh) * | 2022-03-02 | 2022-11-04 | 内蒙古工业大学 | 一种基于联合模型的廉政和民生新闻事件抽取方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382273B (zh) * | 2020-03-09 | 2023-04-14 | 广州智赢万世市场管理有限公司 | 一种基于吸引因子的特征选择的文本分类方法 |
CN111460830B (zh) * | 2020-03-11 | 2022-04-12 | 北京交通大学 | 一种司法文本中经济事件的抽取方法及系统 |
CN112905742B (zh) * | 2021-02-20 | 2022-07-29 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106611055A (zh) * | 2016-12-27 | 2017-05-03 | 大连理工大学 | 基于层叠式神经网络的中文模糊限制信息范围检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
CN106096568B (zh) * | 2016-06-21 | 2019-06-11 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106599198B (zh) * | 2016-12-14 | 2021-04-06 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
-
2017
- 2017-05-27 CN CN201710391227.7A patent/CN107239445A/zh active Pending
- 2017-06-20 WO PCT/CN2017/089136 patent/WO2018218706A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106611055A (zh) * | 2016-12-27 | 2017-05-03 | 大连理工大学 | 基于层叠式神经网络的中文模糊限制信息范围检测方法 |
Non-Patent Citations (2)
Title |
---|
YING ZENG ET AL.: "A Convolution BiLSTM Neural Network Model for Chinese event extraction", 《NATURAL LANGUAGE UNDERSTANDING AND INTELLIGENT APPLICATIONS (NLPCC 2016)》 * |
谢逸等: "基于CNN和LSTM混合模型的中文词性标注", 《武汉理工大学计算机科学与技术学院》 * |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN108415923B (zh) * | 2017-10-18 | 2020-12-11 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN109947932A (zh) * | 2017-10-27 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种推送信息分类方法及系统 |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108021616B (zh) * | 2017-11-06 | 2020-08-14 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN110019807B (zh) * | 2017-12-27 | 2020-11-13 | 航天信息股份有限公司 | 一种商品分类方法及装置 |
CN110019807A (zh) * | 2017-12-27 | 2019-07-16 | 航天信息股份有限公司 | 一种商品分类方法及装置 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN109977393B (zh) * | 2017-12-28 | 2021-09-03 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108304530B (zh) * | 2018-01-26 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108446355B (zh) * | 2018-03-12 | 2022-05-20 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108829801B (zh) * | 2018-06-06 | 2020-11-20 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN110633409B (zh) * | 2018-06-20 | 2023-06-09 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
US11972213B2 (en) | 2018-07-03 | 2024-04-30 | Tencent Technology (Shenzhen) Company Limited | Event recognition method and apparatus, model training method and apparatus, and storage medium |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109192300A (zh) * | 2018-08-17 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 智能问诊方法、系统、计算机设备和存储介质 |
CN109325116A (zh) * | 2018-08-23 | 2019-02-12 | 武大吉奥信息技术有限公司 | 一种基于深度学习的城市事件自动分类派发方法及装置 |
CN109446299B (zh) * | 2018-08-27 | 2022-08-16 | 中国科学院信息工程研究所 | 基于事件识别的搜索电子邮件内容的方法及系统 |
CN109446299A (zh) * | 2018-08-27 | 2019-03-08 | 中国科学院信息工程研究所 | 基于事件识别的搜索电子邮件内容的方法及系统 |
CN109522406A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 文本语义匹配方法、装置、计算机设备和存储介质 |
CN109282837A (zh) * | 2018-10-24 | 2019-01-29 | 福州大学 | 基于lstm网络的布拉格光纤光栅交错光谱的解调方法 |
CN109446326A (zh) * | 2018-11-01 | 2019-03-08 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
CN109299470B (zh) * | 2018-11-01 | 2024-02-09 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109446326B (zh) * | 2018-11-01 | 2021-04-20 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109670168B (zh) * | 2018-11-14 | 2023-04-18 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN109558591A (zh) * | 2018-11-28 | 2019-04-02 | 中国科学院软件研究所 | 中文事件检测方法及装置 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
CN109670172A (zh) * | 2018-12-06 | 2019-04-23 | 桂林电子科技大学 | 一种基于复合神经网络的景区异常事件抽取方法 |
CN109948646A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种时序数据相似度度量方法及度量系统 |
CN110032641B (zh) * | 2019-02-14 | 2024-02-13 | 创新先进技术有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110276068B (zh) * | 2019-05-08 | 2020-08-28 | 清华大学 | 法律案情分析方法及装置 |
CN110263323B (zh) * | 2019-05-08 | 2020-08-28 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110276068A (zh) * | 2019-05-08 | 2019-09-24 | 清华大学 | 法律案情分析方法及装置 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN110287491A (zh) * | 2019-06-25 | 2019-09-27 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN110287491B (zh) * | 2019-06-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN110334213B (zh) * | 2019-07-09 | 2021-05-11 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
CN110334213A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
CN110377738A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 |
CN110704598A (zh) * | 2019-09-29 | 2020-01-17 | 北京明略软件系统有限公司 | 一种语句信息的抽取方法、抽取装置及可读存储介质 |
CN110704598B (zh) * | 2019-09-29 | 2023-01-17 | 北京明略软件系统有限公司 | 一种语句信息的抽取方法、抽取装置及可读存储介质 |
CN110674303A (zh) * | 2019-09-30 | 2020-01-10 | 北京明略软件系统有限公司 | 事件语句处理方法、装置、计算机设备和可读存储介质 |
CN110674303B (zh) * | 2019-09-30 | 2022-03-01 | 北京明略软件系统有限公司 | 事件语句处理方法、装置、计算机设备和可读存储介质 |
CN111125520A (zh) * | 2019-12-11 | 2020-05-08 | 东南大学 | 一种面向新闻文本的基于深度聚类模型的事件线抽取方法 |
CN111125520B (zh) * | 2019-12-11 | 2023-04-21 | 东南大学 | 一种面向新闻文本的基于深度聚类模型的事件线抽取方法 |
CN111611218A (zh) * | 2020-04-24 | 2020-09-01 | 武汉大学 | 一种基于深度学习的分布式异常日志自动识别方法 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN112163416B (zh) * | 2020-10-09 | 2021-11-02 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112507680B (zh) * | 2020-11-13 | 2023-04-07 | 北京航空航天大学 | 一种交通运行信息提取与态势预警方法及装置 |
CN112507680A (zh) * | 2020-11-13 | 2021-03-16 | 北京航空航天大学 | 一种交通运行信息提取与态势预警方法及装置 |
CN112966525B (zh) * | 2021-03-31 | 2023-02-10 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN115292568B (zh) * | 2022-03-02 | 2023-11-17 | 内蒙古工业大学 | 一种基于联合模型的民生新闻事件抽取方法 |
CN115292568A (zh) * | 2022-03-02 | 2022-11-04 | 内蒙古工业大学 | 一种基于联合模型的廉政和民生新闻事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018218706A1 (zh) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239445A (zh) | 一种基于神经网络的新闻事件抽取的方法及系统 | |
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN106557462A (zh) | 命名实体识别方法和系统 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN106469554A (zh) | 一种自适应的识别方法及系统 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN108664589A (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN109871955A (zh) | 一种航空安全事故因果关系抽取方法 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN108345583A (zh) | 基于多语注意力机制的事件识别及分类方法及装置 | |
CN109299233A (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN112257452A (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171010 |