CN104965819A - 一种基于句法词向量的生物医学事件触发词识别方法 - Google Patents
一种基于句法词向量的生物医学事件触发词识别方法 Download PDFInfo
- Publication number
- CN104965819A CN104965819A CN201510405109.8A CN201510405109A CN104965819A CN 104965819 A CN104965819 A CN 104965819A CN 201510405109 A CN201510405109 A CN 201510405109A CN 104965819 A CN104965819 A CN 104965819A
- Authority
- CN
- China
- Prior art keywords
- word
- trigger word
- training
- parameter
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种识别方法,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别。本发明利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
Description
技术领域
本发明涉及一种识别方法,更具体地说,涉及一种基于句法词向量的生物医学事件触发词识别方法。
背景技术
随着系统生物学的快速发展,揭示生物分子、细胞、组织等之间的复杂关系的需求愈加迫切。同时,公开发表的生物医学文献也正在呈现爆炸式的增长态势,如何从大量的生物医学文献中挖掘生物分子、细胞、组织等之间的复杂关系而不是传统的简单的二元关系(如蛋白质-蛋白质关系、药物-药物关系等)已经成为现代生物医学文本挖掘领域的研究热点。
目前,大多数生物医学事件抽取方法大都将该任务分为两个子任务:触发词识别与元素检测,而触发词识别在整个任务中起着决定性的作用,触发词识别的错误将会累积到元素检测过程中,所以提高触发词识别的性能,对于整个生物医学事件抽取来说至关重要。目前,触发词识别方法主要包括以下两类:
一类是基于规则匹配的方法,该方法通过对数据集中的事件特征进行分析,手动构造一些用于识别触发词的模式或者正则表达式,然后用自定义的模式或者正则表达式匹配满足该模式的触发词。此方法虽然在早期触发词识别研究中起到了一定的作用,但是几乎不可能穷举所有可能的模式,而且对于在训练集中没有出现过的模式无法预知,导致系统泛化性能比较差,不能得到广泛的应用。
另一类是基于机器学习的方法,该方法将触发词识别问题看作一个多元分类问题,将一个词分类为几种事件类型中的一种,该方法重点在于分类模型特征向量的构建,特征向量的好坏决定了分类模型的优劣。而特征向量的构建主要取决于对于该任务的理解,选择那些对于识别触发词信息有用的特征,构建特征向量,并利用分类器(如支持向量机、最大熵等)进行分类。该方法明显优于基于规则匹配的方法,得到了广泛的应用,但是仍然存在一些缺点,比较依赖于标注数据,当标注数据比较少的时候,无法保证其性能;而且,特征的构建主要是针对当前数据集手动构造,人工干预比较大,泛化性能不好,人工构建的特征向量维度高并且稀疏,训练比较耗时。
综上所述,如何减少人工干预,提高触发词识别的泛化性能,是生物医学事件触发词识别迫切需要解决的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于句法词向量的生物医学事件触发词识别方法。该方法利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:
步骤1、对未标注数据进行预处理:选择1997年到2009年期间所有的Pubmed摘要,并对其进行预处理,具体包括以下子步骤:
(a)、利用生物领域专用的Genia Sentence Spliter分句工具对Pubmed摘要进行分句处理;
(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析;
步骤2、基于句法上下文信息的词向量训练:在触发词识别任务中,识别的对象基本是动词或者起动词性质作用的词,不能只是简单地利用词袋上下文信息,而更多地需要利用句法上下文信息来捕获触发词的精确语义;这里,使用改进版的word2vec,利用GDep句法上下文信息预测目标词,最终获得基于GDep句法上下文信息的词向量,从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息;在词向量的训练过程中,采用skip-gram模型进行训练,并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维;
步骤3、候选触发词词典的构建:利用训练集中出现的所有触发词构建触发词词典,只对在触发词词典中出现的词构建相应的特征向量进行训练,这样虽然会损失一些召回率,但是会在准确率上作出补偿,具体包括以下子步骤:
(a)、考虑到数据集中触发词大多数是由一个单词组成的,而多个单词组成的触发词不方便进行识别,所以,只选择训练集中只有一个单词组成的触发词加入到候选词典;
(b)、对候选词典中的词进行词形还原以及词干化处理,用于对意思相近但是词形不同的词进行识别;
步骤4、触发词语义特征向量的构建,具体包括以下子步骤:
(a)、对于目标词滑动窗口内的所有词对应的词向量进行连接,表示该目标词对应的特征向量,取滑动窗口大小为5;
(b)、如果在滑动窗口内的词的个数小于滑动窗口大小,采用词向量中的一个特殊字符“/s”与对应的词向量进行填充;
步骤5、深度学习模型的训练:采用去噪栈式自编码(SDA)深度学习模型进行训练,并使用深度学习工具Theano加以实现,具体包括以下子步骤:
(a)、非监督预训练:当深度学习模型层数较多时,会发生梯度弥散现象,即误差传递到前面几层时较小,对于参数的更新几乎不起作用,故采用去噪栈式自编码神经网络模型,利用无标签数据进行非监督预训练的方式对模型参数进行初始化,初始化后的参数,在全局最优解附近,缩短训练过程的收敛时间;首先,对无标签数据进行特征自动学习,学习输入的隐含特征表示,通过公式(1)构建输入隐含层的输出值,
H1(x)=s(W12·x+b12) (1)
式(1)中:s表示神经单元节点的激活函数,W12表示第一层与第二层之间的参数矩阵,b12表示偏置项,x表示神经网络模型的输入,H1(x)表示输入隐含层的输出值,然后,再利用一个解码层输出通过公式(2)对输入值重构,
H2(x)=s(W′12·H1(x)+b′12) (2)
式(2)中:b′12为b12的转置,W′12为W12的转置,H2(x)表示对输入值的重构,并通过随机梯度下降算法对公式(2)中的损失函数进行优化,得到模型参数θ,
式(3)中:L表示神经网络模型的输入与输出之间误差的平方和,其中L(x,t)=||H2(x)-x||2,θ表示模型参数,N表示样本个数;通过非监督预训练初始化好了第一层与第二层之间的参数矩阵,将隐含层当做下一个自编码神经网络的输入,重复上述操作便可以对各层的参数完成初始化,初始化后的参数在全局最优解附近,缩短了训练过程的收敛时间;
(b)、监督微调:利用步骤(a)将预训练好的参数对模型进行参数初始化,然后利用有标签数据进行训练,并对参数进行微调,微调过程中优化的损失函数通过公式(4)表示,
式(4)中:L(x,t)=||H2(x)-o||2,其中o是模型输出的类别信息,λ是正则化因子,θ表示模型参数,N表示样本个数;
(c)、词向量信息微调:在训练过程中,通过随机梯度下降算法对输入的词向量信息进行微调,用于词向量信息适合该数据集,得到好的结果。
步骤6、生物医学事件触发词识别:利用步骤5训练得到深度学习模型,在未标注数据上进行测试,识别未标注数据中的触发词。
本发明有益效果是:一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别,与已有技术相比,本发明利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
附图说明
图1是本发明方法步骤流程图。
图2是Gdep词向量微平均F1值与普通词向量微平均F1值随迭代次数变化对比图。
图3是词向量微调宏平均F1值与词向量固定宏平均F1值随迭代次数变化对比图。
图4是词向量微调微平均F1值与词向量固定微平均F1值随迭代次数变化对比图。
图5是本发明方法与Pyysalo方法实验结果对比图。
图6是本发明方法句法分析树示意框图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:
步骤1、对未标注数据进行预处理:选择1997年到2009年期间所有的Pubmed摘要,并对其进行预处理,具体包括以下子步骤:
(a)、利用生物领域专用的Genia Sentence Spliter分句工具对Pubmed摘要进行分句处理;
(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析;以句子“Leukotriene B4stimulates c-fos and c-jun genetranscription and AP-1 binding activity in human monocytes.”为例说明,最终的句法分析树示意框图如图6所示。
步骤2、基于句法上下文信息的词向量训练:在触发词识别任务中,识别的对象基本是动词或者起动词性质作用的词,不能只是简单地利用词袋上下文信息,而更多地需要利用句法上下文信息来捕获触发词的精确语义;这里,使用改进版的word2vec,利用GDep句法上下文信息预测目标词,最终获得基于GDep句法上下文信息的词向量,从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息;训练向量过程中利用的GDep依存句法上下文信息如表1所示。
表1
在词向量的训练过程中,采用skip-gram模型进行训练,并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维;如,触发词stimulate的词向量表示为<-0.370030,-0.039364,0.060098……..-0.058148,-0.107576>,共200维。
步骤3、候选触发词词典的构建:利用训练集中出现的所有触发词构建触发词词典,只对在触发词词典中出现的词构建相应的特征向量进行训练,这样虽然会损失一些召回率,但是会在准确率上作出补偿,具体包括以下子步骤:
(a)、考虑到数据集中触发词大多数是由一个单词组成的,而多个单词组成的触发词不方便进行识别,所以,只选择训练集中只有一个单词组成的触发词加入到候选词典;
(b)、对候选词典中的词进行词形还原以及词干化处理,用于对意思相近但是词形不同的词进行识别;
步骤4、触发词语义特征向量的构建,具体包括以下子步骤:
(a)、对于目标词滑动窗口内的所有词对应的词向量进行连接,表示该目标词对应的特征向量,取滑动窗口大小为5;
(b)、如果在滑动窗口内的词的个数小于滑动窗口大小,采用词向量中的一个特殊字符“/s”与对应的词向量进行填充;
步骤5、深度学习模型的训练:采用去噪栈式自编码(SDA)深度学习模型进行训练,并使用深度学习工具Theano加以实现,具体包括以下子步骤:
(a)、非监督预训练:当深度学习模型层数较多时,会发生梯度弥散现象,即误差传递到前面几层时较小,对于参数的更新几乎不起作用,故采用去噪栈式自编码神经网络模型,利用无标签数据进行非监督预训练的方式对模型参数进行初始化,初始化后的参数,在全局最优解附近,缩短训练过程的收敛时间;首先,对无标签数据进行特征自动学习,学习输入的隐含特征表示,通过公式(1)构建输入隐含层的输出值,
H1(x)=s(W12·x+b12) (1)
式(1)中:s表示神经单元节点的激活函数,W12表示第一层与第二层之间的参数矩阵,b12表示偏置项,x表示神经网络模型的输入,H1(x)表示输入隐含层的输出值,然后,再利用一个解码层输出通过公式(2)对输入值重构,
H2(x)=s(W′12·H1(x)+b′12) (2)
式(2)中:b′12为b12的转置,W′12为W12的转置,H2(x)表示对输入值的重构,并通过随机梯度下降算法对公式(2)中的损失函数进行优化,得到模型参数θ,
式(3)中:L表示神经网络模型的输入与输出之间误差的平方和,其中L(x,t)=||H2(x)-x||2,θ表示模型参数,N表示样本个数;通过非监督预训练初始化好了第一层与第二层之间的参数矩阵,将隐含层当做下一个自编码神经网络的输入,重复上述操作便可以对各层的参数完成初始化,初始化后的参数在全局最优解附近,缩短了训练过程的收敛时间;
(b)、监督微调:利用步骤(a)将预训练好的参数对模型进行参数初始化,然后利用有标签数据进行训练,并对参数进行微调,微调过程中优化的损失函数通过公式(4)表示,
式(4)中:L(x,t)=||H2(x)-o||2,其中o是模型输出的类别信息,λ是正则化因子,θ表示模型参数,N表示样本个数;
(c)、词向量信息微调:在训练过程中,通过随机梯度下降算法对输入的词向量信息进行微调,用于词向量信息适合该数据集,得到好的结果。
在我们的实验中,我们选择栈式自编码神经网络作为模型,MLEE中事件触发词类别有19类,加上一个负类,所以我们模型的预测类别为20类,经过多次实验,我们选择5层神经网络模型,输入层有1000维(滑动窗口大小为5,词向量维度为200),每个隐层节点个数为600,预测类别为20。我们利用后向传播以及梯度下降算法,借助MLEE训练集中的标注数据训练该模型进行模型的预训练以及微调,并在训练的过程中对词向量进行微调。关于模型超参数的选择如表2所示:表2
超参数 | 学习率 | 激活函数 | 层数 | 隐层节点个数 | L2正则化项 |
选择 | Adadelta | ReLU | 5 | 1000 | 0.0001 |
表中,Adadelta是一种在训练的过程自动调整学习率的方法。
步骤6、生物医学事件触发词的识别:利用步骤5训练得到深度学习模型,在未标注数据上进行测试,识别未标注数据中的触发词。
本发明优点在于:一种基于句法词向量的生物医学事件触发词识别方法,利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。
Claims (1)
1.一种基于句法词向量的生物医学事件触发词识别方法,其特征在于包括以下步骤:
步骤1、对未标注数据进行预处理:选择1997年到2009年期间所有的Pubmed摘要,并对其进行预处理,具体包括以下子步骤:
(a)、利用生物领域专用的Genia Sentence Spliter分句工具对Pubmed摘要进行分句处理;
(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析;
步骤2、基于句法上下文信息的词向量训练:在触发词识别任务中,识别的对象基本是动词或者起动词性质作用的词,不能只是简单地利用词袋上下文信息,而更多地需要利用句法上下文信息来捕获触发词的精确语义;这里,使用改进版的word2vec,利用GDep句法上下文信息预测目标词,最终获得基于GDep句法上下文信息的词向量,从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息;在词向量的训练过程中,采用skip-gram模型进行训练,并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维;
步骤3、候选触发词词典的构建:利用训练集中出现的所有触发词构建触发词词典,只对在触发词词典中出现的词构建相应的特征向量进行训练,这样虽然会损失一些召回率,但是会在准确率上作出补偿,具体包括以下子步骤:
(a)、考虑到数据集中触发词大多数是由一个单词组成的,而多个单词组成的触发词不方便进行识别,所以,只选择训练集中只有一个单词组成的触发词加入到候选词典;
(b)、对候选词典中的词进行词形还原以及词干化处理,用于对意思相近但是词形不同的词进行识别;
步骤4、触发词语义特征向量的构建,具体包括以下子步骤:
(a)、对于目标词滑动窗口内的所有词对应的词向量进行连接,表示该目标词对应的特征向量,取滑动窗口大小为5;
(b)、如果在滑动窗口内的词的个数小于滑动窗口大小,采用词向量中的一个特殊字符“/s”与对应的词向量进行填充;
步骤5、深度学习模型训练:采用去噪栈式自编码(SDA)深度学习模型进行训练,并使用深度学习工具Theano加以实现,具体包括以下子步骤:
(a)、非监督预训练:当深度学习模型层数较多时,会发生梯度弥散现象,即误差传递到前面几层时较小,对于参数的更新几乎不起作用,故采用去噪栈式自编码神经网络模型,利用无标签数据进行非监督预训练的方式对模型参数进行初始化,初始化后的参数,在全局最优解附近,缩短训练过程的收敛时间;首先,对无标签数据进行特征自动学习,学习输入的隐含特征表示,通过公式(1)构建输入隐含层的输出值,
H1(x)=s(W12·x+b12) (1)
式(1)中:s表示神经单元节点的激活函数,W12表示第一层与第二层之间的参数矩阵,b12表示偏置项,x表示神经网络模型的输入,H1(x)表示输入隐含层的输出值,然后,再利用一个解码层输出通过公式(2)对输入值重构,
H2(x)=s(W′12·H1(x)+b′12) (2)
式(2)中:b′12为b12的转置,W′12为W12的转置,H2(x)表示对输入值的重构,并通过随机梯度下降算法对公式(2)中的损失函数进行优化,得到模型参数θ,
式(3)中:L表示神经网络模型的输入与输出之间误差的平方和,其中L(x,t)=||H2(x)-x||2,θ表示模型参数,N表示样本个数;通过非监督预训练初始化好了第一层与第二层之间的参数矩阵,将隐含层当做下一个自编码神经网络的输入,重复上述操作便可以对各层的参数完成初始化,初始化后的参数在全局最优解附近,缩短了训练过程的收敛时间;
(b)、监督微调:利用步骤(a)将预训练好的参数对模型进行参数初始化,然后利用有标签数据进行训练,并对参数进行微调,微调过程中优化的损失函数通过公式(4)表示,
式(4)中:L(x,t)=||H2(x)-o||2,其中o是模型输出的类别信息,λ是正则化因子,θ表示模型参数,N表示样本个数;
(c)、词向量信息微调:在训练过程中,通过随机梯度下降算法对输入的词向量信息进行微调,用于词向量信息适合该数据集,得到好的结果。
步骤6、生物医学事件触发词识别:利用步骤5训练得到深度学习模型,在未标注数据上进行测试,识别未标注数据中的触发词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510405109.8A CN104965819B (zh) | 2015-07-12 | 2015-07-12 | 一种基于句法词向量的生物医学事件触发词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510405109.8A CN104965819B (zh) | 2015-07-12 | 2015-07-12 | 一种基于句法词向量的生物医学事件触发词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104965819A true CN104965819A (zh) | 2015-10-07 |
CN104965819B CN104965819B (zh) | 2017-12-26 |
Family
ID=54219855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510405109.8A Active CN104965819B (zh) | 2015-07-12 | 2015-07-12 | 一种基于句法词向量的生物医学事件触发词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965819B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260361A (zh) * | 2015-10-28 | 2016-01-20 | 南京邮电大学 | 一种生物医学事件的触发词标注系统及方法 |
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN106599032A (zh) * | 2016-10-27 | 2017-04-26 | 浙江大学 | 一种结合稀疏编码和结构感知机的文本事件抽取方法 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN106933805A (zh) * | 2017-03-14 | 2017-07-07 | 陈飞 | 一种大数据集中生物事件触发词的识别方法 |
CN107577656A (zh) * | 2017-07-12 | 2018-01-12 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
CN107590121A (zh) * | 2016-07-08 | 2018-01-16 | 科大讯飞股份有限公司 | 文本规整方法及系统 |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
CN108647785A (zh) * | 2018-05-17 | 2018-10-12 | 普强信息技术(北京)有限公司 | 一种神经网络自动建模方法、装置及存储介质 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN109614481A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 对象识别方法、装置、电子设备及计算机可读存储介质 |
CN109815988A (zh) * | 2018-12-27 | 2019-05-28 | 北京奇艺世纪科技有限公司 | 模型生成方法、分类方法、装置及计算机可读存储介质 |
CN109871850A (zh) * | 2019-01-21 | 2019-06-11 | 北京大学 | 一种基于神经网络模型的车载激光雷达数据的分类方法 |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
WO2019154411A1 (zh) * | 2018-02-12 | 2019-08-15 | 腾讯科技(深圳)有限公司 | 词向量更新方法和装置 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110825875A (zh) * | 2019-11-01 | 2020-02-21 | 科大讯飞股份有限公司 | 文本实体类型识别方法、装置、电子设备和存储介质 |
CN110968688A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法数据的处理方法及系统 |
CN111104477A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN112182217A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 多标签文本类别的识别方法、装置、设备和存储介质 |
CN112384909A (zh) * | 2019-05-01 | 2021-02-19 | 微软技术许可有限责任公司 | 利用无监督学习来改进文本到内容建议的方法和系统 |
CN113282714A (zh) * | 2021-06-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 一种基于区分性词向量表示的事件检测方法 |
CN113282713A (zh) * | 2021-06-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 基于差异性神经表示模型的事件触发词检测方法 |
CN113360667A (zh) * | 2021-05-31 | 2021-09-07 | 安徽大学 | 基于多任务学习的生物医学触发词检测和命名实体识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102414680A (zh) * | 2009-03-20 | 2012-04-11 | 伊斯曼柯达公司 | 利用跨域知识的语义事件检测 |
JP2013054512A (ja) * | 2011-09-02 | 2013-03-21 | Fuji Xerox Co Ltd | 識別情報付与プログラム及び識別情報付与装置 |
-
2015
- 2015-07-12 CN CN201510405109.8A patent/CN104965819B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102414680A (zh) * | 2009-03-20 | 2012-04-11 | 伊斯曼柯达公司 | 利用跨域知识的语义事件检测 |
JP2013054512A (ja) * | 2011-09-02 | 2013-03-21 | Fuji Xerox Co Ltd | 識別情報付与プログラム及び識別情報付与装置 |
Non-Patent Citations (2)
Title |
---|
李浩瑞等: "基于混合模型的生物事件触发词检测", 《中文信息学报》 * |
王健 等: "基于深层句法分析的生物事件触发词抽取", 《计算机工程》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260361A (zh) * | 2015-10-28 | 2016-01-20 | 南京邮电大学 | 一种生物医学事件的触发词标注系统及方法 |
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN105512209B (zh) * | 2015-11-28 | 2018-06-19 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN105824800B (zh) * | 2016-03-15 | 2018-06-26 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN107590121A (zh) * | 2016-07-08 | 2018-01-16 | 科大讯飞股份有限公司 | 文本规整方法及系统 |
CN107590121B (zh) * | 2016-07-08 | 2020-09-11 | 科大讯飞股份有限公司 | 文本规整方法及系统 |
CN106599032A (zh) * | 2016-10-27 | 2017-04-26 | 浙江大学 | 一种结合稀疏编码和结构感知机的文本事件抽取方法 |
CN106599032B (zh) * | 2016-10-27 | 2020-01-14 | 浙江大学 | 一种结合稀疏编码和结构感知机的文本事件抽取方法 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN106933805A (zh) * | 2017-03-14 | 2017-07-07 | 陈飞 | 一种大数据集中生物事件触发词的识别方法 |
CN106933805B (zh) * | 2017-03-14 | 2020-04-28 | 陈一飞 | 一种大数据集中生物事件触发词的识别方法 |
CN107577656A (zh) * | 2017-07-12 | 2018-01-12 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
CN107577656B (zh) * | 2017-07-12 | 2020-02-14 | 中国科学院自动化研究所 | 文本隐含语义激活方法及系统 |
CN107818141A (zh) * | 2017-10-10 | 2018-03-20 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN107818141B (zh) * | 2017-10-10 | 2020-07-14 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
US11586817B2 (en) | 2018-02-12 | 2023-02-21 | Tencent Technology (Shenzhen) Company Limited | Word vector retrofitting method and apparatus |
WO2019154411A1 (zh) * | 2018-02-12 | 2019-08-15 | 腾讯科技(深圳)有限公司 | 词向量更新方法和装置 |
CN108647785A (zh) * | 2018-05-17 | 2018-10-12 | 普强信息技术(北京)有限公司 | 一种神经网络自动建模方法、装置及存储介质 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN108897989B (zh) * | 2018-06-06 | 2020-05-19 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN109614481A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 对象识别方法、装置、电子设备及计算机可读存储介质 |
CN110968688A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法数据的处理方法及系统 |
CN111104477A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN111104477B (zh) * | 2018-10-29 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN109815988B (zh) * | 2018-12-27 | 2021-08-20 | 北京奇艺世纪科技有限公司 | 模型生成方法、分类方法、装置及计算机可读存储介质 |
CN109815988A (zh) * | 2018-12-27 | 2019-05-28 | 北京奇艺世纪科技有限公司 | 模型生成方法、分类方法、装置及计算机可读存储介质 |
CN109871850A (zh) * | 2019-01-21 | 2019-06-11 | 北京大学 | 一种基于神经网络模型的车载激光雷达数据的分类方法 |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN109977228B (zh) * | 2019-03-21 | 2021-01-12 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN110197284B (zh) * | 2019-04-30 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN112384909A (zh) * | 2019-05-01 | 2021-02-19 | 微软技术许可有限责任公司 | 利用无监督学习来改进文本到内容建议的方法和系统 |
CN110825875B (zh) * | 2019-11-01 | 2022-12-06 | 科大讯飞股份有限公司 | 文本实体类型识别方法、装置、电子设备和存储介质 |
CN110825875A (zh) * | 2019-11-01 | 2020-02-21 | 科大讯飞股份有限公司 | 文本实体类型识别方法、装置、电子设备和存储介质 |
CN112182217A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 多标签文本类别的识别方法、装置、设备和存储介质 |
CN113360667A (zh) * | 2021-05-31 | 2021-09-07 | 安徽大学 | 基于多任务学习的生物医学触发词检测和命名实体识别方法 |
CN113360667B (zh) * | 2021-05-31 | 2022-07-26 | 安徽大学 | 基于多任务学习的生物医学触发词检测和命名实体识别方法 |
CN113282713A (zh) * | 2021-06-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 基于差异性神经表示模型的事件触发词检测方法 |
CN113282714A (zh) * | 2021-06-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 一种基于区分性词向量表示的事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104965819B (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965819A (zh) | 一种基于句法词向量的生物医学事件触发词识别方法 | |
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
EP3227836B1 (en) | Active machine learning | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN105260361A (zh) | 一种生物医学事件的触发词标注系统及方法 | |
CN104462066A (zh) | 语义角色标注方法及装置 | |
CN104217226A (zh) | 基于深度神经网络与条件随机场的对话行为识别方法 | |
CN108549718B (zh) | 一种通用主题嵌入模型联合训练方法 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN113312453A (zh) | 一种面向跨语言对话理解的模型预训练系统 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
Wang et al. | Gated convolutional LSTM for speech commands recognition | |
Teisseyre | Feature ranking for multi-label classification using Markov networks | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN113177417A (zh) | 一种基于混合神经网络和多级注意力机制的触发词识别方法 | |
CN113988048A (zh) | 基于多轮机器阅读理解的情感原因对抽取方法 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN108287819A (zh) | 一种实现财经新闻自动关联到股票的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |