CN107978373A - 一种基于共训练的半监督生物医学事件抽取方法 - Google Patents
一种基于共训练的半监督生物医学事件抽取方法 Download PDFInfo
- Publication number
- CN107978373A CN107978373A CN201711177721.XA CN201711177721A CN107978373A CN 107978373 A CN107978373 A CN 107978373A CN 201711177721 A CN201711177721 A CN 201711177721A CN 107978373 A CN107978373 A CN 107978373A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- training
- cnn
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于共训练的半监督生物医学事件抽取方法。随着生物医学文献的快速增长,生物医学事件的自动抽取引起了人们极大的兴趣。然而,已标注的生物医学事件语料库规模较小,这会影响分类算法的性能,甚至导致过拟合。我们提出了一种新的生物医学事件抽取的共训练方法,从未标记的数据中识别出更准确的正实例,以此扩大已标记的训练集。首先,设计丰富的特征供SVM使用。然后,用从Word2vec从Pubmed中学习基于词嵌入的短句,进一步将短句拓展为触发词和参数之间的依存短句,并将其输入到CNN中。最后,未标记语料库中经SVM和CNN预测的符合条件的样本对回填到训练集中,增量地扩展训练集。大量实验结果表明,新的半监督生物医学事件提取方法能有效提取事件。
Description
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于共训练的半监督生物医学事件抽取方法。
背景技术
生物医学事件提取是信息抽取的一个重要分支。随着生物医学文献的快速增长,科研工作者需要大量的精力和时间来获得相关的科学知识。因此,生物医学事件信息的自动抽取引起了人们极大的兴趣。因此,有必要以有效和准确的方法提取生物医学事件。
目前,事件抽取的方法可以大致可以分为两类:基于规则的方法和基于机器学习的方法。基于规则的事件抽取系统由一系列规则组成,包括句子结构、语法关系和语义关系等。这些是从训练数据手动定义或自动学习的。人工干预可以达到较高的精度,但召回率较低。但当语料库较大时,该方法很难指定对所有样本都能提高召回率的规则。基于机器学习的事件提取系统不需要人工干预,它将事件抽取视为一个分类问题,基于机器学习的方法提取大量的特征,如语法特征和语法特征。这些特征通常被输入到支持向量机模型(SVM)中,用于训练模型。基于机器学习的系统性能往往要优于基于规则的系统性能。随着深度学习的不断发展,许多深度学习方法已成功地应用于自然语言处理中。用卷积神经网络CNN分层构建文本表示;用深度信念网络DBN对生物医学文本进行分类等。
以上这些方法大多数都是基于已标记数据,使用监督算法研究改进生物医学事件提取系统的性能。然而,这些方法受到训练数据的限制,尤其当训练数据的规模太小时可能产生过拟合问题。而标注数据的成本是巨大的,为解决该问题,可以将不同的已标注生物医学语料库合并成一个,或使用半监督的方法。协同训练是Blum和Mitchell提出的半监督思想的一种重要算法,它在两个训练视角分别训练两个分类器。每个分类器充分学习,可以有条件地独立地给出类标签。
综上所述,我们提出一种基于共训练的半监督生物医学事件抽取方法。首先,对生物医学术语的(触发词、参数)对进行识别,并用SVM模型分类到预先定义的事件类型中。在特征自动提取阶段,CNN的输入是一种基于词嵌入的新的短句表示,它是触发词和参数之间的依赖性短句的补充信息。最后,选择未标注语料库中经SVM模型和的CNN模型预测后符合条件的对(触发词,参数)回填到训练集中重新训练,直到F值达到最大值。
发明内容
为解决现有的监督学习进行生物医学事件抽取中已标注样本量很小,容易产生过拟合的问题,本发明提出了一种基于共训练的半监督生物医学事件抽取方法,发明内容主要包括:用半监督学习的方法扩充已标注样本集的思想;使用SVM分类器和CNN分类器共训练,选择样本回填至训练集的流程;构建用作CNN输入的短句集的过程;构建CNN网络的流程;未标注样本集中用于回填至训练集的样本选择策略。
一种基于共训练的半监督生物医学事件抽取方法,其特征在于:至少包括以下步骤:
步骤1:初始化有标签数据集作为原始训练集,进行文本预处理,并生成短句训练集,同时初始化无标签数据集。
步骤2:在训练集上训练SVM分类器,在短句训练集上训练CNN分类器,用好的SVM分类器和CNN分类器对无标签样本进行分类预测。
步骤3:依据选择策略,选择无标签数据集中符合条件的样本,回填至训练集中,用扩充后的新训练集重新训练SVM分类器和CNN分类器,重复步骤2、3,直至开发集上的F值达到最大。
步骤4:经上述迭代过程,增量地扩展了训练集,并得到训练好的SVM分类器和CNN分类器,结合两分类器的结果,对最终待分类预测的文本进行分类预测。
本发明的有有益效果:
与现有技术相比,采用本发明所述的设计方案,可以达到以下技术效果:
1、使用半监督学习的方法扩充现有的已标注数据集,能在一定程度上减少过拟合问题,提高分类准确度。
2、使用触发词和参数之间的依赖性短句的补充信息构造短句集,作为CNN模型的输入,将附加信息添加到依存路径上,可以丰富最短依存路径的语义信息,以更准确地对事件类型进行分类。
3、使用SVM和CNN两个分类器进行共训练,充分利用两个分类器的预测信息,将其结合起来合理利用,提升生物医学事件抽取效果。
4、使用CNN卷积神经网络对短句集进行分类,解决了生物医学文本大多数句子太长,分类效果不好的问题。
附图说明
图1是所提出生物医学事件抽取方法框架图。
图2是卷积神经网络CNN的结构图。
图3是以一个句子为例,进行句法分析后得到的依存树。We have analyzed theexpression of TCL1mRNA and protein in peripheral blood lymphocytes(PBLs)fromfour AT cases and from healthy controls.句子大意为,我们分析了4例AT病例和健康对照的外周血淋巴细胞(PBLs)中mRNA TCL1和蛋白质的表达。图中0表示树的根节点,1表示We,2表示have,3表示analyzed,4表示the,5表示expression,7表示TCL1,8表示MRNA,10表示protein,12表示peripheral,13表示blood,14表示lymphocytes,16表示PBLs,19表示four,20表示AT,21表示cases,24表示healthy,25表示controls。箭头1表示root,箭头2表示nsnbj,箭头3表示aux,箭头4表示dobj,箭头5表示det,箭头6表示prep_of,箭头7表示prep_of,箭头8表示nn,箭头9表示conj_and,箭头10表示prep_in,箭头11表示amod,箭头12表示nn,箭头13表示appos,箭头14表示prep_from,箭头15表示prep_from,箭头16表示num,箭头17表示nn,箭头18表示conj_and,箭头19表示amod。
具体实施方式
步骤1:初始化有标签数据集和无标签数据集。进行文本预处理后,将有标签数据集作为原始训练集,并生成短句训练集。
将GE'11和GE'13的训练集结合起来,作为原始训练集。从互联网上的一些公开库下载相关的生物医学文献作为无标签数据集。使用NLTK和McClosky-Charniak-Johnson生物医学句法分析模型进行文本预处理。由于生物医学文本中大多数句子太长,CNN无法有效分类,因此,我们用篇幅有限、结构紧凑,但仍能独立表达语义的短句代替了生物医学文本的句子,使用CNN对短句进行分类。生物实体之间的最短依赖路径具有丰富的语义信息,可以很好地捕捉谓词参数序列,为抽取事件提供重要信息。然而,仅通过生物医学事件提取中的最短依赖路径进行分类是不准确的,有必要在最短依赖路径上添加信息。对训练集中的样本,提取(触发词,蛋白质)对之间的最短依存路径,通过添加直接子节点和直接父节点,拓展最短路径中每个节点的子树,然后根据原始句子中的位置信息,将所有节点包括子树节点扩展和依赖路径中的每个节点进行排列,并获得新的用于分类的短句,进一步构建了带有标签的短句训练集。
例如,图3中,触发词expression与蛋白质TCL1之间的最短依赖路径为L={expression mRNA TCL1},我们将最短依赖路径扩展为具有附加信息的短句,触发词expression扩展的节点有:analyzed(analyzed_3),the(the_4),protein(protein_10),lymphocytes(lymphocytes_14);mRNA扩展后的节点在最短路径和expression扩展节点中;TCL1扩展后没有节点。扩展后的所有节点(包括最短依存路径节点)对应的原文中所在位置的句子,即为我们生成的短文本,这样的短文本能够区分两个相近似的具有很短依存路径的事件。原句生成的短句为:analyzed the expression of TCL1mRNA and protein inperipheralblood lymphocytes。
步骤2:在训练集上训练SVM分类器,在短句训练集上训练CNN分类器,用好的SVM分类器和CNN分类器对无标签样本进行分类预测。
采用one-vs-rest的SVM方法,使用具有丰富信息的人工特征,在训练集上训练,得到SVM分类器。使用SVM分类器对无标签数据集中样本进行分类,得到SVM预测结果集。训练CNN分类器,将短句训练集中的短句用词嵌入表示为神经网络模型的输入向量,自动学习特征。第一层将单词嵌入到低维向量中,其中词向量由无监督的神经语言模型获得。下一层使用不同长度的滤波器对文本矩阵进行卷积,滤波器的宽度等于词向量的长度。使用最大池化处理每个滤波器提取的向量,并使用正则化方法防止过拟合。每个滤波器对应一个数字,将滤波器拼接在一起,获得表示该句子的向量,最后使用softmax层对结果进行分类,得到CNN预测结果集。
步骤3:依据选择策略,选择无标签数据集中符合条件的样本,回填至训练集中,用扩充后的新训练集重新训练SVM分类器和CNN分类器,重复步骤2、3,直至开发集上的F值达到最大。
提出的半监督学习方法基于两个分类器,第一分类器SVM和第二分类器CNN。训练后在无标签数据集上进行分类预测,分别得到SVM预测结果集和CNN预测结果集。通过选择策略合并两个分类器的预测结果。这里我们只考虑单参数事件。共训练的目的是选择最具信息的正样本。预测结果的选择策略如下:
其中为候选对(ti,aj)的选择标准。yij和y′ij分别为对(ti,aj)经SVM分类器和CNN分类器得到的类标签。此外,是通过CNN模型预测后标签是y的概率。DU为无标签数据集。两个分类器预测标签一致且为正的样本将被选中。对预测标签不一致的正例样本,我们根据分类概率的不同选择它们。对于给定的阈值θ,对候选对(ti,aj),如果则该样本被选中,并对其赋以CNN的预测标签。
将最终选中的样本回填到训练集中进行重新训练,并用我们的方法预测新的未标记样本。重复回填,直到开发集的F值达到最大值。
步骤4:经上述迭代过程,增量地扩展了训练集,并得到训练好的SVM分类器和CNN分类器,结合两分类器的结果,对最终待分类预测的文本进行分类预测。
由于生物医学事件的复杂性,简单类型事件的参数是实体(蛋白质),复杂类型事件的参数可能是蛋白质或其它事件。在我们共训练的方法中,生成短句作为CNN的输入,可以更好地识别简单类型事件,但却不能很好地表达复杂事件的语义。因此,对最终待预测样本进行预测分类时,简单类型事件仍然使用步骤3中的样本选择策略,而复杂类型事件则基于SVM预测的结果。
Claims (6)
1.一种基于共训练的半监督生物医学事件抽取方法,其特征在于,至少包括以下步骤:
步骤一:初始化有标签数据集作为原始训练集,进行文本预处理,并生成短句训练集,同时初始化无标签数据集;
步骤二:在训练集上训练SVM分类器,在短句训练集上训练CNN分类器,用好的SVM分类器和CNN分类器对无标签样本进行分类预测;
步骤三:依据选择策略,选择无标签数据集中符合条件的样本,回填至训练集中,用扩充后的新训练集重新训练SVM分类器和CNN分类器,重复步骤二、三,直至开发集上的F值达到最大;
步骤四:经上述迭代过程,增量地扩展了训练集,并得到训练好的SVM分类器和CNN分类器,结合两分类器的结果,对最终待分类预测的文本进行分类预测。
2.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述短句训练集的构造方法为:
21)对训练集中的样本,预处理后提取(触发词,蛋白质)对之间的最短依存路径;
22)依存路径过短的情况不能很好的表示句子的语义,有必要在最短依赖路径上添加信息,通过添加直接子节点和直接父节点,拓展最短路径中每个节点,然后根据原始句子中的位置信息,将所有节点包括子树节点扩展和依赖路径中的每个节点进行排列,并获得新的用于分类的短句,进一步构建了带有标签的短句训练集。
3.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述CNN的训练和预测方法为:
将短句训练集中的短句用词嵌入表示为神经网络模型的输入向量,自动学习特征,第一层将单词嵌入到低维向量中,其中词向量由无监督的神经语言模型获得,下一层使用不同长度的滤波器对文本矩阵进行卷积,滤波器的宽度等于词向量的长度,使用最大池化处理每个滤波器提取的向量,并使用正则化方法防止过拟合,每个滤波器对应一个数字,将滤波器拼接在一起,获得表示该句子的向量,最后使用softmax层对结果进行分类,得到CNN预测结果集。
4.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述选择样本对训练集进行回填的方法为:
样本选择策略如下:
<mrow>
<msub>
<mi>F</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>N</mi>
<mi>o</mi>
<mi>n</mi>
<mi>e</mi>
<mi> </mi>
<mi>o</mi>
<mi>r</mi>
<mi> </mi>
<msubsup>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mi>N</mi>
<mi>o</mi>
<mi>m</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mo>|</mo>
<msubsup>
<mi>P</mi>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>C</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>P</mi>
<msubsup>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mi>C</mi>
</msubsup>
<mo>|</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
<mo>&ForAll;</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&Element;</mo>
<msup>
<mi>D</mi>
<mi>U</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msup>
<mi>D</mi>
<mrow>
<mi>U</mi>
<mi>L</mi>
</mrow>
</msup>
<mo>=</mo>
<mo>{</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>(</mo>
<mrow>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msub>
<mi>F</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<mi>&theta;</mi>
<mo>,</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mi>e</mi>
<mi>v</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mo>}</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中为候选对(ti,aj)的选择标准,yij和y′ij分别为对(ti,aj)经SVM分类器和CNN分类器得到的类标签,此外,是通过CNN模型预测后标签是y的概率,DU为无标签数据集,两个分类器预测标签一致且为正的样本将被选中,对预测标签不一致的正例样本,我们根据分类概率的不同选择它们,对于给定的阈值θ对候选对(ti,aj),如果则该样本被选中,并对其赋以CNN的预测标签。
5.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述使用SVM分类器和CNN分类器共训练选择样本回填至训练集,完成半监督的方法为:
共训练是半监督思想的一种重要算法,它在两个训练视角分别训练两个分类器,每个分类器充分学习,可以有条件地独立地给出类标签,我们提出的基于共训练的半监督学习方法基于两个分类器,第一分类器SVM和第二分类器CNN,首先,在原始训练语料上训练SVM分类器,预测未标记样本;接下来,我们用训练集中生成的短句训练CNN分类器,并预测未标注样本;然后,通过选择策略合并两个分类器的预测结果;最后,将最终选中的样本回填到训练集中进行重新训练,并用我们的方法预测新的未标记样本,重复回填,直到开发集的F值达到最大值。
6.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述对最终待预测样本进行预测分类的方法为:
由于生物医学事件的复杂性,简单类型事件的参数是实体(蛋白质),复杂类型事件的参数可能是蛋白质或其它事件,在我们共训练的方法中,生成短句作为CNN的输入,可以更好地识别简单类型事件,但却不能很好地表达复杂事件的语义,因此,对最终待预测样本进行预测分类时,简单类型事件依据权利要求4中所述样本选择策略,而复杂类型事件则基于SVM预测的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711177721.XA CN107978373A (zh) | 2017-11-23 | 2017-11-23 | 一种基于共训练的半监督生物医学事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711177721.XA CN107978373A (zh) | 2017-11-23 | 2017-11-23 | 一种基于共训练的半监督生物医学事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107978373A true CN107978373A (zh) | 2018-05-01 |
Family
ID=62011160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711177721.XA Pending CN107978373A (zh) | 2017-11-23 | 2017-11-23 | 一种基于共训练的半监督生物医学事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107978373A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
CN109284313A (zh) * | 2018-08-10 | 2019-01-29 | 深圳前海微众银行股份有限公司 | 基于半监督学习的联邦建模方法、设备及可读存储介质 |
CN110502669A (zh) * | 2019-07-12 | 2019-11-26 | 中国人民解放军战略支援部队信息工程大学 | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
CN111027595A (zh) * | 2019-11-19 | 2020-04-17 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN111523300A (zh) * | 2020-04-14 | 2020-08-11 | 北京精准沟通传媒科技股份有限公司 | 一种车辆综合评价方法、装置及电子设备 |
CN112052674A (zh) * | 2020-08-06 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种实体定义抽取方法、系统及存储介质和服务器 |
CN112487237A (zh) * | 2020-12-14 | 2021-03-12 | 重庆邮电大学 | 基于自适应cnn和半监督自训练模型的音乐分类方法 |
CN113160997A (zh) * | 2021-03-01 | 2021-07-23 | 中电云脑(天津)科技有限公司 | 肿瘤检验报告的处理方法、模型训练方法及相关装置 |
CN113190847A (zh) * | 2021-04-14 | 2021-07-30 | 深信服科技股份有限公司 | 一种脚本文件的混淆检测方法、装置、设备及存储介质 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN113496034A (zh) * | 2020-03-18 | 2021-10-12 | 深信服科技股份有限公司 | Vba脚本混淆检测方法、装置、设备及可读存储介质 |
CN114169966A (zh) * | 2021-12-08 | 2022-03-11 | 海南港航控股有限公司 | 一种用张量提取货物订单元数据的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324046A (zh) * | 2011-09-01 | 2012-01-18 | 西安电子科技大学 | 结合主动学习的四分类器协同训练方法 |
CN103136361A (zh) * | 2013-03-07 | 2013-06-05 | 陈一飞 | 一种生物文本中蛋白质相互关系的半监督抽取方法 |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
US20150293956A1 (en) * | 2012-12-19 | 2015-10-15 | International Business Machines Corporation | Indexing of large scale patient set |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106874668A (zh) * | 2017-02-14 | 2017-06-20 | 复旦大学 | 一种基于全记忆事件序列挖掘模型的用药分析方法 |
-
2017
- 2017-11-23 CN CN201711177721.XA patent/CN107978373A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324046A (zh) * | 2011-09-01 | 2012-01-18 | 西安电子科技大学 | 结合主动学习的四分类器协同训练方法 |
US20150293956A1 (en) * | 2012-12-19 | 2015-10-15 | International Business Machines Corporation | Indexing of large scale patient set |
CN103136361A (zh) * | 2013-03-07 | 2013-06-05 | 陈一飞 | 一种生物文本中蛋白质相互关系的半监督抽取方法 |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106874668A (zh) * | 2017-02-14 | 2017-06-20 | 复旦大学 | 一种基于全记忆事件序列挖掘模型的用药分析方法 |
Non-Patent Citations (2)
Title |
---|
WEIZHONG QIAN等: "Semi-supervised method for Extraction of Protein-Protein Interactions using hybrid model", 《2013 THIRD INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEM DESIGN AND ENGINEERING APPLICATIONS》 * |
王艳华: "基于监督学习和半监督学习的蛋白质关系抽取", 《江西师范大学学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN108846257B (zh) * | 2018-05-09 | 2021-08-24 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
CN109284313A (zh) * | 2018-08-10 | 2019-01-29 | 深圳前海微众银行股份有限公司 | 基于半监督学习的联邦建模方法、设备及可读存储介质 |
CN109284313B (zh) * | 2018-08-10 | 2021-08-27 | 深圳前海微众银行股份有限公司 | 基于半监督学习的联邦建模方法、设备及可读存储介质 |
CN110502669A (zh) * | 2019-07-12 | 2019-11-26 | 中国人民解放军战略支援部队信息工程大学 | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
CN111027595A (zh) * | 2019-11-19 | 2020-04-17 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN111027595B (zh) * | 2019-11-19 | 2022-05-03 | 电子科技大学 | 双阶段语义词向量生成方法 |
CN113496034A (zh) * | 2020-03-18 | 2021-10-12 | 深信服科技股份有限公司 | Vba脚本混淆检测方法、装置、设备及可读存储介质 |
CN111523300B (zh) * | 2020-04-14 | 2021-03-05 | 北京精准沟通传媒科技股份有限公司 | 一种车辆综合评价方法、装置及电子设备 |
CN111523300A (zh) * | 2020-04-14 | 2020-08-11 | 北京精准沟通传媒科技股份有限公司 | 一种车辆综合评价方法、装置及电子设备 |
CN112052674A (zh) * | 2020-08-06 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种实体定义抽取方法、系统及存储介质和服务器 |
CN112487237A (zh) * | 2020-12-14 | 2021-03-12 | 重庆邮电大学 | 基于自适应cnn和半监督自训练模型的音乐分类方法 |
CN112487237B (zh) * | 2020-12-14 | 2022-10-18 | 重庆邮电大学 | 基于自适应cnn和半监督自训练模型的音乐分类方法 |
CN113160997A (zh) * | 2021-03-01 | 2021-07-23 | 中电云脑(天津)科技有限公司 | 肿瘤检验报告的处理方法、模型训练方法及相关装置 |
CN113190847A (zh) * | 2021-04-14 | 2021-07-30 | 深信服科技股份有限公司 | 一种脚本文件的混淆检测方法、装置、设备及存储介质 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN113420145B (zh) * | 2021-05-11 | 2023-05-23 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN114169966A (zh) * | 2021-12-08 | 2022-03-11 | 海南港航控股有限公司 | 一种用张量提取货物订单元数据的方法及系统 |
CN114169966B (zh) * | 2021-12-08 | 2022-08-05 | 海南港航控股有限公司 | 一种用张量提取货物订单元数据的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107978373A (zh) | 一种基于共训练的半监督生物医学事件抽取方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
KR102008845B1 (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN107943784A (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109740154A (zh) | 一种基于多任务学习的在线评论细粒度情感分析方法 | |
CN105512209A (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN110516074A (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
Pardos et al. | Imputing KCs with representations of problem content and context | |
Kandhro et al. | Sentiment analysis of students’ comment using long-short term model | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN114756681B (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN116860978B (zh) | 基于知识图谱和大模型的小学语文个性化学习系统 | |
CN106446022A (zh) | 一种基于形式语义推理和深度学习的自然语言知识挖掘方法 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN111710428A (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN114925212A (zh) | 一种自动判断并融合知识图谱的关系抽取方法及系统 | |
CN114373554A (zh) | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 | |
CN106598952A (zh) | 基于卷积神经网络的中文模糊限制信息范围检测系统 | |
Huspi et al. | Sentiment Analysis on Roman Urdu Students’ Feedback Using Enhanced Word Embedding Technique | |
Kang et al. | BioSpark: An End-to-End Generative System for Biological-Analogical Inspirations and Ideation | |
KR20200040032A (ko) | 양방향 lstm―attention 기반 한국어 게시글 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180501 |
|
WD01 | Invention patent application deemed withdrawn after publication |