CN110532568B - 基于树特征选择和迁移学习的汉语词义消歧方法 - Google Patents

基于树特征选择和迁移学习的汉语词义消歧方法 Download PDF

Info

Publication number
CN110532568B
CN110532568B CN201910834309.3A CN201910834309A CN110532568B CN 110532568 B CN110532568 B CN 110532568B CN 201910834309 A CN201910834309 A CN 201910834309A CN 110532568 B CN110532568 B CN 110532568B
Authority
CN
China
Prior art keywords
word
chinese
training
disambiguation
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910834309.3A
Other languages
English (en)
Other versions
CN110532568A (zh
Inventor
张春祥
熊经钊
高雪瑶
赵凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910834309.3A priority Critical patent/CN110532568B/zh
Publication of CN110532568A publication Critical patent/CN110532568A/zh
Application granted granted Critical
Publication of CN110532568B publication Critical patent/CN110532568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于树的特征选择和迁移学习的汉语词义消歧方法。本发明首先对汉语语料进行处理,对包含歧义词汇的汉语句子进行分词、词性标注、译文标注和语义标注处理,得到处理好的训练语料、测试语料以及辅助训练语料。对得到的训练语料、测试语料和辅助训练语料按照树模型的特征选择方法抽取特征得到训练数据集、测试数据集和辅助训练集。以训练数据集和辅助训练集为基础,利用改进的Tradaboost算法来优化词义消歧模型。使用优化后的消歧模型对测试数据集进行消歧。本发明在词义消歧方面实现了较好的消歧效果。

Description

基于树特征选择和迁移学习的汉语词义消歧方法
技术领域:
本发明涉及一种基于树特征选择和迁移学习的汉语词义消歧方法,该方法在自然语言处理中有着很好的应用。
背景技术:
在自然语言处理领域中,词义消歧具有非常重要的作用。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、语音识别、信息检索和文本分类中有着重要的应用。这些应用系统的性能好坏与词义消歧有着紧密的联系。
消歧特征质量较低和标记语料较少这两方面的因素对词义消歧的准确率有很大的影响。对语料进行预处理之后,从消歧特征中挑选质量更高的特征子集作为词义消歧模型的输入。挑选高质量的消歧特征是提高消歧准确率的一个重要手段。在机器学习中,有很多特征选择方法:卡方检验、Pearson相关系数、互信息、最大信息系数、距离相关系数、基于模型的特征排序和基于树的特征选择等。这些方法可以帮助我们挑选出质量较高的消歧特征。随着机器学习技术的快速发展,有标注数据过少的问题会逐渐地凸显出来。在信息爆炸的时代,每时每刻都会产生大量的新数据,人工标注这些数据是一件耗时耗力的事情。近年来,深度学习已被广泛地应用于自然语言处理领域。其中,迁移学习是一种非常强大的深度学习技术。迁移学习能够将适用于大数据的模型迁移到小数据上,实现个性化迁移。为了解决词义消歧过程中遇到的标注语料过少和消歧特征质量不高的问题,本发明提出了一种基于树特征选择和迁移学习的汉语词义消歧方法。
发明内容:
为了解决自然语言处理领域中的词汇歧义问题,本发明公开了一种基于树特征选择和迁移学习的汉语词义消歧方法。歧义词汇w有n个语义类s1,s2,…,sn,以下所有语料的处理都是针对歧义词w的句子进行的。
为此,本发明提供了如下技术方案:
1.基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,该方法包括以下步骤:
步骤1:对1998年PFR人民日报语料所包含的所有汉语句子进行分词、词性标注、译文标注和语义类标注。对SemEval-2007:Task#5的训练语料和测试语料进行译文标注和语义类标注。选取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征。
步骤2:提取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类,统计其出现频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集。
步骤3:使用SemEval-2007:Task#5目标训练集对树模型进行训练,选择使树的预测模型达到最优的特征子集作为所使用的消歧特征。
步骤4:将SemEval-2007:Task#5目标训练集和人民日报辅助训练集输入到改进的Tradaboost算法,经过若干次迭代得到优化后的贝叶斯词义消歧模型。
步骤5:将歧义词汇w的测试数据输入到优化后的贝叶斯词义消歧模型中,计算歧义词汇w所属的语义类别。
2.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤1中,具体步骤为:
步骤1-1利用汉语分词工具对汉语句子进行词汇切分;
步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注;
步骤1-3利用机器翻译工具标注汉语词汇的英语译文;
步骤1-4利用汉语语义标注工具标注出汉语词汇的语义类别;
步骤1-5选取歧义词汇w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征,获得了16个消歧特征,组成特征向量x。
3.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤2中,具体步骤为:
步骤2-1标注哈尔滨工业大学人工语义标注语料中的汉语词汇的英语译文;
步骤2-2以处理后的哈尔滨工业大学人工语义标注语料为基础,统计特征向量x中16个消歧特征出现的频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集。
4.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤3中,利用树模型进行特征选择,具体步骤为:
步骤3-1使用SemEval-2007:Task#5目标训练集对树模型进行训练;
步骤3-2计算特征向量x中16个消歧特征的重要程度,特征j的特征重要程度为:
Figure BDA0002191747260000031
其中,M是模型中树的数量,
Figure BDA0002191747260000032
表示特征j在树Tm下的重要程度。
步骤3-3选择大于设定阈值的特征作为本发明中使用的消歧特征;
5.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,在所述步骤4中,对词义消歧模型进行训练,具体步骤为:
步骤4-1将SemEval-2007:Task#5目标训练集和人民日报辅助训练集组成新的训练集,输入到改进的Tradaboost算法中;
步骤4-2初始化训练集实例权重向量W、语义类别权重λ和参数β,设置最大循环次数N;
步骤4-3计算SemEval-2007:Task#5目标训练集的实例分布P;
步骤4-4根据训练集的实例分布P,采用贝叶斯分类器h(x)对样本进行分类;
步骤4-5计算样本分类的错误率εt
步骤4-6根据错误率εt重新计算参数β;
步骤4-7对SemEval-2007:Task#5目标训练集实例和人民日报辅助训练集实例的权重向量W分别进行更新;
步骤4-8对语义类别权重λ进行更新;
步骤4-9如果未达到最大循环次数N或者错误率εt不为零,则继续执行步骤4-3至4-8。
步骤4-10达到循环终止条件,输出优化后的贝叶斯词义消歧模型,选择使模型输出值达到最大的语义si(i=1,2,...,n)作为歧义词汇w的语义类别s:
Figure BDA0002191747260000041
6.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,在所述步骤5中,具体步骤为:
步骤5-1将歧义词汇w的特征向量x输入到优化后的贝叶斯词义消歧模型中;
步骤5-2利用优化后的贝叶斯词义消歧模型计算歧义词汇w所属的语义类别:
Figure BDA0002191747260000051
其中,x为歧义词汇w的消歧特征向量。
有益效果:
1.本发明使用树模型来进行特征选择。以SemEval-2007:Task#5语料为基础,以人民日报语料为辅助。对人民日报语料中的汉语句子进行了词汇切分、词性标注、译文标注和语义类标注。对SemEval-2007:Task#5语料中的汉语句子进行译文标注和语义类标注,并统计消歧特征的出现频率。利用树模型来对消歧特征进行选择,所获取的特征子集质量较高,能够产生更好的消歧效果。
2.本发明运用了迁移学习的思想。针对有标注数据匮乏和人工标注代价昂贵的问题,迁移学习利用学习目标和已有知识之间的相关性,把知识从已有的模型和数据中迁移到要学习的目标上去。应用迁移学习思想,利用目标语料和辅助语料共同对分类器进行训练以达到优化词义消歧模型的目的。
3.本发明使用了改进的Tradaboost算法来优化词义消歧分类器。词义消歧是典型的多分类问题,传统的Tradaboost算法应用范围较小,只能解决二分类问题。本发明对传统的Tradaboost算法进行改进,使之能够适应词义消歧的多分类问题。
4.本发明使用贝叶斯模型作为基础分类器,同时对其进行改进。对歧义词汇w的每种语义类别si赋予了不同的权值。在训练过程中,对每种语义类别的权重进行更新。如果大部分实例的语义类别被判别为si,那么就增大语义类别si的权重。否则,减小语义类别si的权重。这样处理可以使贝叶斯分类器的分类性能得到进一步提升。
附图说明:
图1为本发明实施方式中汉语句子词义消歧的流程图。
图2为本发明实施方式中基于树模型进行特征选择的流程图。
图3为本发明实施方式中基于迁移学习的词义消歧模型的训练过程。
图4为本发明实施方式中选择贝叶斯分类器作为基础分类器的词义消歧流程。
具体实施方式:
为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。
对汉语句子“关于在工业领域大力推广新型表面工程技术的提案”中的歧义词汇“表面”进行消歧处理。
本发明实施例基于树特征选择和迁移学习的汉语词义消歧方法的流程图,如图1所示,包括以下步骤。
步骤1消歧特征的提取过程如下:
针对汉语句子“关于在工业领域大力推广新型表面工程技术的提案。”,其特征提取步骤如下所示:
步骤1-1利用汉语分词工具对汉语句子进行词汇切分。
分词结果:关于在工业领域大力推广新型表面工程技术的提案。
步骤1-2利用汉语词性标注工具对分词结果中的词汇进行词性标注。
词性标注的结果为:关于/p在/p工业/n领域/n大力/d推广/v新型/b表面/n工程/n技术/n的/u提案/n。
步骤1-3利用汉语译文标注工具对已切分好的词汇进行英语译文标注。
英文译文标注的结果为:关于/about在/zai工业/Industry领域/field大力/vigorously推广/extend新型/new表面/surface工程/engineering技术/technology的/de提案/proposal。
步骤1-4利用汉语语义标注工具对分词结果中的词汇进行语义类标注。
语义标注结果为:关于/Kb04在/Hj19工业/Di18领域/Dd05大力/Dd14推广/Ie13新型/Eb28表面/Dd08工程/Di18技术/De04的/Ed01提案/Dk13。
含有歧义词汇“表面”的汉语句子的分词、词性标注、译文标注和语义类标注结果为:关于/p/about/Kb04在/p/zai/Hj19工业/n/Industry/Di18领域/n/field/Dd05大力/d/vigorously/Dd14推广/v/extend/Ie13新型/b/new/Eb28表面/n/surface/Dd08工程/n/engineering/Di18技术/n/technology/De04的/u/de/Ed01提案/n/proposal/Dk13。
步骤2统计消歧特征出现的频率。
步骤2-1标注哈尔滨工业大学人工语义标注语料中的汉语词汇的英语译文。
步骤2-1提取了16个消歧特征:“推广”、“v”、“extend”、“Ie13”、“新型”、“b”、“new”、“Eb28”、“工程”、“n”、“engineering”、“Di18”、“技术”、“n”、“technology”、“De04”。在处理后的哈尔滨工业大学人工语义标注语料中,统计16个消歧特征的出现频率,如下表所示。
Figure BDA0002191747260000071
经过计算可以得到歧义词汇“表面”的消歧特征向量x=[0.000 0.173 0.0000.003 0.000 0.007 0.003 0.002 0.001 0.255 0.001 0.004 0.001 0.255 0.0020.003]
本发明实施例基于树模型进行特征选择的流程如图2所示,包括以下步骤。
步骤3利用树模型进行特征选择。
步骤3-1用目标训练集对树模型进行训练;
步骤3-2用训练后的树模型计算特征向量x中的16个特征的重要程度,计算每个特征x[j](j=0,1,2,…,15)的重要程度为:
Figure BDA0002191747260000081
其中,M是模型中树的数量,
Figure BDA0002191747260000082
表示特征x[j]在树Tm下的重要程度。经过计算可以得到特征x中16个特征的重要程度为:
Figure BDA0002191747260000083
步骤3-3选择大于设定阈值的特征作为本发明中使用的消歧特征,本发明中设置“median”为阈值,选择值>median的特征组成消歧特征子向量。经过特征选择之后,原有的消歧特征向量x=[0.000 0.173 0.000 0.003 0.000 0.007 0.003 0.002 0.001 0.2550.001 0.004 0.001 0.255 0.002 0.003]转变为对消歧过程更有帮助的特征子向量x=[0.173 0.003 0.000 0.003 0.002 0.255 0.002 0.003]。
步骤4歧义词汇“表面”的语义类有两种,分别为“appearance”和“face”。以数字0表示语义类“appearance”,以数字1表示语义类“face”。
本发明实施例基于迁移学习的词义消歧模型训练过程,如图3所示,具体步骤为:
步骤4-1将包含歧义词“表面”的53个训练实例和34个辅助训练实例组成新的训练数据集,输入到改进的Tradaboost算法中。
步骤4-2初始化训练集实例权重向量
Figure BDA0002191747260000091
(权重上脚标1代表第一次循环)、语义类别权重
Figure BDA0002191747260000092
(权重上脚标1代表第一次循环,
Figure BDA0002191747260000093
代表语义类si在训练实例中出现的次数,n代表训练实例的个数)和参数
Figure BDA0002191747260000094
设置最大循环次数N=10。
步骤4-3计算训练数据集的实例分布
Figure BDA0002191747260000095
步骤4-4依据训练集的实例分布P,采用贝叶斯分类器h(x)对样本进行分类。贝叶斯词义消歧模型如下所示:
Figure BDA0002191747260000096
以贝叶斯模型作为基础分类器进行词义消歧的流程如图4所示。
步骤4-5计算样本分类错误率
Figure BDA0002191747260000097
其中,[condition]表示:若condition为真,则[condition]=1;否则,[condition]=0;
步骤4-6根据错误率εt计算参数
Figure BDA0002191747260000098
步骤4-7分别更新训练集和辅助训练集中的实例权重向量W,
Figure BDA0002191747260000099
步骤4-8更新语义类别权重,
Figure BDA00021917472600000910
(
Figure BDA00021917472600000911
为语义类别si在训练实例中出现的次数,n代表训练实例的个数);
步骤4-9若未达到最大循环次数N或者错误率εt不为0,则继续执行步骤4-3至4-8。
步骤4-10达到循环终止条件,输出优化后的贝叶斯词义消歧模型,选择使模型输出概率达到最大的语义si(i=1,2,...,n)作为歧义词“表面”的语义类别s:
Figure BDA0002191747260000101
步骤5本发明实施方式中词义消歧模型的测试过程,具体步骤为:
步骤5-1将歧义词汇w的特征向量x=[0.173 0.003 0.000 0.003 0.002 0.2550.002 0.003]输入到优化后的贝叶斯词义消歧模型之中;
步骤5-2根据优化后的贝叶斯词义消歧模型计算歧义词汇“表面”所属的语义类别:
Figure BDA0002191747260000102
计算得到:
Figure BDA0002191747260000103
Figure BDA0002191747260000104
其中,“0”表示歧义词“表面”的语义为“appearance”,“1”表示歧义词“表面”的语义为“face”。由于
Figure BDA0002191747260000105
经过计算比较可知:在特征向量x=[0.173 0.003 0.000 0.003 0.002 0.255 0.002 0.003]下,歧义词汇“表面”的语义类别为“face”。
使用本发明所提出的词义消歧方法,对包含歧义词汇“表面”的汉语句子“关于在工业领域大力推广新型表面工程技术的提案”进行词义消歧,歧义词汇“表面”所对应的语义类别为face。
本发明实施方式中的基于树的特征选择和迁移学习的汉语词义消歧方法,能够从众多特征中挑选出对消歧结果影响最大的特征子集,采用改进的Tradaboost算法来优化词义消歧分类器。测试结果表明:本发明具有较好的消歧性能。
以上所述结合附图,对本发明的实施例进行详细介绍,具体实施方式只是用于帮助理解本发明的消歧方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,例如:本发明采用贝叶斯模型作为词义消歧分类器,但在实际运用中可以选择最大熵模型、神经网络模型和逻辑回归模型等。本发明选择词形、词性、译文和语义类作为消歧特征,在实际运用中可以引入依存句法分析和领域知识作为消歧特征。故本发明书不应理解为对本发明的限制。

Claims (4)

1.基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,该方法包括以下步骤:
步骤1:对1998年PFR人民日报语料所包含的所有汉语句子进行分词、词性标注、译文标注和语义类标注;对SemEval-2007:Task#5的训练语料和测试语料进行译文标注和语义类标注;选取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征;
步骤2:提取歧义词w左右4个邻接词汇单元的词形、词性、译文和语义类,统计其出现频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集;
步骤3:使用SemEval-2007:Task#5目标训练集对树模型进行训练,选择使树的预测模型达到最优的特征子集作为所使用的消歧特征;
步骤4:将SemEval-2007:Task#5目标训练集和人民日报辅助训练集输入到改进的Tradaboost算法,经过若干次迭代得到优化后的贝叶斯词义消歧模型;
步骤4-1将SemEval-2007:Task#5目标训练集包含歧义词“表面”的53个训练实例和人民日报辅助训练集包含歧义词“表面”的34个辅助训练实例组成新的训练数据集,输入到改进的Tradaboost算法中;
步骤4-2初始化训练集实例权重向量
Figure FDA0003665213020000011
权重上脚标1代表第一次循环,语义类别权重
Figure FDA0003665213020000012
权重上脚标1代表第一次循环,
Figure FDA0003665213020000013
代表语义类si在训练实例中出现的次数,n代表训练实例的个数,参数
Figure FDA0003665213020000014
设置最大循环次数N=10;
步骤4-3计算训练数据集的实例分布
Figure FDA0003665213020000015
步骤4-4依据训练集的实例分布P,采用贝叶斯分类器h(x)对样本进行分类,贝叶斯词义消歧模型如下所示:
Figure FDA0003665213020000016
步骤4-5计算样本分类错误率
Figure FDA0003665213020000021
其中,[condition]表示:若condition为真,则[condition]=1,否则,[condition]=0;
步骤4-6根据错误率εt计算参数
Figure FDA0003665213020000022
步骤4-7分别更新训练集和辅助训练集中的实例权重向量W,
Figure FDA0003665213020000023
步骤4-8更新语义类别权重,
Figure FDA0003665213020000024
Figure FDA0003665213020000025
为语义类别si在训练实例中出现的次数,n代表训练实例的个数;
步骤4-9若未达到最大循环次数N或者错误率εt不为0,则继续执行步骤4-3至4-8;
步骤4-10达到循环终止条件,输出优化后的贝叶斯词义消歧模型;
步骤5:将歧义词汇w的测试数据输入到优化后的贝叶斯词义消歧模型中,计算歧义词汇w所属的语义类别;
步骤5-1将歧义词汇w的特征向量x输入到优化后的贝叶斯词义消歧模型中;
步骤5-2利用优化后的贝叶斯词义消歧模型计算歧义词汇w所属的语义类别:
Figure FDA0003665213020000026
其中,x为歧义词汇w的消歧特征向量。
2.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤1中,具体步骤为:
步骤1-1利用汉语分词工具对汉语句子进行词汇切分;
步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注;
步骤1-3利用机器翻译工具标注汉语词汇的英语译文;
步骤1-4利用汉语语义标注工具标注出汉语词汇的语义类别;
步骤1-5选取歧义词汇w左右4个邻接词汇单元的词形、词性、译文和语义类作为消歧特征,获得了16个消歧特征,组成特征向量x。
3.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤2中,具体步骤为:
步骤2-1标注哈尔滨工业大学人工语义标注语料中的汉语词汇的英语译文;
步骤2-2以处理后的哈尔滨工业大学人工语义标注语料为基础,统计特征向量x中16个消歧特征出现的频率,形成SemEval-2007:Task#5目标训练集、SemEval-2007:Task#5测试集和人民日报辅助训练集。
4.根据权利要求1所述的基于树特征选择和迁移学习的汉语词义消歧方法,其特征在于,所述步骤3中,利用树模型进行特征选择,具体步骤为:
步骤3-1使用SemEval-2007:Task#5目标训练集对树模型进行训练;
步骤3-2计算特征向量x中16个消歧特征的重要程度,特征j的特征重要程度为:
Figure FDA0003665213020000031
其中,M是模型中树的数量,
Figure FDA0003665213020000032
表示特征j在树Tm下的重要程度;
步骤3-3选择大于设定阈值的特征作为本发明中使用的消歧特征。
CN201910834309.3A 2019-09-05 2019-09-05 基于树特征选择和迁移学习的汉语词义消歧方法 Active CN110532568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910834309.3A CN110532568B (zh) 2019-09-05 2019-09-05 基于树特征选择和迁移学习的汉语词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910834309.3A CN110532568B (zh) 2019-09-05 2019-09-05 基于树特征选择和迁移学习的汉语词义消歧方法

Publications (2)

Publication Number Publication Date
CN110532568A CN110532568A (zh) 2019-12-03
CN110532568B true CN110532568B (zh) 2022-07-01

Family

ID=68666975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910834309.3A Active CN110532568B (zh) 2019-09-05 2019-09-05 基于树特征选择和迁移学习的汉语词义消歧方法

Country Status (1)

Country Link
CN (1) CN110532568B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627427B (zh) * 2020-05-15 2023-05-05 北京青牛技术股份有限公司 特定领域的语音识别模型的构建方法
CN113343686A (zh) * 2021-04-30 2021-09-03 山东师范大学 文本多特征歧义消解方法及系统
CN113449520A (zh) * 2021-07-22 2021-09-28 中国工商银行股份有限公司 一种词义消歧方法和装置
CN113837071B (zh) * 2021-09-23 2024-02-02 重庆大学 基于多尺度权重选择对抗网络的部分迁移故障诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407406A (zh) * 2016-09-22 2017-02-15 国信优易数据有限公司 一种文本处理方法和系统
CN107357786A (zh) * 2017-07-13 2017-11-17 山西大学 一种基于大量伪数据的贝叶斯词义消歧方法
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学习的绝对不平衡文本分类方法
CN108009156A (zh) * 2017-12-27 2018-05-08 成都信息工程大学 一种基于部分监督学习的中文概括性文本切分方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN109214007A (zh) * 2018-09-19 2019-01-15 哈尔滨理工大学 一种基于卷积神经网络的汉语句子词义消岐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10616253B2 (en) * 2017-11-13 2020-04-07 International Business Machines Corporation Anomaly detection using cognitive computing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407406A (zh) * 2016-09-22 2017-02-15 国信优易数据有限公司 一种文本处理方法和系统
CN107357786A (zh) * 2017-07-13 2017-11-17 山西大学 一种基于大量伪数据的贝叶斯词义消歧方法
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学习的绝对不平衡文本分类方法
CN108009156A (zh) * 2017-12-27 2018-05-08 成都信息工程大学 一种基于部分监督学习的中文概括性文本切分方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN109214007A (zh) * 2018-09-19 2019-01-15 哈尔滨理工大学 一种基于卷积神经网络的汉语句子词义消岐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
urdu word sense disambiguation using machine learning approach;Muhammad Abid 等;《Cluster Computing》;20170620;515-522 *
基于半监督集成学习的词义消歧研究;熊经钊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210915;I138-847 *
基于语义类词法信息的词义消歧;孙璐荣;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20170315;I138-6016 *
引入词性标记的基于语境相似度的词义消歧;孟禹光 等;《中文信息学报》;20180815;9-18 *

Also Published As

Publication number Publication date
CN110532568A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532568B (zh) 基于树特征选择和迁移学习的汉语词义消歧方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN109117472A (zh) 一种基于深度学习的维吾尔文命名实体识别方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109960799B (zh) 一种面向短文本的优化分类方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN104572634B (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN109213997B (zh) 一种基于双向长短时记忆网络模型的中文分词方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN110414009A (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN111126037B (zh) 一种基于孪生循环神经网络的泰文句子切分方法
CN113220865A (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN116244445A (zh) 航空文本数据标注方法及其标注系统
CN113988054A (zh) 一种面向煤矿安全领域的实体识别方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant