CN109086269A - 一种基于语义资源词表示和搭配关系的语义双关语识别方法 - Google Patents
一种基于语义资源词表示和搭配关系的语义双关语识别方法 Download PDFInfo
- Publication number
- CN109086269A CN109086269A CN201810796931.5A CN201810796931A CN109086269A CN 109086269 A CN109086269 A CN 109086269A CN 201810796931 A CN201810796931 A CN 201810796931A CN 109086269 A CN109086269 A CN 109086269A
- Authority
- CN
- China
- Prior art keywords
- word
- equivocacy
- language
- model
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Abstract
一种基于语义资源词表示和搭配关系的语义双关语识别方法,属于自然语言处理领域,用于解决双关语识别问题。识别方法包括:S1预处理语义双关语语料;S2构建基于语义资源词表示模型;S3使用Bi‑LSTM识别语义双关语;S4构建基于搭配关系的注意力机制模型;S5、融合语义上下文信息和搭配信息;S6构建离线训练模型;S7在线预测。本发明从语义双关语的特点进行出发,是一种可以完善其多个含义并补充其搭配关系的基于语义资源词表示和搭配关系的语义双关语识别方法,可以有效提升识别的性能。
Description
技术领域
本发明涉及自然语言处理领域,语义双关语的识别。尤其是一种基于语义资源词表示和搭配关系的语义双关语识别方法。
背景技术
近年来,双关语一直在语言中以模棱两可和不一致的方式来使用一个词经常使用这个词的不同含义,或者利用声音的近似程度产生幽默的效果。双关语被广泛用于书面语和口头文学中,其目的在于成为幽默的来源之一。从文学创作、演讲和口头故事等角度来讲,双关也是一种标准的修辞手段,也可以作为一直非幽默的方式来使用。例如莎士比亚以他的双关语而闻名于世,在他的经典作品中不断出现。幽默和非幽默的双关语一直是广泛和有吸引力的作品的主题,导致了对双重含义的辨识的难点。
自然语言处理中双关语识别的研究有很多。许多学者试图根据单词的发音和不同含义的相似关系对双关语进行分类。例如,Redfern将双关语分为谐音双关语和语义双关语,分别使用语音性和语义性。
语义双关语和谐音双关语都具有双重的情景,可以在一定的环境中增加深刻的印象。然而,两种双关语都有各自的特点。语义双关语作为双关语的一个重要类别,其两个意义的单词具有相同的写作形式。而谐音双关语中是由发音相似而导致的双重感觉。前者可以使用同义词来解决,而后者可以使用同音词来解决。由于它们之间明显的差异,不能使用统一的模型进行区分。
关于语义双关语的研究很多,因为它们在世界各地广泛使用,并且在现有的文本语料库中很容易获得。然而,目前对语义双关语的识别模型中并不能很好的解决双重的含义,同时,其识别的结果也不佳。如果能在识别的过程中充分考虑不同含义及其之间的关系,将会对双关语识别的性能带来巨大的提升。
发明内容
本发明的目的是提供一种准确的识别语义双关语的方法,是一种可以有效完善其多个含义并补充其搭配关系的基于语义资源词表示和搭配关系的语义双关语识别方法。
本发明解决现有技术问题所采用的技术方案:一种语义双关语识别方法,主要包括离线训练和在线预测两个部分,其中,离线训练包括以下步骤:
S1、预处理语义双关语语料:在预处理中需要进行基本的去停用词和去除噪音的工作;
S2、构建基于语义资源词表示模型:通过语义资源查询词汇的多义性,然后通过词向量模型构建每个词汇对应的词向量表示,最后使用基于语义资源的信息采用一种加权的集合方式构建最终的词向量;
A1:根据语义资源,查找每个词汇对应的词(word)、意思(sysnets)和引理(lemmas)。每个词汇有多个意思,每个意思有多个引理,用以表示词汇的多义性。
A2:根据词向量模型,分别构建每个词汇对应的词、意思和引理对应的词向量(w,s,l),得到其潜在的语义表示信息。
A3:使用加权的集合方式构建词向量,在A2词向量的基础上融合语义资源提供的词、意思和引理信息,具体公式如下所示:
这里m表示词汇word对应所有意思的所有引理的总数量,表示对应词汇word的每个意思所具有的引理总数,表示词汇的第i个意思,s(w)表示词汇i的所有意思集合,表示词汇word的第i个意思的第j个引理,表示融合了加权后的引理信息的词表示向量。
最终得到的词表示模型由Glove模型提供的向量和上面得到的w向量这两个向量进行拼接的操作,从而为WordNet编码的词表示模型的输出结果。
S3、使用Bi-LSTM识别语义双关语:对于每个句子,分别从前向和后向两个方向对句子进行隐层表示,最终将两个方向的结果进行拼接。
其中每个细胞计算单元的计算公式如下:
ft=σ(Wf·X′+bf)
it=σ(Wi·X′+bi)
ot=σ(Wo·X′+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·X′+bc)
hout=ot⊙tanh(ct)
Wf,Wi,Wo,Wc分别为LSTM模型遗忘门ft、输入门it、输出门ot和细胞ct的参数矩阵,bf,bi,bo,bc分别为ft、it和ot和ct的偏执量,这些参数由LSTM模型学习获得,ct-1为上一层的细胞,Xt为当前的输入,ht-1为上一层LSTM的隐层输出,X’为Xt和ht-1的拼接。σ为sigmoid函数,⊙表示矩阵的按元素乘法,tanh为激活函数,hout表示隐层输出。
S4、构建基于搭配关系的注意力机制模型:在语义双关语识别中,句子中候选双关词的搭配为获取搭配权重提供了更多的线索。候选双关词主要由名词、动词、形容词和副词组成,候选双关语的搭配对识别语义双关语尤为重要。将候选双关词按词性划分为4个集合,在每个同性词集合中词与词之间的语义关联关系称为搭配关系。
这里使用注意力机制来挖掘词汇搭配中潜在关系。选取候选双关词中的每个词性集合中的任何一个词,提取搭配词用以获取搭配的权重,公式如下:
uijt=V·tanh(Wwhijt+bw
其中,hijt是任一时刻的任一词性的Bi-LSTM模型的隐层状态,Tx={1,2,3,4}表示四种词性,其中1表示nouns,2表示verbs,3表示adjectives,4表示adverbs,t表示四种词性的任意一种,t∈Tx,i表示当前词i,j表示当前句子中的其他词,Ww表示权重向量,bw表示偏置向量,V是投影向量,tanh是激活函数。uijt是hijt在进行tanh变换后得到的隐层表示,αijt是通过softmax函数后得到的每个词性的正则化权重,cij是在注意力机制作用下的上下文向量。
每个候选词性在注意力机制作用下与句子的上下文权重相结合生成的文档向量,进行拼接合并得到搭配关系的模型向量,具体公式如下:
ci=[cinouns;civerbs;ciadjectives;ciadverbs]
其中,ci由上个步骤得到的上下文向量cij进行合并得到,主要有名词、动词、形容词和副词四部分组成,j∈{nouns,verbs,adjectives,adverbs}。
S5、融合语义上下文信息和搭配信息:将步骤S4得到的搭配关系模型与句子上下文向量进行元素相乘运算,用以识别语义双关语。公式如下:
lout=ci·hout
yi=Softmax(lout)
lout是在上下文向量ci和隐层向量hout上进行元素级点乘运算后得到的结果,yi是softmax函数得到的结果,最终用于进行语义双关语识别。
S6、构建离线训练模型:模型使用端到端的方式通过反向传播进行训练,损失函数使用交叉熵函数。表示目标的真实分布,而y表示对每个句子的预测分布。训练的优化目标是最小化y和之间的交叉熵误差,具体公式如下:
i表示句子的索引,j表示类别的索引。我们这里是二分类问题,λ表示L2正则项,θ是参数。
其中,在线预测阶段包括以下步骤:
S7、在线预测:
B1、获取至少一条待识别的双关语文本i;
B2、将待识别的双关语文本通过S2步骤构建基于语义资源词表示模型,通过S3步骤使用Bi-LSTM识别语义双关语,利用S4步骤构建基于搭配关系的注意力机制模型,利用S5步骤融合语义上下文信息和搭配信息,获得预测向量yi。
B3、利用S6步骤训练出的离线模型,判断待识别的文本i是否为双关语文本。
附图说明
图1为本发明识别方法的流程示意图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
图1是本发明一种基于语义资源词表示和搭配关系的语义双关语方法的流程示意图,一种基于语义资源词表示和搭配关系的语义双关语方法,包括以下离线训练阶段和在线预测阶段,其中,离线训练阶段包括以下步骤:
S1、预处理语义双关语语料:在预处理中需要进行基本的去停用词和去除噪音的工作;
这里,主要采用SemEval2017task7和Pun ofthe Day两个公开数据集,均可用于语义双关语的识别工作,具体统计如下表所示:
这里,给出语料中一个语义双关语的例子。
Eg1.I used to be a banker but I lost#interest#.
例1.我过去是一个银行家但是我失去了#利益#。
该句为语义双关语,[interest]为双关词,具有[利益]和[兴趣]的含义,这里是[利益]的意思。[I usedto be a banker]和[I lost interest]产生一种与语境的冲突,从而达到语义双关语的效果。
S2、构建基于语义资源词表示模型:通过语义资源查询词汇的多义性,然后通过词向量模型构建每个词汇对应的词向量表示,最后使用基于语义资源的信息采用一种加权的集合方式构建最终的词向量;
A1:根据语义资源,查找每个词汇对应的词(word)、意思(sysnets)和引理(lemmas)。每个词汇有多个意思,每个意思有多个引理,用以表示词汇的多义性。
例如,词[interest]共有[sake]、[pastime]和[interest]三个意思,其中意思[sake]有[sake]和[interest]两个引理,意思[pastime]有[pastime]、[pursuit]、[interest]三个引理,意思[interest]有[involvement]和[interest]两个引理。
A2:根据词向量模型,分别构建每个词汇对应的词、意思和引理对应的词向量(w,s,l),得到其潜在的语义表示信息。这里,词向量采用Glove词向量,维度为200。
A3:使用加权的集合方式构建词向量,在A2词向量的基础上融合语义资源提供的词、意思和引理信息,具体公式如下所示:
这里m表示词汇word对应所有意思的所有引理的总数量,表示对应词汇word的每个意思所具有的引理总数,表示词汇的第i个意思,s(w)表示词汇i的所有意思集合,表示词汇word的第i个意思的第j个引理,表示融合了加权后的引理信息的词表示向量。
最终得到的词表示模型由Glove模型提供的向量和上面得到的w向量这两个向量进行拼接的操作,从而为WordNet编码的词表示模型的输出结果,其中维度为200维。
S3、使用Bi-LSTM识别语义双关语:对于每个句子,分别从前向和后向两个方向对句子进行隐层表示,最终将两个方向的结果进行拼接。这里,采用一层Bi-LSTM模型,其神经单元个数为800个。
其中每个细胞计算单元的计算公式如下:
ft=σ(Wf·X′+bf)
it=σ(Wi·X′+bi)
ot=σ(Wo·X′+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·X′+bc)
hout=ot⊙tanh(ct)
Wf,Wi,Wo,Wc分别为LSTM模型遗忘门ft、输入门it、输出门ot和细胞ct的参数矩阵,bf,bi,bo,bc分别为ft、it和ot和ct的偏执量,这些参数由LSTM模型学习获得,ct-1为上一层的细胞,Xt为当前的输入,ht-1为上一层LSTM的隐层输出,X’为Xt和ht-1的拼接。σ为sigmoid函数,⊙表示矩阵的按元素乘法,tanh为激活函数,hout表示隐层输出。
S4、构建基于搭配关系的注意力机制模型:在语义双关语识别中,句子中候选双关词的搭配为获取搭配权重提供了更多的线索。候选双关词主要由名词、动词、形容词和副词组成,候选双关语的搭配对识别语义双关语尤为重要。将候选双关词按词性划分为4个集合,在每个同性词集合中词与词之间的语义关联关系称为搭配关系。这里例1的候选双关词为{used,banker,lost,interest},仅有动词候选双关词集合{used,lost}和名词候选双关词集合{banker,interest},主要计算各个相同词性集合内的语义关联搭配关系。
这里使用注意力机制来挖掘词汇搭配中潜在关系。选取候选双关词中的每个词性集合中的任何一个词,提取搭配词用以获取搭配的权重,公式如下:
uijt=V·tanh(Wwhijt+bw
其中,hijt是任一时刻的任一词性的Bi-LSTM模型的隐层状态,Tx={1,2,3,4}表示四种词性,其中1表示nouns,2表示verbs,3表示adjectives,4表示adverbs,t表示四种词性的任意一种,t∈Tx,i表示当前词i,j表示当前句子中的其他词,Ww表示权重向量,bw表示偏置向量,V是投影向量,tanh是激活函数。uijt是hijt在进行tanh变换后得到的隐层表示,αijt是通过softmax函数后得到的每个词性的正则化权重,cij是在注意力机制作用下的上下文向量。
每个候选词性在注意力机制作用下与句子的上下文权重相结合生成的文档向量,进行拼接合并得到搭配关系的模型向量,具体公式如下:
ci=[cinouns;civerbs;ciadjectives;ciadverbs]
其中,ci由上个步骤得到的上下文向量cij进行合并得到,主要有名词、动词、形容词和副词四部分组成,j∈{nouns,verbs,adjectives,adverbs}。
S5、融合语义上下文信息和搭配信息:将上述步骤得到的搭配关系模型与句子上下文向量进行元素相乘运算,用以识别语义双关语。公式如下:
lout=ci·hout
yi=Softmax(lout)
lout是在上下文向量ci和隐层向量hout上进行元素级点乘运算后得到的结果,yi是softmax函数得到的结果,最终用于进行语义双关语识别。
S6、构建离线训练模型:模型使用端到端的方式通过反向传播进行训练,损失函数使用交叉熵函数。表示目标的真实分布,而y表示对每个句子的预测分布。训练的优化目标是最小化y和之间的交叉熵误差,具体公式如下:
i表示句子的索引,j表示类别的索引。我们这里是二分类问题,λ表示L2正则项,θ是参数。
其中,在线预测阶段包括以下步骤:
S7、在线预测:
B1、获取至少一条待识别的双关语文本i;
B2、将待识别的双关语文本通过S2步骤构建基于语义资源词表示模型,通过S3步骤使用Bi-LSTM识别语义双关语,利用S4步骤构建基于搭配关系的注意力机制模型,利用S5步骤融合语义上下文信息和搭配信息,获得预测向量yi。针对例1,通过B2步骤得到的是否为语义双关语的预测概率值为0.875。
B3、利用S6步骤训练出的离线模型,判断待识别的文本i是否为双关语文本。这里,判断例1是否为语义双关语,得到最终的标签为1,则在线预测模型认为例1是语义双关语。
其中,对比实验如下:
LSTM:LSTM不使用WordNet编码的词向量和搭配注意力机制模型。
Bi-LSTM:Bi-LSTM不使用WordNet编码的词向量和搭配注意力机制模型。
Bi-LSTM-Attention:Bi-LSTM结合经典的注意力机制模型。
Our:本文方法,使用WordNet编码的词向量和搭配关系注意力机制模型。
表1各模型性能对比
如表1所示,使用Bi-LSTM的结果要优于LSTM,证明双向的信息能更加全面的挖掘上下文信息;Bi-LSTM-Attention模型优于Bi-LSTM模型,证明使用注意力机制能够发现更应该关注到的信息;本文方法的结果最佳,证明了WordNet编码的词向量的有效性,同时证明了搭配关系的注意力机制的有效性。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保。
Claims (5)
1.一种基于语义资源词表示和搭配关系的语义双关语识别方法,其特征在于,步骤包括离线训练阶段及在线预测阶段;
所述离线训练阶段,包括:
S1预处理语义双关语语料;
S2构建基于语义资源词表示模型;
S3使用Bi-LSTM识别语义双关语;
S4构建基于搭配关系的注意力机制模型;
S5融合语义上下文信息和搭配信息;
S6构建离线训练模型;
所述在线预测阶段,包括:
S7在线预测。
2.根据权利要求1所述的一种基于语义资源词表示和搭配关系的语义双关语识别方法,其特征在于,离线训练阶段的步骤具体是:
S1、预处理语义双关语语料:在预处理中需要进行基本的去停用词和去除噪音的工作;
S2、构建基于语义资源词表示模型:首先通过语义资源查询词汇的多义性,然后通过词向量模型构建每个词汇对应的词向量表示,最后使用基于语义资源的信息采用一种加权集合方式构建最终的词向量;
S3、使用Bi-LSTM识别语义双关语:对于每个句子,分别从前向和后向两个方向对句子进行隐层表示,最终将两个方向的结果进行拼接;
S4、构建基于搭配关系的注意力机制模型:首先选取候选双关词,候选双关词主要由名词、动词、形容词和副词组成,其次将候选双关词按词性划分为4个集合,在每个同性词集合中词与词之间的语义关联关系称为搭配关系,使用注意力机制来挖掘词汇搭配中潜在关系,获得上下文向量ci,以及隐层向量hout;
S5、融合语义上下文信息和搭配信息:将步骤S4得到的搭配关系模型与句子上下文向量进行元素相乘运算,用以识别语义双关语;公式如下:
lout=ci·hout
yi=Softmax(lout)
lout是在上下文向量ci和隐层向量hout上进行元素级点乘运算后得到的结果,yi是softmax函数得到的结果,最终用于进行语义双关语识别;
S6、构建离线训练模型:模型使用端到端的方式通过反向传播进行训练,损失函数使用交叉熵函数;表示目标的真实分布,而y表示对每个句子的预测分布;训练的优化目标是最小化y和之间的交叉熵误差,具体公式如下:
i表示句子的索引,j表示类别的索引;进行二分类,λ表示L2正则项,θ是参数;
其中,在线预测阶段的具体步骤是:
S7、在线预测:
B1、获取至少一条待识别的双关语文本i;
B2、将待识别的双关语文本通过S2步骤构建基于语义资源词表示模型,通过S3步骤使用Bi-LSTM识别语义双关语,利用S4步骤构建基于搭配关系的注意力机制模型,利用S5步骤融合语义上下文信息和搭配信息,获得预测向量yi;
B3、利用S6步骤训练出的离线模型,判断待识别的文本i是否为双关语文本。
3.根据权利要求2所述的一种基于语义资源词表示和搭配关系的语义双关语识别方法,其特征在于,步骤S2所述的一种加权集合方式构建步骤包括:
A1:根据语义资源,查找每个词汇对应的词、意思和引理;每个词汇有多个意思,每个意思有多个引理,用以表示词汇的多义性;
A2:根据词向量模型,分别构建每个词汇对应的词、意思和引理对应的词向量(w,s,l),得到其潜在的语义表示信息;
A3:使用加权的集合方式构建词向量,在A2词向量的基础上融合语义资源提供的词、意思和引理信息,具体公式如下所示:
m表示词汇word对应所有意思的所有引理的总数量,表示对应词汇word的每个意思所具有的引理总数,表示词汇的第i个意思,s(w)表示词汇i的所有意思集合,表示词汇word的第i个意思的第j个引理,表示融合了加权后的引理信息的词表示向量。
4.根据权利要求2所述的一种基于语义资源词表示和搭配关系的语义双关语识别方法,其特征在于,步骤S4所述的注意力机制挖掘词汇搭配中潜在关系步骤包括:选取候选双关词中的每个词性集合中的任何一个词,提取搭配词用以获取搭配的权重,公式如下:
uijt=V·tanh(Wwhijt+bw)
其中,hijt是任一时刻的任一词性的Bi-LSTM模型的隐层状态,Tx={1,2,3,4}表示四种词性,其中1表示nouns,2表示verbs,3表示adjectives,4表示adverbs,t表示四种词性的任意一种,t∈Tx,i表示当前词i,j表示当前句子中的其他词,Ww表示权重向量,bw表示偏置向量,V是投影向量,tanh是激活函数,uijt是hijt在进行tanh变换后得到的隐层表示,αijt是通过softmax函数后得到的每个词性的正则化权重,cij是在注意力机制作用下的上下文向量;每个候选词性在注意力机制作用下与句子的上下文权重相结合生成的文档向量,进行拼接合并得到搭配关系的模型向量,公式:ci=[cinouns;civerbs;ciadjectives;ciadverbs],ci由上个步骤得到的上下文向量cij进行合并得到,主要有名词、动词、形容词和副词四部分组成,j∈{nouns,verbs,adjectives,adverbs}。
5.根据权利要求2所述的一种基于语义资源词表示和搭配关系的语义双关语识别方法,其特征在于,步骤S2所述的语义资源为WordNet,词向量模型为Glove。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796931.5A CN109086269B (zh) | 2018-07-19 | 2018-07-19 | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796931.5A CN109086269B (zh) | 2018-07-19 | 2018-07-19 | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086269A true CN109086269A (zh) | 2018-12-25 |
CN109086269B CN109086269B (zh) | 2020-08-21 |
Family
ID=64837955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810796931.5A Active CN109086269B (zh) | 2018-07-19 | 2018-07-19 | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086269B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN109740163A (zh) * | 2019-01-09 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 应用于深度学习模型的语义表示资源生成方法及装置 |
CN110147446A (zh) * | 2019-04-19 | 2019-08-20 | 中国地质大学(武汉) | 一种基于双层attention机制的词嵌入方法、设备及存储设备 |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111310457A (zh) * | 2020-02-27 | 2020-06-19 | 科大讯飞股份有限公司 | 词语搭配不当识别方法、装置、电子设备和存储介质 |
CN112860781A (zh) * | 2021-02-05 | 2021-05-28 | 陈永朝 | 一种词汇搭配提取和语义分类相结合的挖掘和展示方法 |
US11487938B2 (en) | 2020-01-15 | 2022-11-01 | International Business Machines Corporation | Methods and systems for improving language processing for ambiguous instances |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
-
2018
- 2018-07-19 CN CN201810796931.5A patent/CN109086269B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
Non-Patent Citations (1)
Title |
---|
MOUNIKA KV等: "《An Investigation of Deep Neural Network Architectures for Language Recognition in Indian Languages》", 《THE 43RD INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN109740163A (zh) * | 2019-01-09 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 应用于深度学习模型的语义表示资源生成方法及装置 |
CN110147446A (zh) * | 2019-04-19 | 2019-08-20 | 中国地质大学(武汉) | 一种基于双层attention机制的词嵌入方法、设备及存储设备 |
US11487938B2 (en) | 2020-01-15 | 2022-11-01 | International Business Machines Corporation | Methods and systems for improving language processing for ambiguous instances |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111274794B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111310457A (zh) * | 2020-02-27 | 2020-06-19 | 科大讯飞股份有限公司 | 词语搭配不当识别方法、装置、电子设备和存储介质 |
CN111310457B (zh) * | 2020-02-27 | 2024-02-02 | 河北省讯飞人工智能研究院 | 词语搭配不当识别方法、装置、电子设备和存储介质 |
CN112860781A (zh) * | 2021-02-05 | 2021-05-28 | 陈永朝 | 一种词汇搭配提取和语义分类相结合的挖掘和展示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109086269B (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | Context-augmented convolutional neural networks for twitter sarcasm detection | |
JP7247441B2 (ja) | セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体 | |
CN109086269A (zh) | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 | |
CN108920473B (zh) | 一种基于同类词与同义词替换的数据增强机器翻译方法 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
Chen et al. | Knowledge-enhanced neural networks for sentiment analysis of Chinese reviews | |
Meftah et al. | A neural network model for part-of-speech tagging of social media texts | |
Zou et al. | A lexicon-based supervised attention model for neural sentiment analysis | |
CN108460013A (zh) | 一种基于细粒度词表示模型的序列标注模型 | |
Lin et al. | Automatic translation of spoken English based on improved machine learning algorithm | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
Xia | Research on statistical machine translation model based on deep neural network | |
WO2023225858A1 (zh) | 一种基于常识推理的阅读型考题生成系统及方法 | |
Takase et al. | Character n-gram embeddings to improve RNN language models | |
CN111666752B (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
Fung et al. | Empathetic dialog systems | |
CN115659954A (zh) | 一种基于多阶段学习的作文自动评分方法 | |
CN108874896A (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
Khatun et al. | Authorship Attribution in Bangla literature using Character-level CNN | |
Ali et al. | SiNER: A large dataset for Sindhi named entity recognition | |
Zhuang et al. | Chinese language processing based on stroke representation and multidimensional representation | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 | |
Yuan | A joint method for Chinese word segmentation and part-of-speech labeling based on deep neural network | |
Ren et al. | ABML: attention-based multi-task learning for jointly humor recognition and pun detection | |
Zheng et al. | A novel hierarchical convolutional neural network for question answering over paragraphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |