CN110134962A - 一种基于内部注意力的跨语言纯文本反讽识别方法 - Google Patents

一种基于内部注意力的跨语言纯文本反讽识别方法 Download PDF

Info

Publication number
CN110134962A
CN110134962A CN201910412774.8A CN201910412774A CN110134962A CN 110134962 A CN110134962 A CN 110134962A CN 201910412774 A CN201910412774 A CN 201910412774A CN 110134962 A CN110134962 A CN 110134962A
Authority
CN
China
Prior art keywords
language
text
irony
vector
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910412774.8A
Other languages
English (en)
Inventor
林小拉
冯昭凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910412774.8A priority Critical patent/CN110134962A/zh
Publication of CN110134962A publication Critical patent/CN110134962A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于内部注意力的跨语言纯文本反讽识别方法,该方法采用了内部注意力机制,内部注意力机制使得句子关注词汇两两之间的关系权值,可以有效的表明反讽分类与词汇对权重的关系,此模型显著的提升了反讽识别的效果;利用丰富语料的英语反讽标注数据作为训练数据,把反讽知识迁移到汉语特征空间上,该方法可以显著提高反讽识别的效果。

Description

一种基于内部注意力的跨语言纯文本反讽识别方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于内部注意力的跨语言纯文本反讽识别方法。
背景技术
由于人类评论和对话中经常使用反讽(反语和讽刺),反讽与表层的词语字面意思关联较小,与句子深层语义关联较大。只有准确的抽取句子的深层语义模型,才能准确地进行反讽识别,而深入理解句子的语义模型会推动自然语言处理领域中的情感分析和机器对话生成领域的发展,因为这些领域进一步发展都需要理解隐喻性的语义。从全局上来说,反讽识别和反讽对话的生成等也是人类计算机交互的基础,所以反讽识别研究对自然语言处理领域的大多数领域都具有重大的意义。
在过去近十年的纯文本的反讽研究算法中,通常依赖于大量的标注好的训练集。但是世界上除了英语以外的其他语言的反讽数据集是极度匮乏的。例如汉语语料公开数据集中仅有一个由Tang制作的繁体汉语反语语料库。由于其他语言极度缺乏已标注的数据集,直接对此语言进行反讽识别研究需要人工标注大量的数据,这个方案并没有可实施性。为了解决其他语言特定数据集匮乏的情况,构建语言之间的知识联系和资源共享是解决资源匮乏的一种重要手段,而这种技术称之为跨语言文本分析技术。
发明内容
本发明提供一种反讽识别效果较好的基于内部注意力的跨语言纯文本反讽识别方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于内部注意力的跨语言纯文本反讽识别方法,包括以下步骤:
S1:把源语言的带标签的反讽文本数据集翻译成目标语言的反讽文本数据集;
S2:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行注意力向量提取,得到源语言注意力向量和目标语言意力向量;
S3:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行LSTM的隐向量表达,得到源语言隐藏向量和目标语言隐藏向量,将源语言注意力向量和源语言隐藏向量进行拼接得到源语言带注意力的隐藏向量,将目标语言注意力向量和目标语言隐藏向量进行拼接得到目标语言带注意力的隐藏向量;
S4:将源语言带注意力的隐藏向量和目标语言带注意力的隐藏向量通过各自的ReLU网络得到源语言文本表示向量和目标语言文本表示向量;
S5:将源语言文本和目标语言通过线性分类器,得到源语言文本预测标签和目标语言文本预测标签;
S6:通过源语言文本所带的标签和其预测标签得到源语言文本的反讽识别的标签误差损失函数,通过目标语言文本所带的标签和其预测标签得到目标语言文本的反讽识别的标签误差损失函数,将两者加起来得到总的误差损失函数;
S7:对S4步骤得到的源语言文本和目标语言文本进行距离约束的得到距离损失函数;
S8:结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数;
S9:将步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行步骤S2-S8的多次迭代,得到最终模型;
其中,反讽文本数据集表示具有反语和讽刺修辞手法的文本。
进一步地,所述步骤S1的具体过程是:
利用百度翻译或者Google Translate机器翻译工具把带标签的源语言反讽文本数据集S翻译成带标签的目标语言反讽数据集Ts,翻译后对于每一条文本数据x∈{S,Ts},都有一个反讽标签y∈{0,1}。
进一步地,所述步骤S2的具体过程是:
首先步骤S1中源语言的带标签的反讽文本数据集和其目标语言的反讽文本数据集组合成反讽文本对 N表示标注反讽数据集的数目,分别采用双语词向量bi-skipgram进行文本表达,假设翻译对长度都是L,其中,不足L长度的采用零填充,超出L截断句子, w为词汇对应的双语词向量表达,不存在的词汇进行随机初始化,此词向量的作用是可以让不同语言相同意思的词向量有相近的向量表示,接下来的步骤,两种语言提取反讽特征的过程一致;
以带标签的源语言的带标签的反讽文本数据集y∈{0,1}说明,文本通过双语词向量表达后为,接着让词汇之间进行两两组合得到(wi,wj),计算反讽文本的词汇对(wi,wj)的分数fij=Wa([wi;wj])+ba,其中i,j∈L且i≠j,ba为偏置项,[;]是向量连接符。因此词汇与词汇之间得到一个L×L的关联矩阵:其中要忽略排除词汇与词汇自身关联的干扰,即然后对矩阵Wf逐行取最大值得到注意力的权值最后结合源语言文本表达得到源语言注意力向量翻译对目标语言反讽文本同时采用这种方法得到目标语言意力向量
进一步地,所述步骤S3的具体过程是:
S31:源语言带标签的反讽文本数据集中一条反讽文本 wi表示句子中的词汇的双语词向量表达,L表示句子的长度,带标签的源语言的带标注反讽文本采用了长短时记忆网络LSTM对进行编码,其中隐藏单元输出维度为d,在时刻i时的隐向量输出:
S32:使用LSTM编码器的最后一个隐藏状态hL表示源语言带标签的反讽文本的上下文向量即有:即源语言隐藏向量为
S33:将步骤S2得到的源语言注意力向量与源语言隐藏向量拼接得到源语言带注意力的隐藏向量
S34:同理目标语言得注意力向量与目标语言隐藏向量得到目标语言带注意力的隐藏向量
进一步地,步骤S4中,源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本,目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本,源语言的文本表示向量:rS=ReLU(Wz1vS+bz1),其中Wz1表示网络的权值矩阵,bz2表示网络偏置项,ReLU表示激活函数;同理得到目标语言的文本表示向量为:rT=ReLU(Wz2vT+bz2)。
进一步地,所述步骤S5的具体过程是:
源语言文本通过一个线性分类器,得到其预测标签为:
Wo1为线性分类器权值,bo1为偏置项;
目标语言文本通过线性分类器,得到预测标签为:
Wo2为线性分类器权值,bo2为偏置项;
文本词向量通过长短时记忆网络LSTM网络层生成文本的隐藏层表示,通过词汇对的分数选择,分别形成两种语言文本表示。
进一步地,所述步骤S6的具体过程是:
源语言的标签预测的损失函数采用交叉熵损失函数,得到源语言的反讽标签预测的损失函数为:
同理目标语言的反讽标签预测的损失函数为:
结合源语言和目标语言总的损失函数为:
其中S表示源语言,T表示目标语言。
进一步地,所述步骤S7的具体过程是:
根据源语言文本和目标语言文本欧式距离的约束,最小化源语言和目标语言文本表示rS和rT的距离,记为损失函数J2,则有:
进一步地,结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数:
J=J1+αJ2,α表示的是一个超参数。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明采用了内部注意力机制,内部注意力机制使得句子关注词汇两两之间的关系权值,可以有效的表明反讽分类与词汇对权重的关系,此模型显著的提升了反讽识别的效果;
(2)本发明提出利用丰富语料的英语反讽标注数据作为训练数据,把反讽知识迁移到汉语特征空间上,该方法可以显著提高反讽识别的效果。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于内部注意力的跨语言纯文本反讽识别方法,包括以下步骤:
S1:把源语言的带标签的反讽文本数据集翻译成目标语言的反讽文本数据集;
S2:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行注意力向量提取,得到源语言注意力向量和目标语言意力向量;
S3:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行LSTM的隐向量表达,得到源语言隐藏向量和目标语言隐藏向量,将源语言注意力向量和源语言隐藏向量进行拼接得到源语言带注意力的隐藏向量,将目标语言注意力向量和目标语言隐藏向量进行拼接得到目标语言带注意力的隐藏向量;
S4:将源语言带注意力的隐藏向量和目标语言带注意力的隐藏向量通过各自的ReLU网络得到源语言文本表示向量和目标语言文本表示向量;
S5:将源语言文本和目标语言通过线性分类器,得到源语言文本预测标签和目标语言文本预测标签;
S6:通过源语言文本所带的标签和其预测标签得到源语言文本的反讽识别的标签误差损失函数,通过目标语言文本所带的标签和其预测标签得到目标语言文本的反讽识别的标签误差损失函数,将两者加起来得到总的误差损失函数;
S7:对S4步骤得到的源语言文本和目标语言文本进行距离约束的得到距离损失函数;
S8:结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数;
S9:将步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行步骤S2-S8的多次迭代,得到最终模型;
其中,反讽文本数据集表示具有反语和讽刺修辞手法的文本。
步骤S1的具体过程是:
利用百度翻译或者Google Translate机器翻译工具把带标签的源语言反讽文本数据集S翻译成带标签的目标语言反讽数据集Ts,翻译后对于每一条文本数据x∈{S,Ts},都有一个反讽标签y∈{0,1}。
步骤S2的具体过程是:
首先步骤S1中源语言的带标签的反讽文本数据集和其目标语言的反讽文本数据集组合成反讽文本对 N表示标注反讽数据集的数目,分别采用双语词向量bi-skipgram进行文本表达,假设翻译对长度都是L,其中,不足L长度的采用零填充,超出L截断句子, w为词汇对应的双语词向量表达,不存在的词汇进行随机初始化,此词向量的作用是可以让不同语言相同意思的词向量有相近的向量表示,接下来的步骤,两种语言提取反讽特征的过程一致;
以带标签的源语言的带标签的反讽文本数据集y∈{0,1}说明,文本通过双语词向量表达后为,接着让词汇之间进行两两组合得到(wi,wj),计算反讽文本的词汇对(wi,wj)的分数fij=Wa([wi;wj])+ba,其中i,j∈L且i≠j,ba为偏置项,[;]是向量连接符。因此词汇与词汇之间得到一个L×L的关联矩阵:其中要忽略排除词汇与词汇自身关联的干扰,即然后对矩阵Wf逐行取最大值得到注意力的权值最后结合源语言文本表达得到源语言注意力向量翻译对目标语言反讽文本同时采用这种方法得到目标语言意力向量
步骤S3的具体过程是:
S31:源语言带标签的反讽文本数据集中一条反讽文本 wi表示句子中的词汇的双语词向量表达,L表示句子的长度,带标签的源语言的带标注反讽文本采用了长短时记忆网络LSTM对进行编码,其中隐藏单元输出维度为d,在时刻i时的隐向量输出:
S32:使用LSTM编码器的最后一个隐藏状态hL表示源语言带标签的反讽文本的上下文向量即有:即源语言隐藏向量为
S33:将步骤S2得到的源语言注意力向量与源语言隐藏向量拼接得到源语言带注意力的隐藏向量
S34:同理目标语言得注意力向量与目标语言隐藏向量得到目标语言带注意力的隐藏向量
步骤S4中,源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本,目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本,源语言的文本表示向量:rS=ReLU(Wz1vS+bz1),其中Wz1表示网络的权值矩阵,bz2表示网络偏置项,ReLU表示激活函数;同理得到目标语言的文本表示向量为:rT=ReLU(Wz2vT+bz2)。
步骤S5的具体过程是:
源语言文本通过一个线性分类器,得到其预测标签为:
Wo1为线性分类器权值,bo1为偏置项;
目标语言文本通过线性分类器,得到预测标签为:
Wo2为线性分类器权值,bo2为偏置项;
文本词向量通过长短时记忆网络LSTM网络层生成文本的隐藏层表示,通过词汇对的分数选择,分别形成两种语言文本表示。
步骤S6的具体过程是:
源语言的标签预测的损失函数采用交叉熵损失函数,得到源语言的反讽标签预测的损失函数为:
同理目标语言的反讽标签预测的损失函数为:
结合源语言和目标语言总的损失函数为:
其中S表示源语言,T表示目标语言。
步骤S7的具体过程是:
根据源语言文本和目标语言文本欧式距离的约束,最小化源语言和目标语言文本表示rS和rT的距离,记为损失函数J2,则有:
进一步地,结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数:
J=J1+αJ2,α表示的是一个超参数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,包括以下步骤:
S1:把源语言的带标签的反讽文本数据集翻译成目标语言的反讽文本数据集;
S2:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行注意力向量提取,得到源语言注意力向量和目标语言意力向量;
S3:分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行LSTM的隐向量表达,得到源语言隐藏向量和目标语言隐藏向量,将源语言注意力向量和源语言隐藏向量进行拼接得到源语言带注意力的隐藏向量,将目标语言注意力向量和目标语言隐藏向量进行拼接得到目标语言带注意力的隐藏向量;
S4:将源语言带注意力的隐藏向量和目标语言带注意力的隐藏向量通过各自的ReLU网络得到源语言文本表示向量和目标语言文本表示向量;
S5:将源语言文本和目标语言通过线性分类器,得到源语言文本预测标签和目标语言文本预测标签;
S6:通过源语言文本所带的标签和其预测标签得到源语言文本的反讽识别的标签误差损失函数,通过目标语言文本所带的标签和其预测标签得到目标语言文本的反讽识别的标签误差损失函数,将两者加起来得到总的误差损失函数;
S7:对S4步骤得到的源语言文本和目标语言文本进行距离约束的得到距离损失函数;
S8:结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数;
S9:将步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行步骤S2-S8的多次迭代,得到最终模型;
其中,反讽文本数据集表示具有反语和讽刺修辞手法的文本。
2.根据权利要去1所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S1的具体过程是:
利用百度翻译或者Google Translate机器翻译工具把带标签的源语言反讽文本数据集S翻译成带标签的目标语言反讽数据集Ts,翻译后对于每一条文本数据x∈{S,Ts},都有一个反讽标签y∈{0,1}。
3.根据权利要去2所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S2的具体过程是:
首先步骤S1中源语言的带标签的反讽文本数据集和其目标语言的反讽文本数据集组合成反讽文本对N表示标注反讽数据集的数目,分别采用双语词向量bi-skipgram进行文本表达,假设翻译对长度都是L,其中,不足L长度的采用零填充,超出L截断句子, w为词汇对应的双语词向量表达,不存在的词汇进行随机初始化,此词向量的作用是可以让不同语言相同意思的词向量有相近的向量表示,接下来的步骤,两种语言提取反讽特征的过程一致;
以带标签的源语言的带标签的反讽文本数据集y∈{0,1}说明,文本通过双语词向量表达后为,接着让词汇之间进行两两组合得到(wi,wj),计算反讽文本的词汇对(wi,wj)的分数fij=Wa([wi;wj])+ba,其中i,j∈L且i≠j,ba为偏置项,[;]是向量连接符。因此词汇与词汇之间得到一个L×L的关联矩阵:其中要忽略排除词汇与词汇自身关联的干扰,即然后对矩阵Wf逐行取最大值得到注意力的权值最后结合源语言文本表达得到源语言注意力向量翻译对目标语言反讽文本同时采用这种方法得到目标语言意力向量
4.根据权利要去3所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S3的具体过程是:
S31:源语言带标签的反讽文本数据集中一条反讽文本 wi表示句子中的词汇的双语词向量表达,L表示句子的长度,带标签的源语言的带标注反讽文本采用了长短时记忆网络LSTM对进行编码,其中隐藏单元输出维度为d,在时刻i时的隐向量输出:
S32:使用LSTM编码器的最后一个隐藏状态hL表示源语言带标签的反讽文本的上下文向量即有:即源语言隐藏向量为
S33:将步骤S2得到的源语言注意力向量与源语言隐藏向量拼接得到源语言带注意力的隐藏向量
S34:同理目标语言得注意力向量与目标语言隐藏向量得到目标语言带注意力的隐藏向量
5.根据权利要去4所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,步骤S4中,源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本,目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本,源语言的文本表示向量:rS=ReLU(Wz1vS+bz1),其中Wz1表示网络的权值矩阵,bz2表示网络偏置项,ReLU表示激活函数;同理得到目标语言的文本表示向量为:rT=ReLU(Wz2vT+bz2)。
6.根据权利要去5所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S5的具体过程是:
源语言文本通过一个线性分类器,得到其预测标签为:
Wo1为线性分类器权值,bo1为偏置项;
目标语言文本通过线性分类器,得到预测标签为:
Wo2为线性分类器权值,bo2为偏置项;
文本词向量通过长短时记忆网络LSTM网络层生成文本的隐藏层表示,通过词汇对的分数选择,分别形成两种语言文本表示。
7.根据权利要去6所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S6的具体过程是:
源语言的标签预测的损失函数采用交叉熵损失函数,得到源语言的反讽标签预测的损失函数为:
同理目标语言的反讽标签预测的损失函数为:
结合源语言和目标语言总的损失函数为:
其中S表示源语言,T表示目标语言。
8.根据权利要去7所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,所述步骤S7的具体过程是:
根据源语言文本和目标语言文本欧式距离的约束,最小化源语言和目标语言文本表示rS和rT的距离,记为损失函数J2,则有:
9.根据权利要去8所述的基于内部注意力的跨语言纯文本反讽识别方法,其特征在于,结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数:
J=J1+αJ2,α表示的是一个超参数。
CN201910412774.8A 2019-05-17 2019-05-17 一种基于内部注意力的跨语言纯文本反讽识别方法 Pending CN110134962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910412774.8A CN110134962A (zh) 2019-05-17 2019-05-17 一种基于内部注意力的跨语言纯文本反讽识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910412774.8A CN110134962A (zh) 2019-05-17 2019-05-17 一种基于内部注意力的跨语言纯文本反讽识别方法

Publications (1)

Publication Number Publication Date
CN110134962A true CN110134962A (zh) 2019-08-16

Family

ID=67574977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910412774.8A Pending CN110134962A (zh) 2019-05-17 2019-05-17 一种基于内部注意力的跨语言纯文本反讽识别方法

Country Status (1)

Country Link
CN (1) CN110134962A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159405A (zh) * 2019-12-27 2020-05-15 北京工业大学 基于背景知识的讽刺检测方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN113761204A (zh) * 2021-09-06 2021-12-07 南京大学 一种基于深度学习的emoji文本情感分析方法及系统
WO2022058882A1 (en) * 2020-09-16 2022-03-24 International Business Machines Corporation Zero-shot cross-lingual transfer learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN106326214A (zh) * 2016-08-29 2017-01-11 中译语通科技(北京)有限公司 一种基于迁移学习的跨语言情感分析方法及装置
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN106326214A (zh) * 2016-08-29 2017-01-11 中译语通科技(北京)有限公司 一种基于迁移学习的跨语言情感分析方法及装置
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪鹏: "基于结构对应学习的跨语言情感分类研究", 《南京大学学报(自然科学)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159405A (zh) * 2019-12-27 2020-05-15 北京工业大学 基于背景知识的讽刺检测方法
CN111159405B (zh) * 2019-12-27 2023-09-12 北京工业大学 基于背景知识的讽刺检测方法
WO2022058882A1 (en) * 2020-09-16 2022-03-24 International Business Machines Corporation Zero-shot cross-lingual transfer learning
GB2614654A (en) * 2020-09-16 2023-07-12 Ibm Zero-shot cross-lingual transfer learning
US11875131B2 (en) 2020-09-16 2024-01-16 International Business Machines Corporation Zero-shot cross-lingual transfer learning
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN113761204A (zh) * 2021-09-06 2021-12-07 南京大学 一种基于深度学习的emoji文本情感分析方法及系统
CN113761204B (zh) * 2021-09-06 2023-07-28 南京大学 一种基于深度学习的emoji文本情感分析方法及系统

Similar Documents

Publication Publication Date Title
CN110134962A (zh) 一种基于内部注意力的跨语言纯文本反讽识别方法
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
Shi et al. Radical embedding: Delving deeper to chinese radicals
Kurimo et al. Morpho challenge 2005-2010: Evaluations and results
Ushiku et al. Common subspace for model and similarity: Phrase learning for caption generation from images
Yang et al. Image captioning with object detection and localization
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
Zhou et al. Chinese named entity recognition via joint identification and categorization
CN108959242A (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN110110061A (zh) 基于双语词向量的低资源语种实体抽取方法
CN110232123A (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
Meetei et al. WAT2019: English-Hindi translation on Hindi visual genome dataset
Wang et al. Personalized microblog sentiment classification via adversarial cross-lingual multi-task learning
Xian et al. Self-guiding multimodal LSTM—when we do not have a perfect training dataset for image captioning
CN109408814A (zh) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN111783480A (zh) 文本处理和模型训练方法、装置、存储介质和电子设备
Chakravarthi et al. Bilingual lexicon induction across orthographically-distinct under-resourced Dravidian languages
Kaur et al. HamNoSys generation system for sign language
CN110096713A (zh) 一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
Liu et al. Inflate and shrink: Enriching and reducing interactions for fast text-image retrieval
Jandial et al. Trace: Transform aggregate and compose visiolinguistic representations for image search with text feedback
Dandapat et al. Improved named entity recognition using machine translation-based cross-lingual information
Khapra et al. Everybody loves a rich cousin: An empirical study of transliteration through bridge languages
Qiu et al. Overview of the NLPCC 2015 shared task: Chinese word segmentation and POS tagging for micro-blog texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231208