CN111159405A - 基于背景知识的讽刺检测方法 - Google Patents

基于背景知识的讽刺检测方法 Download PDF

Info

Publication number
CN111159405A
CN111159405A CN201911387640.1A CN201911387640A CN111159405A CN 111159405 A CN111159405 A CN 111159405A CN 201911387640 A CN201911387640 A CN 201911387640A CN 111159405 A CN111159405 A CN 111159405A
Authority
CN
China
Prior art keywords
text
background knowledge
data set
vector
irony
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911387640.1A
Other languages
English (en)
Other versions
CN111159405B (zh
Inventor
杜宇
李童
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911387640.1A priority Critical patent/CN111159405B/zh
Publication of CN111159405A publication Critical patent/CN111159405A/zh
Application granted granted Critical
Publication of CN111159405B publication Critical patent/CN111159405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于背景知识的讽刺检测方法,该方法步骤如下:步骤(1)获取讽刺文本数据集SARC;步骤(2)数据预处理;步骤(3)提取目标文本中的实体并构建实体列表;步骤(4)构建背景知识并获取背景知识的句向量;步骤(5)训练讽刺检测模型;步骤(6)预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识,通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明,加入相关的背景知识对文本的讽刺检测性能有明显的提升。

Description

基于背景知识的讽刺检测方法
技术领域
本发明涉及深度学习的情感分析方法,属于互联网自然语言处理领域。
背景技术
讽刺作为社交媒体中常用到的表达修辞手法,说话者通过讽刺来表达实际的不同于文字字面内容的隐式情感,这种情感多是否定、嘲笑、批评等意思。讽刺的出现也对社交媒体情感分析与舆论分析带来了巨大的困难。
语言学中,句子中出现的情感词、标点符号都被作为讽刺的标志。讽刺检测之前的工作多是基于文本内容本身来分析,通过句子中出现的情感词及句子表达的情感、情绪等特征来判断是否含有讽刺。但是在社交媒体中,用户发表的内容多为口语化的短文本,有些句子中根本没有上述提到的讽刺标志。如果仅通过句子本身内容,很难进行识别。然而通过文本中的背景知识有助于分析句子实际要表达的语义信息。
发明内容
本发明的目的在于提出了一种基于背景知识的讽刺检测方法,本方法在基于文本本身进行讽刺检测的基础上,利用百科搜索引擎为文本添加涉及到的背景知识的特征信息来解决文本是否含有讽刺的分类问题。
为实现上述目的,本发明采用的技术方法为基于背景知识的讽刺检测方法,该方法的实现步骤如下:
步骤(1)获取讽刺文本数据集SARC
获取Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺标签为1,非讽刺标签为0。
步骤(2)数据预处理
通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取数据集中的实体并构建实体列表
通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别,识别的实体类别根据具体领域来设定。如果涉及到的是政治领域,则可以识别出包含人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表E。
步骤(4)构建背景知识并获取背景知识的句向量
步骤(4.1)构建背景知识
1)实体列表E={e1,e2,.....eN},N为实体列表中的实体个数。
2)使用Wikipedia API分别对实体列表E中的实体进行搜索,将搜索到的页面文本作为目标文本的背景知识。
步骤(4.2)获取背景知识的句向量
1)数据集的一条背景知识序列为w1,w2,w3,……wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,……xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T)。滑动窗口为k,取wt两侧k个单词的向量作为算法的输入。di为数据集中第i条背景知识映射成的一个唯一向量。单词wt的平均log可能性即为目标函数,计算公式如下:
Figure BDA0002340137460000031
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
Figure BDA0002340137460000032
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),
Figure BDA0002340137460000033
为第i条背景知识中单词wt的概率。其中,y表示单词的概率计算如下:
y=Udh(di,xt-k,....,xt+k;D,X)+b
Ud和b为Softmax的参数。每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示。每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示。h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成。D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X。优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取。整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
步骤(5)训练讽刺检测模型
步骤(5.1)卷积神经网络模型提取数据集文本特征
数据集中第i条文本通过卷积神经网络模型得到特征向量ci
步骤(5.2)将文本特征向量与文本对应背景知识向量拼接
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示
Figure BDA0002340137460000034
为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练
通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该序列最后预测的类别。
其中,损失函数为
Figure BDA0002340137460000041
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
步骤(6)预测讽刺文本
将未经标签标注的测试集文本输入模型中,预测文本结果是否为讽刺,预测标签为1为讽刺,预测标签为0则为非讽刺。
有益效果
本方法采用命名实体识别抽取出文本中重要的实体关键词,通过Wikipedia和实体关键词构建了文本相关的背景知识,采用深度学习方法进行了模型的训练与未标注文本预测。通过对数据集中的测试集进行测试,获取到的实验结果表明,加入背景知识对讽刺检测性能有明显提升(如图3所示)。
附图说明
图1:实验步骤流程图
图2:实验系统架构图
图3:实验性能对比图
具体实施方式
为实现上述目的,本发明采用的技术方法为基于背景知识的讽刺检测方法,该方法的实现步骤如下:
步骤(1)获取讽刺文本数据集SARC
获取讽刺文本数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺标签为1,非讽刺标签为0。选取数据集中政治主题下的评论8000条作为训练集,2000条作为测试集。其中讽刺类别与非讽刺类别占比为1:1。
步骤(2)数据预处理
通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取目标文本中的实体并构建实体列表
通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体。例如:Trump is the45th President of the United States,a republican politician,entrepreneur andbusinessman.这句话中通过命名实体识别方法识别出的政治实体为Trump,the UnitedStates和republican。通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,例如:对上述实体Trump进行拓展,将抽取到的Barack Obama,Queens,Hillary Clinton等锚文本作为拓展,加入到数据集的实体列表E中。
步骤(4)构建背景知识并获取背景知识的句向量
步骤(4.1)构建背景知识
1)实体列表E={e1,e2,.....eN},N为实体列表中的实体个数。
2)使用Wikipedia API分别对实体列表E中的实体进行搜索,将搜索到的页面文本作为目标文本的背景知识。
步骤(4.2)获取背景知识的句向量
1)数据集的一条背景知识序列为w1,w2,w3,……wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,……xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T)。滑动窗口为k,取wt两侧k个单词的向量作为算法的输入。di为数据集中第i条背景知识映射成的一个唯一向量。单词wt的平均log可能性即为目标函数,计算公式如下:
Figure BDA0002340137460000061
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
Figure BDA0002340137460000062
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),
Figure BDA0002340137460000063
为第i条背景知识中单词wt的概率。其中,y表示单词的概率计算如下:
y=Ud h(di,xt-k,....,xt+k;D,X)+b
Ud和b为Softmax的参数。每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示。每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示。h(di,xt-k,….,xt+k;D,X)是由X和D级联或平均构成。D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X。优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取。整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
步骤(5)训练讽刺检测模型
步骤(5.1)卷积神经网络模型提取数据集文本特征
数据集中第i条文本通过卷积神经网络模型得到特征向量ci
步骤(5.2)将文本特征向量与文本对应背景知识向量拼接
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示
Figure BDA0002340137460000071
为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练
通过Softmax计算ith文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该序列最后预测的类别。
其中,损失函数为
Figure BDA0002340137460000072
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
步骤(6)预测讽刺文本
将未经标签标注的测试集文本输入模型中,预测文本结果是否为讽刺,预测标签为1为讽刺,预测标签为0则为非讽刺。
本方法采用命名实体识别抽取出文本中重要的实体关键词,通过Wikipedia和实体关键词构建了文本相关的背景知识,采用深度学习方法进行了模型的训练与未标注文本的预测。通过对数据集中的测试集进行测试,获取到的实验结果表明,加入背景知识对讽刺检测性能有明显提升(如图3所示)。

Claims (6)

1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,
步骤(1)获取讽刺文本数据集;
步骤(2)数据预处理
步骤(3)提取数据集中的实体并构建实体列表
对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;
步骤(4)构建背景知识并获取背景知识的句向量
分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;
步骤(5)训练讽刺检测模型
步骤(6)预测讽刺文本
使用数据集中的训练集对模型进行训练调参后,得到讽刺检测模型参数,使用模型对测试集文本进行预测测试,预测文本的类别,类别包含讽刺与非讽刺两类。
2.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤1中所述的数据集为Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺类别标签为1,非讽刺类别标签为0。
3.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤2所述的预处理包括去除停用词、英文单词词形还原和去除特殊符号。
4.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤3中所述的命名实体识别通过自然语言处理工具包Stanford和NLTK实现。
5.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:获取背景知识句向量的算法描述如下:
1)数据集的一条背景知识序列为w1,w2,w3,......wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,......xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T):滑动窗口为k,取wt两侧k个单词的向量作为算法的输入;di为数据集中第i条背景知识映射成的一个唯一向量,单词wt的平均log可能性即为目标函数,计算公式如下:
Figure FDA0002340137450000021
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
Figure FDA0002340137450000022
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),
Figure FDA0002340137450000023
为第i条背景知识中单词wt的概率,其中,y表示单词的概率,计算公式如下:
y=Udh(di,xt-k,….,xt+k;D,X)+b
Ud和b为Softmax的参数,每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示,每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示,h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成;D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X;优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取,整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
6.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤(5)的实施过程如下
步骤(5.1)卷积神经网络模型提取数据集文本特征
数据集中第i条文本通过卷积神经网络模型得到文本特征向量ci
步骤(5.2)将文本特征向量与文本对应的背景知识句向量拼接
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示
Figure FDA0002340137450000032
Figure FDA0002340137450000033
为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练
通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该序列最后预测的类别。
其中,损失函数为
Figure FDA0002340137450000031
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
CN201911387640.1A 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法 Active CN111159405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911387640.1A CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911387640.1A CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Publications (2)

Publication Number Publication Date
CN111159405A true CN111159405A (zh) 2020-05-15
CN111159405B CN111159405B (zh) 2023-09-12

Family

ID=70558990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911387640.1A Active CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Country Status (1)

Country Link
CN (1) CN111159405B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182323A (zh) * 2020-09-18 2021-01-05 北京三快在线科技有限公司 一种类目预测方法、装置、电子设备及存储介质
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112487795A (zh) * 2020-10-28 2021-03-12 中国科学院信息工程研究所 上下文讽刺检测方法、装置、电子设备及存储介质
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN112182323B (zh) * 2020-09-18 2024-11-08 北京三快在线科技有限公司 一种类目预测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUMAR RAVI 等: "Irony Detection Using Neural Network Language Model, Psycholinguistic Features and Text Mining" *
孙晓 等: "基于多特征融合的混合神经网络模型讽刺语用判别" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182323A (zh) * 2020-09-18 2021-01-05 北京三快在线科技有限公司 一种类目预测方法、装置、电子设备及存储介质
CN112182323B (zh) * 2020-09-18 2024-11-08 北京三快在线科技有限公司 一种类目预测方法、装置、电子设备及存储介质
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112487795A (zh) * 2020-10-28 2021-03-12 中国科学院信息工程研究所 上下文讽刺检测方法、装置、电子设备及存储介质
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN113806542B (zh) * 2021-09-18 2024-05-17 上海幻电信息科技有限公司 文本分析方法及系统

Also Published As

Publication number Publication date
CN111159405B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
Haddad et al. Arabic offensive language detection with attention-based deep neural networks
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
WO2021139107A1 (zh) 情感智能识别方法、装置、电子设备及存储介质
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN112528653A (zh) 短文本实体识别方法和系统
Ajees et al. A named entity recognition system for Malayalam using neural networks
Zhang et al. Chinese-English mixed text normalization
Suman et al. Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019.
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Harrat et al. Automatic identification methods on a corpus of twenty five fine-grained Arabic dialects
Faruqe et al. Bangla hate speech detection system using transformer-based nlp and deep learning techniques
Sarma et al. Word level language identification in Assamese-Bengali-Hindi-English code-mixed social media text
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant