CN111859979A - 讽刺文本协同识别方法、装置、设备及计算机可读介质 - Google Patents

讽刺文本协同识别方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN111859979A
CN111859979A CN202010549940.1A CN202010549940A CN111859979A CN 111859979 A CN111859979 A CN 111859979A CN 202010549940 A CN202010549940 A CN 202010549940A CN 111859979 A CN111859979 A CN 111859979A
Authority
CN
China
Prior art keywords
text
processed
feature information
semantic
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010549940.1A
Other languages
English (en)
Inventor
刘春阳
李秋丹
张丽
彭鑫
张旭
曾大军
王鹏
刘贺静
陈志鹏
王林子
张翔宇
贾玉改
解峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010549940.1A priority Critical patent/CN111859979A/zh
Publication of CN111859979A publication Critical patent/CN111859979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。

Description

讽刺文本协同识别方法、装置、设备及计算机可读介质
技术领域
本申请涉及文本识别技术领域,尤其涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。
背景技术
随着互联网的普及化、大众化,不仅网民活跃于互联网上的社交媒体平台,各大企业、政府机关等也纷纷入驻互联网平台,通过互联网社交平台在线发布有关企业、政府机关的各种信息、政策等。互联网用户可以针对这些信息进行讨论,企业、政府机关则需要及时跟踪用户对政策的反馈信息以便于管理部门跟踪政策的实施情况,更好地进行决策。其中,针对用户采用与字面意义相反的讽刺性语句表达深层次的情感及观点的情况,企业和政府也需要准确识别,才能更准确、合理地收集用户反馈的信息。
目前,相关技术中,对于讽刺检测常常采用三类方法:基于规则的方法(例如:Veale T,Hao Y.Detecting ironic intent in creative comparisons[C]//ECAI.2010,215:765-770.),基于传统机器学习的方法(例如:Reyes A,Rosso P.Making objectivedecisions from subjective data:Detecting irony in customer reviews[J].Decision support systems,2012,53(4):754-760.)以及基于深度学习的方法(例如:Ghosh A,Veale T.Fracking sarcasm using neural network[C]//Proceedings of the7th workshop on computational approaches to subjectivity,sentiment and socialmedia analysis.2016:161-169.)。
目前的相关技术中,都是集中在研究待识别文本中是否包含讽刺含义,即确定是或否的问题,而对于哪些词语体现出讽刺含义,通过什么讽刺主题体现出讽刺含义却鲜有研究,导致讽刺识别的解释性不强,讽刺识别不准确,讽刺识别的效果达不到要求。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种讽刺文本协同识别方法、装置、设备及计算机可读介质,以解决上述“讽刺识别准确率低、解释性不强”的技术问题。
第一方面,本申请提供了一种讽刺文本协同识别方法,包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为讽刺类型,并在训练数据是讽刺类型的情况下标记训练数据的讽刺主题,识别结果用于指示待处理文本是否为讽刺类型及待处理文本体现的讽刺主题,语义特征信息和主题特征信息用于对待处理文本进行协同识别。
可选地,提取待处理文本的语义特征信息和主题特征信息包括:将待处理文本转换为词向量;利用双向长短期记忆神经网络对词向量进行编码,得到表示待处理文本语义的语义词向量;通过确定所语义词向量的语义权重得到语义特征信息,并通过确定语义词向量的主题权重得到主题特征信息。
可选地,通过确定语义词向量的语义权重得到语义特征信息包括:确定语义词向量的语义权重;利用与每个语义词向量匹配的语义权重获取所有语义词向量的第一加权和;将第一加权和作为语义特征信息。
可选地,通过确定语义词向量的主题权重得到主题特征信息包括:获取预设的多个主题的关键词的向量均值;获取待处理文本的语义词向量与各个向量均值的余弦距离;确定余弦距离中最大值对应的目标主题,并将最大值作为语义词向量与目标主题的相关度;利用各个语义词向量的相关度确定各个语义词向量的主题权重;利用与每个语义词向量匹配的主题权重获取所有语义词向量的第二加权和;将第二加权和作为主题特征信息。
可选地,获取预设的多个主题的关键词的向量均值之前,还包括按照如下方式构建多个主题和向量均值:获取第一词语集合,第一词语集合为第二词语集合中出现次数大于次数阈值的词语的集合;将第一词语集合中的词语作为种子词;将种子词转换为第一词向量;获取第一词向量与第二词语集合中的第二词向量的余弦距离;将余弦距离大于预设阈值的第二词向量作为种子词的拓展词;将一个种子词和与之对应的所有拓展词作为一个主题的关键词;获取多个主题的关键词的均值,得到多个主题的向量均值,并利用所有向量均值组成主题矩阵,用于存储不同主题的向量均值。
可选地,根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签包括:将语义特征信息和主题特征信息作为第一神经网络模型的输入;获取第一神经网络模型输出的识别结果,识别结果为全连接层的输出结果,包括指示待处理文本的文本类型的第一预测值和指示待处理文本的讽刺主题的第二预测值;在第一预测值大于目标阈值的情况下将待处理文本的文本类型确定为讽刺类型;在第二预测值中的目标主题占比最大的情况下将目标主题确定为待处理文本的主题标签。
可选地,根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签之前,该方法还包括:通过训练数据对第二神经网络模型内各网络层中的参数进行初始化,得到第三神经网络模型;在第三神经网络模型对测试数据的识别准确度达到目标阈值的情况下,将第三神经网络模型作为第一神经网络模型;在第三神经网络模型对测试数据的识别准确度未达到目标阈值的情况下,继续使用训练数据对第三神经网络模型进行训练,以调整第三神经网络模型内各网络层中的参数的数值,直至第三神经网络模型对测试数据的识别准确度达到目标阈值。
可选地,在训练过程中,将第二神经网络模型的损失函数确定为第一损失函数与第二损失函数的和,第一损失函数为训练第二神经网络模型识别训练数据的文本类型的损失函数,第二损失函数为训练第二神经网络模型识别训练数据的讽刺主题的损失函数。
第二方面,本申请提供了一种讽刺文本协同识别装置,包括:文本获取模块,用于获取待处理文本,待处理文本来自于社交媒体网络平台;特征提取模块,用于提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;结果判定模块,用于根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为讽刺类型,并在训练数据是讽刺类型的情况下标记训练数据的讽刺主题,识别结果用于指示待处理文本是否为讽刺类型及待处理文本体现的讽刺主题,语义特征信息和主题特征信息用于对待处理文本进行协同识别。
第三方面,本申请提供了一种计算机设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面任一项方法的步骤。
第四方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述第一方面任一方法。
本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
本申请通过获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签的技术方案,利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例提供的一种可选的讽刺文本协同识别方法硬件环境示意图;
图2为根据本申请实施例提供的一种可选的讽刺文本协同识别方法流程图;
图3为根据本申请实施例提供的一种可选的讽刺文本协同识别装置框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,在工程与学术界也常直接简称为“神经网络”或类神经网络,可模仿动物神经网络行为特征,是进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。其中,全连接层(fully connected layers,FC)每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。
损失函数(loss function),在训练神经网络的过程中,因为希望神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objectivefunction),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。
长短时记忆网络LSTM(Long Short Term Memory Network,LSTM)。LSTM是一种特殊的循环神经网络,具有能够处理长期信息的能力,解决“长期依赖”的问题,比如在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率。LSTM在各种各样的问题中都取得了极好的效果,现在正在被更广泛地使用。其中,双向长短时记忆网络(Bi-LSTM)可以更好地对输入数据进行表达。对于很多的数据,如声音和文本,一句话的内容与上下文都有联系,Bi-LSTM可以通过使用对正向的时间序列和反向的时间序列分别进行训练,输出的数据可以获得上下文的信息。
相关技术中,讽刺检测常常采用基于规则的方法、基于传统机器学习的方法以及基于深度学习的方法,都是停留在研究待识别文本中是否包含讽刺含义,即确定是或否的问题,而对于哪些词语体现出讽刺含义,通过什么讽刺主题体现出讽刺含义却鲜有研究,导致讽刺识别的解释性不强,讽刺识别不准确,讽刺识别的效果达不到要求。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种讽刺文本协同识别方法的实施例。
可选地,在本申请实施例中,上述讽刺文本协同识别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种讽刺文本协同识别方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
步骤S202,获取待处理文本,待处理文本来自于社交媒体网络平台。
本申请实施例中,上述的待处理文本可以是英文、中文等语言的文本,上述社交媒体网络平台可以是微博、论坛、博客等互联网中用户相对集中的平台。
步骤S204,提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题。
本申请实施例中,待处理文本的语义特征信息和主题特征信息用来对待处理文本进行协同识别,语义特征信息表征待处理文本所蕴含的含义,作为优选,在本申请实施例中表征是否含有“讽刺”这种特殊的情感表达。主题特征信息用于表征用户关注领域的主题,作为优选,本申请实施例中针对讽刺进行识别,则主题特征信息建立在待处理文本具有讽刺含义的基础之上,表征待处理文本体现的讽刺主题。讽刺主题可以理解为文本中体现讽刺含义的原因,例如某些单词是具有侮辱性的,具有很强的讽刺性,就可以作为一类主题,也有一些单词是某领域内的行话,了解该领域的人会知道这些词语的含义,当然也包括一些具有讽刺意义的词语,这也是一类主题,讽刺主题可以预先建模获取。
步骤S206,根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为讽刺类型,并在训练数据是讽刺类型的情况下标记训练数据的讽刺主题,识别结果用于指示待处理文本是否为讽刺类型及待处理文本体现的讽刺主题,语义特征信息和主题特征信息用于对待处理文本进行协同识别。
本申请实施例中,上述神经网络模型可以是卷积神经网络模型、循环神经网络模型等;标记信息至少标识出训练数据中是否具有讽刺含义,即训练数据是否为讽刺类型的文本,还可以标识出属于讽刺文本的训练数据体现的讽刺主题。类似地,识别结果至少为训练数据的文本类型属于讽刺类型的概率,用来指示是否为讽刺类型,还可以包括讽刺主题的主题标签,用于体现讽刺文本的主题区分度。
本申请技术方案中,考虑到讽刺是一种特殊的情感表达方式,其含义比较隐晦,且具有一定的情感倾向,因此本申请提供一种基于多任务学习的讽刺及讽刺主题(即体现讽刺含义的原因)的同步识别方法,既识别待处理文本是否为讽刺类型的文本,属于二分类问题,又识别待处理文本体现讽刺含义的主题,属于多分类问题,实现讽刺及讽刺主题的深层次关联,全面捕获用户讽刺表达的特征,提升讽刺识别的可解释性及准确性。
本申请提出了一种提取待处理文本的语义特征信息和主题特征信息的方法,下面结合图2所示的步骤,进一步详述本申请的技术方案。
可选地,步骤S204提供的技术方案中,提取待处理文本的语义特征信息和主题特征信息可以包括以下步骤:
步骤1,将待处理文本转换为词向量。
本申请实施例中,可以通过word2vector的方式将待处理文本转换为词向量,常用的可以是word embedding编码实现将文本转换为词向量,embedding在数学上表示一个映射,其目标就是将单词映射到多维向量空间,得到单词的向量表示。除此之外,还可以采用one-hot编码方式将单词编码为词向量表示。
在采用embedding或one-hot对单词进行编码前,还需要将待处理文本进行分词,以英文和中文为例加以简单说明。对于英文,计算机可以很简单的得到想要的分词结果,因为英文是以词为单位的,词和词之间是靠空格隔开,而中文则需要应用自然语言处理技术。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。中文分词可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,分词方法技术上已经较为成熟,在此不再赘述。
步骤2,利用双向长短期记忆神经网络对词向量进行编码,得到表示待处理文本语义的语义词向量。
本申请实施例中,可以采用双向长短期记忆神经网络(Bi-LSTM)来编码文本语义表示,从两个方向考虑句子结构化信息,有效学习文本的长期依赖。输入模型的句子长度为l,Bi-LSTM的编码方式如下:
Figure BDA0002542090650000101
Figure BDA0002542090650000111
Figure BDA0002542090650000112
其中,
Figure BDA0002542090650000113
为当前时刻t的前向网络隐含输出,由当前时刻t的输入wt和上一时刻t-1的前向网络隐含输出
Figure BDA0002542090650000114
计算得到。同理,
Figure BDA0002542090650000115
为当前时刻t的后向网络隐含输出,由当前时刻t的输入wt和上一时刻t-1的后向网络隐含输出
Figure BDA0002542090650000116
计算得到。ht为当前时刻t下双向LSTM层的隐含输出,由将
Figure BDA0002542090650000117
Figure BDA0002542090650000118
进行向量拼接后得到。d/2为LSTM编码器隐藏单元的大小,d为Bi-LSTM编码器隐藏单元的大小,
Figure BDA0002542090650000119
Figure BDA00025420906500001110
均为d/2维的向量,ht为d维的向量。
步骤3,通过确定所语义词向量的语义权重得到语义特征信息,并通过确定语义词向量的主题权重得到主题特征信息。
可选地,上述通过确定语义词向量的语义权重得到语义特征信息可以包括以下步骤:
步骤1,确定语义词向量的语义权重;
步骤2,利用与每个语义词向量匹配的语义权重获取所有语义词向量的第一加权和;
步骤3,将第一加权和作为语义特征信息。
本申请实施例中,句子中每个单词对于理解讽刺含义具有不同的重要程度,所以可以结合注意力机制来确定待处理文本的语义权重,进而确定待处理文本的语义特征信息vsar
ut=tanh(Wuht+bu)
Figure BDA00025420906500001111
Figure BDA0002542090650000121
对于句子中的每个单词,该机制首先将双向LSTM学习到的词语隐状态ht映射至高维语义空间中,获得高层语义表示ut,其中权重矩阵Wu和偏移量bu为待学习的模型参数。基于高层语义表示ut,使用softmax方法计算句子中单词t的权重αt,其中语义向量q为待学习的模型参数。最终,将每个单词加权求和后得到待处理文本的语义特征信息vsar
可选地,上述通过确定语义词向量的主题权重得到主题特征信息可以包括以下步骤:
步骤1,获取预设的多个主题的关键词的向量均值;
步骤2,获取待处理文本的语义词向量与各个向量均值的余弦距离;
步骤3,确定余弦距离中最大值对应的目标主题,并将最大值作为语义词向量与目标主题的相关度;
步骤4,利用各个语义词向量的相关度确定各个语义词向量的主题权重;
步骤5,利用与每个语义词向量匹配的主题权重获取所有语义词向量的第二加权和;
步骤6,将第二加权和作为主题特征信息。
本申请实施例中,主题、主题的关键词以及向量均值均可以预先通过建模设置。为了判断句子中各个单词与哪一类主题最为接近,可以采用计算句子中各个单词与所有主题关键词的向量均值的余弦距离来确定两者之间的相关度,相关度越大表示与某个主题越贴近。一个主题具有不同的关键词,通过关键词的向量均值可以较为合理的表征该主题。
余弦距离,即余弦相似度,是通过计算两个向量的夹角余弦值来评估这两个向量的相似性,0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果与向量的长度无关,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。
本申请实施例中,得到k个预设主题后,将所有主题的向量均值存放到一个矩阵,则可构建k*n维的主题表示矩阵P,Pi表示第i个主题的n维向量表示。在计算主题特征信息vtop时,对于句子中的每个单词,首先获取句子中单词hi与各个主题相关度的最大值,作为单词hi的主题相关度di。进一步,使用softmax方法计算句子中单词hi的主题权重ai,从而区分各单词的重要性。将句中的各个单词向量加权求和后,得到文本的主题特征信息向量表示vtop
Figure BDA0002542090650000131
Figure BDA0002542090650000132
Figure BDA0002542090650000133
其中,在词向量的处理过程当中,默认每个词向量的模长为1,因此计算相关度时可以省略分母:
di=max(P1*hi,P2*hi,...,Pk*hi)
需要说明的是,本申请实施例中,ht表示t时刻LSTM的输出(亦可以理解成第t个位置单词,经过LSTM后的输出编码),ht与hi没有区别,仅仅在不同公式用的下标不同而已。
本申请还提出了一种领域先验知识驱动的用户关注主题建模方法,即构建上述主题、主题的关键词以及向量均值的方法。作为优选,在本申请实施例中以讽刺主题作为说明,通过对用户关注领域主题的建模,为讽刺识别中讽刺主题识别的训练过程和识别过程提供依据,进而学习用户所关注领域主题的深度语义表示,解决现有方法忽略讽刺讨论主题的技术挑战。
可选地,获取预设的多个主题的关键词的向量均值之前,还包括按照如下方式构建多个主题和向量均值:
步骤1,获取第一词语集合,第一词语集合为第二词语集合中出现次数大于次数阈值的词语的集合;
步骤2,将第一词语集合中的词语作为种子词;
步骤3,将种子词转换为第一词向量;
步骤4,获取第一词向量与第二词语集合中的第二词向量的余弦距离;
步骤5,将余弦距离大于预设阈值的第二词向量作为种子词的拓展词;
步骤6,将一个种子词和与之对应的所有拓展词作为一个主题的关键词;
步骤7,获取多个主题的关键词的均值,得到多个主题的向量均值,并利用所有向量均值组成主题矩阵,用于存储不同主题的向量均值。
本申请实施例中,第一词语集合为从第二词语集合中选出来的高频词的集合,高频词可以是出现多次,具体可以根据实际需要来设置,第二词语集合可以是社交媒体网络平台获取的词语集合。在本申请实施例中,将体现讽刺含义的高频词即第一词语集合中词作为种子词,以种子词为基础,寻找与种子词具有相同或相似的讽刺含义的词作为拓展词,一个或一类种子词及与其对应的拓展词都体现一种讽刺主题,例如侮辱性词语属于同一类,具备讽刺含义的即可作为一类讽刺主题,又如某些领域里的行话,该领域的人能够清楚的理解讽刺的意思,也可以作为一类讽刺主题。
将种子词转换为词向量的方法可以采用上述word2vector的方法,类似的可以采用相同的方法将第二词语集合中的词转换为词向量,在此不再赘述。需要说明的是,这里“第一”“第二”的表述仅为了区分词向量的来源。
利用种子词确定拓展词可以采用计算余弦相似度的方法,将第二词语集合中与种子词余弦相似度大于预设阈值的词作为该种子词的拓展词,关键词可以表示为维度为n的向量wi。一个或一类种子词及与其相对应的拓展词可以作为一个主题的关键词。由于关键词数量众多,在训练及识别过程中无法确定采用哪一个关键词去确定待处理文本中的词语的主题,因此可以计算每个主题中所有关键词的向量均值,由此得到体现各个讽刺主题较为合理的平均程度,最后将所有主题的向量均值存放到一个矩阵,可以成为主题表示矩阵,若有k类主题,则可构建k*n维的主题表示矩阵P,其中第j行Pj表示第j个主题相关的关键词的向量均值。
本申请提出了一种利用训练好的神经网络模型对语义特征信息和主题特征信息进行识别,根据识别结果确定待处理文本的文本类型及确定待处理文本的讽刺主题的标签的方法,下面结合图2所示的步骤,进一步详述本申请的技术方案。
可选地,步骤S206提供的技术方案中,根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签包括以下步骤:
步骤1,将语义特征信息和主题特征信息作为第一神经网络模型的输入;
步骤2,获取第一神经网络模型输出的识别结果,识别结果为全连接层的输出结果,包括指示待处理文本的文本类型的第一预测值和指示待处理文本的讽刺主题的第二预测值;
步骤3,在第一预测值大于目标阈值的情况下将待处理文本的文本类型确定为讽刺类型,并在第二预测值中的目标主题占比最大的情况下将目标主题确定为待处理文本的主题标签。
本申请实施例中,利用语义特征信息和主题特征信息对待处理文本进行协同识别,从讽刺及讽刺原因的深层次关联更准确、清楚地识别讽刺文本并给出讽刺主题标签,解决现有方法忽略讽刺讨论主题的技术挑战,进一步实现了有主题区分度的讽刺文本识别。
本申请实施例中,基于语义特征信息vsar和主题特征信息vtop,分别使用全连接层预测输出:
Psar=softmax(vsarWsar+bsar)
Figure BDA0002542090650000161
Ptop=softmax(vtopWtop+btop)
Figure BDA0002542090650000162
其中,Psar为由全连接层计算得到的一个二维向量,第一维数值表示该条文本为非讽刺类型的概率,第二维数值表示该条文本为讽刺类型的概率,两个概率数值之和为1。
Figure BDA0002542090650000163
表示Psar的概率最大值所在维度,即神经网络对该条文本的讽刺识别结果(0代表非讽刺类型,1代表讽刺类型)。同理,Ptop为由全连接层计算得到的一个k维向量,k为预设的主题个数,第i维度数值表示该条文本属于第i个主题的概率,各个维度的概率数值之和为1。
Figure BDA0002542090650000171
表示Ptop的概率最大值所在维度,即神经网络对该条文本的主题类别识别结果。讽刺类型识别全连接层权重矩阵Wsar、偏移量bsar,主题类型识别全连接层矩阵权重Wtop、偏移量btop为神经网络需要学习的参数值。
本申请还提出了一种训练本申请实施例所用的第一神经网络模型的方法。
可选地,根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签之前,该方法还包括:通过训练数据对第二神经网络模型内各网络层中的参数进行初始化,得到第三神经网络模型;在第三神经网络模型对测试数据的识别准确度达到目标阈值的情况下,将第三神经网络模型作为第一神经网络模型;在第三神经网络模型对测试数据的识别准确度未达到目标阈值的情况下,继续使用训练数据对第三神经网络模型进行训练,以调整第三神经网络模型内各网络层中的参数的数值,直至第三神经网络模型对测试数据的识别准确度达到目标阈值。
本申请实施例中,可以获取多个文本作为训练样本,每个训练样本中包括该训练样本的文本类型标签,可以是0和1,0表示不属于讽刺类型的文本,作为负样本,1表示属于讽刺类型的文本,作为正样本。在正样本中还包括训练样本的讽刺主题的标签,可以是0至9,此时共有10类讽刺主题,还可以按照实际需要进行适应性调整。利用上述正样本和负样本初始化第二神经网络模型,得到第三神经网络模型,并训练该第三神经网络模型,直至该第三神经网络模型收敛,得到第一神经网络模型。
可选地,对于讽刺类型的识别,上述训练该第三神经网络模型,直至该第三神经网络模型收敛可以包括:
分别将每一个训练样本输入第三神经网络模型,得到文本类型的训练预测值;
根据多个训练预测值和对应的训练样本中的实际文本类型之间的差异确定损失值;
利用多个损失值修正第三神经网络模型,直至第三神经网络模型输出结果的精度达到目标阈值。
可选地,对于讽刺主题的识别,上述训练该第三神经网络模型,直至该第三神经网络模型收敛还可以包括:
分别将每一个正样本输入第三神经网络模型,得到讽刺主题的训练预测值;
根据多个训练预测值和对应的正样本中的实际讽刺主题之间的差异确定损失值;
利用多个损失值修正第三神经网络模型,直至第三神经网络模型输出结果的精度达到目标阈值。
可选地,在训练过程中,将第二神经网络模型的损失函数确定为第一损失函数与第二损失函数的和,第一损失函数为训练第二神经网络模型识别训练数据的文本类型的损失函数,第二损失函数为训练第二神经网络模型识别训练数据的讽刺主题的损失函数。
本申请实施例中,总的损失函数为识别是否为讽刺类型的损失函数与识别讽刺主题的损失函数之和,N为训练集中样本数量,k为讽刺主题的数量,sar_i为第i条训练样本的文本类型的标签(0或1,0表示不是讽刺类型的文本,1表示是讽刺类型的文本),top_ic为第i条训练样本的第c个讽刺主题标签。损失函数表示为:
Figure BDA0002542090650000191
Figure BDA0002542090650000192
Loss=Lossvar+Losstop
训练过程中使用Adam算法来最小化损失函数Loss。
本申请通过获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签的技术方案,利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
根据本申请实施例的又一方面,如图3所示,提供了一种讽刺文本协同识别装置,包括:文本获取模块301,用于获取待处理文本,待处理文本来自于社交媒体网络平台;特征提取模块303,用于提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;结果判定模块305,用于根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为讽刺类型,并在训练数据是讽刺类型的情况下标记训练数据的讽刺主题,识别结果用于指示待处理文本是否为讽刺类型及待处理文本体现的讽刺主题,语义特征信息和主题特征信息用于对待处理文本进行协同识别。
需要说明的是,该实施例中的图像获取模块301可以用于执行本申请实施例中的步骤S202,该实施例中的图像筛选模块303可以用于执行本申请实施例中的步骤S204,该实施例中的图像处理模块305可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,该讽刺文本协同识别装置,还包括:词向量转换模块,用于将待处理文本转换为词向量;语义编码模块,用于利用双向长短期记忆神经网络对词向量进行编码,得到表示待处理文本语义的语义词向量;权重确定及特征提取模块,用于通过确定所语义词向量的语义权重得到语义特征信息,并通过确定语义词向量的主题权重得到主题特征信息。
可选地,该讽刺文本协同识别装置,还包括:语义权重确定模块,用于确定语义词向量的语义权重;第一加权和获取模块,用于利用与每个语义词向量匹配的语义权重获取所有语义词向量的第一加权和;语义特征确定模块,用于将第一加权和作为语义特征信息。
可选地,该讽刺文本协同识别装置,还包括:主题向量均值获取模块,用于获取预设的多个主题的关键词的向量均值;第一余弦距离获取模块,用于获取待处理文本的语义词向量与各个向量均值的余弦距离;主题及相关度确定模块,用于确定余弦距离中最大值对应的目标主题,并将最大值作为语义词向量与目标主题的相关度;主题权重确定模块,用于利用各个语义词向量的相关度确定各个语义词向量的主题权重;第二加权和获取模块,用于利用与每个语义词向量匹配的主题权重获取所有语义词向量的第二加权和;主题特征信息确定模块,用于将第二加权和作为主题特征信息。
可选地,该讽刺文本协同识别装置,还包括:第一词语集合获取模块,用于获取第一词语集合,第一词语集合为第二词语集合中出现次数大于次数阈值的词语的集合;种子词确定模块,用于将第一词语集合中的词语作为种子词;种子词转换模块,用于将种子词转换为第一词向量;第二余弦距离获取模块,用于获取第一词向量与第二词语集合中的第二词向量的余弦距离;拓展词确定模块,用于将余弦距离大于预设阈值的第二词向量作为种子词的拓展词;关键词确定模块,用于将一个种子词和与之对应的所有拓展词作为一个主题的关键词;向量均值获取及主题矩阵确定模块,用于获取多个主题的关键词的均值,得到多个主题的向量均值,并利用所有向量均值组成主题矩阵,用于存储不同主题的向量均值。
可选地,该讽刺文本协同识别装置,还包括:输入模块,用于将语义特征信息和主题特征信息作为第一神经网络模型的输入;识别结果获取模块,用于获取第一神经网络模型输出的识别结果,识别结果为全连接层的输出结果,包括指示待处理文本的文本类型的第一预测值和指示待处理文本的讽刺主题的第二预测值;讽刺类型判别模块,用于在第一预测值大于目标阈值的情况下将待处理文本的文本类型确定为讽刺类型;主题标签确定模块,用于在第二预测值中的目标主题占比最大的情况下将目标主题确定为待处理文本的主题标签。
可选地,该讽刺文本协同识别装置,还包括:第一训练模块,用于通过训练数据对第二神经网络模型内各网络层中的参数进行初始化,得到第三神经网络模型;第二训练模块,用于在第三神经网络模型对测试数据的识别准确度达到目标阈值的情况下,将第三神经网络模型作为第一神经网络模型;第三训练模块,用于在第三神经网络模型对测试数据的识别准确度未达到目标阈值的情况下,继续使用训练数据对第三神经网络模型进行训练,以调整第三神经网络模型内各网络层中的参数的数值,直至第三神经网络模型对测试数据的识别准确度达到目标阈值。
可选地,该讽刺文本协同识别装置,还包括:损失函数确定模块,用于将第二神经网络模型的损失函数确定为第一损失函数与第二损失函数的和,第一损失函数为训练第二神经网络模型识别训练数据的文本类型的损失函数,第二损失函数为训练第二神经网络模型识别训练数据的讽刺主题的损失函数。
根据本申请实施例的又一方面还提供了一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述步骤。
上述计算机设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application SpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
获取待处理文本,待处理文本来自于社交媒体网络平台;
提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;
根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为讽刺类型,并在训练数据是讽刺类型的情况下标记训练数据的讽刺主题,识别结果用于指示待处理文本是否为讽刺类型及待处理文本体现的讽刺主题,语义特征信息和主题特征信息用于对待处理文本进行协同识别。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种讽刺文本协同识别方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本来自于社交媒体网络平台;
提取所述待处理文本的语义特征信息和主题特征信息,其中,所述语义特征信息用于表征所述待处理文本与讽刺类型的关联关系,所述主题特征信息用于表征所述待处理文本体现的讽刺主题;
根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型,并确定所述待处理文本的主题标签,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,所述标记信息用于标记所述训练数据是否为讽刺类型,并在所述训练数据是讽刺类型的情况下标记所述训练数据的讽刺主题,所述识别结果用于指示所述待处理文本是否为所述讽刺类型及所述待处理文本体现的所述讽刺主题,所述语义特征信息和所述主题特征信息用于对所述待处理文本进行协同识别。
2.根据权利要求1所述的方法,其特征在于,提取所述待处理文本的语义特征信息和主题特征信息包括:
将待处理文本转换为词向量;
利用双向长短期记忆神经网络对所述词向量进行编码,得到表示所述待处理文本语义的语义词向量;
通过确定所述语义词向量的语义权重得到所述语义特征信息,并通过确定所述语义词向量的主题权重得到所述主题特征信息。
3.根据权利要求2所述的方法,其特征在于,通过确定所述语义词向量的语义权重得到所述语义特征信息包括:
确定所述语义词向量的所述语义权重;
利用与每个语义词向量匹配的所述语义权重获取所有语义词向量的第一加权和;
将所述第一加权和作为所述语义特征信息。
4.根据权利要求2所述的方法,其特征在于,通过确定所述语义词向量的主题权重得到所述主题特征信息包括:
获取预设的多个主题的关键词的向量均值;
获取所述待处理文本的所述语义词向量与各个向量均值的余弦距离;
确定所述余弦距离中最大值对应的目标主题,并将所述最大值作为所述语义词向量与所述目标主题的相关度;
利用各个语义词向量的相关度确定所述各个语义词向量的所述主题权重;
利用与每个语义词向量匹配的所述主题权重获取所有语义词向量的第二加权和;
将所述第二加权和作为所述主题特征信息。
5.根据权利要求4所述的方法,其特征在于,获取预设的多个主题的关键词的向量均值之前,还包括按照如下方式构建所述多个主题和所述向量均值:
获取第一词语集合,其中,所述第一词语集合为第二词语集合中出现次数大于次数阈值的词语的集合;
将所述第一词语集合中的词语作为种子词;
将所述种子词转换为第一词向量;
获取所述第一词向量与所述第二词语集合中的第二词向量的余弦距离;
将所述余弦距离大于预设阈值的所述第二词向量作为所述种子词的拓展词;
将一个种子词和与之对应的所有拓展词作为一个主题的所述关键词;
获取所述多个主题的所述关键词的均值,得到所述多个主题的所述向量均值,并利用所有向量均值组成主题矩阵,用于存储不同主题的所述向量均值。
6.根据权利要求5所述的方法,其特征在于,根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型,并确定所述待处理文本的主题标签包括:
将所述语义特征信息和所述主题特征信息作为所述第一神经网络模型的输入;
获取所述第一神经网络模型输出的识别结果,其中,所述识别结果为全连接层的输出结果,包括指示所述待处理文本的所述文本类型的第一预测值和指示所述待处理文本的所述讽刺主题的第二预测值;
在所述第一预测值大于目标阈值的情况下将所述待处理文本的所述文本类型确定为讽刺类型;
在所述第二预测值中的所述目标主题占比最大的情况下将所述目标主题确定为所述待处理文本的主题标签。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型,并确定所述文本类型的主题标签之前,所述方法还包括:
通过所述训练数据对所述第二神经网络模型内各网络层中的参数进行初始化,得到第三神经网络模型;
在所述第三神经网络模型对测试数据的识别准确度达到目标阈值的情况下,将所述第三神经网络模型作为所述第一神经网络模型;
在所述第三神经网络模型对所述测试数据的识别准确度未达到所述目标阈值的情况下,继续使用所述训练数据对所述第三神经网络模型进行训练,以调整所述第三神经网络模型内各网络层中的参数的数值,直至所述第三神经网络模型对所述测试数据的识别准确度达到所述目标阈值。
8.根据权利要求7所述的方法,其特征在于,
在训练过程中,将所述第二神经网络模型的损失函数确定为第一损失函数与第二损失函数的和,其中,所述第一损失函数为训练所述第二神经网络模型识别所述训练数据的所述文本类型的损失函数,所述第二损失函数为训练所述第二神经网络模型识别所述训练数据的所述讽刺主题的损失函数。
9.一种讽刺文本协同识别装置,其特征在于,包括:
文本获取模块,用于获取待处理文本,其中,所述待处理文本来自于社交媒体网络平台;
特征提取模块,用于提取所述待处理文本的语义特征信息和主题特征信息,其中,所述语义特征信息用于表征所述待处理文本与讽刺类型的关联关系,所述主题特征信息用于表征所述待处理文本体现的讽刺主题;
结果判定模块,用于根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型,并确定所述待处理文本的主题标签,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,所述标记信息用于标记所述训练数据是否为讽刺类型,并在所述训练数据是讽刺类型的情况下标记所述训练数据的讽刺主题,所述识别结果用于指示所述待处理文本是否为所述讽刺类型及所述待处理文本体现的所述讽刺主题,所述语义特征信息和所述主题特征信息用于对所述待处理文本进行协同识别。
10.一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8任一项所述的方法的步骤。
11.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至8任一所述方法。
CN202010549940.1A 2020-06-16 2020-06-16 讽刺文本协同识别方法、装置、设备及计算机可读介质 Pending CN111859979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010549940.1A CN111859979A (zh) 2020-06-16 2020-06-16 讽刺文本协同识别方法、装置、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010549940.1A CN111859979A (zh) 2020-06-16 2020-06-16 讽刺文本协同识别方法、装置、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN111859979A true CN111859979A (zh) 2020-10-30

Family

ID=72986669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010549940.1A Pending CN111859979A (zh) 2020-06-16 2020-06-16 讽刺文本协同识别方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN111859979A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158656A (zh) * 2020-12-25 2021-07-23 北京中科闻歌科技股份有限公司 讽刺内容识别方法、装置、电子设备以及存储介质
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及系统、情感极性判断方法及系统
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN108874972A (zh) * 2018-06-08 2018-11-23 青岛里奥机器人技术有限公司 一种基于深度学习的多轮情感对话方法
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及系统、情感极性判断方法及系统
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN108874972A (zh) * 2018-06-08 2018-11-23 青岛里奥机器人技术有限公司 一种基于深度学习的多轮情感对话方法
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备
CN113158656A (zh) * 2020-12-25 2021-07-23 北京中科闻歌科技股份有限公司 讽刺内容识别方法、装置、电子设备以及存储介质
CN113158656B (zh) * 2020-12-25 2024-05-14 北京中科闻歌科技股份有限公司 讽刺内容识别方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN111371806B (zh) 一种Web攻击检测方法及装置
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN111859980B (zh) 讽刺类型的文本识别方法、装置、设备及计算机可读介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN114357167B (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN114818724A (zh) 一种社交媒体灾害有效信息检测模型的构建方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination