CN116702746A - 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 - Google Patents
跨平台多主题的讽刺及动因识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116702746A CN116702746A CN202310594620.1A CN202310594620A CN116702746A CN 116702746 A CN116702746 A CN 116702746A CN 202310594620 A CN202310594620 A CN 202310594620A CN 116702746 A CN116702746 A CN 116702746A
- Authority
- CN
- China
- Prior art keywords
- text
- ironic
- platform
- topic
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 120
- 238000012512 characterization method Methods 0.000 claims abstract description 114
- 230000001364 causal effect Effects 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000008450 motivation Effects 0.000 abstract description 7
- 230000014509 gene expression Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009133 cooperative interaction Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种跨平台多主题的讽刺及动因识别方法、装置、设备及介质,其中,方法包括:获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。解决了无法结合跨平台下文本多维度数据同时识别文本主题、是否讽刺以及讽刺动因的问题。
Description
技术领域
本申请涉及文本识别技术领域,尤其涉及一种跨平台多主题的讽刺及动因识别方法、装置、设备及介质。
背景技术
讽刺是一种特殊的修辞表达方式,通常用积极的字面意义表达作者的负面情绪,在日常的对话和书面交流中经常出现。由于讽刺可以改变甚至翻转语句的真实含义,对情感识别任务造成了很大的困难。因此分析不同平台、不同主题、不同风格的文本信息是否表达讽刺,以及引发讽刺的动因对深入分析产品评价和用户需求具有重要意义。事实上,讽刺的文本语义、发布平台、关键主题、语言风格以及上下文语境等信息,共同构成了讽刺表达,所以对各要素间复杂的关联与交互为讽刺及动因分析提出了更高的要求。现有方法往往仅从单一维度出发,无法结合跨平台下文本各维度数据同时识别文本主题、是否讽刺以及讽刺动因。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种跨平台多主题的讽刺及动因识别方法、装置、设备及介质,以解决上述“无法结合跨平台下文本各维度数据同时识别文本主题、是否讽刺以及讽刺动因”的技术问题。
根据本申请实施例的一个方面,本申请提供了一种跨平台讽刺及动因识别方法,包括:获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
可选地,根据待识别文本及其发布平台获得预设格式的目标数据包括:对待识别文本进行分句处理,得到分句数据,其中,分句数据包括多个子句;构建预设格式的提示模板,并将发布平台、待识别文本以及分句数据填入提示模板,得到目标数据,其中,目标数据包括与用于显示讽刺判定结果的第一位置以及用于显示主题识别结果的第二位置。
可选地,利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量包括:通过预设语言表征模型对目标数据进行编码,得到与待识别文本对应的文本表征向量;通过预设语言表征模型对预设跨平台标签集中的多个主题标签进行编码,得到与各个主题标签对应的标签编码表示;对各个标签编码表示进行平均池化,得到标签表征向量。
可选地,对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果包括:基于注意力机制对主题表征向量以及标签表征向量进行计算,得到主题交互表征向量,其中,文本表征向量包括讽刺表征向量以及主题表征向量;利用主题交互表征向量确定待识别文本的主题识别结果,以及利用讽刺表征向量确定待识别文本的讽刺判定结果。
可选地,基于注意力机制对主题表征向量以及标签表征向量进行计算,得到主题交互表征向量包括:将主题表征向量作为查询,并将标签表征向量作为键以及值;通过对查询、键以及值进行计算,得到主题交互表征向量。
可选地,在得到讽刺判定结果之后,所述方法还包括:在讽刺判定结果指示待识别文本为讽刺文本的情况下,获取目标数据中的分句数据;确定分句数据的各个子句中确定讽刺动因子句;根据讽刺动因子句确定讽刺动因。
可选地,确定分句数据的各个子句中确定讽刺动因子句包括:
对各个子句进行掩码处理,确定掩码位置;根据主题识别结果、发布平台以及掩码位置的上下文数据,生成融合多视角信息的目标子句表示;基于线性神经网络计算目标子句表示的影响因子;确定影响因子最大的目标子句表示,并将与目标子句表示所在的掩码位置对应的原始子句确定为讽刺动因子句。
根据本申请实施例的另一方面,本申请提供了一种跨平台多主题讽刺及动因识别装置,包括:获取模块,用于获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因;编码模块,用于利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,所述预设跨平台标签集包括多个主题标签;计算模块,用于对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,所述讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
本申请通过一种跨平台多主题讽刺及动因识别方法,包括:获取待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。解决了无法结合跨平台下文本多维度数据同时识别文本主题、是否讽刺以及讽刺动因的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例提供的一种可选的跨平台多主题讽刺及动因识别方法的流程图;
图2为根据本申请实施例提供的一种可选的跨平台多主题讽刺及动因识别方法的示意图;
图3为根据本申请实施例提供的一种可选的跨平台多主题讽刺及动因识别装置的框图;
图4为本申请实施例提供的一种可选的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
讽刺是一种特殊的修辞表达方式,通常用积极的字面意义表达作者的负面情绪,在日常的对话和书面交流中经常出现。由于讽刺可以改变甚至翻转语句的真实含义,对情感识别任务造成了很大的困难。因此分析不同平台、不同主题、不同风格的文本信息是否表达讽刺,以及引发讽刺的动因对深入分析产品评价和用户需求具有重要意义。事实上,讽刺的文本语义、发布平台、关键主题、语言风格以及上下文语境等信息,共同构成了讽刺表达,所以对各要素间复杂的关联与交互为讽刺及动因分析提出了更高的要求。现有方法往往仅从单一维度出发,无法结合文本各维度数据同时识别文本主题、是否讽刺以及讽刺动因。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种跨平台多主题的讽刺及动因识别方法的实施例,如图1所示,包括:
步骤101,获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;
步骤103,利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;
步骤105,对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
本申请将平台、文本语义、上下文语境等多视角信息融合至统一的提示与生成模型中,实现跨平台多主题的讽刺、主题及动因联合识别。
本申请提供的预设语言表征模型为预训练语言模型BERT,将其作为文本编码器和掩码预测模型,其强大的深层语义编码能力,能够表征提示增强的多视角讽刺文本语义,并预测生成与主题、上下文相适应的掩码词。
作为一种可选的实施例,根据待识别文本及其发布平台获得预设格式的目标数据包括:对待识别文本进行分句处理,得到分句数据,其中,分句数据包括多个子句;构建预设格式的提示模板,并将发布平台、待识别文本以及分句数据填入提示模板,得到目标数据,其中,目标数据包括与用于显示讽刺判定结果的第一位置以及用于显示主题识别结果的第二位置。
将待识别文本的发布平台也作为进行识别的依据之一,同时,预设跨平台标签集包含了多个发布平台的不同主题标签,也就是说可以实现跨平台检测。
示例地,本申请提供一个用于构建面向主题的讽刺提示的模块,输入为待识别文本S,文本的上下文C,文本发布平台P,输出为目标数据Xprompt,具体为:Xprompt=Concat(P,S,C,Qtopic,Qsarcasm),其中,Qtopic显示主题识别结果(即以上文本的主题),Qsarcasm显示讽刺判定结果(即以上文本是否包含讽刺)。
根据预先设定候选主题集合,通过将数据集转换为完形填空式的提示文本,使数据的输入更接近掩码语言模型的目标,减小了下游任务与模型预训练之间的差距。
作为一种可选的实施例,利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量包括:通过预设语言表征模型对目标数据进行编码,得到与待识别文本对应的文本表征向量;通过预设语言表征模型对预设跨平台标签集中的多个主题标签进行编码,得到与各个主题标签对应的标签编码表示;对各个标签编码表示进行平均池化,得到标签表征向量。
预设跨平台标签集包括预先从多个发布平台中获取的多个主题标签,例如:科技,娱乐,电影等,本申请对主题标签不做限定。
具体地,将预设跨平台标签集输入预设语言表征模型,通过预设语言表征模型进行编码表示,输出标签表征向量将目标数据(即Xprompt)输入预设语言表征模型,通过预设语言表征模型进行编码表示,输出文本表征向量,其中,文本表征向量包括讽刺表征向量Es以及主题表征向量ET。
本申请将构建的主题提示的文本和上下文数据输入预训练语言模型BERT,使其在下游任务训练过程中进行微调,实现领域适应性,从而生成包含特定平台讽刺文本及上下文语义的表征向量,同时得到主题标签的语义表征。
作为一种可选的实施例,对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果包括:基于注意力机制对主题表征向量以及标签表征向量进行计算,得到主题交互表征向量,其中,文本表征向量包括讽刺表征向量以及主题表征向量;利用主题交互表征向量确定待识别文本的主题识别结果,以及利用讽刺表征向量确定待识别文本的讽刺判定结果。
本申请基于讽刺文本信息与各跨平台主题的语义表示,利用注意力机制交互学习文本与主题间的关系,从而识别主题;以及根据主题和平台提示的文本表示,挖掘该待识别文本是否为讽刺表达。
作为一种可选的实施例,基于注意力机制对主题表征向量以及标签表征向量进行计算,得到主题交互表征向量包括:将主题表征向量作为查询,并将标签表征向量作为键以及值;通过对查询、键以及值进行计算,得到主题交互表征向量。
作为一种可选的实施例,在得到讽刺判定结果之后,所述方法还包括:在讽刺判定结果指示待识别文本为讽刺文本的情况下,获取目标数据中的分句数据;确定分句数据的各个子句中确定讽刺动因子句;根据讽刺动因子句确定讽刺动因。
现有技术中通常是在确定是否具备讽刺意图后就结束流程,缺乏进一步的讽刺动因识别,而本申请则在讽刺判定结果指示待识别文本为讽刺文本的情况下,进一步从各个分句找出讽刺动因子句,然后根据讽刺动因子句确定讽刺动因。
需要说明的是,如果讽刺判定结果指示待识别文本不是讽刺文本的情况下,便不执行上述确定讽刺动因的流程。
作为一种可选的实施例,确定分句数据的各个子句中确定讽刺动因子句包括:对各个子句进行掩码处理,确定掩码位置;根据主题识别结果、发布平台以及掩码位置的上下文数据,生成融合多视角信息的目标子句表示;基于线性神经网络计算目标子句表示的影响因子;确定影响因子最大的目标子句表示,并将与目标子句表示所在的掩码位置对应的原始子句确定为讽刺动因子句。具体地,在各个多平台子句中确定讽刺动因子句的步骤包括:进行掩码生成、模型语义表示,基于线性神经网络计算影响因子,然后将影响因子最大的句子确定为讽刺动因子句。
掩码生成过程包括将句子中与讽刺相关的词替换为[MASK],输入模型生成新的句子,具体包括:对讽刺判定结果为具备讽刺意味的待识别文本S以及该文本在多个平台下的子句(可以理解为候选的动因子句,表示为:C1,C2,...,Cn),进行掩码生成融合多视角信息的目标子句以及掩码后的目标文本Sg。
模型语义表示过程包括:结合提示掩码生成的目标子句以及目标文本Sg进行语义表示,得到/>
将影响因子最大的句子确定为讽刺动因子句的过程包括:计算多个平台下各个子句的交互影响因子找出交互影响因子之和最大的目标子句表示,然后将该目标子句表示对应的原始子句确定为讽刺动因子句。
本申请建模多个平台下讽刺句与其动因子句间的语义关联信息,通过语义表征与交互计算的方式有效提升跨平台讽刺动因识别的性能。
优选地,上述方法是一种基于提示与生成模型的跨平台多主题讽刺及动因识别方法,主要通过构建候选主题标签提示,基于BERT掩码语言模型的编码器,多层级、细粒度地交互建模了平台、主题、文本和上下文语境信息,以联合实现主题挖掘、讽刺识别以及讽刺动因检测,具有多视角信息深度融合、语义表征与生成精准化、交互关联建模层级化等优点。
本申请还提供一种基于提示与生成模型的跨平台主题相关讽刺及动因分析模型算法,输入数据为(平台P,文本S,上下文C={C1,C2,...,Cn}),输出结果为讽刺判别标签yS∈{0,1}(其中1表示讽刺表达,0表示非讽刺表达)、讽刺主题T、讽刺动因子句Cp∈C,其中,核心模块包括:面向主题的讽刺提示构建模块、基于预训练模型的文本编码表示模块、讽刺表达与主题联合交互挖掘模块以及讽刺动因子句识别模块。
具体流程如下:
(1)面向主题的讽刺提示构建模块:提示信息通过语言模型中的编码器与文本信息交互,有助于将任务融合至文本表征学习的过程中,使下游任务更接近掩码语言模型的目标。
首先,将文本S,包含n个子句的上下文C={C1,C2,...,Cn},文本发布平台P使用自然语言连接。基于预定义的主题集合T={t1,t2,...,t|T|},增加带有[MASK]掩码的主题提示语讽刺检测提示语Qsarcasm=“以上对话[MASK]包含讽刺表达”。构建面向主题的讽刺提示输入为如下形式:
Xprompt=Concat(P,S,C,Qtopic,Qsarcasm),
其中,不仅作为提示语,也作为主题标签。
(2)基于预训练模型的文本编码表示模块:将包含提示的讽刺文本和主题标签分别输入带有编码器结构的预训练语义表示模型BERT。
为适配BERT模型的编码格式,在输入文本的首位置插入[CLS]符号,并在各子句后插入[SEP]符号作为句子分隔符,Xprompt、Qtopic输入BERT进行编码可表示为如下形式:
ES,ET=BERT(Xprompt)
BERT模型通过自注意力机制进行编码建模,输出得到考虑了提示、文本语义和上下文语境信息的[MASK]位置感知特征表示ES、ET。
对主题提示经过BERT编码后得到各个位置编码表示进行平均池化,所得均值向量为主题标签的编码表征各表示向量维度设置为BERT模型的默认值768。
(3)讽刺表达与主题联合交互挖掘模块:为了增强讽刺主题标签与主题提示中[MASK]位置表示的交互关联,本方案采用交互注意力机制进行计算,包含查询Q、键K与值V三部分要素,计算方式如下:
其中,dK为键K的维度。
在计算主题标签和文本表示的交互注意力过程中,主题提示中[MASK]位置感知特征表示ET作为查询Q,主题标签的编码表征作为键K、值V,输入Attention计算主题交互表征/>
其中WQ,WK和WV是需要训练学习的参数。
基于讽刺提示中[MASK]位置感知表示向量ES,主题交互语义增强的表示向量依次输入线性层、LeakyReLU非线性激活层、线性层,从而识别讽刺表达与讽刺主题。计算过程如下所示,其中Wj,bj为全连接线性层的待学习参数。
以联合最小化训练集中主题和讽刺表达的交叉熵损失函数为训练目标,损失函数形式化定义如下,其中|T|表示候选主题的数量,yS和分别为样本的真实和预测讽刺标签,/>与/>分别为样本针对主题i的真实和预测标签。
其中CE为交叉熵损失函数,λ为主题挖掘与讽刺识别的损失权重参数。
(4)讽刺动因子句识别模块:讽刺动因句与讽刺子句在语义和语法层面紧密关联,本方案针对跨平台的讽刺动因句进行提示掩码、语义表征和动因预测。针对一个讽刺动因句Ci,根据平台信息,主题信息,讽刺句信息,增加带有[MASK]标记的提示语
在主题、平台和上下文的提示下,BERT掩码语言模型预测[MASK]位置的向量表征,从而生成融合多视角信息的子句表征可表示为如下形式:
基于融合多视角信息的动因子句表征依次输入线性层、LeakyReLU非线性激活层、线性层,得到影响因子/>从而识别讽刺动因子句/>计算过程如下所示,其中Wj,bj为全连接线性层的待学习参数。损失函数为训练集中讽刺动因子句的交叉熵,计算过程如下所示:
图2为本申请提供的一种基于提示与生成模型的跨平台主题相关讽刺及动因分析的示意图,包括:首先,预定义主题标签信息以及跨平台多主题数据集构建,然后根据主题标签信息以及跨平台多主题数据集构建面向主题的讽刺提示;基于预训练模型获取文本编码表示,然后进行讽刺表达与主题联合交互挖掘;获取句法知识库,并根据文本编码表示以及挖掘的讽刺表达进行讽刺动因子句识别。
本申请通过一种跨平台多主题讽刺及动因识别方法,包括:获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,预设跨平台标签集包括多个主题标签;对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。解决了无法结合跨平台下文本各维度数据同时识别文本主题、是否讽刺以及讽刺动因的技术问题。
根据本申请实施例的另一方面,本申请提供了一种跨平台多主题讽刺及动因识别装置,如图3所示,包括:
获取模块302,用于获取跨平台的待识别文本,并根据待识别文本及其发布平台获得预设格式的目标数据;
编码模块304,用于利用预设语言表征模型分别对预设跨平台标签集以及目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,所述讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因;
计算模块306,用于对文本表征向量以及标签表征向量进行计算,得到与待识别文本对应的讽刺识别结果,其中,讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
需要说明的是,该实施例中的获取模块302可以用于执行本申请实施例中的步骤101,该实施例中的编码模块304可以用于执行本申请实施例中的步骤103,该实施例中的计算模块306可以用于执行本申请实施例中的步骤105。
可选地,获取模块302还用于对待识别文本进行分句处理,得到分句数据,其中,分句数据包括多个子句;构建预设格式的提示模板,并将发布平台、待识别文本以及分句数据填入提示模板,得到目标数据,其中,目标数据包括与用于显示讽刺判定结果的第一位置以及用于显示主题识别结果的第二位置。
可选地,编码模块304还用于通过预设语言表征模型对目标数据进行编码,得到与待识别文本对应的文本表征向量;通过预设语言表征模型对预设跨平台标签集中的多个主题标签进行编码,得到与各个主题标签对应的标签编码表示;对各个标签编码表示进行平均池化,得到标签表征向量。
可选地,计算模块306包括:
计算单元,用于基于注意力机制对主题表征向量以及标签表征向量进行计算,得到主题交互表征向量,其中,文本表征向量包括讽刺表征向量以及主题表征向量;
第一确定单元,用于利用主题交互表征向量确定待识别文本的主题识别结果,以及利用讽刺表征向量确定待识别文本的讽刺判定结果。
可选地,计算单元具体用于将主题表征向量作为查询,并将标签表征向量作为键以及值;通过对查询、键以及值进行计算,得到主题交互表征向量。
可选地,计算模块306还包括第二确定单元,用于在讽刺判定结果指示待识别文本为讽刺文本的情况下,获取目标数据中的分句数据;确定分句数据的各个子句中确定讽刺动因子句;根据讽刺动因子句确定讽刺动因。
可选地,第二确定单元具体还用于对各个子句进行掩码处理,确定掩码位置;根据主题识别结果、发布平台以及掩码位置的上下文数据,生成融合多视角信息的目标子句表示;基于线性神经网络计算目标子句表示的影响因子;确定影响因子最大的目标子句表示,并将与目标子句表示所在的掩码位置对应的原始子句确定为讽刺动因子句。。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种跨平台多主题讽刺及动因识别方法,其特征在于,包括:
获取跨平台的待识别文本,并根据所述待识别文本及其发布平台获得预设格式的目标数据;
利用预设语言表征模型分别对预设跨平台标签集以及所述目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,所述预设跨平台标签集包括多个主题标签;
对所述文本表征向量以及所述标签表征向量进行计算,得到与所述待识别文本对应的讽刺识别结果,其中,所述讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本及其发布平台获得预设格式的目标数据包括:
对所述待识别文本进行分句处理,得到分句数据,其中,所述分句数据包括多个子句;
构建所述预设格式的提示模板,并将所述发布平台、所述待识别文本以及所述分句数据填入所述提示模板,得到所述目标数据,其中,所述目标数据包括与用于显示讽刺判定结果的第一位置以及用于显示主题识别结果的第二位置。
3.根据权利要求1所述的方法,其特征在于,所述利用预设语言表征模型分别对预设跨平台标签集以及所述目标数据进行编码表示,得到文本表征向量以及标签表征向量包括:
通过所述预设语言表征模型对所述目标数据进行编码,得到与所述待识别文本对应的所述文本表征向量;
通过所述预设语言表征模型对所述预设跨平台标签集中的多个所述主题标签进行编码,得到与各个所述主题标签对应的标签编码表示;
对各个所述标签编码表示进行平均池化,得到所述标签表征向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本表征向量以及所述标签表征向量进行计算,得到与所述待识别文本对应的讽刺识别结果包括:
基于注意力机制对主题表征向量以及所述标签表征向量进行计算,得到主题交互表征向量,其中,所述文本表征向量包括讽刺表征向量以及主题表征向量;
利用所述主题交互表征向量确定所述待识别文本的所述主题识别结果,以及利用所述讽刺表征向量确定所述待识别文本的所述讽刺判定结果。
5.根据权利要求4所述的方法,其特征在于,所述基于注意力机制对所述主题表征向量以及所述标签表征向量进行计算,得到主题交互表征向量包括:
将所述主题表征向量作为查询,并将所述标签表征向量作为键以及值;
通过对所述查询、所述键以及所述值进行计算,得到所述主题交互表征向量。
6.根据权利要求4所述的方法,其特征在于,在得到所述讽刺判定结果之后,所述方法还包括:
在所述讽刺判定结果指示所述待识别文本为讽刺文本的情况下,获取所述目标数据中的分句数据;
确定所述分句数据的各个子句中确定讽刺动因子句;
根据所述讽刺动因子句确定所述讽刺动因。
7.根据权利要求6所述的方法,其特征在于,所述确定所述分句数据的各个子句中确定讽刺动因子句包括:
对所述各个子句进行掩码处理,确定掩码位置;
根据所述主题识别结果、所述发布平台以及所述掩码位置的上下文数据,生成融合多视角信息的目标子句表示;
基于线性神经网络计算所述目标子句表示的影响因子;
确定所述影响因子最大的所述目标子句表示,并将与所述目标子句表示所在的所述掩码位置对应的原始子句确定为所述讽刺动因子句。
8.一种跨平台多主题讽刺及动因识别装置,其特征在于,包括:
获取模块,用于获取跨平台的待识别文本,并根据所述待识别文本及其发布平台获得预设格式的目标数据;
编码模块,用于利用预设语言表征模型分别对预设跨平台标签集以及所述目标数据进行编码表示,得到文本表征向量以及标签表征向量,其中,所述预设跨平台标签集包括多个主题标签;
计算模块,用于对所述文本表征向量以及所述标签表征向量进行计算,得到与所述待识别文本对应的讽刺识别结果,其中,所述讽刺识别结果包括主题识别结果、讽刺判定结果以及讽刺动因。
9.一种电子设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594620.1A CN116702746A (zh) | 2023-05-24 | 2023-05-24 | 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594620.1A CN116702746A (zh) | 2023-05-24 | 2023-05-24 | 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116702746A true CN116702746A (zh) | 2023-09-05 |
Family
ID=87828506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310594620.1A Pending CN116702746A (zh) | 2023-05-24 | 2023-05-24 | 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702746A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436457A (zh) * | 2023-11-01 | 2024-01-23 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
-
2023
- 2023-05-24 CN CN202310594620.1A patent/CN116702746A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436457A (zh) * | 2023-11-01 | 2024-01-23 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
CN117436457B (zh) * | 2023-11-01 | 2024-05-03 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108675B2 (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN113987147A (zh) | 样本处理方法及装置 | |
CN111194401B (zh) | 意图识别的抽象和可移植性 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN113806508A (zh) | 基于人工智能的多轮对话方法、装置及存储介质 | |
CN114722826B (zh) | 模型的训练方法和装置、电子设备、存储介质 | |
CN116578688A (zh) | 基于多轮问答的文本处理方法、装置、设备及存储介质 | |
CN114238571A (zh) | 模型的训练方法、知识分类方法、装置、设备、介质 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN116702746A (zh) | 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN113901838A (zh) | 对话检测方法和装置、电子设备、存储介质 | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN115392260B (zh) | 一种面向特定目标的社交媒体推文情感分析方法 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
Tu | Named entity recognition and emotional viewpoint monitoring in online news using artificial intelligence | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN116304014A (zh) | 训练实体类型识别模型的方法、实体类型识别方法及装置 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN114936274A (zh) | 模型训练方法、对话生成方法和装置、设备及存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |