CN116821339A - 滥用语言检测方法、装置及存储介质 - Google Patents

滥用语言检测方法、装置及存储介质 Download PDF

Info

Publication number
CN116821339A
CN116821339A CN202310737400.XA CN202310737400A CN116821339A CN 116821339 A CN116821339 A CN 116821339A CN 202310737400 A CN202310737400 A CN 202310737400A CN 116821339 A CN116821339 A CN 116821339A
Authority
CN
China
Prior art keywords
language text
language
cross
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310737400.XA
Other languages
English (en)
Inventor
曹志冬
刘林
罗天怡
王姣姣
曾大军
赵鹏飞
于春淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310737400.XA priority Critical patent/CN116821339A/zh
Publication of CN116821339A publication Critical patent/CN116821339A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种滥用语言检测方法、装置及存储介质。该方法包括:将待处理语言文本输入至滥用语言检测模型中,获得待处理语言文本的类别预测概率;所述滥用语言检测模型是基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行训练得到的,所述目标语言文本是基于源语言文本翻译得到的平行译文。本申请提供的滥用语言检测方法、装置及存储介质,通过从不同语言文本中学习内在关系来训练滥用语言检测模型,提高了该模型跨语言知识迁移能力,提高了滥用语言检测结果的准确性。

Description

滥用语言检测方法、装置及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种滥用语言检测方法、装置及存储介质。
背景技术
由于社交媒体平台具有语言多样性,检测多种语言中的滥用语言(AbusiveLanguage)对于维护一个积极、健康和和谐的网络环境具有重要意义。滥用语言检测(Abusive Language Detection)旨在运用自然语言处理技术识别出某些在线用户创建的包含恶意的内容,能够有效地识别和审查网络社区的滥用语言。
现有的滥用语言检测方法大多基于深度学习技术学习语义词嵌入来处理自然语言结构的复杂性,并利用预训练的语言模型来实现滥用语言的检测。这种方法需要针对目标语言的大量标注数据来训练模型,但是现有的滥用语言标注数据稀缺,利用现有的数据资源和现有的滥用语言检测方法进行滥用语言检测,会导致得到的滥用语言检测结果的准确性低。
发明内容
本申请实施例提供一种滥用语言检测方法、装置及存储介质,用以解决现有技术中滥用语言检测的准确性低的技术问题。
第一方面,本申请实施例提供一种滥用语言检测方法,包括:
获取待处理语言文本;
将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练,包括:
对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数;
通过最小化所述目标损失函数对所述滥用语言检测模型进行训练。
在一些实施例中,所述目标损失函数的表达式如下:
其中,Loss表示目标损失函数值;λ表示损失权重参数;表示源语言文本的分类交叉熵损失;/>表示目标语言文本的分类交叉熵损失;LXCL表示跨语言对比损失。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的语义表示和目标语言文本的语义表示采用对比学习算法计算跨语言对比损失;所述跨语言对比损失用于度量所述源语言文本与所述目标语言文本的相似性。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的向量表示和全连接神经网络参数计算源语言文本的类别预测概率,并基于目标语言文本的向量表示和所述全连接神经网络参数计算目标语言文本的类别预测概率;
基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失。
在一些实施例中,所述方法还还包括:
利用机器翻译模型将源语言文本翻译为目标语言文本;
将源语言文本和目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示。
在一些实施例中,所述将源语言文本和目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示,包括:
将源语言文本输入至多语言预训练模型中进行语义识别,得到所述源语言文本中每一词的语义表示,并将目标语言文本输入至多语言预训练模型中进行语义识别,得到目标语言文本中每一词的语义表示;
对所述源语言文本中每一词的语义表示进行平均池化,得到源语言文本的语义表示,并对所述目标语言文本中每一词的语义表示进行平均池化,得到目标语言文本的语义表示。
第二方面,本申请实施例提供一种滥用语言检测装置,包括:
获取模块,用于获取待处理语言文本;
检测模块,用于将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的滥用语言检测方法。
第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的滥用语言检测方法。
第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的滥用语言检测方法。
本申请实施例提供的滥用语言检测方法、装置及存储介质,通过将待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率,所述滥用语言检测模型是基于以下步骤训练获得的:通过跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失联合对所述滥用语言检测模型进行训练,所述目标语言文本是基于所述源语言文本翻译得到的平行译文,通过从不同语言文本中学习内在关系,提高滥用语言检测模型的跨语言知识迁移能力,使得利用该模型进行滥用语言检测能得到更加准确检测结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的滥用语言检测方法的流程示意图;
图2是本申请实施例提供的滥用语言检测方法的示例场景的滥用语言检测模型示意图;
图3是本申请实施例提供的一种滥用语言检测装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
现有的滥用语言检测方法大多基于深度学习技术学习语义词嵌入来处理自然语言结构的复杂性,例如应用卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和快速文本分类算法(FastText)三种神经网络模型进行滥用语言检测。随着Transformer结构在自然语言处理领域的众多下游任务中的成功应用,一系列基于Transformer的预训练语言模型被引入滥用语言检测领域。例如,通过利用预训练语言模型BERT(Bidirectional Encoder Representation fromTransformers)模型的不同Transformer编码器层中的语法和上下文信息嵌入捕获不同层级的信息,以增强滥用语言检测系统的性能。
由于社交媒体平台具有语言多样性,故需要进一步检测多种语言中的滥用语言。因此,基于对齐的多语言词嵌入,许多研究探索了多语言场景下的滥用语言检测。例如,基于深度学习并利用多语言嵌入表示如LASER、MUSE和mBERT等,对多语言滥用语言检测问题进行了多模型和多场景的广泛评估。
然而,现有的滥用语言检测方法需要基于目标语言的大量标注数据来训练模型,但滥用语言检测领域面临着语言标注数据稀缺的问题。因此,现有技术缺乏更有效的方案来应对不同语言之间的语义差异,现有的滥用语言检测方法的性能和可靠性不足,导致滥用语言检测的准确性低。
基于上述技术问题,本申请实施例提出一种滥用语言检测方法,通过将待处理语言文本输入至滥用语言检测模型中,获得待处理语言文本的类别预测概率,所述滥用语言检测模型是基于以下步骤训练获得的:通过跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失联合对所述滥用语言检测模型进行训练,通过从不同语言文本中学习内在关系,提高滥用语言检测模型的跨语言知识迁移能力,使得利用该模型进行滥用语言检测能得到更加准确检测结果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的滥用语言检测方法的流程示意图,如图1所示,本申请实施例提供一种滥用语言检测方法。该方法包括:
步骤101、获取待处理语言文本。
步骤102、将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
具体地,在本申请实施例中,所述待处理语言文本为获取的待处理的原始语言文本。将待处理语言文本直接输入至滥用语言检测模型中,输出该待处理语言文本的类别预测概率,可以降低复杂度,并避免翻译带来的误差,从而提高滥用语言检测的准确度。
所述滥用语言(Abusive Language)指某些在线用户在社交媒体平台上创建的包含恶意的内容,例如,攻击目标人群的种族、民族、性别、取向等的言论。
所述滥用语言检测模型用于进行滥用语言的检测或分类,该模型的输入是待处理语言文本,输出是所述待处理语言文本的类别预测概率。所述类别预测概率可以指所述待处理语言文本是滥用语言的概率,也可以进一步指所述待处理语言文本是滥用语言中的某一种类别的概率。
例如,将待处理语言文本输入至滥用语言检测模型中,输出该待处理语言文本是滥用语言的概率值。
再例如,将待处理语言文本输入至滥用语言检测模型中,输出该待处理语言文本是滥用语言中的类别A的概率值,其中,滥用语言的类别包括A、B、C和D四类。
在本申请实施例中,所述滥用语言检测模型的训练阶段,先获取源语言文本的语义表示和目标语言文本的语义表示,基于源语言文本的语义表示和目标语言文本的语义表示计算跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失,然后基于所述跨语言对比损失、所述源语言文本的分类交叉熵损失和所述目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练。
所述源语言文本指具有源语言的原始训练文本,所述目标语言文本是指基于所述源语言文本翻译得到的平行译文。
例如,对于源语言文本利用机器翻译模型进行翻译,得到目标语言文本,并利用预训练语言模型计算源语言文本的语义向量与目标语言文本的语义向量;然后基于源语言文本的语义向量与目标语言文本的语义向量利用对比学习算法计算跨语言对比损失;基于源语言文本的语义向量与目标语言文本的语义向量计算类别预测概率,并基于类别预测概率计算对应文本的分类交叉熵损失;然后利用跨语言对比损失以及两种文本的分类交叉熵损失对滥用语言检测模型进行联合训练。将待处理语言文本输入至训练好的滥用语言检测模型中,输出所述待处理语言文本是滥用语言中的某一种类别的概率。
再例如,利用机器翻译模型对源语言文本进行翻译,得到目标语言文本,利用预训练语言模型计算源语言文本的语义向量与目标语言文本的语义向量;然后基于源语言文本的语义向量与目标语言文本的语义向量利用对比学习算法计算跨语言对比损失;基于源语言文本的语义向量与目标语言文本的语义向量计算类别预测概率,并基于类别预测概率计算对应文本的分类交叉熵损失;然后对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数,通过最小化所述目标损失函数对所述滥用语言检测模型进行训练。将待处理语言文本输入至训练好的滥用语言检测模型中,输出所述待处理语言文本是滥用语言中的某一种类别的概率。
本申请实施例提供的滥用语言检测方法,通过将待处理语言文本输入至滥用语言检测模型中,获得待处理语言文本的类别预测概率,所述滥用语言检测模型是基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失联合训练得到的,实现了从不同语言文本中学习内在关系,提高滥用语言检测模型的跨语言知识迁移能力,使得利用该模型进行滥用语言检测能得到更加准确检测结果。
在一些实施例中,所述方法还包括:
利用机器翻译模型将源语言文本翻译为目标语言文本;
将所述源语言文本和所述目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示。
具体地,利用机器翻译模型(transformer)将将源语言文本翻译为目标语言,作为对源语言文本数据的增强。
所述机器翻译模型可以为GNMT、OPUS-MT、NLLB等模型。
具体地,在获得目标语言文本之后,将源语言文本和目标语言文本输入至多语言预训练模型(Pre-trained language models,PLMs)中,源语言文本和目标语言文本被映射至共享的语言表示形式中,生成源语言文本的语义表示和目标语言文本的语义表示。
所述多语言预训练模型可以为LASER、mBERT、XLM等模型。
例如,对于源语言文本利用机器翻译模型将其翻译为目标语言文本/>然后将文本对/>输入mBERT模型中,源语言文本和目标语言文本在mBERT模型的编码器模块中共享参数,获得源语言文本的语义表示/>和目标语言文本的语义表示/>
再例如,对于源语言文本利用机器翻译模型将其翻译为目标语言文本/>然后将文本对/>输入XLM模型中,源语言文本和目标语言文本在XLM模型的编码器模块中共享参数,获得源语言文本的语义表示/>和目标语言文本的语义表示/>
本申请实施例提供的滥用语言检测方法,使用机器翻译模型对源语言文本进行增强,得到源语言文本的平行译文,使得在翻译过程中尽可能保留了源语言文本中的信息,减小翻译误差,以该源语言文本和该目标语言文本对滥用语言检测模型进行并行训练,提高了模型检测滥用语言的准确性。并利用多语言预训练模型生成源语言文本的语义表示和目标语言文本的语义表示,由于多语言预训练模型学习多种语言之间的共性和差异,使得多语言预训练模型可以将来自不同语言的输入文本映射到共享的语言表示形式中,然后进行统一的处理和预测以适应多种语言的自然语言处理任务,提高了滥用语言检测模型的多语言检测和跨语言知识迁移能力,提高了滥用语言检测的准确性和效率。
在一些实施例中,所述将源语言文本和目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示,包括:
将源语言文本输入至多语言预训练模型中进行语义识别,得到所述源语言文本中每一词的语义表示,并将目标语言文本输入至多语言预训练模型中进行语义识别,得到目标语言文本中每一词的语义表示;
对所述源语言文本中每一词的语义表示进行平均池化,得到源语言文本的语义表示,并对所述目标语言文本中每一词的语义表示进行平均池化,得到目标语言文本的语义表示。
具体地,在多语言预训练模型中,对源语言文本进行语义识别,通过源语言文本中的语法和上下文信息捕获不同层级的信息,得到源语言文本中的词级语义表示,即源语言文本中的每一词的语义表示;同时,对目标语言文本进行语义识别,通过目标语言文本中的语法和上下文信息捕获不同层级的信息,得到目标语言文本中的词级语义表示,即目标语言文本中的每一词的语义表示。
然后对源语言文本中的词级语义表示和目标语言文本中的词级语义表示分别进行平均池化,得到源语言文本的语义表示和目标语言文本的语义表示。
例如,图2是本申请实施例提供的滥用语言检测方法的示例场景的滥用语言检测模型示意图,如图2所示,对于源语言文本利用机器翻译模型将其翻译为目标语言文本然后将文本对/>输入多语言预训练模型如XLM模型中,生成一系列词级语义表示,对源语言文本对应的词级语义表示进行平均池化得到该源语言文本的语义表示向量对目标语言文本对应的词级语义表示进行平均池化得到该目标语言文本的语义表示向量/>和/>的表达式分别为:
其中,为第i个源语言文本的语义表示向量;/>为第i个目标语言文本的语义表示向量;AveragePool为平均池化操作;XLM为基于XLM模型生成词级语义表示操作;/>为第i个源语言文本;/>为第i个目标语言文本。
本申请实施例提供的滥用语言检测方法,利用多语言预训练模型提取源语言文本中每一词的语义表示和目标语言文本中每一词的语义表示,然后经过平均池化得到源语言文本的语义表示和目标语言文本的语义表示,使得不同语言的词能够映射到相同的语义空间中,以在不同语言之间共享知识,提高滥用语言检测模型的多语言检测和跨语言知识迁移能力,从而提高了滥用语言检测的准确性和效率。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的语义表示和目标语言文本的语义表示采用对比学习算法计算跨语言对比损失;所述跨语言对比损失用于度量所述源语言文本与所述目标语言文本的相似性。
具体地,基于源语言文本的语义表示和目标语言文本的语义表示采用对比学习算法计算跨语言对比损失,首先计算源语言文本的语义表示和目标语言文本的语义表示的余弦相似度,然后基于该余弦相似度计算跨语言对比损失。
所述跨语言对比损失用于度量所述源语言文本与所述目标语言文本的相似性。所述跨语言对比损失越小,代表源语言文本与目标语言文本的相似性越高。
例如,如图2所示,在经过多语言预训练模型获得源语言文本的语义表示和目标语言文本的语义表示之后,需要通过跨语言对比学习获得跨语言对比损失。假设一个训练批次包含N个训练样本,则经过数据增强后,源语言文本和目标语言文本组成的这批训练样本可表示为模型将每一对/>视为正对,并使用对比学习使其对应的向量表示/>尽可能地相似。跨语言对比损失的计算式如下:
其中,LXCL为跨语言对比损失;N为一批训练样本的数量;为/>和/>的余弦相似度;τ为可调节的缩放参数;/>为第i个源语言文本的语义表示向量;/>为第i个目标语言文本的语义表示向量;/>为第j个源语言文本的语义表示向量;/>为第j个目标语言文本的语义表示向量。
本申请实施例提供的滥用语言检测方法,使用对比学习算法优化源语言文本的语义表示和目标语言文本的语义表示,将源语言和目标语言表示映射到相同的向量空间中,从而提高跨语言的语义一致性和泛化能力,使能够在缺乏目标语言数据的情况下构建高性能的滥用语言检测模型,提高滥用语言检测的准确性。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的向量表示和全连接神经网络参数计算源语言文本的类别预测概率,并基于目标语言文本的向量表示和所述全连接神经网络参数计算目标语言文本的类别预测概率;
基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失。
具体地,在本申请实施例中,采用两层全连接神经网络将源语言文本的向量表示以及目标语言文本的向量表示映射到样本标签空间,以构建分类器,且源语言文本和目标语言文本共享全连接神经网络参数。
首先,基于源语言文本的向量表示和全连接神经网络参数计算源语言文本的类别预测概率,即对源语言文本的预测标签,并基于目标语言文本的向量表示和所述全连接神经网络参数计算目标语言文本的类别预测概率,即对目标语言文本的预测标签。然后,基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失。
例如,如图2所示,在获得源语言文本的向量表示和目标语言文本的向量表示后,利用全连接神经网络计算文本的类别预测概率并计算对应的分类交叉熵损失。对于源语言文本和目标语言文本/>采用共享的全连接神经网络参数分别计算它们的类别预测概率,源语言文本的类别预测概率和目标语言文本的类别预测概率的计算式分别为:
其中,为第i个源语言文本的类别预测概率;/>为第i个目标语言文本的类别预测概率;/>为第i个源语言文本的语义表示向量;/>为第i个目标语言文本的语义表示向量;W1、b1、W2和b2为全连接神经网络的参数;Relu和Softmax为激活函数。
假设一个训练批次包含N个训练样本,基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失,源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失的计算式分别为:
其中,为源语言文本的分类交叉熵损失;/>为目标语言文本的分类交叉熵损失;N为一批训练样本的数量;C为待分类的类别数量;yi,j为第i个训练样本是第j种类别的实际概率;/>为第i个源语言文本是第j种类别的类别预测概率;/>为第i个目标语言文本是第j种类别的类别预测概率。
本申请实施例提供的滥用语言检测方法,采用共享的神经网络参数计算源语言文本的类别预测概率以及目标语言文本的类别预测概率,提高了滥用语言检测模型的性能和泛化能力。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练,包括:
对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数;
通过最小化所述目标损失函数对所述滥用语言检测模型进行训练。
具体地,对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数,通过最小化该目标损失函数对滥用语言检测模型进行联合训练。
例如,为跨语言对比损失赋权重值为a,为源语言文本的分类交叉熵损失赋权重值为b,目标语言文本的分类交叉熵损失赋权重值为c,其中a、b、c的和值为1,基于所赋权重将三种损失进行加权求和,得到最终的目标损失函数,以最小化目标损失函数为目标,对滥用语言检测模型进行训练。
再例如,为跨语言对比损失以及源语言文本的分类交叉熵损失均赋权重值为a,目标语言文本的分类交叉熵损失赋权重值为1-2a,基于所赋权重将三种损失进行加权求和,得到最终的目标损失函数,以最小化目标损失函数为目标,对滥用语言检测模型进行训练。
本申请实施例提供的滥用语言检测方法,通过对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和得到目标损失函数,基于该目标损失函数训练滥用语言检测模型,使能够合理控制不同因素对滥用语言检测模型训练的影响,提高滥用语言检测模型的滥用语言检测能力和跨语言知识迁移能力,从而提高滥用语言检测的准确性。
在一些实施例中,所述目标损失函数的表达式如下:
其中,Loss表示目标损失函数值;λ表示损失权重参数;表示源语言文本的分类交叉熵损失;/>表示目标语言文本的分类交叉熵损失;LXCL表示跨语言对比损失。
具体地,如图2所示,获得跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失后,对滥用语言检测模型进行联合训练。首先为跨语言对比损失以及源语言文本的分类交叉熵损失均赋权重值为为目标语言文本的分类交叉熵损失赋权重值为λ,基于该权重对三种损失进行加权求和,得到目标损失函数Loss,通过最小化Loss对所述滥用语言检测模型进行训练。
本申请实施例提供的滥用语言检测方法,采用跨语言迁移学习(包括多语言词嵌入、共享神经网络架构、迁移学习策略等方法)在不同语言之间共享模型和知识,以加快目标语言上的学习过程和提高模型的泛化能力,可应用于各种滥用语言检测场景,具有多语言检测和跨语言知识迁移的能力,提高了滥用语言检测的准确性和效率。
图3是本申请实施例提供的一种滥用语言检测装置的结构示意图,如图3所示,本申请实施例提供一种滥用语言检测装置,包括获取模块301和检测模块302。
所述获取模块301用于获取待处理语言文本。
所述检测模块302用于将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练,包括:
对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数;
通过最小化所述目标损失函数对所述滥用语言检测模型进行训练。
在一些实施例中,所述目标损失函数的表达式如下:
其中,Loss表示目标损失函数值;λ表示损失权重参数;表示源语言文本的分类交叉熵损失;/>表示目标语言文本的分类交叉熵损失;LXCL表示跨语言对比损失。
在一些实施例中,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的语义表示和目标语言文本的语义表示采用对比学习算法计算跨语言对比损失;所述跨语言对比损失用于度量所述源语言文本与所述目标语言文本的相似性。
在一些实施例中,所述基于源语言文本的语义表示和目标语言文本的语义表示计算源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失,包括:
基于源语言文本的向量表示和全连接神经网络参数计算源语言文本的类别预测概率,并基于目标语言文本的向量表示和所述全连接神经网络参数计算目标语言文本的类别预测概率;
基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失。
在一些实施例中,所述所述方法还包括:
利用机器翻译模型将源语言文本翻译为目标语言文本;
将源语言文本和目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示。
在一些实施例中,所述将源语言文本和目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示,包括:
将源语言文本输入至多语言预训练模型中进行语义识别,得到所述源语言文本中每一词的语义表示,并将目标语言文本输入至多语言预训练模型中进行语义识别,得到目标语言文本中每一词的语义表示;
对所述源语言文本中每一词的语义表示进行平均池化,得到源语言文本的语义表示,并对所述目标语言文本中每一词的语义表示进行平均池化,得到目标语言文本的语义表示。
具体地,本申请实施例提供的上述滥用语言检测装置,能够实现上述滥用语言检测方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
需要说明的是,本申请上述各实施例中对单元/模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
图4是本申请实施例提供的一种电子设备的结构示意图,如图4所示,所述电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行滥用语言检测方法,该方法包括:
获取待处理语言文本;
将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
具体地,处理器401可以是中央处理器(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD),处理器也可以采用多核架构。
存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在一些实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例提供的滥用语言检测方法,该方法包括:
获取待处理语言文本;
将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
具体地,本申请实施例提供的上述计算机程序产品,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
在一些实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述各方法实施例提供的滥用语言检测方法,该方法包括:
获取待处理语言文本;
将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
具体地,本申请实施例提供的上述计算机可读存储介质,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
需要说明的是:所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
本申请中的“基于A确定B”表示确定B时要考虑A这个因素。并不限于“只基于A就可以确定出B”,还应包括:“基于A和C确定B”、“基于A、C和E确定B”、基于“A确定C,基于C进一步确定B”等。另外还可以包括将A作为确定B的条件,例如,“当A满足第一条件时,使用第一方法确定B”;再例如,“当A满足第二条件时,确定B”等;再例如,“当A满足第三条件时,基于第一参数确定B”等。当然也可以是将A作为确定B的因素的条件,例如,“当A满足第一条件时,使用第一方法确定C,并进一步基于C确定B”等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种滥用语言检测方法,其特征在于,包括:
获取待处理语言文本;
将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
2.根据权利要求1所述的滥用语言检测方法,其特征在于,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练,包括:
对跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失进行加权求和,得到目标损失函数;
通过最小化所述目标损失函数对所述滥用语言检测模型进行训练。
3.根据权利要求2所述的滥用语言检测方法,其特征在于,所述目标损失函数的表达式如下:
其中,Loss表示目标损失函数值;λ表示损失权重参数;表示源语言文本的分类交叉熵损失;/>表示目标语言文本的分类交叉熵损失;LXCL表示跨语言对比损失。
4.根据权利要求1所述的滥用语言检测方法,其特征在于,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的语义表示和目标语言文本的语义表示采用对比学习算法计算跨语言对比损失;所述跨语言对比损失用于度量所述源语言文本与所述目标语言文本的相似性。
5.根据权利要求1所述的滥用语言检测方法,其特征在于,所述基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练之前,还包括:
基于源语言文本的向量表示和全连接神经网络参数计算源语言文本的类别预测概率,并基于目标语言文本的向量表示和所述全连接神经网络参数计算目标语言文本的类别预测概率;
基于所述源语言文本的类别预测概率计算源语言文本的分类交叉熵损失,并基于目标语言文本的类别预测概率计算目标语言文本的分类交叉熵损失。
6.根据权利要求4或5所述的滥用语言检测方法,其特征在于,所述方法还包括:
利用机器翻译模型将源语言文本翻译为目标语言文本;
将所述源语言文本和所述目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示。
7.根据权利要求6所述的滥用语言检测方法,其特征在于,所述将所述源语言文本和所述目标语言文本输入至多语言预训练模型,获得源语言文本的语义表示和目标语言文本的语义表示,包括:
将所述源语言文本输入至多语言预训练模型中进行语义识别,得到所述源语言文本中每一词的语义表示,并将所述目标语言文本输入至多语言预训练模型中进行语义识别,得到目标语言文本中每一词的语义表示;
对所述源语言文本中每一词的语义表示进行平均池化,得到源语言文本的语义表示,并对所述目标语言文本中每一词的语义表示进行平均池化,得到目标语言文本的语义表示。
8.一种滥用语言检测装置,其特征在于,包括:
获取模块,用于获取待处理语言文本;
检测模块,用于将所述待处理语言文本输入至滥用语言检测模型中,获得所述待处理语言文本的类别预测概率;所述滥用语言检测模型是基于以下步骤训练获得的:
基于跨语言对比损失、源语言文本的分类交叉熵损失和目标语言文本的分类交叉熵损失对所述滥用语言检测模型进行训练;所述目标语言文本是基于所述源语言文本翻译得到的平行译文。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的滥用语言检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的滥用语言检测方法。
CN202310737400.XA 2023-06-20 2023-06-20 滥用语言检测方法、装置及存储介质 Pending CN116821339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310737400.XA CN116821339A (zh) 2023-06-20 2023-06-20 滥用语言检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310737400.XA CN116821339A (zh) 2023-06-20 2023-06-20 滥用语言检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116821339A true CN116821339A (zh) 2023-09-29

Family

ID=88140398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310737400.XA Pending CN116821339A (zh) 2023-06-20 2023-06-20 滥用语言检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116821339A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235532A (zh) * 2023-11-09 2023-12-15 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235532A (zh) * 2023-11-09 2023-12-15 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN117235532B (zh) * 2023-11-09 2024-01-26 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Similar Documents

Publication Publication Date Title
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111931513B (zh) 一种文本的意图识别方法及装置
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110457718B (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
AU2022345509A1 (en) Convolution attention network for multi-label clinical document classification
CN111400492A (zh) 基于sfm-dcnn的层次特征文本分类方法和系统
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN116821339A (zh) 滥用语言检测方法、装置及存储介质
CN117648950A (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114741468A (zh) 文本去重方法、装置、设备及存储介质
CN117764373A (zh) 风险预测的方法、装置、设备及存储介质
CN113032534A (zh) 对话文本的分类方法和电子设备
CN116484851A (zh) 基于变异字符检测的预训练模型训练方法及装置
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
US20210241147A1 (en) Method and device for predicting pair of similar questions and electronic equipment
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination