CN117390189A - 基于前置分类器的中立文本生成方法 - Google Patents
基于前置分类器的中立文本生成方法 Download PDFInfo
- Publication number
- CN117390189A CN117390189A CN202311458205.XA CN202311458205A CN117390189A CN 117390189 A CN117390189 A CN 117390189A CN 202311458205 A CN202311458205 A CN 202311458205A CN 117390189 A CN117390189 A CN 117390189A
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- word
- neutral
- bias
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007935 neutral effect Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000013486 operation strategy Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000012217 deletion Methods 0.000 claims abstract description 7
- 230000037430 deletion Effects 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000002372 labelling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000028161 membrane depolarization Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008030 elimination Effects 0.000 description 6
- 238000003379 elimination reaction Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于前置分类器的中立文本生成方法。现有方法使用同一个文本生成器对句子中引发偏见的词进行替换或删除操作实现主观偏见的消除,然而这类方法受到不同操作分布的影响,当某一种操作较少时,模型更偏向于进行另一种操作。本方法针对去偏问题的特点,进行细粒度的分析处理,提升去偏的效果;该方法主要分为三步:序列标注模型标记待操作序列;分类器判断操作策略(提取文本语义向量;文本句法特征嵌入;特征融合;MLP实现分类);中立文本生成。本方法结合句子的语义特征和句法特征对操作类型进行细粒度分析并标记出待操作序列,同时,根据操作类型(替换或删除),我们采取相应的生成策略来得到表达中立的句子。
Description
技术领域
本发明涉及一种面向文本的基于前置分类器的主观偏见消除算法。
背景技术
在当今社交媒体和在线平台的浩瀚信息中,主观偏见成为一个普遍存在的问题。主观偏见是指个体在表达观点、评论或评价时,受到自身态度、信念和价值观等因素的影响,导致信息的不客观性和偏颇性。这种主观偏见不仅可能影响信息的真实性和可信度,还可能加剧社会分裂和误导公众。为了解决主观偏见的问题,研究者们提出了各种文本分析和自然语言处理技术。目前主要使用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)或Transformer等,训练语言生成模型,以实现主观偏见消除。然而,这种方法会受到不同操作策略分布的影响,消除偏见时替换操作较少时,模型更偏向于进行删除操作。这样做会导致对句子操作错误,生成句子的准确度不高。基于前置分类器的主观偏见消除方法是一种有效的生成中立文本的方法。该方法通过在文本生成之前引入一个前置分类器,用于细粒度划分文本的操作策略,判断句子进行删除操作还是替换操作;此后,通过对句子中的单词分析,标注出引发偏见的词,在生成句子时,仅仅对该单词进行操作,而不改变句子中其他单词。这样做既能保留句子语义;同时,对单词进行删除或替换操作后能够生成流畅且表达中立的句子。
基于深度学习等技术生成文本是当今自然语言处理领域的热门研究方向。深度学习模型如生成对抗网络(GAN)、变分自编码器(VAE)和递归神经网络(RNN)等被用于文本生成任务。生成对抗网络和变分自编码器可以生成与训练数据类似的文本,并且可以通过调整输入来生成不同的结果。递归神经网络则可以生成与输入序列相关的文本,如语言模型和文本生成任务。同时,深度学习模型可以通过迁移学习来利用已有的大规模文本数据和预训练的语言模型。通过在大规模通用文本上进行预训练,可以获得对语义的深度理解,并且可以将这些知识迁移到特定任务的文本分类和生成中,提高模型的性能和泛化能力。深度强化学习可以用于文本生成问题中的序列决策过程,如对话系统和机器翻译。通过引入强化学习框架,模型可以根据生成结果的反馈来优化生成策略,从而生成更准确和合理的文本。综上所述,这些技术的发展为文本生成任务带来了更高的性能和效率,丰富了自然语言处理的应用场景。但是,深度学习技术是一个端到端的架构来实现中立文本的生成,这一做法缺乏领域知识,没有针对该任务的特殊性对文本进行处理,无法根据任务的独特性实施独特的数据处理,限制了模型生成中立文本的能力。
发明内容
本发明用于解决消除文本主观偏见时端到端的模型架构缺乏细粒度判断文本操作策略的问题,具体提出了一种面向文本的基于前置分类器的主观偏见消除方法。该方法针对去偏问题的特点,在进行文本生成之前先对句子进行细粒度分类,判断句子进行删除操作还是替换操作;然后,通过对句子中的单词分析,标注出引发偏见的词,在生成句子时,仅仅对该单词进行操作,而不改变句子中其他单词。这样做既能保留句子语义;同时,对单词进行删除或替换操作后能够生成流畅且表达中立的句子,从而提高生成文本的流畅度和消除偏见的准确度。
为实现上述目的,本发明采用的技术方案是基于多阶段处理的文本主观偏见消除模型。方法流程图如图1所示,该方法的实现步骤如下:
步骤(1)获取文本主观偏见的数据集;通过调研,我们发现维基百科在验证词条时主要遵循三个原则,分别为:中立观点(以中立的方式更多地展示事实,不带立场的记录各种观点)、可供查证、非原创性研究。中立观点原则要求:对于有争议的话题,维基百科的编辑们应该按比例代表所有的观点将观点不带偏见地表达出来,创作出一篇中立的条目。如果一篇条目内容被发现对某一观点带有偏见,就应对之加以修正。这一原则与我们的观点相契合,因此我们使用维基百科的编辑版本作为我们的数据集。该数据集中有5万多个样本。一个样本是一个句子对,包含一个带有主观偏见的句子和表达中立的句子,分别用s和t表示,t是通过修改s得到的。
步骤(2)序列标注模型;序列标注模型的作用是对输入文本中的每个词或字符进行标注,将其与预先定义的类别或标签关联起来。这样可以在文本中捕获各种信息,例如词性、命名实体、情感、语义角色等。在本文中,该模型标注的是引发偏见的词。首先,将输入的句子s中的每个词转换为适合模型输入的特征向量。例如,使用预训练的词向量模型将句子中的每个词映射为对应的词向量。我们使用训练好的序列标注模型对句子中的每个词进行标注。在这个任务中,我们的目标是标注句子中引发偏见的词。我们将输入的文本序列中的每个词或子词与一个标记相对应,标记指示了该词或子词是否包含主观偏见。对于每个词,模型输出一个标签,表示该词是否是引发偏见的词。一种常见的标记方案是基于BIO(Begin-Inside-Outside)格式,其中"B"表示一个主观偏见词汇或短语的起始位置,"I"表示在主观偏见词汇或短语内部的位置,"O"表示无主观偏见。例如,可以用"B"表示偏见词的开始,"I"表示偏见词的中间部分,"O"表示非偏见词。标注结果可能是:"O O O O O O B OO",其中"B"表示这个词是一个引发偏见的词。最终,我们得到了标注后的句子,其中偏见词被标记为特定的标签,而非偏见词则保持原样。我们使用已标注的数据集对RoBERTa模型进行训练(具体内容见步骤3)。
步骤(3)训练序列标注模型;训练数据集包含了待操作序列以及对应的标记序列。我们将待操作序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标记与真实标记之间的差异。通过反向传播和梯度下降算法,模型可以学习到对主观偏见的识别和标记。在RoBERTa模型中,模型的输出通过Softmax函数转换为标签概率分布。假设scorei,t代表模型预测的分数,则标记的概率/>可以通过Softmax函数计算,如下式,其中C表示标记的类别数:
我们将序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标签和真实标签之间的差异。由此,训练好序列预测模型用于标记代操作序列。
步骤(4)确定操作策略模型;通过调研数据集中消除句子主观偏见的操作,我们发现主要包含两类:第一类是对句子中引发偏见的形容词、副词等进行删除操作,得到表达中立的句子;第二类是对句子中引发偏见的名词、动词等进行替换操作,将其替换为表达更加中立的词,来生成去偏后的句子。因此,我们通过对句子进行分析,结合句子的语义和句法特征,确定针对该偏见句子的操作策略。主要分为四步:提取文本语句特征(步骤5)、提取文本句法特征(步骤6)、特征融合(步骤7)、确定策略(步骤8)。
步骤(5)提取文本语义特征。我们将文本语义信息作为句子特征用于句子分类任务中。我们使用BERT(Bidirectional Encoder Representation from Transformers)方法提取句子的隐藏向量表示。BERT的输入是每一个token对应的表征。为了完成具体的分类任务,除了词的token之外,还需在序列开头插入特定的分类token([CLS])。该token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用。具体来说,输入用(x1,x2,...,xn)表示,通过BERT嵌入层生成对应的嵌入向量(a1,a2,...,an)。通过使用注意力机制计算具有多组Q,K和V的嵌入向量来生成多个注意力向量。然后合并这些向量并点乘Wo进行线性变换,以生成与每个token相对应的输出。具体公式如下,其中,参数矩阵Q,K和V分别表示查询向量,键向量和值向量。d表示维度。
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
where headi=Attention(QWi Q,KWi K,VWi V)
在BERT模型中,每个单词token通过使用注意力机制权衡单词之间相关性来输出句子语义表示。因此,经过BERT的12层,每次词的embedding融合了所有词的信息,可以去更好的表示句子语义。因为每个单词token是有本身含义的,因此在最后的语义向量中,本身的语义占比较大。而[CLS]本身没有语义,因此[CLS]对应的最后一层的输出可以更加公正的表达整个句子的语义信息。因此,我们通过训练BERT模型,提取[CLS]对应的最后一个transformer层的输出作为句子语义向量。
步骤(6)提取文本句法特征;我们将文本的依存关系作为句子特征用于句子分类任务中。由于替换和删除操作作用于不同词性的词,而依存关系可以表示单词之间的语法关系,因此,我们将这一特征进行嵌入。我们使用python的spacy自然语言处理库和numpy库,根据句子的语法关系构建依存关系矩阵,使用矩阵分解方法来将矩阵分解为三个部分:左奇异矩阵U、奇异值矩阵Σ和右奇异矩阵V。然后选择前k个奇异值对应的部分并重新构建句子表示矩阵,并将该矩阵展平一维向量,表示句法特征。
D=UΣVT
步骤(7)特征融合;特征融合是指将不同的特征组合在一起,形成一个更全面、更有代表性的特征向量,从而提高模型的性能。我们将步骤(3)、(4)中提取的句子语义特征和句法特征进行拼接来表示句子的特征向量,可以更好地理解和分析句子的含义,从而提高分类的准确性。
步骤(8)确定策略。确定策略由MLP实现。MLP由输入层、多个隐藏层和输出层组成,每个层包含多个神经元。输入层的神经元个数与特征向量的维度相同,输出层的神经元个数与分类的类别数相同,将步骤(5)融合的特征向量作为MLP的输入,通过多个隐藏层的非线性变换将特征进行组合,最终得到分类结果。从而确定消除主观偏见要进行的操作。
步骤(9)中立文本生成模型;基于操作策略和标记出的待操作序列,我们通过不同的方式生成中立句子。具体地,根据操作类型(替换或删除),我们采取相应的生成策略来得到表达中立的句子。在替换操作中,我们使用BART模型进行偏见词转化,以生成表达中立的单词。BART(Bidirectional and AutoRegressive Transformer)是一种基于Transformer结构的预训练语言模型,具备强大的生成能力和语义转化能力。BART模型根据其内部的自回归生成机制,使用自回归解码器生成单词序列。在生成过程中,模型利用上下文信息和输入的偏见词,根据概率分布生成中立单词。这些生成的单词通常是在语义上与偏见词相似,但表达中立的观点。将生成的中立单词填充到原句的替换位置上,形成中立句子。当操作策略确定为删除时,我们直接将待操作序列进行删除,生成表达中立的句子t。从原句中去除标记出的待操作序列来实现,确保生成的句子不包含待操作部分。这样,生成的句子t将保持中立,并不会包含原句中的主观偏见内容。
有益效果
本方法在基于深度学习技术的中立文本生成方法的基础上,针对去偏问题的特点,进行细粒度的分析处理,标注偏见序列,确定操作策略,并完成文本生成任务。解决了端到端的模型架构缺乏细粒度判断文本操作策略导致文本生成准确度不高的问题。本方法在维基百科的公开数据集上进行了实验,该数据集中有5万多个样本。一个样本是一个句子对,包含一个带有主观偏见的句子和表达中立的句子。端到端实现消除文本主观偏见的准确率为45.8%,该方法生成中立文本的准确率为51.8%,性能有显著提升。
附图说明
图1为本方法流程图
图2为序列标注模块框架图
图3为操作策略判定模块框架图
图4为中立文本生成模块流程图
具体实施方式
本发明首先将偏见文本输入到序列标注模型中,用于生成待操作序列。第二步,通过对分析句法和语义,确定操作策略,即对待操作序列进行删除操作还是替换操作。最后,对待操作序列进行操作。如果是删除操作,则直接将该序列进行删除,输出对应的中立文本;如果是替换操作,则将待操作序列输入到中立序列生成模型,生成与其语义相似但表达中立的词,并将生成的词放入源句中,输出中立文本。整体流程图如图1。
为实现上述目标,本发明利用文本的句法特征、语义特征及MLP实现操作策略的判断;使用深度学习方法实现操作序列的判断和偏见词转化,最终生成中立文本。该方法的具体实现步骤如下:
步骤(1):序列标注模块:首先,将输入的句子s中的每个词转换为适合模型输入的特征向量。我们使用训练好的序列标注模型对句子中的每个词进行标注。在这个任务中,我们的目标是标注句子中引发偏见的词,具体框架如图2。我们使用基于BIO(Begin-Inside-Outside)格式的标记方法将输入的文本序列中的每个词与一个标记相对应,标记指示了该词或序列是否包含主观偏见。对于每个词,模型输出一个标签,表示该词是否是引发偏见的词。由于RoBERTa模型能够更好地理解输入文本的上下文信息,从而提高标注的准确性和效果。因此,我们使用已标注的数据集对RoBERTa模型进行训练。我们将序列输入RoBERTa模型,并使用交叉熵损失函数计算预测标签和真实标签之间的差异。假设我们有N个标记序列,每个序列的长度为T。假设预测的标签序列为 真实的标签序列为y=(y1,y2,...,yT),那么交叉熵损失函数定义为:
其中,表示对预测的标签进行softmax操作,得到的是一个概率分布。表示真实的标签。交叉熵损失函数通过计算预测标签的概率分布与真实标签之间的差异,来衡量模型的预测精度和误差。最小化交叉熵损失函数可以使模型更准确地预测标签序列。主观偏见句子输入到序列标注模型中,输出结果是每个词都带有标签的句子,我们将标签不是O的序列提取出来,将其定义为待操作序列。待操作序列就是引发偏见的句子,生成中立句子就是要把这个序列删除或转化为表达中立的序列以实现消除偏见。
步骤(2)操作策略判定模块:在主观偏见消除任务中,我们使用BERT模型和矩阵分解技术来对待操作的句子进行分类。通过基于文本语义和依赖分析的方法,确定是否进行删除或替换。具体框架如图3。
首先,我们使用BERT模型学习待操作句子的语义表示,并获得句子的语义特征表示。将待操作的句子输入到BERT模型中,经过编码层和池化层,得到句子的语义向量。接下来,我们使用依赖解析技术构建句子的依赖树,并生成相应的依赖矩阵。为了更好地利用依赖矩阵,我们使用矩阵分解技术对其进行分解。矩阵分解可以将高维的依赖矩阵分解为低维的子矩阵,以提取更有用的信息。基于句子的语义特征表示和矩阵分解后的依赖矩阵,我们进行文本语义分类,以判断操作策略。通过训练一个分类器,将句子的语义特征和矩阵分解后的子矩阵作为输入进行操作策略分类。我们可以定义两个类别,比如“删除”和“替换”,来决定是否删除或替换待操作的句子。分类器可以通过监督学习的方式进行训练,使用标注的操作策略样本作为训练数据。在预测阶段,对新的待操作句子进行语义分类,得到操作策略的判断结果。
步骤(3)中立文本生成模块:根据前两个步骤所确定和待操作序列和其对应的操作策略,我们以不同的方式生成中立句子。具体而言,根据操作类型(替换或删除),我们采用相应的生成策略来获得表达中立的句子。具体流程如图4。
当确定操作策略为删除时,我们直接删除待操作序列,生成一个中立句子。删除操作可以通过从原始句子中移除标记的待操作序列来实现,以确保生成的句子不包含待操作部分。通过这种方式,生成的句子将保持中立,不包含原始句子的主观偏见内容。
当确定操作策略为替换时,需进行偏见词转换,生成表达中立的词语。BART模型在大规模无监督训练中学习到了丰富的语言表示,可以充分捕捉上下文的语义信息,从而更好地进行单词转换。因此,我们通过微调BART模型实现偏见序列转换,通过最小化生成的中立表达与训练数据中的中立表达之间的差异来优化BART模型的参数。在生成过程中,模型利用上下文信息和输入的偏见词根据概率分布生成中立词语。这些生成的词语通常在语义上与偏见词相似,但表达了中立的观点。将生成的中立词填充到原始句子的替换位置,形成一个中立句子。通过用生成的中立词替换原始句子中的偏见词,我们可以生成表达中立观点的句子。
由以上三个模块即可实现文本主观偏见的消除。
Claims (1)
1.基于前置分类器的中立文本生成方法,其特征在于,步骤如下:
步骤(1)获取文本主观偏见的数据集;使用维基百科的编辑版本作为的数据集;该数据集中有5万多个样本;一个样本是一个句子对,包含一个带有主观偏见的句子和表达中立的句子,分别用s和t表示,t是通过修改s得到的;
步骤(2)序列标注模型;序列标注模型的作用是对输入文本中的每个词或字符进行标注,将其与预先定义的类别或标签关联起来;在本文中,该模型标注的是引发偏见的词;首先,将输入的句子s中的每个词转换为适合模型输入的特征向量;使用预训练的词向量模型将句子中的每个词映射为对应的词向量;使用训练好的序列标注模型对句子中的每个词进行标注;在这个任务中,目标是标注句子中引发偏见的词;将输入的文本序列中的每个词或子词与一个标记相对应,标记指示了该词或子词是否包含主观偏见;对于每个词,模型输出一个标签,表示该词是否是引发偏见的词;
最终,得到了标注后的句子,其中偏见词被标记为特定的标签,而非偏见词则保持原样;使用已标注的数据集对RoBERTa模型进行训练;
步骤(3)训练序列标注模型;训练数据集包含了待操作序列以及对应的标记序列;将待操作序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标记与真实标记之间的差异;通过反向传播和梯度下降算法,模型可以学习到对主观偏见的识别和标记;在RoBERTa模型中,模型的输出通过Softmax函数转换为标签概率分布;假设scorei,t代表模型预测的分数,则标记的概率/>通过Softmax函数计算,如下式,其中C表示标记的类别数:
将序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标签和真实标签之间的差异;由此,训练好序列预测模型用于标记代操作序列;
步骤(4)确定操作策略模型;通过调研数据集中消除句子主观偏见的操作,发现主要包含两类:第一类是对句子中引发偏见的形容词、副词等进行删除操作,得到表达中立的句子;第二类是对句子中引发偏见的名词、动词等进行替换操作,将其替换为表达更加中立的词,来生成去偏后的句子;
步骤(5)提取文本语义特征;将文本语义信息作为句子特征用于句子分类任务中;使用BERT(Bidirectional Encoder Representation from Transformers)方法提取句子的隐藏向量表示;BERT的输入是每一个token对应的表征;为了完成具体的分类任务,除了词的token之外,还需在序列开头插入特定的分类token([CLS]);该token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用;具体来说,输入用(x1,x2,...,xn)表示,通过BERT嵌入层生成对应的嵌入向量(a1,a2,...,an);通过使用注意力机制计算具有多组Q,K和V的嵌入向量来生成多个注意力向量;然后合并这些向量并点乘Wo进行线性变换,以生成与每个token相对应的输出;具体公式如下,其中,参数矩阵Q,K和V分别表示查询向量,键向量和值向量;d表示维度;
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
where headi=Attention(QWi Q,KWi K,VWi V)
在BERT模型中,每个单词token通过使用注意力机制权衡单词之间相关性来输出句子语义表示;通过训练BERT模型,提取[CLS]对应的最后一个transformer层的输出作为句子语义向量;
步骤(6)提取文本句法特征;将文本的依存关系作为句子特征用于句子分类任务中;由于替换和删除操作作用于不同词性的词,而依存关系可以表示单词之间的语法关系,因此,将这一特征进行嵌入;使用python的spacy自然语言处理库和numpy库,根据句子的语法关系构建依存关系矩阵,使用矩阵分解方法来将矩阵分解为三个部分:左奇异矩阵U、奇异值矩阵Σ和右奇异矩阵V;然后选择前k个奇异值对应的部分并重新构建句子表示矩阵,并将该矩阵展平一维向量,表示句法特征;
D=U∑VT
步骤(7)特征融合;
步骤(8)确定策略;确定策略由MLP实现;MLP由输入层、多个隐藏层和输出层组成,每个层包含多个神经元;输入层的神经元个数与特征向量的维度相同,输出层的神经元个数与分类的类别数相同,将步骤(5)融合的特征向量作为MLP的输入,通过多个隐藏层的非线性变换将特征进行组合,最终得到分类结果;
步骤(9)中立文本生成模型;基于操作策略和标记出的待操作序列,通过不同的方式生成中立句子;具体地,根据操作类型即替换或删除,采取相应的生成策略来得到表达中立的句子;在替换操作中,使用BART模型进行偏见词转化,以生成表达中立的单词;
BART模型根据其内部的自回归生成机制,使用自回归解码器生成单词序列;在生成过程中,模型利用上下文信息和输入的偏见词,根据概率分布生成中立单词;这些生成的单词通常是在语义上与偏见词相似,但表达中立的观点;将生成的中立单词填充到原句的替换位置上,形成中立句子;当操作策略确定为删除时,直接将待操作序列进行删除,生成表达中立的句子t;从原句中去除标记出的待操作序列来实现,确保生成的句子不包含待操作部分;这样,生成的句子t将保持中立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311458205.XA CN117390189A (zh) | 2023-11-05 | 2023-11-05 | 基于前置分类器的中立文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311458205.XA CN117390189A (zh) | 2023-11-05 | 2023-11-05 | 基于前置分类器的中立文本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117390189A true CN117390189A (zh) | 2024-01-12 |
Family
ID=89439051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311458205.XA Pending CN117390189A (zh) | 2023-11-05 | 2023-11-05 | 基于前置分类器的中立文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390189A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574878A (zh) * | 2024-01-15 | 2024-02-20 | 西湖大学 | 用于混合领域的成分句法分析方法、装置及介质 |
-
2023
- 2023-11-05 CN CN202311458205.XA patent/CN117390189A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574878A (zh) * | 2024-01-15 | 2024-02-20 | 西湖大学 | 用于混合领域的成分句法分析方法、装置及介质 |
CN117574878B (zh) * | 2024-01-15 | 2024-05-17 | 西湖大学 | 用于混合领域的成分句法分析方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及系统 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113868432B (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN116151132B (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
CN115098634B (zh) | 一种基于语义依存关系融合特征的舆情文本情感分析方法 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN117390189A (zh) | 基于前置分类器的中立文本生成方法 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与系统 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN116340513A (zh) | 一种基于标签与文本交互的多标签情感分类方法和系统 | |
CN117873487B (zh) | 一种基于gvg的代码函数注释生成方法 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 | |
CN114528400A (zh) | 基于多选匹配网络的统一低样本关系抽取方法及装置 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN117235256A (zh) | 一种多类知识体系下的情感分析分类方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |