CN112287662A - 基于多个机器学习模型的自然语言处理方法、装置和设备 - Google Patents

基于多个机器学习模型的自然语言处理方法、装置和设备 Download PDF

Info

Publication number
CN112287662A
CN112287662A CN202011182212.8A CN202011182212A CN112287662A CN 112287662 A CN112287662 A CN 112287662A CN 202011182212 A CN202011182212 A CN 202011182212A CN 112287662 A CN112287662 A CN 112287662A
Authority
CN
China
Prior art keywords
word
vector
deviation
dimension
bias
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011182212.8A
Other languages
English (en)
Other versions
CN112287662B (zh
Inventor
骆加维
吴信朝
周宸
周宝
陈远旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011182212.8A priority Critical patent/CN112287662B/zh
Publication of CN112287662A publication Critical patent/CN112287662A/zh
Application granted granted Critical
Publication of CN112287662B publication Critical patent/CN112287662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及人工智能领域,揭示了一种基于多个机器学习模型的自然语言处理方法、装置和设备,其中方法包括:将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到基于每个词的多个相互独立的词向量训练结果;基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量;根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠偏词向量;基于每个词的纠偏词向量进行自然语言处理任务。本申请的基于多个机器学习模型的自然语言处理方法、装置和设备,通过定义中心向量和偏正向量,得到偏差纠正的纠偏词向量,然后利用所述纠偏词向量进行NLP任务,可以降低机器学习模型发生偏差决策的概率,减少AI决策偏见。

Description

基于多个机器学习模型的自然语言处理方法、装置和设备
技术领域
本申请涉及人工智能领域,特别是涉及到一种基于多个机器学习模型的 自然语言处理方法、装置和计算机设备。
背景技术
人工智能的一个伟大愿景是创造一个没有偏见的世界。最近研究表明计 算机也可以产生偏见,尤其是当计算机向人类学习时。当算法通过分析处理 大量人类书写的文本来学习词句的含义时,它们也会获得类似于我们的偏见 那样的刻板印象。
关于文本类的人工智能决策偏见可以通过词向量的联想测试(WEAT)直 观地发现。该测试于2017年被提出,测试结果指出词向量不仅隐含刻板印象, 而且蕴含其他知识,诸如鲜花令人产生发自内心的愉悦感或者职业的性别分 布情况。这些结果支持了语言学中的分布式假设,即词汇的统计语境捕捉到 了我们表达的语义。如果机器学习技术被用到简历筛选过程中,那么它将会 引入文化的刻板印象,随之可能会导致带有偏见的结果。因此我们需要对模 型的训练数据进行微调获得更加公平的数据。
发明内容
本申请的主要目的为提供一种基于多个机器学习模型的自然语言处理方 法、装置和计算机设备,旨在解决机器学习模型生成的词向量可能出现决策 偏差的问题。
为了实现上述发明目的,本申请提出一种基于多个机器学习模型的自然 语言处理方法,包括:
将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到 基于每个词的多个相互独立的词向量训练结果;
基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量;
根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠 偏词向量;
基于每个词的纠偏词向量进行自然语言处理任务。
进一步地,所述多个不同的词向量训练机器学习模型的数量为2个,所 述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量 的步骤包括:
计算2个所述词向量训练模型的输出的同一个词的词向量每一个维度的 偏差量bias,计算公式为bias(a)=(xa-ya),其中1≤a≤n,n为词向量的维 度,bias(a)为第a个维度的偏差量,xa、ya分别表示2个词向量第a个维度 的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000021
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000022
得到所述中心向量VCentor,其中VCentor(a)表 示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
进一步地,所述多个不同的词向量训练机器学习模型的数量为3个,所 述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量 的步骤包括:
计算3个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000023
其中
Figure BDA0002750484370000024
表示在二维坐标系中(xa-1,xa)、 (ya-1,ya)、(za-1,za)3点组成的圆的半径和(xa,xa+1)、(ya,ya+1)、 (za,za+1)3点组成的圆的半径的平均值,其中1≤a≤n,n为词向量的维度, bias(a)为第a个维度的偏差量,xa、ya、za分别表示3个词向量第a个维度 的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000025
计算出平均偏正量debias,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
进一步地,所述多个不同的词向量训练机器学习模型的数量为4个,所 述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量 的步骤包括:
计算4个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000031
其中
Figure BDA0002750484370000032
表示在三维坐标系中3个分别由4 个点组成的球的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第 a个维度的偏差量,xa、ya、za、wa分别表示4个词向量第c个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000033
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000034
得到所述中心向量VCentor,其中 VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
进一步地,所述根据每个词对应的所述中心向量和所述偏正向量,计算 得到每个词的纠偏词向量的步骤包括:
利用公式Vfinetune=VCentor+Voffset得到所述纠偏词向量。
进一步地,所述根据每个词对应的所述中心向量和所述偏正向量,计算 得到每个词的纠偏词向量的步骤包括:
根据所述中心向量和所述偏正向量构建服从高斯分布的张量集,进行随 机采样,得到所述纠偏词向量,其中Vsample~N(μ,σ2),μ=VCentor,σ=Voffset
进一步地,所述基于每个词的纠偏词向量进行自然语言处理任务的步骤 中设计的损失函数为
Figure BDA0002750484370000035
其中LosscrossEntry为交叉熵函数,k为模型的数量,2≤k≤4,Vsample(k)为在所 述张量集中随机取样的结果,Vorigin(k)为所述词向量训练机器学习模型输出 的训练结果。
本申请实施例还提供一种基于多个机器学习模型的自然语言处理装置, 包括:
训练模块,用于将待识别的文本数据输入到多个不同的词向量训练机器 学习模型,得到基于每个词的多个相互独立的词向量训练结果;
计算模块,用于基于每个词的多个训练结果,计算每个词的词向量的中 心向量和偏正向量;
纠偏模块,用于根据每个词对应的所述中心向量和所述偏正向量,计算 得到每个词的纠偏词向量;
处理模块,用于基于每个词的纠偏词向量进行自然语言处理任务。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储 有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法 的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于多个机器学习模型的自然语言处理方法、装置和计算机设 备,通过定义中心向量和偏正向量,利用预设的方法得到偏差纠正的纠偏词 向量,然后利用所述纠偏词向量进行NLP任务,可以降低机器学习模型发生偏 差决策的概率,减少AI决策偏见。
附图说明
图1为本申请一实施例的基于多个机器学习模型的自然语言处理方法的 流程示意图;
图2为本申请一实施例的基于多个机器学习模型的自然语言处理装置的 结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例 仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中涉及人工智能领域,提供一种基于多个机器学 习模型的自然语言处理方法,包括步骤:
S1、将待识别的文本数据输入到多个不同的词向量训练机器学习模型, 得到基于每个词的多个相互独立的词向量训练结果;
S2、基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量;
S3、根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词 的纠偏词向量;
S4、基于每个词的纠偏词向量进行自然语言处理任务。
如上述步骤S1所述,为了降低机器学习模型生成的词向量的发生语义偏 差的可能性,本实施例中采用了多个模型对同一个文本数据进行处理。首先 对文本数据进行预处理,例如分词等,然后将预处理过的文本数据输入到多 个不同的预设的词向量训练模型中,输出多个相互独立的训练结果。具体的, 所述多个不同的预设的词向量训练模型可以包括CBOW模型、Skip-Gram模 型、Glove模型和Bert模型。其中,CBOW模型是根据上下文来预测当前词 语的概率,Skip-gram的训练方式刚好相反,利用当前词去预测背景词进行词 向量表征的训练。Glove模型是基于全局向量的词表征方法,综合运用全据统 计信息与局部统计信息进行词向量的生成,Bert模型需要利用文本数据进行 微调训练后得到词向量。
如上述步骤S2所述,可以理解地,由于预训练模型基于同一语料库,因 此,得到的训练结果也就是生成的词向量是互相对应的,而且,通过对模型 进行调参,可以使词向量的维度也是相同的。可以根据预设的方法确定词向 量在每一个维度上需要位移调整的距离,即偏正距离,然后确定偏正向量。 可以根据求平均值的方法确定词向量在每一个维度上的中心值,得到中心向 量。
如上述步骤S3所述,在确定所述中心向量和所述偏正向量后,可以根据 预设的方法得到最后微调后的词向量,得到纠偏词向量。可以是对所述中心 向量和所述偏正向量求和,也可以是利用高斯分布的思想进行随机采样,进 行数据模糊,得到每个词的纠偏向量。
如上述步骤S4所述,在得到所述纠偏向量后,利用所述纠偏向量进行 NLP(Natural Language Processing,自然语言处理)任务,如进行语义识别、 智能问答等。通过上述步骤S1~S3,得到了纠偏向量,利用所述纠偏向量进行 NLP任务可以消除机器学习模型的偏见,从而纠正机器模型的决策偏差。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为2 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
S211、计算2个所述词向量训练模型的输出的同一个词的词向量每一个 维度的偏差量bias,计算公式为bias(a)=(xa-ya),其中1≤a≤n,n为词向 量的维度,bias(a)为第a个维度的偏差量,xa、ya分别表示2个词向量第a 个维度的特征值;
S212、获取不同维度的偏差量的偏差序列的中位数m;
S213、利用公式
Figure BDA0002750484370000061
计算出平均偏正量debias;
S214、利用公式
Figure BDA0002750484370000062
得到所述中心向量VCentor,其中 VCentor(a)表示所述中心向量第a个维度的特征值;
S215、利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset, 其中Voffset(a)表示所述偏正向量第a个维度的特征值。
如上所述,在本实施例中,对于2个模型生成的词向量进行二维矫正, 可以确定二维矫正的所述中心向量和所述偏正向量。具体地,在本实施例中, 使用绝对离差的方法对向量偏差进行计算,通过计算2个不同模型产生的同 一词的向量的在每一个维度的空间距离差,计算出偏差量bias,并得到偏差序 列的中位数,然后最终得到平均偏正量。随后计算出向量的平均位置作为中 心向量,根据所述平均偏正量得到所述偏正向量。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为3 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
S221、计算3个所述词向量训练模型的输出的同一个词的词向量在每一 个维度的偏差量,计算公式为
Figure BDA0002750484370000071
其中
Figure BDA0002750484370000072
表示在二维坐标系中(xa-1, xa)、(ya-1,ya)、(za-1,za)三点组成的圆的半径和(xa,xa+1)、(ya,ya+1)、(za, za+1)三点组成的圆的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a) 为第a个维度的偏差量,xa、ya、za分别表示3个词向量第a个维度的特征值;
S222、获取不同维度的偏差量的偏差序列的中位数m;
S223、利用公式
Figure BDA0002750484370000073
计算出平均偏正量debias;
S224、利用公式
Figure BDA0002750484370000074
得到所述中心向量VCentor,其中 VCentor(a)表示所述中心向量第a个维度的特征值;
S225、利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset, 其中Voffset(a)表示所述偏正向量第a个维度的特征值。
如上所述,在本实施例中,对于3个模型生成的词向量进行三维矫正, 以确定三维矫正的所述中心向量和所述偏正向量。不同于二维矫正中的每一 个维度偏差量的确定过程,在本实施例中,通过3个点确定一个圆,然后确 定圆心和半径的方法来得到偏差量。具体地,在一个n维的词向量 x=(x1,x2,......,xa-1,xa,xa+1,......,xn)中,选取词向量x中的一个点(xa-1, xa),同样分别选取另外两个模型得到的2个词向量y、z中的对应点(ya-1,ya)、(za-1,za),这3个点在二维坐标系中可以确定一个圆,其圆心的纵坐 标可以作为三维矫正中所述中心向量第a个维度的特征值,其半径可以作为 三个词向量在第a个维度的偏差量bias,为了减小数据随机性带来的影响,每 个维度计算2次,即(xa,xa+1)、(ya,ya+1)、(za,za+1)3个点同样能够 组成一个圆,其圆心的横坐标也可以作为三维矫正中所述中心向量第a个维 度的特征值,其半径可以作为三个词向量在第a个维度的偏差量bias。两个圆 心的坐标确定的特征值求均值可以作为所述中心向量第a个维度的特征值, 两个圆的半径求均值则作为第a个维度的偏差量。也可以使用直接求均值的 方法计算中心向量的特征值,即利用公式
Figure BDA0002750484370000075
得到所述中心 向量VCentor
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为4 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
S231、若所述词向量训练模型的数量为4,则计算4个所述词向量训练模 型的输出的同一个词的词向量在每一个维度的偏差量,计算公式为
Figure BDA0002750484370000081
其中
Figure BDA0002750484370000082
表示在三维坐标系中3个分别由4个点组成的球的半径 的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第a个维度的偏差量, xa、ya、za、wa分别表示4个词向量第c个维度的特征值;
S232、获取不同维度的偏差量的偏差序列的中位数m;
S233、利用公式
Figure BDA0002750484370000083
计算出平均偏正量debias;
S234、利用公式
Figure BDA0002750484370000084
得到所述中心向量VCentor,其中VCentor(a)表示所述中心向量第a个维度的特征值;
S235、利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset, 其中Voffset(a)表示所述偏正向量第a个维度的特征值。
如上所述,在本实施例中,对于4个模型生成的词向量进行四维矫正, 得到了四维矫正的所述中心向量和所述偏正向量。不同于二维矫正和三维矫 正的方法,在本实施例中,通过4个点确定一个球,然后确定球心和半径的 方法来得到偏差量。具体地,在一个n维的词向量 x=(x1,x2,......,xa-1,xa,xa+1,......,xn)中,选取词向量x中的一个点(xa-1,xa,xa-1),同样分别选取另外两个模型得到的3个词向量y、z、w中的对应 点,这4个点在三维空间坐标系中可以确定一个球,同样地,球心的坐标可 以作为中心向量的特征值,球心的半径可以作为偏差量。类似于三维矫正中 的处理过程,每个词向量中的每个特征值被使用3次,可以得到3个球,就 会得到3个半径,对3个半径求平均值即为词向量在该维度的偏差量,然后 得到每一个维度偏差量的偏差序列,取中位数然后计算出平均偏正量,最后 得出所述中心向量和所述偏正向量。
在一个具体的实施例中,所述根据每个词对应的所述中心向量和所述偏 正向量,计算得到每个词的纠偏词向量的步骤包括:
S31、利用公式Vfinetune=VCentor+Voffset得到所述纠偏词向量。
如上所述,在本实施例中,提出了一种具体的向量微调方法,直接将所 述中心向量与所述偏正向量相加即可得到所述微调后的词向量。以二维矫正 为例,
Figure BDA0002750484370000085
通过 上述公式可以计算出所述微调后的词向量的每一个维度的特征值,然后得到 所述微调后的词向量。
在一个具体的实施例中,所述根据每个词对应的所述中心向量和所述偏 正向量,计算得到每个词的纠偏词向量的步骤包括:
S32、根据所述中心向量和所述偏正向量构建服从高斯分布的张量集,进 行随机采样,得到所述纠偏词向量,其中Vsample~N(μ,σ2),μ=VCentor, σ=Voffset
如上所述,在本实施例中,提出了另外一种具体的向量微调方法,基于 上述步骤确定的所述中心向量与所述偏正向量构建出一个服从高斯分布的张 量集,同时基于服从此分布的张量集合,在二维空间中可以理解为一个圆, 三维空间中可以理解为球体。获得服从(μ,σ2)分布的张量集,可以进行随 机采样得到Vectorsample,这种方法可以弱化数据本身可能带来的偏差,通过 构建服从特定分布的张量集实现数据模糊,进而通过随机采样进行均衡达到 偏差纠正的目的。
在一个实施例中,所述基于每个词的纠偏词向量进行自然语言处理任务 的步骤中设计的损失函数为
Figure BDA0002750484370000091
Figure BDA0002750484370000092
其中LosscrossEntry为交叉熵函数,k为模型的数量,2≤k≤4, Vsample(k)为在所述张量集中随机取样的结果,Vorigin(k)为所述词向量训练机 器学习模型输出的训练结果。
如上所述,在本实施例中涉及了关于下游NLP任务需要的损失函数。损 失函数由两部分组成,第一部分是传统语言模型所使用的交叉熵损失函数, 第二部分是专门针对随机采样而进行设计的,Vsample(k)为在所述张量集中随 机取样的结果,Vorigin(k)为所述词向量训练机器学习模型输出的训练结果, 即有几个训练模型则取样几次,用于计算损失函数。引入损失函数的原因是 由于the embedding space中的量是无量纲的,如果的训练速度跟不上层参数 的训练速度的话,它就可能增大到任意值。因此,为使训练产出合理结果,因此增加损失函数,并且能够加快收敛速度。
本申请实施例的基于多个机器学习模型的自然语言处理方法,通过定义 中心向量和偏正向量,利用预设的方法得到偏差纠正的纠偏词向量,然后利 用所述纠偏词向量进行NLP任务,可以降低机器学习模型发生偏差决策的概率, 减少AI决策偏见。
参照图2,本申请实施例中还提供一种基于多个机器学习模型的自然语言 处理装置,包括:
训练模块1,用于将待识别的文本数据输入到多个不同的词向量训练机器 学习模型,得到基于每个词的多个相互独立的词向量训练结果;
计算模块2,用于基于每个词的多个训练结果,计算每个词的词向量的中 心向量和偏正向量;
纠偏模块3,用于根据每个词对应的所述中心向量和所述偏正向量,计算 得到每个词的纠偏词向量;
处理模块4,用于基于每个词的纠偏词向量进行自然语言处理任务。
如上所述,可以理解地,本申请中提出的所述基于多个机器学习模型的 自然语言处理装置的各组成部分可以实现如上所述基于多个机器学习模型的 自然语言处理方法任一项的功能,具体结构不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是 服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的 处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提 供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储 器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器 为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机 设备的数据库用于机器学习模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于 多个机器学习模型的自然语言处理方法。
上述处理器执行上述的基于多个机器学习模型的自然语言处理方法,包 括:
将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到 基于每个词的多个相互独立的词向量训练结果;
基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量;
根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠 偏词向量;
基于每个词的纠偏词向量进行自然语言处理任务。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为2 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
计算2个所述词向量训练模型的输出的同一个词的词向量每一个维度的 偏差量bias,计算公式为bias(a)=(xa-ya),其中1≤a≤n,n为词向量的维 度,bias(a)为第a个维度的偏差量,xa、ya分别表示2个词向量第a个维度 的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000111
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000112
得到所述中心向量VCentor,其中VCentor(a)表 示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为3 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
计算3个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000113
其中
Figure BDA0002750484370000114
表示在二维坐标系中(xa-1,xa)、 (ya-1,ya)、(za-1,za)3点组成的圆的半径和(xa,xa+1)、(ya,ya+1)、 (za,za+1)3点组成的圆的半径的平均值,其中1≤a≤n,n为词向量的维度, bias(a)为第a个维度的偏差量,xa、ya、za分别表示3个词向量第a个维度 的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000115
计算出平均偏正量debias,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为4 个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏 正向量的步骤包括:
计算4个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000121
其中
Figure BDA0002750484370000122
表示在三维坐标系中3个分别由4 个点组成的球的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第 a个维度的偏差量,xa、ya、za、wa分别表示4个词向量第c个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000123
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000124
得到所述中心向量VCentor,其中 VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述根据每个词对应的所述中心向量和所述偏正向量, 计算得到每个词的纠偏词向量的步骤包括:
利用公式Vfinetune=VCentor+Voffset得到所述纠偏词向量。
在一个实施例中,所述根据每个词对应的所述中心向量和所述偏正向量, 计算得到每个词的纠偏词向量的步骤包括:
根据所述中心向量和所述偏正向量构建服从高斯分布的张量集,进行随 机采样,得到所述纠偏词向量,其中Vsample~N(μ,σ2),μ=VCentor,σ=Voffset
在一个实施例中,所述基于每个词的纠偏词向量进行自然语言处理任务 的步骤中设计的损失函数为
Figure BDA0002750484370000125
Figure BDA0002750484370000126
其中LosscrossEntry为交叉熵函数,k为模型的数量,2≤k≤4, Vsample(k)为在所述张量集中随机取样的结果,Vorigin(k)为所述词向量训练机 器学习模型输出的训练结果。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现基于多个机器学习模型的自然语言处理 方法,包括步骤:
将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到 基于每个词的多个相互独立的词向量训练结果;
基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量;
根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠 偏词向量;
基于每个词的纠偏词向量进行自然语言处理任务。
上述执行的基于多个机器学习模型的自然语言处理方法,通过定义中心 向量和偏正向量,利用预设的方法得到偏差纠正的纠偏词向量,然后利用所 述纠偏词向量进行NLP任务,可以降低机器学习模型发生偏差决策的概率, 减少AI决策偏见。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为2个, 所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量的步骤包括:
计算2个所述词向量训练模型的输出的同一个词的词向量每一个维度的 偏差量bias,计算公式为bias(a)=(xa-ya),其中1≤a≤n,n为词向量的维度, bias(a)为第a个维度的偏差量,xa、ya分别表示2个词向量第a个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000131
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000132
得到所述中心向量VCentor,其中VCentor(a)表 示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为3个, 所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量的步骤包括:
计算3个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000133
其中
Figure BDA0002750484370000134
表示在二维坐标系中(xa-1,xa)、 (ya-1,ya)、(za-1,za)3点组成的圆的半径和(xa,xa+1)、(ya,ya+1)、 (za,za+1)3点组成的圆的半径的平均值,其中1≤a≤n,n为词向量的维度, bias(a)为第a个维度的偏差量,xa、ya、za分别表示3个词向量第a个维度的特 征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000141
计算出平均偏正量debias,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述多个不同的词向量训练机器学习模型的数量为4个, 所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向 量的步骤包括:
计算4个所述词向量训练模型的输出的同一个词的词向量在每一个维度 的偏差量,计算公式为
Figure BDA0002750484370000142
其中
Figure BDA0002750484370000143
表示在三维坐标系中3个分别由4 个点组成的球的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第a 个维度的偏差量,xa、ya、za、wa分别表示4个词向量第c个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure BDA0002750484370000144
计算出平均偏正量debias;
利用公式
Figure BDA0002750484370000145
得到所述中心向量VCentor,其中 VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中 Voffset(a)表示所述偏正向量第a个维度的特征值。
在一个实施例中,所述根据每个词对应的所述中心向量和所述偏正向量, 计算得到每个词的纠偏词向量的步骤包括:
利用公式Vfinetune=VCentor+Voffset得到所述纠偏词向量。
在一个实施例中,所述根据每个词对应的所述中心向量和所述偏正向量, 计算得到每个词的纠偏词向量的步骤包括:
根据所述中心向量和所述偏正向量构建服从高斯分布的张量集,进行随 机采样,得到所述纠偏词向量,其中Vsample~N(μ,σ2),μ=VCentor,σ=Voffset
在一个实施例中,所述基于每个词的纠偏词向量进行自然语言处理任务 的步骤中设计的损失函数为
Figure BDA0002750484370000146
Figure BDA0002750484370000147
其中LosscrossEntry为交叉熵函数,k为模型的数量,2≤k≤4, Vsample(k)为在所述张量集中随机取样的结果,Vorigin(k)为所述词向量训练机 器学习模型输出的训练结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储 于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如 上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对 存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失 性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、 电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失 性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说 明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增 强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存 储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方 法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下, 由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物 品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围, 凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接 或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于多个机器学习模型的自然语言处理方法,其特征在于,包括:
将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到基于每个词的多个相互独立的词向量训练结果;
基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量;
根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠偏词向量;
基于每个词的纠偏词向量进行自然语言处理任务。
2.根据权利要求1所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述多个不同的词向量训练机器学习模型的数量为2个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量的步骤包括:
计算2个所述词向量训练模型的输出的同一个词的词向量每一个维度的偏差量bias,计算公式为bias(a)=(xa-ya),其中1≤a≤n,n为词向量的维度,bias(a)为第a个维度的偏差量,xa、ya分别表示2个词向量第a个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure FDA0002750484360000011
计算出平均偏正量debias;
利用公式
Figure FDA0002750484360000012
得到所述中心向量VCentor,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中Voffset(a)表示所述偏正向量第a个维度的特征值。
3.根据权利要求1所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述多个不同的词向量训练机器学习模型的数量为3个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量的步骤包括:
计算3个所述词向量训练模型的输出的同一个词的词向量在每一个维度的偏差量,计算公式为
Figure FDA0002750484360000021
其中
Figure FDA0002750484360000022
表示在二维坐标系中(xa-1,xa)、(ya-1,ya)、(za-1,za)3点组成的圆的半径和(xa,xa+1)、(ya,ya+1)、(za,za+1)3点组成的圆的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第a个维度的偏差量,xa、ya、za分别表示3个词向量第a个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure FDA0002750484360000023
计算出平均偏正量debias,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中Voffset(a)表示所述偏正向量第a个维度的特征值。
4.根据权利要求1所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述多个不同的词向量训练机器学习模型的数量为4个,所述基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量的步骤包括:
计算4个所述词向量训练模型的输出的同一个词的词向量在每一个维度的偏差量,计算公式为
Figure FDA0002750484360000024
其中
Figure FDA0002750484360000025
表示在三维坐标系中3个分别由4个点组成的球的半径的平均值,其中1≤a≤n,n为词向量的维度,bias(a)为第a个维度的偏差量,xa、ya、za、wa分别表示4个词向量第c个维度的特征值;
获取不同维度的偏差量的偏差序列的中位数m;
利用公式
Figure FDA0002750484360000026
计算出平均偏正量debias;
利用公式
Figure FDA0002750484360000027
得到所述中心向量VCentor,其中VCentor(a)表示所述中心向量第a个维度的特征值;
利用公式Voffset(a)=(-1)n*debias得到所述偏正向量Voffset,其中Voffset(a)表示所述偏正向量第a个维度的特征值。
5.根据权利要求1所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠偏词向量的步骤包括:
利用公式Vfinetune=VCentor+Voffset得到所述纠偏词向量。
6.根据权利要求1所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠偏词向量的步骤包括:
根据所述中心向量和所述偏正向量构建服从高斯分布的张量集,进行随机采样,得到所述纠偏词向量,其中Vsample~N(μ,σ2),μ=VCentor,σ=Voffset
7.根据权利要求6所述的基于多个机器学习模型的自然语言处理方法,其特征在于,所述基于每个词的纠偏词向量进行自然语言处理任务的步骤中设计的损失函数为
Figure FDA0002750484360000031
其中LosscrossEntry为交叉熵函数,k为模型的数量,2≤k≤4,Vsample(k)为在所述张量集中随机取样的结果,Vorigin(k)为所述词向量训练机器学习模型输出的训练结果。
8.一种基于多个机器学习模型的自然语言处理装置,其特征在于,包括:
训练模块,用于将待识别的文本数据输入到多个不同的词向量训练机器学习模型,得到基于每个词的多个相互独立的词向量训练结果;
计算模块,用于基于每个词的多个训练结果,计算每个词的词向量的中心向量和偏正向量;
纠偏模块,用于根据每个词对应的所述中心向量和所述偏正向量,计算得到每个词的纠偏词向量;
处理模块,用于基于每个词的纠偏词向量进行自然语言处理任务。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011182212.8A 2020-10-29 2020-10-29 基于多个机器学习模型的自然语言处理方法、装置和设备 Active CN112287662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011182212.8A CN112287662B (zh) 2020-10-29 2020-10-29 基于多个机器学习模型的自然语言处理方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011182212.8A CN112287662B (zh) 2020-10-29 2020-10-29 基于多个机器学习模型的自然语言处理方法、装置和设备

Publications (2)

Publication Number Publication Date
CN112287662A true CN112287662A (zh) 2021-01-29
CN112287662B CN112287662B (zh) 2023-10-20

Family

ID=74353208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011182212.8A Active CN112287662B (zh) 2020-10-29 2020-10-29 基于多个机器学习模型的自然语言处理方法、装置和设备

Country Status (1)

Country Link
CN (1) CN112287662B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393276A (zh) * 2021-06-25 2021-09-14 食亨(上海)科技服务有限公司 评论数据的分类方法、装置和计算机可读介质
CN114579046A (zh) * 2022-01-21 2022-06-03 南华大学 一种云存储相似数据检测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957989A (zh) * 2017-10-23 2018-04-24 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US20200082299A1 (en) * 2018-09-09 2020-03-12 International Business Machines Corporation Audit Machine Learning Models Against Bias

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957989A (zh) * 2017-10-23 2018-04-24 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US20200082299A1 (en) * 2018-09-09 2020-03-12 International Business Machines Corporation Audit Machine Learning Models Against Bias

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393276A (zh) * 2021-06-25 2021-09-14 食亨(上海)科技服务有限公司 评论数据的分类方法、装置和计算机可读介质
CN113393276B (zh) * 2021-06-25 2023-06-16 食亨(上海)科技服务有限公司 评论数据的分类方法、装置和计算机可读介质
CN114579046A (zh) * 2022-01-21 2022-06-03 南华大学 一种云存储相似数据检测方法和系统
CN114579046B (zh) * 2022-01-21 2024-01-02 南华大学 一种云存储相似数据检测方法和系统

Also Published As

Publication number Publication date
CN112287662B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN111292330A (zh) 基于编解码器的图像语义分割方法及装置
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110991513B (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN111553419B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN113486175B (zh) 文本分类方法、文本分类装置、计算机设备及存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN112183491A (zh) 表情识别模型及训练方法、识别方法、装置和计算设备
CN110705490B (zh) 视觉情感识别方法
CN112287662A (zh) 基于多个机器学习模型的自然语言处理方法、装置和设备
KR20190061538A (ko) 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法
CN111275005B (zh) 绘制人脸图像识别方法、计算机可读存储介质和相关设备
Sreemathy et al. Sign language recognition using artificial intelligence
CN111985532A (zh) 一种场景级上下文感知的情感识别深度网络方法
CN114299304A (zh) 一种图像处理方法及相关设备
CN114386604A (zh) 基于多教师模型的模型蒸馏方法、装置、设备及存储介质
CN113723108A (zh) 一种事件提取方法、装置、电子设备及存储介质
Jin et al. The fusion application of deep learning biological image visualization technology and human-computer interaction intelligent robot in dance movements
EP3910549A1 (en) System and method for few-shot learning
CN114140848A (zh) 基于knn和dsn的微表情识别方法、系统、设备及存储介质
CN114387656A (zh) 基于人工智能的换脸方法、装置、设备及存储介质
CN114549928A (zh) 图像增强处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant