CN115293229A

CN115293229A - 基于自然语言理解的伤残等级鉴定及评定依据推演方法

Info

Publication number: CN115293229A
Application number: CN202210740610.XA
Authority: CN
Inventors: 李明; 魏秋月; 张帅; 尹向华; 姜荣强; 李军焘; 顾帅; 栾涌涛; 矫专本; 寻延虎
Original assignee: Qingdao Human Resources Development Research And Promotion Center; WONDERS INFORMATION CO Ltd
Current assignee: Qingdao Human Resources Development Research And Promotion Center; WONDERS INFORMATION CO Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-11-04

Abstract

本发明提供的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法通过对劳动能力鉴定的病伤情描述文本进行分析，构建基于Bert文本分类的智能伤残等级鉴定模型和基于文本相似度的评定依据匹配模型。在数据预处理之后作为模型输入，得到伤残等级预测的分类结果，再通过降维与评定依据做文本相似度计算匹配到依据。采用本发明输出的结果作为辅助决策，减少了人工鉴定时间，加快鉴定效率，让申请保障人员尽快享受应有权益。

Description

基于自然语言理解的伤残等级鉴定及评定依据推演方法

技术领域

本发明涉及一种通过自然语言理解辅助伤残等级的评定和评定依据推演的方法，属于智慧政务技术领域。

背景技术

劳动能力鉴定是劳动能力鉴定机构根据国家鉴定标准和有关政策，运用医学科学技术的方法、手段确定劳动者伤残程度和丧失劳动能力程度的一种综合评定，它是给予受伤害职工工伤保险待遇的基础和前提条件，对劳动能力的鉴定是一项复杂而困难的工作，它要求鉴定人员在鉴定过程中要实事求是、客观地做出鉴定。

人工智能在自然语言处理技术的研究和应用已经涉及到很多领域，人工智能可以在社会保障、普惠便民、科技适老等方面发挥作用，提高社会保障的服务水平和提升鉴定伤残等级的效率。

发明内容

本发明的目的是：将自然语言处理技术应用于劳动能力鉴定过程中的劳动者伤残等级鉴定环节，通过模型辅助进行鉴定。

为了达到上述目的，本发明的技术方案是提供了一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，包括以下步骤：

步骤1、通过文本输入层Input Layer对所输入的病伤情描述文本inputs进行处理，将输入表示为三个Embedding之和的形式：词的Embedding向量、位置的Embedding向量和Segment的Embedding向量，得到文本的输入表征x_in，如下式所示：

x_in＝Embedding_token(inputs)+Embedding_segment(inputs)+Embedding_position(inputs)

步骤2、特征提取器得到文本语义表征，其中，特征提取器由多个有Transformer的Encoder结构堆栈起来得到，每个有Transformer的Encoder结构由一个多头注意力机制层和一个前馈网络组成，得到每个有Transformer的Encoder结构输出的文本表征为：

x_mid＝LayerNorm(x_in+MultiHeadAttention(x_in))

x_out＝LayerNorm(x_mid+FFN(x_mid))

式中：LayerNorm()为归一化操作；FFN()为全连接前向神经网络；x_mid表示中间层输出；x_out为有Transformer的Encoder结构的最终输出；MultiHeadAttention()为多头注意力机制；

步骤3、建立四分类模型以及八分类模型，同时在数据层面对数据进行处理：

在数据层面，将伤残一级到伤残八级所对应的数据整合为第一个等级，其余的伤残九级、伤残十级、未达等级作为另外三个等级，利用四个等级的数据对四分类模型进行训练；

再将第一个等级按照伤残一级到伤残八级分为八个等级，利用这八个等级的数据对八分类模型进行训练

在四分类模型训练过程中，自定义带有权重的交叉熵损失函数以提高模型效果，针对四个等级设置相应的权重，设置的权重越高，则损失越大，则交叉熵损失函数公式为：

其中，L_i为第i个类别的损失，p_ij为第j个样本属于第i个类别的样本真实标签，q_ij为第j个样本属于第i个类别的预测输出，w_i为第i个类别的权重；

步骤4、模型修正

对于包含“极重度智能损伤”、“小肠切除≥90％”、“重度非肢体瘫运动障碍”的样本数据，四分类模型直接输出等级为第一个等级；

步骤5、根据病伤情描述，构建评定依据匹配模型，评定依据匹配模型的目标是对于所给的病伤请描述检索得到评定依据的一个子集，根据之前四分类模型以及八分类模型得到的伤残等级，在子集中找到对应等级下相似度最高的评定依据，作为评定依据模型输出结果。

优选地，步骤2中，所述归一化操作包括以下步骤：

分别对输入的样本的n个特征求均值和方差，因此可以得到n个均值和方差，然后用这n个均值和方差对n个样本来做归一化，计算公式如下：

式中，μ_i表示第i个样本的特征均值，x_ij表示第i个样本的第j个特征，

表示第i个样本的特征方差，

表示归一化操作输出的第i个样本的第j个特征归一化值。

优选地，步骤2中，所述全连接前向神经网络的公式表示为：

FFN(x)＝max(0，W₁x+b₁)W₂+b₂

式中，W₁、W₂为权重参数矩阵，b₁、b₂为偏置项参数。

优选地，步骤2中，所述多头注意力机制由多个自注意力机制拼接得到，每个自注意力机制的具体操作步骤如下：

步骤2.1、依据得到输入表征x_in，分别乘三个不同权值的参数矩阵W^Q、W^K、W^V，分别得到Query向量Q、Key向量K和Value向量V；

步骤2.2、为向量计算得分score，score＝QK^T

步骤2.3、为了梯度稳定，将得分score除以

从而将得分score归一化，d_k表示K的长度；

步骤2.4、对归一化后的得分score施以softmax激活函数；

步骤2.5、softmax后点乘V，得到加权的每个输入表征x_in的评分V，即对于每个输入表征x_in，每个自注意力机制的输出为：

式中，Attention(Q，K，V)即为一个自注意力机制针对一个输入表征x_in的输出；

将输入表征x_in输入所有自注意力机制得到的评分V相加之后得到最终的多头注意力机制的输出结果Z，Z＝∑V。

优选地，步骤2中，在对特征提取器进行训练时加入对抗训练，对抗训练统一写成如下格式：

其中，D代表训练集，x代表输入，y代表标签，E_(x，y)～D表示经验风险，θ是模型参数，L(x，y；θ)是单个样本的损失，Δx是对抗扰动，Ω是扰动空间。

优选地，所述步骤5包括以下步骤：

步骤5.1、学习病伤情描述和评定依据的向量表示，将二者分别映射到一个k维Embedding空间中，如下式所示：

u：X×R^d→R^k，v：Y×R^d→R^k

式中，X为病伤情描述的向量表示，u为病伤情描述的Embedding向量，Y为评定依据的向量表示，v为评定依据的Embedding向量，R^k表示k维Embedding空间，R^d为d维Embedding空间；

步骤5.2、通过BERT-whitening进一步对步骤5.1获得的病伤情描述的Embedding向量以及评定依据的Embedding向量进行变换，使其服从均值变换为0、协方差矩阵为单位阵，具体包括以下内容：

对于向量集合

x_i表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量，若x_i～N(μ，∑)，即x_i服从均值为μ，协方差为∑的标准正态分布，则执行变换：

式中：

为变换后的Embedding向量，其作为病伤情描述或者评定依据的文本表征；

U为正交矩阵，∧为对角矩阵；

∑为半正定矩阵，能够分解为∑＝U∧U^T；

步骤5.3、设计评分函数s(x，y)＝＜u(x，δ)，v(y，δ)＞来获得与病伤请描述匹配的评定依据，式中，u(x，δ)表示经过BERT-whitening后病伤情描述的Embedding向量，v(y，δ)表示经过BERT-whitening评定依据的Embedding向量，将权重参数矩阵W₁、W₂以及偏置项参数b₁、b₂，参数矩阵W^Q、W^K、W^V以及对抗训练参数θ统一用模型参数δ表示；通过二者余弦相似度来求得两个Embedding向量的相似度，从而获得与病伤请描述匹配的评定依据；

步骤5.4、通过训练集D更新参数δ，训练集表示为

其中，(x_i，y_i)表示第i对病伤请描述和评定依据对，r_i∈R为(x_i，y_i)的标签，R表示实数空间；

步骤5.5、通过训练好的模型，将输入的病伤请描述与候选的评定依据文档进行匹配：

式中，X表示输入的病伤请描述，Y为候选的评定依据文档，v_x为病伤描述的最终向量表示，v_y为评定依据的语义向量矩阵；

从候选评定依据文档Y中找到与输入的病伤请描述X具有较高匹配度R(X，Y)较高的文档作为X的搜索结果。

优选地，步骤5.3中，余弦相似度的计算公式表示为：

式中，cosine(u(x，δ)，v(y，δ))表示u(x，δ)与v(y，δ)的余弦相似度。

针对劳动能力鉴定过程中需要主观经验判断的业务环节，采用本发明提供的方法能够辅助专家在鉴定业务工作中的决策，提升鉴定的精准性。在伤残等级鉴定中，专家输入病伤情况后，本发明能分析到其伤病严重程度的语义信息，并输出伤残等级情况和相应的评定依据。鉴定专家可参考本发明提供的模型的鉴定结论和评定依据进行科学客观的判断，从而快速出具鉴定结论，进行更加科学客观的判断，以此降低业务成本和人为干预。

附图说明

图1为构建伤残等级鉴定模型和评定依据匹配模型流程图；

图2为智能伤残等级鉴定模型在四分类测试集上预测结果的混淆矩阵；

图3为智能伤残等级鉴定模型在八分类测试集上预测结果的混淆矩阵。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明基于文本分类算法提供智能劳动能力鉴定模型，以BERT作为主要模型，模型参数不再随机初始化，而是通过在无监督的预训练模型上进行微调进行训练；基于文本相似度提供评定依据匹配模型。

具体而言，本发明提供的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法包括以下步骤：

步骤1、通过文本输入层Input Layer对所输入的文本inputs进行处理，将输入表示为3个Embedding之和的形式：词的Embedding向量、位置的Embedding向量和Segment的Embedding向量，得到文本的输入表征x_in，如下式所示：

步骤2、经过输入层Input Layer后，接下来通过多个由Transformer的Encoder结构堆栈起来的特征提取器得到文本语义表征。每个Transformer的Encoder结构由一个多头注意力机制(Multi-HeadAttention)层和一个前馈网络(即全连接网络)组成，得到每层结束后文本表征为：

x_mid＝LayerNorm(x_in+MultiHeadAttention(x_in))

x_out＝LayerNorm(x_mid+FFN(x_mid))

式中：LayerNorm()为归一化操作，分别对输入的样本的n个特征求均值和方差，因此可以得到n个均值和方差，然后用这n个均值和方差对n个样本来做归一化，计算公式如下：

表示第i个样本的特征方差，

表示归一化操作输出的第i个样本的第j个特征归一化值；

FFN()为全连接前向神经网络，公式为：

FFN(x)＝max(0，W₁x+b₁)W₂+b₂

式中，W₁、W₂为权重参数矩阵，b₁、b₂为偏置项参数；

x_mid表示中间层输出；

x_out为Transformer的Encoder结构的最终输出；

MultiHeadAttention()为多头注意力机制，多头注意力机制由多个自注意力机制(self-Attention)拼接得到，每个self-Attention具体操作步骤如下：

步骤2.2、为向量计算得分score，score＝QK^T

步骤2.3、为了梯度稳定，将得分score除以

从而将得分score归一化，d_k表示K的长度；

步骤2.4、对归一化后的得分score施以softmax激活函数；

步骤2.5、softmax后点乘V，得到加权的每个输入表征x_in的评分V；

步骤2.6、将所有输入表征x_in的评分V相加之后得到最终输出结果Z，Z＝∑V。

即对于每个输入表征x_in，每个self-Attention有：

式中，Attention(Q，K，V)即为一个self-Attention针对一个输入的词的Embedding向量的输出。本发明利用12个不同的self-attention集成得到Multi-HeadAttention的输出，输出分成以下3步：

1)将数据X分别输入12个self-attention中，得到12个加权后的特征矩阵Z_i，i∈{1，2，3，...，12}；

2)将12个特征矩阵Z_i按列拼成一个大的特征矩阵；

3)特征矩阵经过一层全连接后得到输出Z。

同时为加强模型在小扰动下的稳健性，在对特征提取器进行训练时加入对抗训练，对抗训练可以统一写成如下格式：

其中，D代表训练集，x代表输入，y代表标签，E_(x，y)～D表示经验风险，θ是模型参数，L(x，y；θ)是单个样本的损失，Δx是对抗扰动，Ω是扰动空间。对抗训练可以理解为，在样本中加入一定约束的扰动Δx，目的是使现有模型预测出错，在每个样本构造出对抗样本x+Δx后，用(x+Δx，y)作为数据去最小化损失loss来更新参数θ(梯度下降)。因此对Embedding参数矩阵进行扰动，这样得到的对抗样本的多样性会少一些(因为不同样本的同一个token共用了相同的扰动)，但仍然能起到正则化的作用。

步骤3、考虑样本不平衡对分类结果的影响，从数据与模型两方面做优化。

数据层面，由于伤残一级到伤残八级(尤其是伤残一级到伤残四级的数据较少)，先整合伤残一级到伤残八级作为第一个等级，其余的伤残九级、伤残十级、未达等级作为另外三个等级，即首先对样本数据做四分类。其次，对第一个等级的样本数据做八分类。

模型层面，在四分类模型训练过程中，伤残九级、伤残十级的样本数据偏多，因此自定义带有权重的交叉熵损失函数以提高模型效果，交叉熵损失函数公式为：

其中，L_i为第i个类别的损失，p_ij为第j个样本属于第i个类别的样本真实标签，q_ij为第j个样本属于第i个类别的预测输出。

针对不同的类别，设置相应的权重，设置较高权重，权重越高，损失越大，模型越会学好这些类别，最终本发明将四个类别权重设置为[3，1，1，3]，即：

其中，w_i为第i个类别的权重。

步骤4、模型修正

考虑伤残一级的样本量过少，四分类模型无法很好学习到其特征，通过分析鉴定依据，本发明将包含“极重度智能损伤”、“小肠切除≥90％”、“重度非肢体瘫运动障碍”的样本数据，直接输出等级为“一级”，同时评定依据也可直接匹配出来。

步骤5、根据病伤情描述，构建评定依据匹配模型，模型目标是对于所给的病伤请描述检索得到评定依据的一个子集，根据之前得到的伤残等级，在子集中找到对应等级下相似度最高的评定依据，作为评定依据模型输出结果。本发明的目标是构建一个具有两个参数化Embedding的函数，进而计算病伤情况描述语义向量与评定依据语义向量间的相似度，具体操作步骤如下：

u：X×R^d→R^k，v：Y×R^d→R^k

步骤5.2、为保证向量所属的坐标系为标准正交基从而更好表达相似句语义，通过BERT-whitening进一步对步骤5.1获得的病伤情描述的Embedding向量以及评定依据的Embedding向量进行变换，使其服从均值变换为0、协方差矩阵为单位阵，具体包括以下内容：

对于(行)向量集合

x_i表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量，若x_i～N(μ，∑)(即x_i服从均值为μ，协方差为∑的标准正态分布)，则执行变换：

为变换后的Embedding向量，其作为病伤情描述或者评定依据的文本表征。

为使

服从均值为0、协方差为单位阵I的标准正态分布，即

则有：

则解方程：

半正定矩阵∑可分解为∑＝U∧U^T，其中，U为正交矩阵，∧为对角矩阵。因此，令

解得

步骤5.3、设计评分函数s(x，y)＝＜u(x，δ)，v(y，δ)＞来获得与病伤请描述匹配的评定依据，式中，u(x，δ)表示经过BERT-whitening的病伤情描述的Embedding向量，v(y，δ)表示经过BERT-whitening评定依据的Embedding向量，将权重参数矩阵W₁、W₂以及偏置项参数b₁、b₂以及参数矩阵W^Q、W^K、W^V以及对抗训练参数θ统一用模型参数δ表示为模型参数。

本发明通过二者余弦相似度来求得两个Embedding向量的相似度，从而获得与病伤请描述匹配的评定依据。余弦相似度的计算公式如下：

步骤5.4、通过训练集D更新参数δ，训练集表示为

其中，(x_i，y_i)表示第i对病伤情描述和评定依据对，r_i∈R为(x_i，y_i)的标签，R表示实数空间。

步骤5.5、通过训练好的模型，可将输入的病伤请描述与候选的评定依据文档进行匹配：

式中，X表示输入的病伤情描述，Y为候选的评定依据文档，v_x为病伤描述的最终向量表示，v_y为评定依据的语义向量矩阵。

利用青岛市近5年劳动能力鉴定数据，构建文本分类模型伤残等级进行鉴定，并以此为基础构建文本相似度模型匹配伤残等级鉴定的评定依据。鉴定专家可参考模型的鉴定结论和评定依据进行科学客观的判断，从而快速出具鉴定结论，进行更加科学客观的判断，以此降低业务成本和人为干预。

本发明提供的智能伤残等级鉴定模型的具体实施步骤为：

步骤1、数据预处理，将文本数据的质量决定模型表现的上限，将数据集中的脏样本去除后，首先将数据归为4大类，暂将等级一到等级八的伤残等级标签写为8，其余九级、十级、未达等级分别标为“9”、“10”，“11”。首先做四分类样本分类模型，样本样例如表1所示：

表1伤残等级鉴定样本数据样例

经过文本输入层Input Layer变换后得到的文本表征如表2所示：

表2鉴定文本信息经输入层变换后的表征

步骤2、通过输入层后，将其继续输入到transformer模块中，得到模型encoder输出端Embedding和预测的各个分类概率如表3所示，若预测为9，10和11级，则直接得出分类结果，若预测为8级，则将样本输入到八分类模型中继续进行预测。

表3伤残等级鉴定样本数据模型输出端文本表征与各分类概率

步骤3、计算加权交叉熵损失函数，迭代参数，如步骤三中等级8，9，10，11的真实标签p和预测q分别为：

p₈＝[1，0，0，0]，q₈＝[0.0036，0.9947，0.0013，0.0004]

p₉＝[0，1，0，0]，q₉＝[0.0036，0.9947，0.0013，0.0004]

p₁₀＝[0，0，1，0]，q₁₀＝[0.0163，0.0890，0.8885，0.0061]

p₁₁＝[0，0，0，1]，q₁₁＝[0.0002，0.0008，0.0760，0.9228]

我们给出其加权交叉熵损失函数为：

步骤4、在模型训练好以后，在应用模型时，首先判断输入文本是否包含““极重度智能损伤”、“小肠切除≥90％”、“重度非肢体瘫运动障碍”的样本，直接输出等级为“1”，且其评定依据也可查到，若不包含，文本输入模型进行预测。

步骤5、在上述步骤的基础上，我们通过文本相似度计算，将病伤请描述与评定依据进行匹配。与分类不同，我们在相似度意义之下构建了新的数据集，从而对同样的病伤情描述，我们得到新的表征，并与评定依据表征进行匹配，输出结果样例如表4所示。

表4评定依据匹配模型输出结果

模型评估方面，在四分类测试集上，“8”，“9”，“10”，“11”类别精准度分别为0.82，0.73，0.89和0.86，四个类别f1值分别为0.80，0.76，0.83和0.89，模型效果总体较好。

Claims

1.一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，包括以下步骤：

x_mid＝LayerNorm(x_in+MultiHeadAttention(x_in))

x_out＝LayerNorm(x_mid+FFN(x_mid))

步骤4、模型修正

对于包含“极重度智能损伤”、“小肠切除≧90％”、“重度非肢体瘫运动障碍”的样本数据，四分类模型直接输出等级为第一个等级；

2.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，步骤2中，所述归一化操作包括以下步骤：

表示第i个样本的特征方差，

表示归一化操作输出的第i个样本的第j个特征归一化值。

3.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，步骤2中，所述全连接前向神经网络的公式表示为：

FFN(x)＝max(0,W₁x+b₁)W₂+b₂

式中，W₁、W₂为权重参数矩阵，b₁、b₂为偏置项参数。

4.如权利要求3所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，步骤2中，所述多头注意力机制由多个自注意力机制拼接得到，每个自注意力机制的具体操作步骤如下：

步骤2.2、为向量计算得分score，score＝QK^T

步骤2.3、为了梯度稳定，将得分score除以

从而将得分score归一化，d_k表示K的长度；

步骤2.4、对归一化后的得分score施以softmax激活函数；

式中，Attention(Q,K,V)即为一个自注意力机制针对一个输入表征x_in的输出；

5.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，步骤2中，在对特征提取器进行训练时加入对抗训练，对抗训练统一写成如下格式：

其中，D代表训练集，x代表输入，y代表标签，E_(x,y)～D表示经验风险，θ是模型参数，L(x,y；θ)是单个样本的损失，Δx是对抗扰动，Ω是扰动空间。

6.如权利要求4所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，所述步骤5包括以下步骤：

u:X×R^d→R^k,v:Y×R^d→R^k

对于向量集合

x_i表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量，若x_i～N(μ,Σ)，即x_i服从均值为μ，协方差为Σ的标准正态分布，则执行变换：

式中：

U为正交矩阵，∧为对角矩阵；

Σ为半正定矩阵，能够分解为Σ＝U∧U^T；

步骤5.3、设计评分函数s(x,y)＝<u(x,δ),v(y,δ)>来获得与病伤请描述匹配的评定依据，式中，u(x,δ)表示经过BERT-whitening的病伤情描述的Embedding向量，v(y,δ)表示经过BERT-whitening的评定依据的Embedding向量，将权重参数矩阵W₁、W₂以及偏置项参数b₁、b₂以及参数矩阵W^Q、W^K、W^V以及对抗训练参数θ统一用模型参数δ表示；通过二者余弦相似度来求得两个Embedding向量的相似度，从而获得与病伤请描述匹配的评定依据；

步骤5.4、通过训练集D更新参数δ，训练集表示为

其中，(x_i,y_i)表示第i对病伤请描述和评定依据对，r_i∈R为(x_i,y_i)的标签，R表示实数空间；

从候选评定依据文档Y中找到与输入的病伤请描述X具有较高匹配度R(X,Y)的文档作为X的搜索结果。

7.如权利要求6所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法，其特征在于，步骤5.3中，余弦相似度的计算公式表示为：

式中，cosine(u(x,δ),v(y,δ))表示u(x,δ)与v(y,δ)的余弦相似度。