CN115293229A - 基于自然语言理解的伤残等级鉴定及评定依据推演方法 - Google Patents

基于自然语言理解的伤残等级鉴定及评定依据推演方法 Download PDF

Info

Publication number
CN115293229A
CN115293229A CN202210740610.XA CN202210740610A CN115293229A CN 115293229 A CN115293229 A CN 115293229A CN 202210740610 A CN202210740610 A CN 202210740610A CN 115293229 A CN115293229 A CN 115293229A
Authority
CN
China
Prior art keywords
vector
embedding
input
disease
disability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210740610.XA
Other languages
English (en)
Inventor
李明
魏秋月
张帅
尹向华
姜荣强
李军焘
顾帅
栾涌涛
矫专本
寻延虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Human Resources Development Research And Promotion Center
WONDERS INFORMATION CO Ltd
Original Assignee
Qingdao Human Resources Development Research And Promotion Center
WONDERS INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Human Resources Development Research And Promotion Center, WONDERS INFORMATION CO Ltd filed Critical Qingdao Human Resources Development Research And Promotion Center
Priority to CN202210740610.XA priority Critical patent/CN115293229A/zh
Publication of CN115293229A publication Critical patent/CN115293229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法通过对劳动能力鉴定的病伤情描述文本进行分析,构建基于Bert文本分类的智能伤残等级鉴定模型和基于文本相似度的评定依据匹配模型。在数据预处理之后作为模型输入,得到伤残等级预测的分类结果,再通过降维与评定依据做文本相似度计算匹配到依据。采用本发明输出的结果作为辅助决策,减少了人工鉴定时间,加快鉴定效率,让申请保障人员尽快享受应有权益。

Description

基于自然语言理解的伤残等级鉴定及评定依据推演方法
技术领域
本发明涉及一种通过自然语言理解辅助伤残等级的评定和评定依据推演的方法,属于智慧政务技术领域。
背景技术
劳动能力鉴定是劳动能力鉴定机构根据国家鉴定标准和有关政策,运用医学科学技术的方法、手段确定劳动者伤残程度和丧失劳动能力程度的一种综合评定,它是给予受伤害职工工伤保险待遇的基础和前提条件,对劳动能力的鉴定是一项复杂而困难的工作,它要求鉴定人员在鉴定过程中要实事求是、客观地做出鉴定。
人工智能在自然语言处理技术的研究和应用已经涉及到很多领域,人工智能可以在社会保障、普惠便民、科技适老等方面发挥作用,提高社会保障的服务水平和提升鉴定伤残等级的效率。
发明内容
本发明的目的是:将自然语言处理技术应用于劳动能力鉴定过程中的劳动者伤残等级鉴定环节,通过模型辅助进行鉴定。
为了达到上述目的,本发明的技术方案是提供了一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,包括以下步骤:
步骤1、通过文本输入层Input Layer对所输入的病伤情描述文本inputs进行处理,将输入表示为三个Embedding之和的形式:词的Embedding向量、位置的Embedding向量和Segment的Embedding向量,得到文本的输入表征xin,如下式所示:
xin=Embeddingtoken(inputs)+Embeddingsegment(inputs)+Embeddingposition(inputs)
步骤2、特征提取器得到文本语义表征,其中,特征提取器由多个有Transformer的Encoder结构堆栈起来得到,每个有Transformer的Encoder结构由一个多头注意力机制层和一个前馈网络组成,得到每个有Transformer的Encoder结构输出的文本表征为:
xmid=LayerNorm(xin+MultiHeadAttention(xin))
xout=LayerNorm(xmid+FFN(xmid))
式中:LayerNorm()为归一化操作;FFN()为全连接前向神经网络;xmid表示中间层输出;xout为有Transformer的Encoder结构的最终输出;MultiHeadAttention()为多头注意力机制;
步骤3、建立四分类模型以及八分类模型,同时在数据层面对数据进行处理:
在数据层面,将伤残一级到伤残八级所对应的数据整合为第一个等级,其余的伤残九级、伤残十级、未达等级作为另外三个等级,利用四个等级的数据对四分类模型进行训练;
再将第一个等级按照伤残一级到伤残八级分为八个等级,利用这八个等级的数据对八分类模型进行训练
在四分类模型训练过程中,自定义带有权重的交叉熵损失函数以提高模型效果,针对四个等级设置相应的权重,设置的权重越高,则损失越大,则交叉熵损失函数公式为:
Figure BDA0003717806270000021
其中,Li为第i个类别的损失,pij为第j个样本属于第i个类别的样本真实标签,qij为第j个样本属于第i个类别的预测输出,wi为第i个类别的权重;
步骤4、模型修正
对于包含“极重度智能损伤”、“小肠切除≥90%”、“重度非肢体瘫运动障碍”的样本数据,四分类模型直接输出等级为第一个等级;
步骤5、根据病伤情描述,构建评定依据匹配模型,评定依据匹配模型的目标是对于所给的病伤请描述检索得到评定依据的一个子集,根据之前四分类模型以及八分类模型得到的伤残等级,在子集中找到对应等级下相似度最高的评定依据,作为评定依据模型输出结果。
优选地,步骤2中,所述归一化操作包括以下步骤:
分别对输入的样本的n个特征求均值和方差,因此可以得到n个均值和方差,然后用这n个均值和方差对n个样本来做归一化,计算公式如下:
Figure BDA0003717806270000031
Figure BDA0003717806270000032
Figure BDA0003717806270000033
式中,μi表示第i个样本的特征均值,xij表示第i个样本的第j个特征,
Figure BDA0003717806270000034
表示第i个样本的特征方差,
Figure BDA0003717806270000035
表示归一化操作输出的第i个样本的第j个特征归一化值。
优选地,步骤2中,所述全连接前向神经网络的公式表示为:
FFN(x)=max(0,W1x+b1)W2+b2
式中,W1、W2为权重参数矩阵,b1、b2为偏置项参数。
优选地,步骤2中,所述多头注意力机制由多个自注意力机制拼接得到,每个自注意力机制的具体操作步骤如下:
步骤2.1、依据得到输入表征xin,分别乘三个不同权值的参数矩阵WQ、WK、WV,分别得到Query向量Q、Key向量K和Value向量V;
步骤2.2、为向量计算得分score,score=QKT
步骤2.3、为了梯度稳定,将得分score除以
Figure BDA0003717806270000036
从而将得分score归一化,dk表示K的长度;
步骤2.4、对归一化后的得分score施以softmax激活函数;
步骤2.5、softmax后点乘V,得到加权的每个输入表征xin的评分V,即对于每个输入表征xin,每个自注意力机制的输出为:
Figure BDA0003717806270000037
式中,Attention(Q,K,V)即为一个自注意力机制针对一个输入表征xin的输出;
将输入表征xin输入所有自注意力机制得到的评分V相加之后得到最终的多头注意力机制的输出结果Z,Z=∑V。
优选地,步骤2中,在对特征提取器进行训练时加入对抗训练,对抗训练统一写成如下格式:
Figure BDA0003717806270000041
其中,D代表训练集,x代表输入,y代表标签,E(x,y)~D表示经验风险,θ是模型参数,L(x,y;θ)是单个样本的损失,Δx是对抗扰动,Ω是扰动空间。
优选地,所述步骤5包括以下步骤:
步骤5.1、学习病伤情描述和评定依据的向量表示,将二者分别映射到一个k维Embedding空间中,如下式所示:
u:X×Rd→Rk,v:Y×Rd→Rk
式中,X为病伤情描述的向量表示,u为病伤情描述的Embedding向量,Y为评定依据的向量表示,v为评定依据的Embedding向量,Rk表示k维Embedding空间,Rd为d维Embedding空间;
步骤5.2、通过BERT-whitening进一步对步骤5.1获得的病伤情描述的Embedding向量以及评定依据的Embedding向量进行变换,使其服从均值变换为0、协方差矩阵为单位阵,具体包括以下内容:
对于向量集合
Figure BDA0003717806270000042
xi表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量,若xi~N(μ,∑),即xi服从均值为μ,协方差为∑的标准正态分布,则执行变换:
Figure BDA0003717806270000043
式中:
Figure BDA0003717806270000044
为变换后的Embedding向量,其作为病伤情描述或者评定依据的文本表征;
Figure BDA0003717806270000045
U为正交矩阵,∧为对角矩阵;
Figure BDA0003717806270000046
∑为半正定矩阵,能够分解为∑=U∧UT
步骤5.3、设计评分函数s(x,y)=<u(x,δ),v(y,δ)>来获得与病伤请描述匹配的评定依据,式中,u(x,δ)表示经过BERT-whitening后病伤情描述的Embedding向量,v(y,δ)表示经过BERT-whitening评定依据的Embedding向量,将权重参数矩阵W1、W2以及偏置项参数b1、b2,参数矩阵WQ、WK、WV以及对抗训练参数θ统一用模型参数δ表示;通过二者余弦相似度来求得两个Embedding向量的相似度,从而获得与病伤请描述匹配的评定依据;
步骤5.4、通过训练集D更新参数δ,训练集表示为
Figure BDA0003717806270000051
其中,(xi,yi)表示第i对病伤请描述和评定依据对,ri∈R为(xi,yi)的标签,R表示实数空间;
步骤5.5、通过训练好的模型,将输入的病伤请描述与候选的评定依据文档进行匹配:
Figure BDA0003717806270000052
式中,X表示输入的病伤请描述,Y为候选的评定依据文档,vx为病伤描述的最终向量表示,vy为评定依据的语义向量矩阵;
从候选评定依据文档Y中找到与输入的病伤请描述X具有较高匹配度R(X,Y)较高的文档作为X的搜索结果。
优选地,步骤5.3中,余弦相似度的计算公式表示为:
Figure BDA0003717806270000053
式中,cosine(u(x,δ),v(y,δ))表示u(x,δ)与v(y,δ)的余弦相似度。
针对劳动能力鉴定过程中需要主观经验判断的业务环节,采用本发明提供的方法能够辅助专家在鉴定业务工作中的决策,提升鉴定的精准性。在伤残等级鉴定中,专家输入病伤情况后,本发明能分析到其伤病严重程度的语义信息,并输出伤残等级情况和相应的评定依据。鉴定专家可参考本发明提供的模型的鉴定结论和评定依据进行科学客观的判断,从而快速出具鉴定结论,进行更加科学客观的判断,以此降低业务成本和人为干预。
附图说明
图1为构建伤残等级鉴定模型和评定依据匹配模型流程图;
图2为智能伤残等级鉴定模型在四分类测试集上预测结果的混淆矩阵;
图3为智能伤残等级鉴定模型在八分类测试集上预测结果的混淆矩阵。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明基于文本分类算法提供智能劳动能力鉴定模型,以BERT作为主要模型,模型参数不再随机初始化,而是通过在无监督的预训练模型上进行微调进行训练;基于文本相似度提供评定依据匹配模型。
具体而言,本发明提供的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法包括以下步骤:
步骤1、通过文本输入层Input Layer对所输入的文本inputs进行处理,将输入表示为3个Embedding之和的形式:词的Embedding向量、位置的Embedding向量和Segment的Embedding向量,得到文本的输入表征xin,如下式所示:
xin=Embeddingtoken(inputs)+Embeddingsegment(inputs)+Embeddingposition(inputs)
步骤2、经过输入层Input Layer后,接下来通过多个由Transformer的Encoder结构堆栈起来的特征提取器得到文本语义表征。每个Transformer的Encoder结构由一个多头注意力机制(Multi-HeadAttention)层和一个前馈网络(即全连接网络)组成,得到每层结束后文本表征为:
xmid=LayerNorm(xin+MultiHeadAttention(xin))
xout=LayerNorm(xmid+FFN(xmid))
式中:LayerNorm()为归一化操作,分别对输入的样本的n个特征求均值和方差,因此可以得到n个均值和方差,然后用这n个均值和方差对n个样本来做归一化,计算公式如下:
Figure BDA0003717806270000061
Figure BDA0003717806270000062
Figure BDA0003717806270000063
式中,μi表示第i个样本的特征均值,xij表示第i个样本的第j个特征,
Figure BDA0003717806270000064
表示第i个样本的特征方差,
Figure BDA0003717806270000065
表示归一化操作输出的第i个样本的第j个特征归一化值;
FFN()为全连接前向神经网络,公式为:
FFN(x)=max(0,W1x+b1)W2+b2
式中,W1、W2为权重参数矩阵,b1、b2为偏置项参数;
xmid表示中间层输出;
xout为Transformer的Encoder结构的最终输出;
MultiHeadAttention()为多头注意力机制,多头注意力机制由多个自注意力机制(self-Attention)拼接得到,每个self-Attention具体操作步骤如下:
步骤2.1、依据得到输入表征xin,分别乘三个不同权值的参数矩阵WQ、WK、WV,分别得到Query向量Q、Key向量K和Value向量V;
步骤2.2、为向量计算得分score,score=QKT
步骤2.3、为了梯度稳定,将得分score除以
Figure BDA0003717806270000071
从而将得分score归一化,dk表示K的长度;
步骤2.4、对归一化后的得分score施以softmax激活函数;
步骤2.5、softmax后点乘V,得到加权的每个输入表征xin的评分V;
步骤2.6、将所有输入表征xin的评分V相加之后得到最终输出结果Z,Z=∑V。
即对于每个输入表征xin,每个self-Attention有:
Figure BDA0003717806270000072
式中,Attention(Q,K,V)即为一个self-Attention针对一个输入的词的Embedding向量的输出。本发明利用12个不同的self-attention集成得到Multi-HeadAttention的输出,输出分成以下3步:
1)将数据X分别输入12个self-attention中,得到12个加权后的特征矩阵Zi,i∈{1,2,3,...,12};
2)将12个特征矩阵Zi按列拼成一个大的特征矩阵;
3)特征矩阵经过一层全连接后得到输出Z。
同时为加强模型在小扰动下的稳健性,在对特征提取器进行训练时加入对抗训练,对抗训练可以统一写成如下格式:
Figure BDA0003717806270000073
其中,D代表训练集,x代表输入,y代表标签,E(x,y)~D表示经验风险,θ是模型参数,L(x,y;θ)是单个样本的损失,Δx是对抗扰动,Ω是扰动空间。对抗训练可以理解为,在样本中加入一定约束的扰动Δx,目的是使现有模型预测出错,在每个样本构造出对抗样本x+Δx后,用(x+Δx,y)作为数据去最小化损失loss来更新参数θ(梯度下降)。因此对Embedding参数矩阵进行扰动,这样得到的对抗样本的多样性会少一些(因为不同样本的同一个token共用了相同的扰动),但仍然能起到正则化的作用。
步骤3、考虑样本不平衡对分类结果的影响,从数据与模型两方面做优化。
数据层面,由于伤残一级到伤残八级(尤其是伤残一级到伤残四级的数据较少),先整合伤残一级到伤残八级作为第一个等级,其余的伤残九级、伤残十级、未达等级作为另外三个等级,即首先对样本数据做四分类。其次,对第一个等级的样本数据做八分类。
模型层面,在四分类模型训练过程中,伤残九级、伤残十级的样本数据偏多,因此自定义带有权重的交叉熵损失函数以提高模型效果,交叉熵损失函数公式为:
Figure BDA0003717806270000081
其中,Li为第i个类别的损失,pij为第j个样本属于第i个类别的样本真实标签,qij为第j个样本属于第i个类别的预测输出。
针对不同的类别,设置相应的权重,设置较高权重,权重越高,损失越大,模型越会学好这些类别,最终本发明将四个类别权重设置为[3,1,1,3],即:
Figure BDA0003717806270000082
其中,wi为第i个类别的权重。
步骤4、模型修正
考虑伤残一级的样本量过少,四分类模型无法很好学习到其特征,通过分析鉴定依据,本发明将包含“极重度智能损伤”、“小肠切除≥90%”、“重度非肢体瘫运动障碍”的样本数据,直接输出等级为“一级”,同时评定依据也可直接匹配出来。
步骤5、根据病伤情描述,构建评定依据匹配模型,模型目标是对于所给的病伤请描述检索得到评定依据的一个子集,根据之前得到的伤残等级,在子集中找到对应等级下相似度最高的评定依据,作为评定依据模型输出结果。本发明的目标是构建一个具有两个参数化Embedding的函数,进而计算病伤情况描述语义向量与评定依据语义向量间的相似度,具体操作步骤如下:
步骤5.1、学习病伤情描述和评定依据的向量表示,将二者分别映射到一个k维Embedding空间中,如下式所示:
u:X×Rd→Rk,v:Y×Rd→Rk
式中,X为病伤情描述的向量表示,u为病伤情描述的Embedding向量,Y为评定依据的向量表示,v为评定依据的Embedding向量,Rk表示k维Embedding空间,Rd为d维Embedding空间;
步骤5.2、为保证向量所属的坐标系为标准正交基从而更好表达相似句语义,通过BERT-whitening进一步对步骤5.1获得的病伤情描述的Embedding向量以及评定依据的Embedding向量进行变换,使其服从均值变换为0、协方差矩阵为单位阵,具体包括以下内容:
对于(行)向量集合
Figure BDA0003717806270000091
xi表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量,若xi~N(μ,∑)(即xi服从均值为μ,协方差为∑的标准正态分布),则执行变换:
Figure BDA0003717806270000092
Figure BDA0003717806270000093
为变换后的Embedding向量,其作为病伤情描述或者评定依据的文本表征。
为使
Figure BDA0003717806270000098
服从均值为0、协方差为单位阵I的标准正态分布,即
Figure BDA0003717806270000094
则有:
Figure BDA0003717806270000095
Figure BDA0003717806270000096
则解方程:
Figure BDA0003717806270000097
半正定矩阵∑可分解为∑=U∧UT,其中,U为正交矩阵,∧为对角矩阵。因此,令
Figure BDA0003717806270000105
解得
Figure BDA0003717806270000101
步骤5.3、设计评分函数s(x,y)=<u(x,δ),v(y,δ)>来获得与病伤请描述匹配的评定依据,式中,u(x,δ)表示经过BERT-whitening的病伤情描述的Embedding向量,v(y,δ)表示经过BERT-whitening评定依据的Embedding向量,将权重参数矩阵W1、W2以及偏置项参数b1、b2以及参数矩阵WQ、WK、WV以及对抗训练参数θ统一用模型参数δ表示为模型参数。
本发明通过二者余弦相似度来求得两个Embedding向量的相似度,从而获得与病伤请描述匹配的评定依据。余弦相似度的计算公式如下:
Figure BDA0003717806270000102
步骤5.4、通过训练集D更新参数δ,训练集表示为
Figure BDA0003717806270000103
其中,(xi,yi)表示第i对病伤情描述和评定依据对,ri∈R为(xi,yi)的标签,R表示实数空间。
步骤5.5、通过训练好的模型,可将输入的病伤请描述与候选的评定依据文档进行匹配:
Figure BDA0003717806270000104
式中,X表示输入的病伤情描述,Y为候选的评定依据文档,vx为病伤描述的最终向量表示,vy为评定依据的语义向量矩阵。
从候选评定依据文档Y中找到与输入的病伤请描述X具有较高匹配度R(X,Y)较高的文档作为X的搜索结果。
利用青岛市近5年劳动能力鉴定数据,构建文本分类模型伤残等级进行鉴定,并以此为基础构建文本相似度模型匹配伤残等级鉴定的评定依据。鉴定专家可参考模型的鉴定结论和评定依据进行科学客观的判断,从而快速出具鉴定结论,进行更加科学客观的判断,以此降低业务成本和人为干预。
本发明提供的智能伤残等级鉴定模型的具体实施步骤为:
步骤1、数据预处理,将文本数据的质量决定模型表现的上限,将数据集中的脏样本去除后,首先将数据归为4大类,暂将等级一到等级八的伤残等级标签写为8,其余九级、十级、未达等级分别标为“9”、“10”,“11”。首先做四分类样本分类模型,样本样例如表1所示:
Figure BDA0003717806270000111
表1伤残等级鉴定样本数据样例
经过文本输入层Input Layer变换后得到的文本表征如表2所示:
Figure BDA0003717806270000112
表2鉴定文本信息经输入层变换后的表征
步骤2、通过输入层后,将其继续输入到transformer模块中,得到模型encoder输出端Embedding和预测的各个分类概率如表3所示,若预测为9,10和11级,则直接得出分类结果,若预测为8级,则将样本输入到八分类模型中继续进行预测。
Figure BDA0003717806270000121
表3伤残等级鉴定样本数据模型输出端文本表征与各分类概率
步骤3、计算加权交叉熵损失函数,迭代参数,如步骤三中等级8,9,10,11的真实标签p和预测q分别为:
p8=[1,0,0,0],q8=[0.0036,0.9947,0.0013,0.0004]
p9=[0,1,0,0],q9=[0.0036,0.9947,0.0013,0.0004]
p10=[0,0,1,0],q10=[0.0163,0.0890,0.8885,0.0061]
p11=[0,0,0,1],q11=[0.0002,0.0008,0.0760,0.9228]
我们给出其加权交叉熵损失函数为:
Figure BDA0003717806270000122
步骤4、在模型训练好以后,在应用模型时,首先判断输入文本是否包含““极重度智能损伤”、“小肠切除≥90%”、“重度非肢体瘫运动障碍”的样本,直接输出等级为“1”,且其评定依据也可查到,若不包含,文本输入模型进行预测。
步骤5、在上述步骤的基础上,我们通过文本相似度计算,将病伤请描述与评定依据进行匹配。与分类不同,我们在相似度意义之下构建了新的数据集,从而对同样的病伤情描述,我们得到新的表征,并与评定依据表征进行匹配,输出结果样例如表4所示。
Figure BDA0003717806270000131
Figure BDA0003717806270000141
表4评定依据匹配模型输出结果
模型评估方面,在四分类测试集上,“8”,“9”,“10”,“11”类别精准度分别为0.82,0.73,0.89和0.86,四个类别f1值分别为0.80,0.76,0.83和0.89,模型效果总体较好。

Claims (7)

1.一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,包括以下步骤:
步骤1、通过文本输入层Input Layer对所输入的病伤情描述文本inputs进行处理,将输入表示为三个Embedding之和的形式:词的Embedding向量、位置的Embedding向量和Segment的Embedding向量,得到文本的输入表征xin,如下式所示:
xin=Embeddingtoken(inputs)+Embeddingsegment(inputs)+Embeddingposition(inputs)
步骤2、特征提取器得到文本语义表征,其中,特征提取器由多个有Transformer的Encoder结构堆栈起来得到,每个有Transformer的Encoder结构由一个多头注意力机制层和一个前馈网络组成,得到每个有Transformer的Encoder结构输出的文本表征为:
xmid=LayerNorm(xin+MultiHeadAttention(xin))
xout=LayerNorm(xmid+FFN(xmid))
式中:LayerNorm()为归一化操作;FFN()为全连接前向神经网络;xmid表示中间层输出;xout为有Transformer的Encoder结构的最终输出;MultiHeadAttention()为多头注意力机制;
步骤3、建立四分类模型以及八分类模型,同时在数据层面对数据进行处理:
在数据层面,将伤残一级到伤残八级所对应的数据整合为第一个等级,其余的伤残九级、伤残十级、未达等级作为另外三个等级,利用四个等级的数据对四分类模型进行训练;
再将第一个等级按照伤残一级到伤残八级分为八个等级,利用这八个等级的数据对八分类模型进行训练
在四分类模型训练过程中,自定义带有权重的交叉熵损失函数以提高模型效果,针对四个等级设置相应的权重,设置的权重越高,则损失越大,则交叉熵损失函数公式为:
Figure FDA0003717806260000011
其中,Li为第i个类别的损失,pij为第j个样本属于第i个类别的样本真实标签,qij为第j个样本属于第i个类别的预测输出,wi为第i个类别的权重;
步骤4、模型修正
对于包含“极重度智能损伤”、“小肠切除≧90%”、“重度非肢体瘫运动障碍”的样本数据,四分类模型直接输出等级为第一个等级;
步骤5、根据病伤情描述,构建评定依据匹配模型,评定依据匹配模型的目标是对于所给的病伤请描述检索得到评定依据的一个子集,根据之前四分类模型以及八分类模型得到的伤残等级,在子集中找到对应等级下相似度最高的评定依据,作为评定依据模型输出结果。
2.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述归一化操作包括以下步骤:
分别对输入的样本的n个特征求均值和方差,因此可以得到n个均值和方差,然后用这n个均值和方差对n个样本来做归一化,计算公式如下:
Figure FDA0003717806260000021
Figure FDA0003717806260000022
Figure FDA0003717806260000023
式中,μi表示第i个样本的特征均值,xij表示第i个样本的第j个特征,
Figure FDA0003717806260000024
表示第i个样本的特征方差,
Figure FDA0003717806260000025
表示归一化操作输出的第i个样本的第j个特征归一化值。
3.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述全连接前向神经网络的公式表示为:
FFN(x)=max(0,W1x+b1)W2+b2
式中,W1、W2为权重参数矩阵,b1、b2为偏置项参数。
4.如权利要求3所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述多头注意力机制由多个自注意力机制拼接得到,每个自注意力机制的具体操作步骤如下:
步骤2.1、依据得到输入表征xin,分别乘三个不同权值的参数矩阵WQ、WK、WV,分别得到Query向量Q、Key向量K和Value向量V;
步骤2.2、为向量计算得分score,score=QKT
步骤2.3、为了梯度稳定,将得分score除以
Figure FDA0003717806260000031
从而将得分score归一化,dk表示K的长度;
步骤2.4、对归一化后的得分score施以softmax激活函数;
步骤2.5、softmax后点乘V,得到加权的每个输入表征xin的评分V,即对于每个输入表征xin,每个自注意力机制的输出为:
Figure FDA0003717806260000032
式中,Attention(Q,K,V)即为一个自注意力机制针对一个输入表征xin的输出;
将输入表征xin输入所有自注意力机制得到的评分V相加之后得到最终的多头注意力机制的输出结果Z,Z=∑V。
5.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,在对特征提取器进行训练时加入对抗训练,对抗训练统一写成如下格式:
Figure FDA0003717806260000033
其中,D代表训练集,x代表输入,y代表标签,E(x,y)~D表示经验风险,θ是模型参数,L(x,y;θ)是单个样本的损失,Δx是对抗扰动,Ω是扰动空间。
6.如权利要求4所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,所述步骤5包括以下步骤:
步骤5.1、学习病伤情描述和评定依据的向量表示,将二者分别映射到一个k维Embedding空间中,如下式所示:
u:X×Rd→Rk,v:Y×Rd→Rk
式中,X为病伤情描述的向量表示,u为病伤情描述的Embedding向量,Y为评定依据的向量表示,v为评定依据的Embedding向量,Rk表示k维Embedding空间,Rd为d维Embedding空间;
步骤5.2、通过BERT-whitening进一步对步骤5.1获得的病伤情描述的Embedding向量以及评定依据的Embedding向量进行变换,使其服从均值变换为0、协方差矩阵为单位阵,具体包括以下内容:
对于向量集合
Figure FDA0003717806260000041
xi表示输入的属于第i个类别的病伤情描述的Embedding向量或者评定依据的Embedding向量,若xi~N(μ,Σ),即xi服从均值为μ,协方差为Σ的标准正态分布,则执行变换:
Figure FDA0003717806260000042
式中:
Figure FDA0003717806260000043
为变换后的Embedding向量,其作为病伤情描述或者评定依据的文本表征;
Figure FDA0003717806260000044
U为正交矩阵,∧为对角矩阵;
Figure FDA0003717806260000045
Σ为半正定矩阵,能够分解为Σ=U∧UT
步骤5.3、设计评分函数s(x,y)=<u(x,δ),v(y,δ)>来获得与病伤请描述匹配的评定依据,式中,u(x,δ)表示经过BERT-whitening的病伤情描述的Embedding向量,v(y,δ)表示经过BERT-whitening的评定依据的Embedding向量,将权重参数矩阵W1、W2以及偏置项参数b1、b2以及参数矩阵WQ、WK、WV以及对抗训练参数θ统一用模型参数δ表示;通过二者余弦相似度来求得两个Embedding向量的相似度,从而获得与病伤请描述匹配的评定依据;
步骤5.4、通过训练集D更新参数δ,训练集表示为
Figure FDA0003717806260000046
其中,(xi,yi)表示第i对病伤请描述和评定依据对,ri∈R为(xi,yi)的标签,R表示实数空间;
步骤5.5、通过训练好的模型,将输入的病伤请描述与候选的评定依据文档进行匹配:
Figure FDA0003717806260000047
式中,X表示输入的病伤请描述,Y为候选的评定依据文档,vx为病伤描述的最终向量表示,vy为评定依据的语义向量矩阵;
从候选评定依据文档Y中找到与输入的病伤请描述X具有较高匹配度R(X,Y)的文档作为X的搜索结果。
7.如权利要求6所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤5.3中,余弦相似度的计算公式表示为:
Figure FDA0003717806260000051
式中,cosine(u(x,δ),v(y,δ))表示u(x,δ)与v(y,δ)的余弦相似度。
CN202210740610.XA 2022-06-28 2022-06-28 基于自然语言理解的伤残等级鉴定及评定依据推演方法 Pending CN115293229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210740610.XA CN115293229A (zh) 2022-06-28 2022-06-28 基于自然语言理解的伤残等级鉴定及评定依据推演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210740610.XA CN115293229A (zh) 2022-06-28 2022-06-28 基于自然语言理解的伤残等级鉴定及评定依据推演方法

Publications (1)

Publication Number Publication Date
CN115293229A true CN115293229A (zh) 2022-11-04

Family

ID=83820381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210740610.XA Pending CN115293229A (zh) 2022-06-28 2022-06-28 基于自然语言理解的伤残等级鉴定及评定依据推演方法

Country Status (1)

Country Link
CN (1) CN115293229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931881A (zh) * 2024-03-15 2024-04-26 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931881A (zh) * 2024-03-15 2024-04-26 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法
CN117931881B (zh) * 2024-03-15 2024-05-24 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法

Similar Documents

Publication Publication Date Title
CN110442684B (zh) 一种基于文本内容的类案推荐方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN112614538A (zh) 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
CN110287323B (zh) 一种面向目标的情感分类方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
Rahman et al. Personality detection from text using convolutional neural network
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN110543564A (zh) 基于主题模型的领域标签获取方法
KR20200105057A (ko) 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법
CN114443844A (zh) 融合用户情感倾向的社交网络评论文本情感分析方法及系统
CN112559723A (zh) 一种基于深度学习的faq检索式问答构建方法及系统
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN116595151A (zh) 基于先验知识启发大语言模型的图像推理问答方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN115293229A (zh) 基于自然语言理解的伤残等级鉴定及评定依据推演方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
Majewski et al. Sentence recognition using artificial neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination