CN114416966B

CN114416966B - 一种基于Simhash-BERT网络的医用耗材合理使用分析方法

Info

Publication number: CN114416966B
Application number: CN202210079547.XA
Authority: CN
Inventors: 宋尚玲; 刘泽
Original assignee: Second Hospital of Shandong University
Current assignee: Second Hospital of Shandong University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-08-26
Anticipated expiration: 2042-01-24
Also published as: CN114416966A

Abstract

本发明属于医用耗材管理技术领域，涉及一种基于Simhash‑BERT网络的医用耗材合理使用分析方法。本发明通过考虑全部语义类型，避免长度属性造成的误差，提出基于BERT网络，采用Simhash相似性进行语句判断，从而确定文本所在位置，实现文本的查找与定位。提高了语句在文档中检索的准确性。

Description

一种基于Simhash-BERT网络的医用耗材合理使用分析方法

技术领域

本发明属于医用耗材管理技术领域，涉及一种基于Simhash-BERT网络的医用耗材合理使用分析方法。

背景技术

目前，我国患者诊疗过程中的医用耗材费用在医疗总费用支出构成中占比较高，并呈逐年上升趋势。由于医用耗材产品的差异性，医用耗材在医疗机构品类管理方面主要存在品名不统一、编码不规范问题，缺乏相应管理标准和规范，也制约着医用耗材的精细化管理。医用耗材是医疗机构开展医疗业务的重要物资基础,也是临床开展诊疗新技术的辅助工具和重要载体。医用耗材在诊断、治疗、护理和康复等领域广泛应用,对患者疾病诊疗和提升医疗工作效率均有十分重要的作用。随着国家控制医疗费用不合理增长,以及各地区逐步取消医用耗材加成,医院管理者将医用耗材管理作为医院管理的重点。基于以上,如何对耗材使用合理性评价,建立针对性的医用耗材的合理使用分析方法，是医院构建医用耗材管理体系的重要途径。

目前耗材使用数据主要来自于医院的电子病历系统，电子病历中的数据未经过处理，人工进行提取容易出现语义混淆的问题，因此需要借助文本挖掘的手段，进行精确的识别和提取。

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识，但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。

文本匹配任务是自然语言处理中的一种应用，可以实现信息检索、问答系统以及文本鉴别等，文本匹配分为传统方法和深度学习方法。传统方法主要是直接的字词的匹配，无法识别文本在不同语境下的语义关系。

针对多元性的文字匹配，基于深度学习的方法可以实现，但深度学习的方法也具有局限性，受数据量和计算能力影响。基于深度学习的方法，BERT网络在语句匹配任务上获取了优异的性能。然而，它需要将两个句子都输入到网络中，这导致了巨大的计算开销。BERT网络即用句子映射到一个向量空间，这个空间不适合用于常见的相似度度量，相对于BERT网络，在此基础上优化的Sentence-BERT法，采用余弦相似性可以找到语义相似句子，较大程度的缩短计算时间，但方法针对与语句对，未考虑词组的复杂性；同时采用余弦相似性忽略了向量的长度属性，影响匹配的准确性。

因此，目前还没有行之有效的针对医疗耗材使用合理性进行评价的方法，阻碍了医院构建医用耗材管理体系的进程。

发明内容

本发明针对传统医用耗材管理中存在的问题提出一种新型的基于Simhash-BERT网络的医用耗材合理使用分析方法。

为了达到上述目的，本发明是采用下述的技术方案实现的：

一种基于Simhash-BERT网络的医用耗材合理使用分析方法，其特征在于，步骤如下：

步骤S1：利用数据分析平台的搜索功能，确定检索用的文字、语句，设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档。

步骤S2：将文字、语句处理成字符串。

步骤S3：确定搜索的字符串和单词词典，所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用；所述字符串采用便签进行表征，单词词典采用词条算法进行构建；构建搜索网络模型BERT，然后对由多个变压器堆叠而成的BERT网络进行优化，并采用token嵌入、分割嵌入和位置嵌入，使得BERT网络的嵌入层实现字符的传递。

步骤S4：在每个字符串开始位置添加分类标签token，将BERT网络的变压器输出作为分类过程的融合序列，采用BERT网络的学习位置嵌入，将融合序列的长度保持为256个token；BERT网络运行过程中产生的句子对记为语句A和语句B，语句A的每个token中嵌入学习语句X1，语句B的每个token中嵌入学习语句X2。

步骤S5：对BERT网络进行深度双向表示训练，采用随机屏蔽输入token，对屏蔽的token进行预测；随机屏蔽语句A或语句B中10％的组成部分，进行非监督学习的训练；为了保持变压器中每个语句的token分布式特征和增加信息量，在屏蔽部分，其中90％采用固定的模板进行屏蔽，5％采用随机的模板进行屏蔽，剩余5％保持不变。

步骤S6：重复步骤5直至满足BERT网络的训练目标，所述训练目标为：在训练句子对中随机选择，满足X2的语义是X1下一句的部分，占总比例的1/4；对剩余的3/4进行随机挑选，针对不同的情形，继续学习X1和X2之间的相关性，提高与训练模型的自适应性。

步骤S7：利用24层多类型注意机制，将步骤S6中的输出结果传递给BERT网络默认的回归函数，来推导最终的表征，定义BERT网络语义相似度基准的性能。

步骤S8：在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P，并对添加权重P之后BERT网络输出的字符串进行相关池化操作，分别采取最大池化、最小池化以及平均池化，保证输出的字符串向量长度相等。

步骤S9：采用Simhash相似度计算对池化操作后的字符串进行筛选，设计词语分割网络进行权重P的优化，所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略，所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现，采用的公式如下：

其中，

为样本字符串，

为和样本字符串同一含义的另一字符串，

代表不同含义的字符串；

将所述负例代入BERT网络进行训练，利用训练结果对权重P进行进一步优化。

步骤S10：将训练后的字符串进行分词，产生整个目标文档的特征词，去掉噪音词，形成词序列，为每个词序列添加权重。

步骤S11：文本信息转化为数字信息，将待检测的字符串通过hash算法生成对应的hash值：0和1。

步骤S12：将hash值添加词序列的权重，形成加权数字串，根据语句中每个词所起到的不同作用将生成的hash值作为评价，采用熵权法计算新权重，进而将得到的hash值进行最大最小标准化处理，公式如下。

其中

表示第i个字符串的第j个指标标准化后的值，

表示对第i个字符串进行最大标准化，

表示对第i个字符串进行最小标准化；

信息熵D_j的求解为将

代入下列公式：

其中，L代表第j个指标下第i个字符串的指标值的比重，

代表第i个字符串的第j个指标。

将所有指标D₁、D₂、D₃、…、D_n的信息熵以此求出，各字符串的权重值为；

hash值通过加权计算的序列值h为：

a_i字符串表示hash值的第i个的值，0或者1。

将同一语句中每个词通过S12获得的加权数字串对应的序列值进行叠加，得到一个总的序列值。

步骤S13：把得到的总序列值进行降维，大于0的值替换为1，小于0的值替换为0，得到最终输出结果。

步骤S14：将不同语句的输出结果进行比较，比较对应位置的0和1是否相等，将不相等的个数计为距离值，距离值越小，相似性越高。

步骤S15：通过相似性计算，根据单词字典，遍历文档中所有语句，找到与检索语句Simhash距离值最小的语句，得到最终的输出结果。

步骤S16：目标文档中锁定语句关系，同一行文本属于同一簇，同一列文本属于同一类，并进行余弦相似度检测，找出已进行目标语句和前后语句的相似度对比，判定前后语句是否属于同一簇或者同一类的字符串输出。

步骤S17：设定输出的字符串大小，使其大于待检测的字符串大小，当目标语句锁定时，通过调节字符串的长度，获取目标字符串所在位置前后相关的文本。

步骤S18：通过外部接口调用，将搜寻到的文本信息进行输出与展示。

本发明通过考虑全部语义类型，避免长度属性造成的误差，提出基于BERT网络，采用Simhash相似性进行语句判断，从而确定文本所在位置，实现文本的查找与定位。

与现有技术相比，本发明的优点和积极效果在于：

1.本发明随机屏蔽句子10％的组成部分。其中90％采用固定的模板进行屏蔽，5％采用随机的模板，剩余5％则是保持不变；在训练句子对中选择部分，满足条件X2的语义是X1的下一句，占总比例的1/4，剩余3/4的X2随机挑选的，提高词组检索适应性，适合所有待检测类型词组。

2.设计词语分割网络进行权重优化，词语分割网络主要采用三联体网络对文档中的文本进行难例挖掘策略，构建从最小训练批次中选择积极或者消极的负例对，进一步优化BERT网络。

3.采用Simhash距离相似性，避免了余弦相似性因未考虑向量长度而造成的相似度判读误差。

4.采用熵权法计算权重，将得到的hash值进行标准化处理，采用最大最小标准化处理，优化了Simhash距离的权重分配，提高相似度的准确性。

5.提高了语句在文档中检索的准确性。

附图说明

图1为实施例1的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1

如图1所示，本实施例提供基于Simhash-BERT网络的文本检索与匹配方法的具体步骤：

步骤1：采用数据分析平台的搜索功能进行文字搜索，首先设置接口调用方法，从数据库中调用目标文档，待检索与匹配的文字与语句位于调用目标文档中。

步骤2：在数据分析平台搜索功能选项中输入待检索的字符串，进行字符串检索。

步骤3：搜索功能通过对BERT网络的优化来实现，BERT网络采用多个变压器(Transformer)堆叠而成。搜索网络模型首先需要确定搜索的字符串和单词字典，对于字符串，采用便签的表征，单词字典采用词条算法构建。对于BERT网，在嵌入层中实现字符的传递，采用token嵌入、分割嵌入和位置嵌入。

步骤4：传递过程具体为，在每个字符串的序列的开始处添加分类便签(CLStoken)，将变压器(Transformer)的输出作为分类过程的融合序列，对于不参与分类任务的向量，可以忽略；使用学习位置嵌入(positional Embeddings)，将字符串序列的长度保持为256个token；对于BERT网络生成的句子对，采用不同的方式加以区分，采用([SEP])使其区分，在一个句子的每个token中嵌入学习语句X1，将语句X2嵌入到另一语句中。

步骤5：对BERT网络进行深度双向表示训练，采用随机屏蔽输入token，对屏蔽的token进行预测。随机屏蔽一个句子10％的组成部分，对其进行非监督学习的的训练。为了保持变压器的每个token分布式特征和增加信息量，在屏蔽部分，其中90％采用固定的模板进行屏蔽，5％采用随机的模板，剩余5％则是保持不变。

步骤6：在训练句子对中选择部分，满足条件X2的语义是X1的下一句，占总比例的1/4，剩余3/4的X2则是目标文档中随机挑选的，针对不同的情形，学习它们之间的相关性，提高与训练模型的自适应性。

步骤7：利用24层多类型注意机制，将输出传递给默认的回归函数，来推导最终的表征，定义语义相似度基准的性能。

步骤8：关于BERT网络的输出，在BERT网络的输出中添加一个权重P,权重由词语分割网络优化。为了方便后续的相似性比较，采用对输出的数据进行相关的池化操作，分别采取最大池化(Max-pooling)、最小池化(Min-pooling)以及平均池化(Mean-pooling)，通过池化操作保证输出的字符串向量的长度都是相等的。

步骤9：为了对结果进行筛选，采用Simhash相似度计算，设计词语分割网络进行权重优化，词语分割网络主要采用三联体网络对文档中的文本进行难例挖掘策略，难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现，依据式子：

其中，

代表样本字符串，

代表和样本字符串同一含义的另一字符串，

代表不同含义的字符串。符合上述式子的负例对即为较难的负例对，代入网络进行训练，将训练结果来优化权重。

步骤10：将训练的字符串进行分词，产生整个目标文档的特征词，去掉噪音词，形成词序列，为每个词添加权重。

步骤11：为了符合相似性计算的要求，将文本信息转化为数字信息，将待检测的字符串通过hash算法生成对应的hash值，即数字值,由0和1组成。

步骤12：每个词都有单独的权重，通过将产生的hash值加以权重形成加权数字串。其中语句中每个词的权重都是不同的，根据在语句中的作用不同设定不同的值，将生成的hash值作为评价，采用熵权法计算权重，将得到的hash值进行标准化处理，采用最大最小标准化处理；

其中，

表示第i个字符串的第j个指标，

表示对第i个字符串进行最大标准化，

表示对第i个字符串进行最小标准化。

信息熵D_j的求解为将

带入下列公式：

将所有指标D₁、D₂、D₃、…、D_n的信息熵以此求出，各字符串的权重值为:

hash值通过加权计算的序列值h为：

a_i字符串表示hash值的第i个的值。即0或者1；将一个语句的个词组组成部分的序列值进行序列值进行累加，形成一个总的序列值。

步骤13：把得到的总序列值进行降维，大于0的值替换为1，小于0的值替换为0，得到最终输出结果。

步骤14：将不同语句的输出结果进行比较，即比较对应位置的0和1是否相等，将不相等的个数计为距离值，距离值越小，相似性越高。

步骤15：通过相似性计算，遍历文档中所有语句，找到与检索语句Simhash距离值最小的语句，即为最终的输出结果。

步骤16：文档中已锁定语句关系，同一行文本属于同一簇，同一列文本属于同一类，以此加一步余弦相似度检测，检测目标为已找到目标语句和前后语句的相似度对比，可以判定前后语句是否属于同一簇或者同一类。

步骤17：同时设定输出的字符串大小，需要大于待检测的字符串大小，当目标语句锁定时，可以通过调节字符串的长度，来获取目标字符串所在位置前后相关的文本。

步骤18：通过外部接口调用，将搜寻到的文本信息进行输出与展示。

本实施例中未特殊说明的词句，为本领域公知技术，部分名词说明如下：

1、BERT网络

通过联合左侧和右侧的上下文，从未标记文本中预训练出一个深度双向表示模型，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked languagemodel(MLM)，包含两个句子对，实现上下文的双向传输，以致能生成深度的双向语言表征。

本质上来说BERT就是由多个不同的变压器Transformer结构堆叠而来，同时在嵌入部分多加入了一个分割嵌入。

BERT将每个输入token(输入文本中的单词)通过token嵌入层传递，以便将每个token转换为向量表示。与其他深度学习模型不同，BERT有额外的嵌入层，以Segment嵌入和Position嵌入的形式。

2、24层多类型注意机制

多类型注意机制可以更多的关注文本的上下文结构。

3、语义相似度基准

估计两句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的平均值，然后计算两句子词嵌入之间的相似性。

4、hash算法

哈希算法(Hash)又称摘要算法(Digest)，它的作用是：对任意一组输入数据进行计算，得到一个固定长度的输出摘要。

5、Simhash相似性

Simhash为文本相似判定方法，主要目的是降维，即将高维的特征向量映射成f-bit的指纹，通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。步骤分为：①首先进行分词；②通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名；③通过②步骤的hash生成结果，需要按照单词的权重形成加权数字串；④把上面所有各个单词算出来的序列值累加，变成只有一个序列串；⑤进行降维，采用海明距离：异或时，只有在两个比较的位不同时其结果是1，否则结果为0，两个二进制“异或”后得到1的个数即为海明距离的大小，海明距离在3以内的可认为相似度比较高。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于Simhash-BERT网络的医用耗材合理使用分析方法，其特征在于，步骤如下：

步骤S1：利用数据分析平台的搜索功能，确定检索用的文字、语句，设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档；

步骤S2：将文字、语句处理成字符串；

步骤S3：确定搜索的字符串和单词词典，所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用；构建搜索网络模型BERT，然后对由多个变压器堆叠而成的BERT网络进行优化，并采用token嵌入、分割嵌入和位置嵌入，使得BERT网络的嵌入层实现字符的传递；

步骤S4：在每个字符串开始位置添加分类标签token，将BERT网络的变压器输出作为分类过程的融合序列，采用BERT网络的学习位置嵌入，将融合序列的长度保持为256个token；BERT网络运行过程中产生的句子对记为语句A和语句B，语句A的每个token中嵌入学习语句X1，语句B的每个token中嵌入学习语句X2；

步骤S5：对BERT网络进行深度双向表示训练，采用随机屏蔽输入token，对屏蔽的token进行预测；随机屏蔽语句A或语句B中10%的组成部分，进行非监督学习的训练；为了保持变压器中每个语句的token分布式特征和增加信息量，在屏蔽部分，其中90%采用固定的模板进行屏蔽，5%采用随机的模板进行屏蔽，剩余5%保持不变；

步骤S6：重复步骤S 5直至满足BERT网络的训练目标，所述训练目标为：在训练句子对中随机选择，满足X2的语义是X1下一句的部分，占总比例的1/4；对剩余的3/4进行随机挑选，针对不同的情形，继续学习X1和X2之间的相关性，提高训练模型的自适应性；

步骤S7：利用24层多类型注意机制，将步骤S6中的输出结果传递给BERT网络默认的回归函数，来推导最终的表征，定义BERT网络语义相似度基准的性能；

步骤S8：在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P，并对添加权重P之后BERT网络输出的字符串进行相关池化操作，分别采取最大池化、最小池化以及平均池化，保证输出的字符串向量长度相等；

步骤S9：采用Simhash相似度计算对池化操作后的字符串进行筛选，设计词语分割网络进行权重P的优化，所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略，所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现；

将所述负例代入BERT网络进行训练，利用训练结果对权重P进行进一步优化；

步骤S10：将训练后的字符串进行分词，产生整个目标文档的特征词，去掉噪音词，形成词序列，为每个词序列添加权重；

步骤S11：文本信息转化为数字信息，将待检测的字符串通过hash算法生成对应的hash值：0和1；

步骤S12：将hash值添加词序列的权重，形成加权数字串，根据语句中每个词所起到的不同作用将生成的hash值作为评价，采用熵权法计算新权重，进而将得到的hash值进行最大最小标准化处理，公式如下：