CN114416966B - 一种基于Simhash-BERT网络的医用耗材合理使用分析方法 - Google Patents

一种基于Simhash-BERT网络的医用耗材合理使用分析方法 Download PDF

Info

Publication number
CN114416966B
CN114416966B CN202210079547.XA CN202210079547A CN114416966B CN 114416966 B CN114416966 B CN 114416966B CN 202210079547 A CN202210079547 A CN 202210079547A CN 114416966 B CN114416966 B CN 114416966B
Authority
CN
China
Prior art keywords
sentences
sentence
network
character string
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210079547.XA
Other languages
English (en)
Other versions
CN114416966A (zh
Inventor
宋尚玲
刘泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Hospital of Shandong University
Original Assignee
Second Hospital of Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Hospital of Shandong University filed Critical Second Hospital of Shandong University
Priority to CN202210079547.XA priority Critical patent/CN114416966B/zh
Publication of CN114416966A publication Critical patent/CN114416966A/zh
Application granted granted Critical
Publication of CN114416966B publication Critical patent/CN114416966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于医用耗材管理技术领域,涉及一种基于Simhash‑BERT网络的医用耗材合理使用分析方法。本发明通过考虑全部语义类型,避免长度属性造成的误差,提出基于BERT网络,采用Simhash相似性进行语句判断,从而确定文本所在位置,实现文本的查找与定位。提高了语句在文档中检索的准确性。

Description

一种基于Simhash-BERT网络的医用耗材合理使用分析方法
技术领域
本发明属于医用耗材管理技术领域,涉及一种基于Simhash-BERT网络的医用耗材合理使用分析方法。
背景技术
目前,我国患者诊疗过程中的医用耗材费用在医疗总费用支出构成中占比较高,并呈逐年上升趋势。由于医用耗材产品的差异性,医用耗材在医疗机构品类管理方面主要存在品名不统一、编码不规范问题,缺乏相应管理标准和规范,也制约着医用耗材的精细化管理。医用耗材是医疗机构开展医疗业务的重要物资基础,也是临床开展诊疗新技术的辅助工具和重要载体。医用耗材在诊断、治疗、护理和康复等领域广泛应用,对患者疾病诊疗和提升医疗工作效率均有十分重要的作用。随着国家控制医疗费用不合理增长,以及各地区逐步取消医用耗材加成,医院管理者将医用耗材管理作为医院管理的重点。基于以上,如何对耗材使用合理性评价,建立针对性的医用耗材的合理使用分析方法,是医院构建医用耗材管理体系的重要途径。
目前耗材使用数据主要来自于医院的电子病历系统,电子病历中的数据未经过处理,人工进行提取容易出现语义混淆的问题,因此需要借助文本挖掘的手段,进行精确的识别和提取。
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。
文本匹配任务是自然语言处理中的一种应用,可以实现信息检索、问答系统以及文本鉴别等,文本匹配分为传统方法和深度学习方法。传统方法主要是直接的字词的匹配,无法识别文本在不同语境下的语义关系。
针对多元性的文字匹配,基于深度学习的方法可以实现,但深度学习的方法也具有局限性,受数据量和计算能力影响。基于深度学习的方法,BERT网络在语句匹配任务上获取了优异的性能。然而,它需要将两个句子都输入到网络中,这导致了巨大的计算开销。BERT网络即用句子映射到一个向量空间,这个空间不适合用于常见的相似度度量,相对于BERT网络,在此基础上优化的Sentence-BERT法,采用余弦相似性可以找到语义相似句子,较大程度的缩短计算时间,但方法针对与语句对,未考虑词组的复杂性;同时采用余弦相似性忽略了向量的长度属性,影响匹配的准确性。
因此,目前还没有行之有效的针对医疗耗材使用合理性进行评价的方法,阻碍了医院构建医用耗材管理体系的进程。
发明内容
本发明针对传统医用耗材管理中存在的问题提出一种新型的基于Simhash-BERT网络的医用耗材合理使用分析方法。
为了达到上述目的,本发明是采用下述的技术方案实现的:
一种基于Simhash-BERT网络的医用耗材合理使用分析方法,其特征在于,步骤如下:
步骤S1:利用数据分析平台的搜索功能,确定检索用的文字、语句,设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档。
步骤S2:将文字、语句处理成字符串。
步骤S3:确定搜索的字符串和单词词典,所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用;所述字符串采用便签进行表征,单词词典采用词条算法进行构建;构建搜索网络模型BERT,然后对由多个变压器堆叠而成的BERT网络进行优化,并采用token嵌入、分割嵌入和位置嵌入,使得BERT网络的嵌入层实现字符的传递。
步骤S4:在每个字符串开始位置添加分类标签token,将BERT网络的变压器输出作为分类过程的融合序列,采用BERT网络的学习位置嵌入,将融合序列的长度保持为256个token;BERT网络运行过程中产生的句子对记为语句A和语句B,语句A的每个token中嵌入学习语句X1,语句B的每个token中嵌入学习语句X2。
步骤S5:对BERT网络进行深度双向表示训练,采用随机屏蔽输入token,对屏蔽的token进行预测;随机屏蔽语句A或语句B中10%的组成部分,进行非监督学习的训练;为了保持变压器中每个语句的token分布式特征和增加信息量,在屏蔽部分,其中90%采用固定的模板进行屏蔽,5%采用随机的模板进行屏蔽,剩余5%保持不变。
步骤S6:重复步骤5直至满足BERT网络的训练目标,所述训练目标为:在训练句子对中随机选择,满足X2的语义是X1下一句的部分,占总比例的1/4;对剩余的3/4进行随机挑选,针对不同的情形,继续学习X1和X2之间的相关性,提高与训练模型的自适应性。
步骤S7:利用24层多类型注意机制,将步骤S6中的输出结果传递给BERT网络默认的回归函数,来推导最终的表征,定义BERT网络语义相似度基准的性能。
步骤S8:在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P,并对添加权重P之后BERT网络输出的字符串进行相关池化操作,分别采取最大池化、最小池化以及平均池化,保证输出的字符串向量长度相等。
步骤S9:采用Simhash相似度计算对池化操作后的字符串进行筛选,设计词语分割网络进行权重P的优化,所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略,所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现,采用的公式如下:
Figure BDA0003485348170000041
其中,
Figure BDA0003485348170000042
为样本字符串,
Figure BDA0003485348170000043
为和样本字符串同一含义的另一字符串,
Figure BDA0003485348170000044
代表不同含义的字符串;
将所述负例代入BERT网络进行训练,利用训练结果对权重P进行进一步优化。
步骤S10:将训练后的字符串进行分词,产生整个目标文档的特征词,去掉噪音词,形成词序列,为每个词序列添加权重。
步骤S11:文本信息转化为数字信息,将待检测的字符串通过hash算法生成对应的hash值:0和1。
步骤S12:将hash值添加词序列的权重,形成加权数字串,根据语句中每个词所起到的不同作用将生成的hash值作为评价,采用熵权法计算新权重,进而将得到的hash值进行最大最小标准化处理,公式如下。
Figure BDA0003485348170000051
其中
Figure BDA0003485348170000052
表示第i个字符串的第j个指标标准化后的值,
Figure BDA0003485348170000053
表示对第i个字符串进行最大标准化,
Figure BDA0003485348170000054
表示对第i个字符串进行最小标准化;
信息熵Dj的求解为将
Figure BDA0003485348170000055
代入下列公式:
Figure BDA0003485348170000056
Figure BDA0003485348170000057
其中,L代表第j个指标下第i个字符串的指标值的比重,
Figure BDA0003485348170000058
代表第i个字符串的第j个指标。
将所有指标D1、D2、D3、…、Dn的信息熵以此求出,各字符串的权重值为;
Figure BDA0003485348170000059
hash值通过加权计算的序列值h为:
Figure BDA00034853481700000510
ai字符串表示hash值的第i个的值,0或者1。
将同一语句中每个词通过S12获得的加权数字串对应的序列值进行叠加,得到一个总的序列值。
步骤S13:把得到的总序列值进行降维,大于0的值替换为1,小于0的值替换为0,得到最终输出结果。
步骤S14:将不同语句的输出结果进行比较,比较对应位置的0和1是否相等,将不相等的个数计为距离值,距离值越小,相似性越高。
步骤S15:通过相似性计算,根据单词字典,遍历文档中所有语句,找到与检索语句Simhash距离值最小的语句,得到最终的输出结果。
步骤S16:目标文档中锁定语句关系,同一行文本属于同一簇,同一列文本属于同一类,并进行余弦相似度检测,找出已进行目标语句和前后语句的相似度对比,判定前后语句是否属于同一簇或者同一类的字符串输出。
步骤S17:设定输出的字符串大小,使其大于待检测的字符串大小,当目标语句锁定时,通过调节字符串的长度,获取目标字符串所在位置前后相关的文本。
步骤S18:通过外部接口调用,将搜寻到的文本信息进行输出与展示。
本发明通过考虑全部语义类型,避免长度属性造成的误差,提出基于BERT网络,采用Simhash相似性进行语句判断,从而确定文本所在位置,实现文本的查找与定位。
与现有技术相比,本发明的优点和积极效果在于:
1.本发明随机屏蔽句子10%的组成部分。其中90%采用固定的模板进行屏蔽,5%采用随机的模板,剩余5%则是保持不变;在训练句子对中选择部分,满足条件X2的语义是X1的下一句,占总比例的1/4,剩余3/4的X2随机挑选的,提高词组检索适应性,适合所有待检测类型词组。
2.设计词语分割网络进行权重优化,词语分割网络主要采用三联体网络对文档中的文本进行难例挖掘策略,构建从最小训练批次中选择积极或者消极的负例对,进一步优化BERT网络。
3.采用Simhash距离相似性,避免了余弦相似性因未考虑向量长度而造成的相似度判读误差。
4.采用熵权法计算权重,将得到的hash值进行标准化处理,采用最大最小标准化处理,优化了Simhash距离的权重分配,提高相似度的准确性。
5.提高了语句在文档中检索的准确性。
附图说明
图1为实施例1的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合具体实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
实施例1
如图1所示,本实施例提供基于Simhash-BERT网络的文本检索与匹配方法的具体步骤:
步骤1:采用数据分析平台的搜索功能进行文字搜索,首先设置接口调用方法,从数据库中调用目标文档,待检索与匹配的文字与语句位于调用目标文档中。
步骤2:在数据分析平台搜索功能选项中输入待检索的字符串,进行字符串检索。
步骤3:搜索功能通过对BERT网络的优化来实现,BERT网络采用多个变压器(Transformer)堆叠而成。搜索网络模型首先需要确定搜索的字符串和单词字典,对于字符串,采用便签的表征,单词字典采用词条算法构建。对于BERT网,在嵌入层中实现字符的传递,采用token嵌入、分割嵌入和位置嵌入。
步骤4:传递过程具体为,在每个字符串的序列的开始处添加分类便签(CLStoken),将变压器(Transformer)的输出作为分类过程的融合序列,对于不参与分类任务的向量,可以忽略;使用学习位置嵌入(positional Embeddings),将字符串序列的长度保持为256个token;对于BERT网络生成的句子对,采用不同的方式加以区分,采用([SEP])使其区分,在一个句子的每个token中嵌入学习语句X1,将语句X2嵌入到另一语句中。
步骤5:对BERT网络进行深度双向表示训练,采用随机屏蔽输入token,对屏蔽的token进行预测。随机屏蔽一个句子10%的组成部分,对其进行非监督学习的的训练。为了保持变压器的每个token分布式特征和增加信息量,在屏蔽部分,其中90%采用固定的模板进行屏蔽,5%采用随机的模板,剩余5%则是保持不变。
步骤6:在训练句子对中选择部分,满足条件X2的语义是X1的下一句,占总比例的1/4,剩余3/4的X2则是目标文档中随机挑选的,针对不同的情形,学习它们之间的相关性,提高与训练模型的自适应性。
步骤7:利用24层多类型注意机制,将输出传递给默认的回归函数,来推导最终的表征,定义语义相似度基准的性能。
步骤8:关于BERT网络的输出,在BERT网络的输出中添加一个权重P,权重由词语分割网络优化。为了方便后续的相似性比较,采用对输出的数据进行相关的池化操作,分别采取最大池化(Max-pooling)、最小池化(Min-pooling)以及平均池化(Mean-pooling),通过池化操作保证输出的字符串向量的长度都是相等的。
步骤9:为了对结果进行筛选,采用Simhash相似度计算,设计词语分割网络进行权重优化,词语分割网络主要采用三联体网络对文档中的文本进行难例挖掘策略,难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现,依据式子:
Figure BDA0003485348170000091
其中,
Figure BDA0003485348170000092
代表样本字符串,
Figure BDA0003485348170000093
代表和样本字符串同一含义的另一字符串,
Figure BDA0003485348170000094
代表不同含义的字符串。符合上述式子的负例对即为较难的负例对,代入网络进行训练,将训练结果来优化权重。
步骤10:将训练的字符串进行分词,产生整个目标文档的特征词,去掉噪音词,形成词序列,为每个词添加权重。
步骤11:为了符合相似性计算的要求,将文本信息转化为数字信息,将待检测的字符串通过hash算法生成对应的hash值,即数字值,由0和1组成。
步骤12:每个词都有单独的权重,通过将产生的hash值加以权重形成加权数字串。其中语句中每个词的权重都是不同的,根据在语句中的作用不同设定不同的值,将生成的hash值作为评价,采用熵权法计算权重,将得到的hash值进行标准化处理,采用最大最小标准化处理;
Figure BDA0003485348170000101
其中,
Figure BDA0003485348170000102
表示第i个字符串的第j个指标,
Figure BDA0003485348170000103
表示对第i个字符串进行最大标准化,
Figure BDA0003485348170000104
表示对第i个字符串进行最小标准化。
信息熵Dj的求解为将
Figure BDA0003485348170000105
带入下列公式:
Figure BDA0003485348170000106
Figure BDA0003485348170000107
将所有指标D1、D2、D3、…、Dn的信息熵以此求出,各字符串的权重值为:
Figure BDA0003485348170000108
hash值通过加权计算的序列值h为:
Figure BDA0003485348170000109
ai字符串表示hash值的第i个的值。即0或者1;将一个语句的个词组组成部分的序列值进行序列值进行累加,形成一个总的序列值。
步骤13:把得到的总序列值进行降维,大于0的值替换为1,小于0的值替换为0,得到最终输出结果。
步骤14:将不同语句的输出结果进行比较,即比较对应位置的0和1是否相等,将不相等的个数计为距离值,距离值越小,相似性越高。
步骤15:通过相似性计算,遍历文档中所有语句,找到与检索语句Simhash距离值最小的语句,即为最终的输出结果。
步骤16:文档中已锁定语句关系,同一行文本属于同一簇,同一列文本属于同一类,以此加一步余弦相似度检测,检测目标为已找到目标语句和前后语句的相似度对比,可以判定前后语句是否属于同一簇或者同一类。
步骤17:同时设定输出的字符串大小,需要大于待检测的字符串大小,当目标语句锁定时,可以通过调节字符串的长度,来获取目标字符串所在位置前后相关的文本。
步骤18:通过外部接口调用,将搜寻到的文本信息进行输出与展示。
本实施例中未特殊说明的词句,为本领域公知技术,部分名词说明如下:
1、BERT网络
通过联合左侧和右侧的上下文,从未标记文本中预训练出一个深度双向表示模型,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked languagemodel(MLM),包含两个句子对,实现上下文的双向传输,以致能生成深度的双向语言表征。
本质上来说BERT就是由多个不同的变压器Transformer结构堆叠而来,同时在嵌入部分多加入了一个分割嵌入。
BERT将每个输入token(输入文本中的单词)通过token嵌入层传递,以便将每个token转换为向量表示。与其他深度学习模型不同,BERT有额外的嵌入层,以Segment嵌入和Position嵌入的形式。
2、24层多类型注意机制
多类型注意机制可以更多的关注文本的上下文结构。
3、语义相似度基准
估计两句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的平均值,然后计算两句子词嵌入之间的相似性。
4、hash算法
哈希算法(Hash)又称摘要算法(Digest),它的作用是:对任意一组输入数据进行计算,得到一个固定长度的输出摘要。
5、Simhash相似性
Simhash为文本相似判定方法,主要目的是降维,即将高维的特征向量映射成f-bit的指纹,通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。步骤分为:①首先进行分词;②通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的n-bit签名;③通过②步骤的hash生成结果,需要按照单词的权重形成加权数字串;④把上面所有各个单词算出来的序列值累加,变成只有一个序列串;⑤进行降维,采用海明距离:异或时,只有在两个比较的位不同时其结果是1,否则结果为0,两个二进制“异或”后得到1的个数即为海明距离的大小,海明距离在3以内的可认为相似度比较高。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (3)

1.一种基于Simhash-BERT网络的医用耗材合理使用分析方法,其特征在于,步骤如下:
步骤S1:利用数据分析平台的搜索功能,确定检索用的文字、语句,设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档;
步骤S2:将文字、语句处理成字符串;
步骤S3:确定搜索的字符串和单词词典,所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用;构建搜索网络模型BERT,然后对由多个变压器堆叠而成的BERT网络进行优化,并采用token嵌入、分割嵌入和位置嵌入,使得BERT网络的嵌入层实现字符的传递;
步骤S4:在每个字符串开始位置添加分类标签token,将BERT网络的变压器输出作为分类过程的融合序列,采用BERT网络的学习位置嵌入,将融合序列的长度保持为256个token;BERT网络运行过程中产生的句子对记为语句A和语句B,语句A的每个token中嵌入学习语句X1,语句B的每个token中嵌入学习语句X2;
步骤S5:对BERT网络进行深度双向表示训练,采用随机屏蔽输入token,对屏蔽的token进行预测;随机屏蔽语句A或语句B中10%的组成部分,进行非监督学习的训练;为了保持变压器中每个语句的token分布式特征和增加信息量,在屏蔽部分,其中90%采用固定的模板进行屏蔽,5%采用随机的模板进行屏蔽,剩余5%保持不变;
步骤S6:重复步骤S 5直至满足BERT网络的训练目标,所述训练目标为:在训练句子对中随机选择,满足X2的语义是X1下一句的部分,占总比例的1/4;对剩余的3/4进行随机挑选,针对不同的情形,继续学习X1和X2之间的相关性,提高训练模型的自适应性;
步骤S7:利用24层多类型注意机制,将步骤S6中的输出结果传递给BERT网络默认的回归函数,来推导最终的表征,定义BERT网络语义相似度基准的性能;
步骤S8:在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P,并对添加权重P之后BERT网络输出的字符串进行相关池化操作,分别采取最大池化、最小池化以及平均池化,保证输出的字符串向量长度相等;
步骤S9:采用Simhash相似度计算对池化操作后的字符串进行筛选,设计词语分割网络进行权重P的优化,所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略,所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现;
将所述负例代入BERT网络进行训练,利用训练结果对权重P进行进一步优化;
步骤S10:将训练后的字符串进行分词,产生整个目标文档的特征词,去掉噪音词,形成词序列,为每个词序列添加权重;
步骤S11:文本信息转化为数字信息,将待检测的字符串通过hash算法生成对应的hash值:0和1;
步骤S12:将hash值添加词序列的权重,形成加权数字串,根据语句中每个词所起到的不同作用将生成的hash值作为评价,采用熵权法计算新权重,进而将得到的hash值进行最大最小标准化处理,公式如下:
Figure 112551DEST_PATH_IMAGE001
=
Figure 394628DEST_PATH_IMAGE002
其中
Figure 158184DEST_PATH_IMAGE001
表示第i个字符串的第j个指标标准化后的值,
Figure 133094DEST_PATH_IMAGE003
表示对第i个字符串进行最大标准化,
Figure 349311DEST_PATH_IMAGE004
表示对第i个字符串进行最小标准化;
信息熵
Figure 435079DEST_PATH_IMAGE005
的求解为将
Figure 53142DEST_PATH_IMAGE001
代入下列公式:
Figure 448220DEST_PATH_IMAGE005
=-
Figure 151734DEST_PATH_IMAGE006
Figure 572351DEST_PATH_IMAGE007
=
Figure 248183DEST_PATH_IMAGE008
其中,L代表第j个指标下第i个字符串的指标值的比重,
Figure DEST_PATH_IMAGE009
代表第i个字符串的第j个指标;
将所有指标
Figure 830474DEST_PATH_IMAGE010
Figure 21284DEST_PATH_IMAGE011
Figure 245592DEST_PATH_IMAGE012
的信息熵以此求出,各字符串的权重值为:
Figure 510351DEST_PATH_IMAGE013
=
Figure 60281DEST_PATH_IMAGE014
,i=1、2、3、
Figure 418014DEST_PATH_IMAGE015
、n;
hash值通过加权计算的序列值h为:
Figure 711592DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
表示hash值的第i个的值,0或者1;
将同一语句中每个词通过获得的加权数字串对应的序列值进行叠加,得到一个总的序列值;
步骤S13:把得到的总序列值进行降维,大于0的值替换为1,小于0的值替换为0,得到最终输出结果;
步骤S14:将不同语句的输出结果进行比较,比较对应位置的0和1是否相等,将不相等的个数计为距离值,距离值越小,相似性越高;
步骤S15:通过相似性计算,根据单词字典,遍历文档中所有语句,找到与检索语句Simhash距离值最小的语句,得到最终的输出结果;
步骤S16:目标文档中锁定语句关系,同一行文本属于同一簇,同一列文本属于同一类,并进行余弦相似度检测,找出已进行目标语句和前后语句的相似度对比,判定前后语句是否属于同一簇或者同一类的字符串输出;
步骤S17:设定输出的字符串大小,使其大于待检测的字符串大小,当目标语句锁定时,通过调节字符串的长度,获取目标字符串所在位置前后相关的文本;
步骤S18:通过外部接口调用,将搜寻到的文本信息进行输出与展示。
2.根据权利要求1所述基于Simhash-BERT网络的医用耗材合理使用分析方法,其特征在于,步骤S3中所述字符串采用便签进行表征,单词词典采用词条算法进行构建。
3.根据权利要求1所述基于Simhash-BERT网络的医用耗材合理使用分析方法,其特征在于,所述步骤S9中采用的公式如下:
Figure 96437DEST_PATH_IMAGE018
<
Figure 551689DEST_PATH_IMAGE019
,
其中,
Figure 654774DEST_PATH_IMAGE020
为样本字符串,
Figure 486464DEST_PATH_IMAGE021
为和样本字符串同一含义的另一字符串,
Figure 991395DEST_PATH_IMAGE022
代表不同含义的字符串。
CN202210079547.XA 2022-01-24 2022-01-24 一种基于Simhash-BERT网络的医用耗材合理使用分析方法 Active CN114416966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210079547.XA CN114416966B (zh) 2022-01-24 2022-01-24 一种基于Simhash-BERT网络的医用耗材合理使用分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210079547.XA CN114416966B (zh) 2022-01-24 2022-01-24 一种基于Simhash-BERT网络的医用耗材合理使用分析方法

Publications (2)

Publication Number Publication Date
CN114416966A CN114416966A (zh) 2022-04-29
CN114416966B true CN114416966B (zh) 2022-08-26

Family

ID=81276752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210079547.XA Active CN114416966B (zh) 2022-01-24 2022-01-24 一种基于Simhash-BERT网络的医用耗材合理使用分析方法

Country Status (1)

Country Link
CN (1) CN114416966B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545302B (zh) * 2018-10-22 2023-12-22 复旦大学 一种基于语义的医学影像报告模板生成方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
US11836438B2 (en) * 2021-01-28 2023-12-05 Microsoft Technology Licensing, Llc ML using n-gram induced input representation
CN113377897B (zh) * 2021-05-27 2022-04-22 杭州莱迈医疗信息科技有限公司 基于深度对抗学习的多语言医疗术语规范标准化系统及方法

Also Published As

Publication number Publication date
CN114416966A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN106909655A (zh) 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
CN111899890A (zh) 基于比特串哈希的医疗数据相似度检测系统与方法
CN117076653A (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN116992007B (zh) 基于问题意图理解的限定问答系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN114510946A (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN117708297A (zh) 查询语句的生成方法、装置、电子设备及存储介质
CN114416966B (zh) 一种基于Simhash-BERT网络的医用耗材合理使用分析方法
CN115344695A (zh) 一种基于领域bert模型的服务文本分类方法
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN112270185A (zh) 一种基于主题模型的文本表示方法
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法
CN111046665A (zh) 一种领域术语语义漂移抽取方法
CN115062229B (zh) 基于新闻评论的过滤以及情感分析方法
CN117708336B (zh) 一种基于主题增强和知识蒸馏的多策略情感分析方法
CN115146187B (zh) 接口信息处理方法、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant