CN116860980B - 一种实时手术反馈分类方法及系统 - Google Patents
一种实时手术反馈分类方法及系统 Download PDFInfo
- Publication number
- CN116860980B CN116860980B CN202311129532.0A CN202311129532A CN116860980B CN 116860980 B CN116860980 B CN 116860980B CN 202311129532 A CN202311129532 A CN 202311129532A CN 116860980 B CN116860980 B CN 116860980B
- Authority
- CN
- China
- Prior art keywords
- tag
- words
- category
- word
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 26
- 201000010099 disease Diseases 0.000 claims description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000001356 surgical procedure Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Surgery (AREA)
- Urology & Nephrology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实时手术反馈分类方法及系统,该方法包括数据获取、数据预处理、创建类别标签词汇库、优化类别标签词汇库和手术反馈分类预测,本发明涉及医疗信息化技术领域,具体是指一种实时手术反馈分类方法及系统。本方案利用BERT模型中的掩码语言建模任务,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率,采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,提高了实时手术反馈分类准确率,用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,提高了实时手术反馈分类的可靠性。
Description
技术领域
本发明涉及医疗信息化技术领域,具体是指一种实时手术反馈分类方法及系统。
背景技术
实时手术反馈分类是指将手术过程中进行的不同类型的操作标准化为特定的编码,以便在医疗记录、医疗保险申报、统计分析等方面进行统一的记录和处理;通过将各种手术过程操作赋予独特的编码,医疗专业人员可以更加精确地描述和标识患者接受的治疗方式,使得医疗团队能够在全球范围内进行交流与合作;但是在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题;在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签指示词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确性的问题;在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种实时手术反馈分类方法及系统,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率;针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率;针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
本发明采取的技术方案如下:本发明提供的一种实时手术反馈分类方法及系统,该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库;
步骤S4:优化类别标签词汇库;
步骤S5:手术反馈分类预测。
进一步地,在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
进一步地,在步骤S2中,所述数据预处理,具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
进一步地,在步骤S3中,所述创建类别标签词汇库具体包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集,具体为将所述历史数据作为原始数据集,将该数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
步骤S323:获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库。
进一步地,在步骤S4中,所述优化类别标签词汇库具体包括以下步骤:
步骤S41:计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
步骤S42:上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
步骤S43:处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
步骤S44:确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
步骤S46:优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库。
进一步地,在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对所述实时手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分;
步骤S53:计算类别标签的预测分数;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别。
本发明提供的一种实时手术反馈分类系统,包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块;
所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
采用上述方案本发明取得的有益效果如下:
(1)针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率;
(2)针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率;
(3)针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
附图说明
图1为本发明提供的一种实时手术反馈分类方法流程示意图;
图2为本发明提供的一种实时手术反馈分类系统示意图;
图3为步骤S3的流程示意图;
图4为步骤S4的流程示意图;
图5为步骤S5的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,参阅图1,本发明提供的一种实时手术反馈分类方法,该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库;
步骤S4:优化类别标签词汇库;
步骤S5:手术反馈分类预测。
实施例二,该实施例基于上述实施例,参阅图1和图2,在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
实施例三,该实施例基于上述实施例,参阅图1和图2,在步骤S2中,所述数据预处理,具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
实施例四,该实施例基于上述实施例,参阅图1和图3,在步骤S3中,所述创建类别标签词汇库具体包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集,具体为将所述历史数据作为原始数据集,将该数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
步骤S323:获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
Lcls_ind=-∑logp(cw|hw);
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率。
实施例五,参阅图1和图4,该实施例基于上述实施例,在步骤S4中,所述优化类别标签词汇库具体包括以下步骤:
步骤S41:计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
步骤S42:上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
步骤S43:处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
步骤S44:确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
步骤S46:优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率。
实施例六,参阅图1和图5,该实施例基于上述实施例,在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对所述手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分,公式如下:
P(y|xs)=PM([MASK]=v|xs);
式中,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,M为BERT模型,MASK为BERT模型进行掩码语言建模所使用的掩码标记;
步骤S53:计算类别标签的预测分数,具体为使用分类标签词汇库中所有标签词的平均值作为类别标签的预测分数,公式如下:
式中,为类别标签的预测分数,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,|Z|为类别标签词汇库中标签词的数量;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
实施例七,参阅图2,该实施例基于上述实施例,本发明提供的一种实时手术反馈分类系统,包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块;
所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程和方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程和方法所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种实时手术反馈分类方法,其特征在于:该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库,用于实现根据待分类文本中的关键词进行快速预分类,进而创建所述类别标签词汇库,具体为利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词,建立所述类别标签词汇库,包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集,具体为将历史数据作为原始数据集,并将所述原始数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布;
步骤S323:获得类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
Lcls_ind=-∑logp(cw|hw);
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S323中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库;
步骤S4:优化类别标签词汇库,用于去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,进而优化所述类别标签词汇库,具体为采用先验概率结合上下文语义分析的方法,得到标准化权重,并通过得到所述标准化权重,改进BERT模型权重项,并重新执行步骤S3得到优化后的类别标签词汇库,包括以下步骤:
步骤S41:计算标签词的先验分布;
步骤S42:上下文校准;
步骤S43:处理罕见词;
步骤S44:确定标签词与类别标签的相关性;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v);
步骤S46:优化不同类别标签下的标签词;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库;
步骤S5:手术反馈分类预测,用于实现将对类别标签词的预测转化为具体分类类别的预测,进而实现从标签词到类别标签映射的可能性,具体为利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,进行手术反馈分类预测。
2.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S322中,所述计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
在步骤S323中,所述获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
在步骤S325中,所述获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合。
3.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S41中,所述计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
在步骤S42中,所述上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
在步骤S43中,所述处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
在步骤S44中,所述确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
在步骤S45中,所述计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
在步骤S46中,所述优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除。
4.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对实时手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分;
步骤S53:计算类别标签的预测分数;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别。
5.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S2中,所述数据预处理,具体为去除疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
6.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
7.一种实时手术反馈分类系统,用于实现如权利要求1-6中任一项所述的一种实时手术反馈分类方法,其特征在于:包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块。
8.根据权利要求7所述的一种实时手术反馈分类系统,其特征在于:所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311129532.0A CN116860980B (zh) | 2023-09-04 | 2023-09-04 | 一种实时手术反馈分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311129532.0A CN116860980B (zh) | 2023-09-04 | 2023-09-04 | 一种实时手术反馈分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860980A CN116860980A (zh) | 2023-10-10 |
CN116860980B true CN116860980B (zh) | 2024-01-26 |
Family
ID=88229000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311129532.0A Active CN116860980B (zh) | 2023-09-04 | 2023-09-04 | 一种实时手术反馈分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860980B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984656A (zh) * | 2018-06-28 | 2018-12-11 | 北京春雨天下软件有限公司 | 医学标签推荐方法及装置 |
CN110472032A (zh) * | 2019-08-16 | 2019-11-19 | 未来火种(北京)科技有限公司 | 医疗自定义实体词词性标签的多分类智能问答检索方法 |
CN113723106A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 基于标签扩展的零样本文本分类方法 |
CN115455181A (zh) * | 2022-08-29 | 2022-12-09 | 网经科技(苏州)有限公司 | 一种提示学习的小样本文本分类方法 |
CN116629345A (zh) * | 2023-03-27 | 2023-08-22 | 阿里巴巴(中国)有限公司 | 针对大规模预训练语言模型的提示学习方法和交互系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354204B2 (en) * | 2016-04-21 | 2019-07-16 | Sas Institute Inc. | Machine learning predictive labeling system |
-
2023
- 2023-09-04 CN CN202311129532.0A patent/CN116860980B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984656A (zh) * | 2018-06-28 | 2018-12-11 | 北京春雨天下软件有限公司 | 医学标签推荐方法及装置 |
CN110472032A (zh) * | 2019-08-16 | 2019-11-19 | 未来火种(北京)科技有限公司 | 医疗自定义实体词词性标签的多分类智能问答检索方法 |
CN113723106A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 基于标签扩展的零样本文本分类方法 |
CN115455181A (zh) * | 2022-08-29 | 2022-12-09 | 网经科技(苏州)有限公司 | 一种提示学习的小样本文本分类方法 |
CN116629345A (zh) * | 2023-03-27 | 2023-08-22 | 阿里巴巴(中国)有限公司 | 针对大规模预训练语言模型的提示学习方法和交互系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116860980A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
US10133965B2 (en) | Method for text recognition and computer program product | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN113326380B (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN110941713B (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN116860980B (zh) | 一种实时手术反馈分类方法及系统 | |
CN115310449A (zh) | 一种基于小样本的命名实体识别方法、装置及相关介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN111723301B (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
Devkota et al. | Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |