CN116860980A - 一种实时手术反馈分类方法及系统 - Google Patents

一种实时手术反馈分类方法及系统 Download PDF

Info

Publication number
CN116860980A
CN116860980A CN202311129532.0A CN202311129532A CN116860980A CN 116860980 A CN116860980 A CN 116860980A CN 202311129532 A CN202311129532 A CN 202311129532A CN 116860980 A CN116860980 A CN 116860980A
Authority
CN
China
Prior art keywords
tag
words
category
word
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311129532.0A
Other languages
English (en)
Other versions
CN116860980B (zh
Inventor
邹文
刘新尧
荣霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Medical Center of PLA General Hospital
Original Assignee
6th Medical Center of PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Medical Center of PLA General Hospital filed Critical 6th Medical Center of PLA General Hospital
Priority to CN202311129532.0A priority Critical patent/CN116860980B/zh
Publication of CN116860980A publication Critical patent/CN116860980A/zh
Application granted granted Critical
Publication of CN116860980B publication Critical patent/CN116860980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Surgery (AREA)
  • Urology & Nephrology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实时手术反馈分类方法及系统,该方法包括数据获取、数据预处理、创建类别标签词汇库、优化类别标签词汇库和手术反馈分类预测,本发明涉及医疗信息化技术领域,具体是指一种实时手术反馈分类方法及系统。本方案利用BERT模型中的掩码语言建模任务,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率,采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,提高了实时手术反馈分类准确率,用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,提高了实时手术反馈分类的可靠性。

Description

一种实时手术反馈分类方法及系统
技术领域
本发明涉及医疗信息化技术领域,具体是指一种实时手术反馈分类方法及系统。
背景技术
实时手术反馈分类是指将手术过程中进行的不同类型的操作标准化为特定的编码,以便在医疗记录、医疗保险申报、统计分析等方面进行统一的记录和处理;通过将各种手术过程操作赋予独特的编码,医疗专业人员可以更加精确地描述和标识患者接受的治疗方式,使得医疗团队能够在全球范围内进行交流与合作;但是在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题;在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签指示词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确性的问题;在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种实时手术反馈分类方法及系统,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率;针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率;针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
本发明采取的技术方案如下:本发明提供的一种实时手术反馈分类方法及系统,该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库;
步骤S4:优化类别标签词汇库;
步骤S5:手术反馈分类预测。
进一步地,在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
进一步地,在步骤S2中,所述数据预处理,具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
进一步地,在步骤S3中,所述创建类别标签词汇库具体包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集,具体为将所述历史数据作为原始数据集,将该数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
步骤S323:获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库。
进一步地,在步骤S4中,所述优化类别标签词汇库具体包括以下步骤:
步骤S41:计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
步骤S42:上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
步骤S43:处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
步骤S44:确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
步骤S46:优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库。
进一步地,在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对所述实时手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分,公式如下:
P(y|xs)=PM([MASK]=v|xs);
式中,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,M为BERT模型,MASK为BERT模型进行掩码语言建模所使用的掩码标记;
步骤S53:计算类别标签的预测分数,具体为使用分类标签词汇库中所有标签词的平均值作为类别标签的预测分数,公式如下:
式中,为类别标签的预测分数,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,|Z|为类别标签词汇库中标签词的数量;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别。
本发明提供的一种实时手术反馈分类系统,包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块;
所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
采用上述方案本发明取得的有益效果如下:
(1)针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率;
(2)针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率;
(3)针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
附图说明
图1为本发明提供的一种实时手术反馈分类方法流程示意图;
图2为本发明提供的一种实时手术反馈分类系统示意图;
图3为步骤S3的流程示意图;
图4为步骤S4的流程示意图;
图5为步骤S5的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,参阅图1,本发明提供的一种实时手术反馈分类方法,该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库;
步骤S4:优化类别标签词汇库;
步骤S5:手术反馈分类预测。
实施例二,该实施例基于上述实施例,参阅图1和图2,在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
实施例三,该实施例基于上述实施例,参阅图1和图2,在步骤S2中,所述数据预处理,具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
实施例四,该实施例基于上述实施例,参阅图1和图3,在步骤S3中,所述创建类别标签词汇库具体包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集,具体为将所述历史数据作为原始数据集,将该数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
步骤S323:获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法,导致无法确定待分类文本中的关键词,从而无法快速进行分类判别的问题,本方案创造性地利用BERT模型中的掩码语言建模任务,根据类别名称预测关键词建立类别标签词汇库,实现了根据待分类文本中的关键词进行快速预分类,提高了实时手术反馈分类的效率。
实施例五,参阅图1和图4,该实施例基于上述实施例,在步骤S4中,所述优化类别标签词汇库具体包括以下步骤:
步骤S41:计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
步骤S42:上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
步骤S43:处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
步骤S44:确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
步骤S46:优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着难以挑选高质量的类别标签词,导致预训练模型分类性能下降以及泛化能力不足,降低实时手术反馈分类准确率的问题,本方案创造性地采用先验概率结合上下文语义分析的方法,去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词,优化了类别标签词汇库,提高了实时手术反馈分类准确率。
实施例六,参阅图1和图5,该实施例基于上述实施例,在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对所述手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分,公式如下:
P(y|xs)=PM([MASK]=v|xs);
式中,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,M为BERT模型,MASK为BERT模型进行掩码语言建模所使用的掩码标记;
步骤S53:计算类别标签的预测分数,具体为使用分类标签词汇库中所有标签词的平均值作为类别标签的预测分数,公式如下:
式中,为类别标签的预测分数,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,|Z|为类别标签词汇库中标签词的数量;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别;
通过上述操作,针对在已有的实时手术反馈分类方法中,存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法,导致无法实现利用类别标签词判定具体类别的问题,本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分,实现了将对类别标签词的预测转化为具体分类类别的预测,实现了从标签词到类别标签映射的可能性,提高了实时手术反馈分类的可靠性。
实施例七,参阅图2,该实施例基于上述实施例,本发明提供的一种实时手术反馈分类系统,包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块;
所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程和方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程和方法所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (8)

1.一种实时手术反馈分类方法,其特征在于:该方法包括以下步骤:
步骤S1:数据获取;
步骤S2:数据预处理;
步骤S3:创建类别标签词汇库;
步骤S4:优化类别标签词汇库;
步骤S5:手术反馈分类预测;
在步骤S3中,所述创建类别标签词汇库具体包括以下步骤:
步骤S31:确定具体分类标签,具体为根据疾病编码规则,确定该编码规则下划分的类别标签;
步骤S32:获得类别标签指向词集合,具体包括以下步骤:
步骤S321:构建训练样本集;
步骤S322:计算类别标签相近词的概率分布;
步骤S323:获得类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务;
步骤S325:获得类别标签指向词集合,具体为对于步骤S323中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合;
步骤S33:将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库,得到类别标签词汇库。
2.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S321中,所述构建训练样本集,具体为将历史数据作为原始数据集,将该数据集中所有包含所述类别标签词的文本构成训练样本集;
步骤S322:计算类别标签相近词的概率分布,具体为对所述训练样本集中出现类别标签词的语句,将其上下文词嵌入向量h输入到BERT模型中,通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布,公式如下:
P(w|h)=softmax(W2σ(W1h+b));
式中,P(w|h)为类别标签相近词的概率分布,w为类别标签相近词,h为类别标签词位置的词嵌入向量,σ(·)为激活函数,W1,W2和b为BERT模型掩码语言建模任务的可学习参数;
步骤S323:获得类别标签相近词集合,具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合;
步骤S324:建立寻找类别标签指向词的训练任务,具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务,训练任务的损失函数如下:
式中,Lcls_ind为训练任务的损失函数,cw为类别标签相近词所属的类别,hw为类别标签相近词位置的词嵌入向量,p(cw|hw)为类别标签词的概率分布;
步骤S325:获得类别标签指向词集合,具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中,存在超过20个与所述类别标签相近词表重合的,将该类别标签相近词作为类别标签指向词,加入到类别标签指向词集合中,得到类别标签指向词集合。
3.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S4中,所述优化类别标签词汇库具体包括以下步骤:
步骤S41:计算标签词的先验分布,具体为将类别标签词汇库中的词记为标签词,将所述原始数据集中包含标签词文本的分布记为D,通过对整个文本分布的概率进行期望,得到标签词的先验分布,计算公式如下:
式中,PD(v)为标签词的先验分布,v为标签词,x为原始数据集中包含标签词的文本,D为原始数据集中包含标签词文本的分布,P(v|x)为包含标签词的文本在原始数据集中的分布概率;
步骤S42:上下文校准,具体为使用标签词的上下文先验概率校准标签词的预测分布,以弱化不同标签词之间的先验分布巨大差异,计算公式如下:
式中,P(v|x)为包含标签词的文本在原始数据集中的分布概率,PD(v)为标签词的先验分布;
步骤S43:处理罕见词,具体为利用步骤S41得到的标签词的先验分布,剔除类别标签词汇库中分布概率小的标签词;
步骤S44:确定标签词与类别标签的相关性,具体为计算所述标签词与类别标签的余弦相似性,将余弦相似性作为相关性得分,计算公式如下:
r(v,y)=cos(qv,qy);
式中,r(v,y)为标签词与类别标签的余弦相似性,cos(·)为余弦函数,v为标签词,y为标签词对应的类别标签,qv为所述BERT模型生成的标签词表示向量,qy为所述BERT模型生成的类别标签表示向量;
步骤S45:计算标签词与其非隶属类别标签f(v)之间的相关性R(v),公式如下:
式中,R(v)为标签词v与其非隶属类别标签f(v)的相关性,f(v)为标签词的非隶属类别标签,r(v,y)为标签词与类别标签的余弦相似性,v为标签词,y为标签词对应的类别标签,N为类别标签的数量;
步骤S46:优化不同类别标签下的标签词,具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除;
步骤S47:计算标准化权重,具体为所述标签词v分配一个可学习的权重wv,计算每个类别的标准化权重,公式如下:
式中,αv为标准化后的类别权重,v为标签词,wv为标签词的可学习权重,Z为类别标签词汇库,u为类别标签词汇库中的标签词,wu为标签词的可学习权重,exp为指数函数;
步骤S48:获得优化后的类别标签词汇库,具体为使用步骤S47得到的标准化权重改进BERT模型权重项,重新执行步骤S3得到优化后的类别标签词汇库。
4.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S5中,所述手术反馈分类预测具体包括以下步骤:
步骤S51:创建BERT模型对所述实时手术操作记录数据集中样本的掩码语言建模任务;
步骤S52:计算分类标签词汇库中标签词对类别标签的贡献得分,公式如下:
P(y|xs)=PM([MASK]=v|xs);
式中,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,M为BERT模型,MASK为BERT模型进行掩码语言建模所使用的掩码标记;
步骤S53:计算类别标签的预测分数,具体为使用分类标签词汇库中所有标签词的平均值作为类别标签的预测分数,公式如下:
式中,为类别标签的预测分数,y为标签词对应的类别标签,xs为所述手术操作记录数据集中样本,|Z|为类别标签词汇库中标签词的数量;
步骤S54:将步骤S53的类别标签的预测分数作为分类结果,得到实时手术操作记录数据集中样本的分类类别。
5.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S2中,所述数据预处理,具体为去除疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符,得到实时手术操作记录数据集。
6.根据权利要求1所述的一种实时手术反馈分类方法,其特征在于:在步骤S1中,所述数据获取,具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。
7.一种实时手术反馈分类系统,用于实现如权利要求1-6中任一项所述的一种实时手术反馈分类方法,其特征在于:包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块。
8.根据权利要求7所述的一种实时手术反馈分类系统,其特征在于:所述数据获取模块获取疾病诊断数据,手术过程实时操作记录数据以及历史数据,并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块,所述历史数据发送至创建类别标签词汇库模块;
所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据,经数据预处理后得到实时手术操作记录数据集,并将所述实时手术操作记录数据集发送至手术反馈分类预测模块;
所述创建类别标签词汇库模块接收数据获取模块发送的历史数据,根据编码类别建立类别标签词汇库,并将类别标签词汇库数据发送至优化类别标签词汇库模块;
所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据,对所述类别标签词汇库数据进行优化,并将优化类别标签词汇库数据发送至手术反馈分类预测模块;
所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据,将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数,完成实时手术反馈分类。
CN202311129532.0A 2023-09-04 2023-09-04 一种实时手术反馈分类方法及系统 Active CN116860980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311129532.0A CN116860980B (zh) 2023-09-04 2023-09-04 一种实时手术反馈分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311129532.0A CN116860980B (zh) 2023-09-04 2023-09-04 一种实时手术反馈分类方法及系统

Publications (2)

Publication Number Publication Date
CN116860980A true CN116860980A (zh) 2023-10-10
CN116860980B CN116860980B (zh) 2024-01-26

Family

ID=88229000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311129532.0A Active CN116860980B (zh) 2023-09-04 2023-09-04 一种实时手术反馈分类方法及系统

Country Status (1)

Country Link
CN (1) CN116860980B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984656A (zh) * 2018-06-28 2018-12-11 北京春雨天下软件有限公司 医学标签推荐方法及装置
US20190050368A1 (en) * 2016-04-21 2019-02-14 Sas Institute Inc. Machine learning predictive labeling system
CN110472032A (zh) * 2019-08-16 2019-11-19 未来火种(北京)科技有限公司 医疗自定义实体词词性标签的多分类智能问答检索方法
CN113723106A (zh) * 2021-07-29 2021-11-30 北京工业大学 基于标签扩展的零样本文本分类方法
CN115455181A (zh) * 2022-08-29 2022-12-09 网经科技(苏州)有限公司 一种提示学习的小样本文本分类方法
CN116629345A (zh) * 2023-03-27 2023-08-22 阿里巴巴(中国)有限公司 针对大规模预训练语言模型的提示学习方法和交互系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050368A1 (en) * 2016-04-21 2019-02-14 Sas Institute Inc. Machine learning predictive labeling system
CN108984656A (zh) * 2018-06-28 2018-12-11 北京春雨天下软件有限公司 医学标签推荐方法及装置
CN110472032A (zh) * 2019-08-16 2019-11-19 未来火种(北京)科技有限公司 医疗自定义实体词词性标签的多分类智能问答检索方法
CN113723106A (zh) * 2021-07-29 2021-11-30 北京工业大学 基于标签扩展的零样本文本分类方法
CN115455181A (zh) * 2022-08-29 2022-12-09 网经科技(苏州)有限公司 一种提示学习的小样本文本分类方法
CN116629345A (zh) * 2023-03-27 2023-08-22 阿里巴巴(中国)有限公司 针对大规模预训练语言模型的提示学习方法和交互系统

Also Published As

Publication number Publication date
CN116860980B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN111639171B (zh) 一种知识图谱问答方法及装置
CN109145260B (zh) 一种文本信息自动提取方法
CN109800414B (zh) 语病修正推荐方法及系统
US10133965B2 (en) Method for text recognition and computer program product
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113326380B (zh) 基于深度神经网络的设备量测数据处理方法、系统及终端
CN116719520B (zh) 代码生成方法及装置
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114548101A (zh) 基于可回溯序列生成方法的事件检测方法和系统
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN116860980B (zh) 一种实时手术反馈分类方法及系统
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114580423A (zh) 一种基于Bert与Scat的页岩气领域命名实体识别方法
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Ali et al. Construction of Part of Speech Tagger for Malay Language: A Review
Tuan et al. On Rectifying the Mapping between Articles and Institutions in Bibliometric Databases
CN116468040A (zh) 一种二阶提示学习的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant