CN116564539A - 基于信息抽取和实体归一的医学相似病例推荐方法和系统 - Google Patents
基于信息抽取和实体归一的医学相似病例推荐方法和系统 Download PDFInfo
- Publication number
- CN116564539A CN116564539A CN202310836858.0A CN202310836858A CN116564539A CN 116564539 A CN116564539 A CN 116564539A CN 202310836858 A CN202310836858 A CN 202310836858A CN 116564539 A CN116564539 A CN 116564539A
- Authority
- CN
- China
- Prior art keywords
- disease
- information
- description text
- term
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000010606 normalization Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 title claims abstract description 11
- 201000010099 disease Diseases 0.000 claims abstract description 167
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 167
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000012216 screening Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 238000004590 computer program Methods 0.000 description 12
- 239000004973 liquid crystal related substance Substances 0.000 description 12
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于信息抽取和实体归一的医学相似病例推荐方法和系统,通过对病情描述文本进行实体分割,获取其中的疾病术语信息,然后从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词,最后将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐,减轻了性能要求,降低推荐耗时,更有利于诊断的高效进行,从而快速准确地分析出高相似度的病例向医生进行推荐。
Description
技术领域
本发明属于医学数据分析领域,具体涉及基于信息抽取和实体归一的医学相似病例推荐方法和系统。
背景技术
目前临床辅助诊疗系统的重要一环是辅助诊断,辅助诊断系统中,基于当前患者信息进行相似的病历推荐给医生,是辅助医生诊断的有效手段,使得当前医生在诊断患者当前病情信息时有参考信息,所以医生在为患者进行诊断治疗的过程中,相似病例及其相似病例的疗法,对患者的诊断治疗具有不可或缺的作用,是医生为患者快速确诊,查找病因,临床医治的重要参考。
现有技术中,相似病例的获取,一般通过患者的病例信息对数据库中的病例数据进行匹配。所以现有技术中的病例数据的比较是全量和实时的比较,对性能要求高,耗时过长,不利于诊断的高效进行,所以现有的病例获取无法快速准确地分析出高相似度的病例向医生进行推荐。
发明内容
针对上述现有技术的不足,本申请提供于信息抽取和实体归一的医学相似病例推荐方法和系统。
第一方面本申请提出了基于信息抽取和实体归一的医学相似病例推荐方法,包括以下步骤:
从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
在一些实施例中,所述对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息,包括:
计算所述病情描述文本中疾病术语的TF值,计算公式为:
其中,表示当前疾病术语在病情描述文本中出现的次数,i表示第i个疾病术语,j表示第j 个病情描述文本,k表示疾病术语总数,/>表示当前疾病术语在病情描述文本中出现的频率;
计算所述病情描述文本中疾病术语的IDF值,计算公式为:
其中,表示所有病情描述文本的数量,/>表示包含疾病术语/>的病情描述文本数量,/>表示指定的一个疾病术语;
根据TF-IDF模型计算得到病情描述文本中每个指定的疾病术语的权重,设定权重阈值,筛选出高于所述权重阈值的疾病术语作为病情表述文本中的疾病术语信息。
在一些实施例中,所述从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词,包括:
将所述历史病例信息输入第一bert模型中,得到历史病例信息中每个字符的第一向量表示;
结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;
将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词。
在一些实施例中,所述结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;所述交叉熵损失函数为:
其中,p(x)表示当前输入的真实标签label,q(x)表示模型对每个标签label的预测值;表示p和q之间的交叉熵;
所述第一线性层公式为:
其中x为历史病例信息中的每个字符经过第一bert模型获得的768维度的向量表示,A为第一线性层的权重矩阵,b为第一线性层的偏置矩阵,y为经过第一线性层之后得到的结果。
在一些实施例中,所述将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词,所述softmax函数公式为:
其中,表示/>的指数函数,n表示输出层共有n个神经元,/>表示计算的当前输入字符,/>表示第k个神经元的输出,所以,softmax函数的分子是输入字符/>的指数函数,分母是所有输入信号的指数函数的和。
在一些实施例中,所述将所述疾病术语信息和所述疾病关键词进行归一化处理,包括:
对所述疾病术语信息和来自所述疾病关键词进行拼接,拼接格式为:cls+疾病术语信息+sep+疾病关键词+sep,cls和sep是英文字符,cls用于提示模型开头,sep用于提示模型中间和结尾,然后输入第二bert模型中得到拼接结果的第二向量表示;
将拼接结果的第二向量表示经过第二线性层进行0,1分类,其中0代表不是指代的同一内容,1代表指代的是同一内容,通过分类结果进行判断是否指代相同内容的二分类任务;
基于判断结果完成所述疾病术语信息和所述疾病关键词的归一化处理。
在一些实施例中,所述第一bert模型和所述第二bert模型的结构一致,包括:
embedding层,通过embedding权重矩阵和输入数据映射的id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示,向量维度为768维;
多头注意力机制层,对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示;
前向计算层,将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示。
在一些实施例中,所述第二线性层的计算公式为:
其中h为拼接结果的第二向量表示,为第二线性层的权重矩阵,j为线性层的偏置矩阵。y_out为经过第二线性层之后得到的结果。
在一些实施例中,所述根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐,包括:
经过归一化处理后,筛选出历史病例信息中包含疾病术语信息的病例;
对筛选出的病例进行统计排序,统计疾病术语信息中出现疾病关键词的次数;
统计出的次数进行累加,基于累加结果对筛选出的病例按照疾病关键词的次数进行排序,按照由高到低的次数出现顺序给进行病例推荐。
第二方面本申请提出基于信息抽取和实体归一的医学相似病例推荐系统,包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块;
所述患者文本获取模块,用于从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
所述疾病术语信息获取模块,用于对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
所述疾病关键词获取模块,用于从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
所述病例分析推荐模块,用于将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
第三方面,本申请提出了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
第四方面,本申请提出了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现上述任一方法的步骤。
本发明的有益效果:
通过对病情描述文本进行实体分割,获取其中的疾病术语信息,然后从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词,最后将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐,减轻了性能要求,降低推荐耗时,更有利于诊断的高效进行,从而快速准确地分析出高相似度的病例向医生进行推荐。
附图说明
图1为本发明的总体流程图。
图2为本发明的系统原理框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
第一方面本申请提出了基于信息抽取和实体归一的医学相似病例推荐方法,如图1所示,包括步骤S100-S400:
S100:从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
从各个诊室的医务人员的操作终端中获取对应诊室的接诊患者的病情描述文本。
S200:对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
在一些实施例中,所述对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息,包括:
计算所述病情描述文本中疾病术语的TF值,计算公式为:
其中,表示当前疾病术语在病情描述文本中出现的次数,i表示第i个疾病术语,j表示第j 个病情描述文本,k表示疾病术语总数,/>表示当前疾病术语在病情描述文本中出现的频率;
计算所述病情描述文本中疾病术语的IDF值,计算公式为:
其中,表示所有病情描述文本的数量,/>表示包含疾病术语/>的病情描述文本数量,/>表示指定的一个疾病术语;
根据TF-IDF模型计算得到病情描述文本中每个指定的疾病术语的权重,设定权重阈值,筛选出高于所述权重阈值的疾病术语作为病情表述文本中的疾病术语信息。
将TF值和IDF值相乘就会得到,每篇病情描述文本中每个词的TF-IDF的值,值越大,则可认为重要程度越高,可作为病情描述文本的关键词,我们使用tf-idf模型来计算病情描述文本中的每个词汇的权重,根据权重的大小排序,我们设定阈值0.5,选取权重高于阈值的词汇作为病情描述文本中的关键词信息。
S300:从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
在一些实施例中,所述从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词,包括:
将所述历史病例信息输入第一bert模型中,得到历史病例信息中每个字符的第一向量表示;
结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;
将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词。
在一些实施例中,所述结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;所述交叉熵损失函数为:
其中,p(x)表示当前输入的真实标签label,q(x)表示模型对每个标签label的预测值;表示p和q之间的交叉熵;
例如:设定一个三分类任务,某样本的正确标签是第一类,则p = [1, 0, 0], 模型预测值假设为[0.5, 0.4, 0.1], 则交叉熵计算如下:
设定输入历史病例信息为E,ei~en为历史病例信息的文本E中的字符,在经过bert模型输出后获得768维度的第一向量表示,之后我们对这每个字符向量经过第一线性层进行是否是实体的分类预测,预测结果经过softmax函数映射为0~1之间的数值。
所述第一线性层公式为:
其中x为历史病例信息中的每个字符经过第一bert模型获得的768维度的向量表示,A为第一线性层的权重矩阵,b为第一线性层的偏置矩阵,y为经过第一线性层之后得到的结果。
在一些实施例中,所述将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词,所述softmax函数公式为:
其中,表示/>的指数函数,n表示输出层共有n个神经元,/>表示计算的当前输入字符,/>表示第k个神经元的输出,所以,softmax函数的分子是输入字符/>的指数函数,分母是所有输入信号的指数函数的和。
至此,我们提取出来了病情描述文本和历史病例信息中各自的疾病关键实体信息,比如病情描述文本中提取出“肺炎”,历史病例信息中提取的关键信息为“肺部炎症”,接下来, 我们对这两部分的疾病信息进行实体归一,来判断两者是否指代的是同一内容。
S400:将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
在一些实施例中,所述将所述疾病术语信息和所述疾病关键词进行归一化处理,包括:
对所述疾病术语信息和来自所述疾病关键词进行拼接,拼接格式为:cls+疾病术语信息+sep+疾病关键词+sep,cls和sep是英文字符,cls用于提示模型开头,sep用于提示模型中间和结尾,然后输入第二bert模型中得到拼接结果的第二向量表示;
将拼接结果的第二向量表示经过第二线性层进行0,1分类,其中0代表不是指代的同一内容,1代表指代的是同一内容,通过分类结果进行判断是否指代相同内容的二分类任务;
基于判断结果完成所述疾病术语信息和所述疾病关键词的归一化处理。
在一些实施例中,所述第一bert模型和所述第二bert模型的结构一致,包括:
embedding层,通过embedding权重矩阵和输入数据映射的id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示,向量维度为768维;
多头注意力机制层,对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示;
前向计算层,将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示。
在一些实施例中,所述第二线性层的计算公式为:
其中h为拼接结果的第二向量表示,为第二线性层的权重矩阵,j为线性层的偏置矩阵。y_out为经过第二线性层之后得到的结果。
在一些实施例中,所述根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐,包括:
经过归一化处理后,筛选出历史病例信息中包含疾病术语信息的病例;
对筛选出的病例进行统计排序,统计疾病术语信息中出现疾病关键词的次数;
统计出的次数进行累加,基于累加结果对筛选出的病例按照疾病关键词的次数进行排序,按照由高到低的次数出现顺序给进行病例推荐。
其中,相似病例推荐的具体步骤包括:将患者的病情描述文本text-a中提取出来关键词t1,t2,t3...,与历史病例信息中每个病例中提取的关键词对比,首先把历史病例信息的关键词中包含疾病术语信息t1,t2,t3...的病例筛选出来,之后再统计每个被筛选出来的病例中分别出现t1、t2、t3的次数count1、count2、count3...,把每个病例中的count1、count2、count3...直接相加得出病情描述文本的疾病术语信息在每个历史病例信息中总的出现频次count_total,把历史病例信息按照各自的count_total进行由高到低排序,同时把这些历史病例信息按照顺序推荐给医生,完成相似病历推荐的任务。
第二方面本申请提出基于信息抽取和实体归一的医学相似病例推荐系统,如图2所示,包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块;
所述患者文本获取模块,用于从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
所述疾病术语信息获取模块,用于对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
所述疾病关键词获取模块,用于从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
所述病例分析推荐模块,用于将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
第三方面,本申请提出了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
第四方面,本申请提出了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现上述任一方法的步骤示例性地,计算机程序可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备可以包括但不仅限于处理器和存储器。本领域技术人员可以理解,计算机设备可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是计算机设备的内部存储单元,例如,计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。
Claims (10)
1.基于信息抽取和实体归一的医学相似病例推荐方法,其特征在于:包括以下步骤:
从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
2.根据权利要求1所述的方法,其特征在于:所述对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息,包括:
计算所述病情描述文本中疾病术语的TF值,计算公式为:
其中,/>表示当前疾病术语在病情描述文本中出现的次数,i表示第i个疾病术语,j表示第j 个病情描述文本,k表示疾病术语总数,/>表示当前疾病术语在病情描述文本中出现的频率;
计算所述病情描述文本中疾病术语的IDF值,计算公式为:
其中,/>表示所有病情描述文本的数量,/>表示包含疾病术语/>的病情描述文本数量,/>表示指定的一个疾病术语;
根据TF-IDF模型计算得到病情描述文本中每个指定的疾病术语的权重,设定权重阈值,筛选出高于所述权重阈值的疾病术语作为病情表述文本中的疾病术语信息。
3.根据权利要求1所述的方法,其特征在于:所述从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词,包括:
将所述历史病例信息输入第一bert模型中,得到历史病例信息中每个字符的第一向量表示;
结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;
将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词。
4.根据权利要求3所述的方法,其特征在于:所述结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测,得到实体识别分类预测结果;所述交叉熵损失函数为:
其中,p(x)表示当前输入的真实标签label,q(x)表示模型对每个标签label的预测值;/>表示p和q之间的交叉熵;
所述第一线性层公式为:
其中x为历史病例信息中的每个字符经过第一bert模型获得的768维度的向量表示,A为第一线性层的权重矩阵,b为第一线性层的偏置矩阵,y为经过第一线性层之后得到的结果。
5.根据权利要求4所述的方法,其特征在于:所述将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值,根据所述映射数值和对应词表得到疾病关键词,所述softmax函数公式为:
其中,/>表示/>的指数函数,n表示输出层共有n个神经元,/>表示计算的当前输入字符,/>表示第k个神经元的输出,所以,softmax函数的分子是输入字符的指数函数,分母是所有输入信号的指数函数的和。
6.根据权利要求5所述的方法,其特征在于:所述将所述疾病术语信息和所述疾病关键词进行归一化处理,包括:
对所述疾病术语信息和来自所述疾病关键词进行拼接,拼接格式为:cls+疾病术语信息+sep+疾病关键词+sep,cls和sep是英文字符,cls用于提示模型开头,sep用于提示模型中间和结尾,然后输入第二bert模型中得到拼接结果的第二向量表示;
将拼接结果的第二向量表示经过第二线性层进行0,1分类,其中0代表不是指代的同一内容,1代表指代的是同一内容,通过分类结果进行判断是否指代相同内容的二分类任务;
基于判断结果完成所述疾病术语信息和所述疾病关键词的归一化处理。
7.根据权利要求6所述的方法,其特征在于:所述第一bert模型和所述第二bert模型的结构一致,包括:
embedding层,通过embedding权重矩阵和输入数据映射的id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示,向量维度为768维;
多头注意力机制层,对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示;
前向计算层,将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示。
8.根据权利要求6所述的方法,其特征在于:所述第二线性层的计算公式为:
其中h为拼接结果的第二向量表示,/>为第二线性层的权重矩阵,j为线性层的偏置矩阵,y_out为经过第二线性层之后得到的结果。
9.根据权利要求8所述的方法,其特征在于:所述根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐,包括:
经过归一化处理后,筛选出历史病例信息中包含疾病术语信息的病例;
对筛选出的病例进行统计排序,统计疾病术语信息中出现疾病关键词的次数;
统计出的次数进行累加,基于累加结果对筛选出的病例按照疾病关键词的次数进行排序,按照由高到低的次数出现顺序给进行病例推荐。
10.基于信息抽取和实体归一的医学相似病例推荐系统,其特征在于:包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块;
所述患者文本获取模块,用于从接诊室的病例数据录入终端中获取接诊患者的病情描述文本;
所述疾病术语信息获取模块,用于对所述病情描述文本进行实体分割,获取病情描述文本中的疾病术语信息;
所述疾病关键词获取模块,用于从历史病例数据库中获取历史病例信息并进行文本分割信息抽取,得到历史病例信息中的疾病关键词;
所述病例分析推荐模块,用于将所述疾病术语信息和所述疾病关键词进行归一化处理,根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836858.0A CN116564539B (zh) | 2023-07-10 | 2023-07-10 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836858.0A CN116564539B (zh) | 2023-07-10 | 2023-07-10 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116564539A true CN116564539A (zh) | 2023-08-08 |
CN116564539B CN116564539B (zh) | 2023-10-24 |
Family
ID=87496904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310836858.0A Active CN116564539B (zh) | 2023-07-10 | 2023-07-10 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564539B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011244849A (ja) * | 2010-05-21 | 2011-12-08 | Chiba Univ | 類似症例検索プログラム |
CN110928994A (zh) * | 2019-11-28 | 2020-03-27 | 北京华宇元典信息服务有限公司 | 相似案例检索方法、相似案例检索装置和电子设备 |
CN111627512A (zh) * | 2020-05-29 | 2020-09-04 | 北京大恒普信医疗技术有限公司 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
CN112635072A (zh) * | 2020-12-31 | 2021-04-09 | 大连东软教育科技集团有限公司 | 基于相似度计算的icu相似病例检索方法、系统及存储介质 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及系统 |
JP7198959B1 (ja) * | 2022-06-29 | 2023-01-04 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
CN115798733A (zh) * | 2023-01-09 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种用于孤儿病的智能辅助推理系统及方法 |
US20230090019A1 (en) * | 2021-09-23 | 2023-03-23 | International Business Machines Corporation | Voice activated device enabling |
CN115862840A (zh) * | 2022-11-17 | 2023-03-28 | 吾征智能技术(北京)有限公司 | 关节疼痛疾病的智能辅助诊断方法和装置 |
WO2023060795A1 (zh) * | 2021-10-12 | 2023-04-20 | 平安科技(深圳)有限公司 | 关键词自动提取方法、装置、设备及存储介质 |
CN116383398A (zh) * | 2023-02-20 | 2023-07-04 | 中国人民解放军军事科学院系统工程研究院 | 一种专业领域术语实体词向量自校正方法、系统及装置 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102426091B1 (ko) * | 2020-06-26 | 2022-07-29 | 고려대학교 산학협력단 | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 |
-
2023
- 2023-07-10 CN CN202310836858.0A patent/CN116564539B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011244849A (ja) * | 2010-05-21 | 2011-12-08 | Chiba Univ | 類似症例検索プログラム |
CN110928994A (zh) * | 2019-11-28 | 2020-03-27 | 北京华宇元典信息服务有限公司 | 相似案例检索方法、相似案例检索装置和电子设备 |
CN111627512A (zh) * | 2020-05-29 | 2020-09-04 | 北京大恒普信医疗技术有限公司 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
CN112635072A (zh) * | 2020-12-31 | 2021-04-09 | 大连东软教育科技集团有限公司 | 基于相似度计算的icu相似病例检索方法、系统及存储介质 |
CN113673223A (zh) * | 2021-08-25 | 2021-11-19 | 北京智通云联科技有限公司 | 一种基于语义相似性的关键词抽取方法及系统 |
US20230090019A1 (en) * | 2021-09-23 | 2023-03-23 | International Business Machines Corporation | Voice activated device enabling |
WO2023060795A1 (zh) * | 2021-10-12 | 2023-04-20 | 平安科技(深圳)有限公司 | 关键词自动提取方法、装置、设备及存储介质 |
JP7198959B1 (ja) * | 2022-06-29 | 2023-01-04 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
CN115862840A (zh) * | 2022-11-17 | 2023-03-28 | 吾征智能技术(北京)有限公司 | 关节疼痛疾病的智能辅助诊断方法和装置 |
CN115798733A (zh) * | 2023-01-09 | 2023-03-14 | 神州医疗科技股份有限公司 | 一种用于孤儿病的智能辅助推理系统及方法 |
CN116383398A (zh) * | 2023-02-20 | 2023-07-04 | 中国人民解放军军事科学院系统工程研究院 | 一种专业领域术语实体词向量自校正方法、系统及装置 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
Non-Patent Citations (1)
Title |
---|
高华玲: "《推荐算法及应用》", 北京邮电大学出版社, pages: 20 - 21 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
CN117711635B (zh) * | 2024-02-05 | 2024-05-03 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116564539B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910976A (zh) | 病历检测方法、装置、设备和存储介质 | |
CN111738302B (zh) | 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统 | |
CN109933647A (zh) | 确定描述信息的方法、装置、电子设备和计算机存储介质 | |
CN113345577B (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
CN112257422A (zh) | 命名实体归一化处理方法、装置、电子设备及存储介质 | |
CN116564539B (zh) | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112489740A (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
CN112801315A (zh) | 电力二次设备的状态诊断方法、装置及终端 | |
CN112926332A (zh) | 一种实体关系联合抽取方法及装置 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
CN115438040A (zh) | 一种病理档案信息管理方法及系统 | |
CN111145846A (zh) | 临床试验患者招募方法及装置、电子设备和存储介质 | |
CN114334065A (zh) | 病历处理方法、计算机可读存储介质及计算机设备 | |
CN111429289B (zh) | 单病种识别方法、装置、计算机设备和存储介质 | |
CN113095081A (zh) | 疾病的识别方法及装置、存储介质、电子装置 | |
CN114492389A (zh) | 语料类型的确定方法、装置、设备及存储介质 | |
CN113012774A (zh) | 病案自动编码方法、装置、电子设备及存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN112561714B (zh) | 基于nlp技术的核保风险预测方法、装置及相关设备 | |
Helwe et al. | CCS coding of discharge diagnoses via deep neural networks | |
CN114068028A (zh) | 医疗问诊数据处理方法及装置、可读存储介质及电子设备 | |
CN112541056B (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
CN111079420B (zh) | 文本识别方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |