CN117198547B - 中医临床科研知识智能提取方法及系统 - Google Patents
中医临床科研知识智能提取方法及系统 Download PDFInfo
- Publication number
- CN117198547B CN117198547B CN202311131197.8A CN202311131197A CN117198547B CN 117198547 B CN117198547 B CN 117198547B CN 202311131197 A CN202311131197 A CN 202311131197A CN 117198547 B CN117198547 B CN 117198547B
- Authority
- CN
- China
- Prior art keywords
- corpus
- symptom
- knowledge
- attribute
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000011160 research Methods 0.000 title claims abstract description 28
- 208000024891 symptom Diseases 0.000 claims abstract description 178
- 238000002372 labelling Methods 0.000 claims abstract description 109
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 26
- 239000003550 marker Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000029142 excretion Effects 0.000 claims description 3
- 239000002932 luster Substances 0.000 claims description 3
- 230000001575 pathological effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 210000004243 sweat Anatomy 0.000 description 7
- 206010012218 Delirium Diseases 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 206010013954 Dysphoria Diseases 0.000 description 4
- 206010062717 Increased upper airway secretion Diseases 0.000 description 4
- 238000003759 clinical diagnosis Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 208000026435 phlegm Diseases 0.000 description 4
- 208000003443 Unconsciousness Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035922 thirst Effects 0.000 description 3
- 208000005156 Dehydration Diseases 0.000 description 2
- 206010060891 General symptom Diseases 0.000 description 2
- 208000001431 Psychomotor Agitation Diseases 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010065369 Burnout syndrome Diseases 0.000 description 1
- 206010010071 Coma Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000019914 Mental Fatigue Diseases 0.000 description 1
- 206010038647 Respiration abnormal Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中医临床科研知识智能提取方法,包括以下步骤:S1、利用中医临床各科名词构建原始症状语料数据库;S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并进行两级标注;S3、构建语料标注模型,进行训练并不断改进模型;S4、构建知识属性识别模型,进行训练并不断改进模型;S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。本发明为中医临床提供了一种统一且标准的知识智能提取方法。
Description
技术领域
本发明涉及中医临床文本标注与抽取领域,尤其涉及中医临床科研知识智能提取方法及系统。
背景技术
中医临床诊疗过程中会产生大量临床数据,挖掘其中蕴含的丰富临床实践经验知识,对中医临床诊疗具有重要价值,也是中医临床研究创新发展的必然趋势,而中医临床数据分析利用的重要前提是抽取出其中有用的医疗信息。
但目前对于中医临床症状语料标注的研究多数还停留在概念层面,尚未对其进行深层次的知识属性划分以及规范标注,在实际临床中对于症状的描述往往包含轻重程度、发生因素、持续时间等更多内容,临床诊疗时医生需要综合考虑这些因素,数据挖掘时数据分析人员也需要考虑这些因素。对于中医症状信息抽取不能只抽取其概念词,还需要抽取其属性信息。因此,研究如何对中医症状信息进行带有知识属性的语义标注与抽取尤为重要。
徐永东等指出病历信息的五元组表示:〈对象修饰,对象,程度,性质,对象描述〉;龚凡等提出中文症状可以由否定词、修饰词、部位词、症状词通过相应的组合规则构成,并对网页进行抽取得到了包含16种关系、38160个医疗实体和367524条三元组的症状知识库,进而构建了西医症状词库;曾露等提出将中文症状看作是一个由原子症状、连词、否定词等16种构成元素中的一个或多个所组成的构成序列,并利用条件随机场模型实现对症状构成序列的自动标注。但这些研究均是针对西医症状进行标注,由于中医症状与西医症状之间存在差异,无法直接使用到中医症状标注中。王国龙等针对中医诊断古文进行了词性标注与特征重组研究,将中医诊断古文分为症状部位、症状表现、中医专有名词、时机、属性、附加描述、标点符号和无用信息,但中医古文行文简练、多省略,且以单音词居多,难以应用到实际中医临床研究中。且上述研究没有参照标准文件对症状构成元素进行分类,存在较强的主观性,较难得到广泛认可与统一。
发明内容
本发明主要目的在于针对上述技术缺陷,提供一种基于相应标准文件对中医临床症状进行知识属性系统性标注并抽取的中医临床科研知识智能提取方法及系统。
本发明所采用的技术方案是:
提供一种中医临床科研知识智能提取方法,其特征在于,包括以下步骤:
S1、利用中医临床各科名词构建原始症状语料数据库;
S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并标注,具体为:
用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;
用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
S3、构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;
S4、构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;
S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;
S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。
接上述技术方案,知识属性分类体系与标注规范包括15类骨干实体和23类属性实体,其中骨干实体包括骨干症状GA、寒热情况GB、病理声音情况GC、情志情况GD、排出物GE、机体活动类GF、体位情况GG、身体机能类GH、异常形体GI、皮肤专科GJ、妇科专科GK、男科专科GL、肛肠专科GM、五官专科CN、儿科专科GP;属性实体包括性质A、人群B、颜色描述C、光泽D、浮沉情况E、发作情况F、发作缓急G、次数描述H、量情况I、时间描述J、部位K、方位L、程度S、改变情况T、气味情况U、形态情况V、分布情况W、质地X、排泄情况Y、伴随产物Z、影响因素ZZ、获取方式HQFS、否定词NEG。
接上述技术方案,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔。
接上述技术方案,每个症状语料由两个标注者独立标注,在一个标注者标注完成后,另一标注者进行二次标注,当两者标注不一致和不确定时经过讨论找出解决方案,并进行修改,形成最终标注版本。
接上述技术方案,不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
接上述技术方案,一级标识符为“{}”,二级标识符为“<>”,连接符为“:”。
接上述技术方案,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号为“:”。
本发明还提供一种中医临床科研知识智能提取系统,包括:
语料库构建模块,用于利用中医临床各科名词构建原始症状语料数据库;并根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行一级标注和二级标注,具体用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
语料标注模块,用于预先构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;并用于将待标注的症状语料通过训练好的语料标注模型进行分类标注,输出标注好的症状语料;
知识属性识别模块,用于预先构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;并用于将语料标注模块输出的标注好的症状语料通过训练好的知识属性识别模型进行识别,识别出骨干实体和属性实体,生成知识属性识别结果。
接上述技术方案,该系统还包括更新模块,用于不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
本发明还提供一种计算机存储介质,其内存储可被处理器执行的计算机程序,该计算机程序执行上述技术方案所述的中医临床科研知识智能提取方法。
本发明产生的有益效果是:本发明通过构建原始症状语料数据库,并构建标注体系,在预先确立的知识属性分类体系与标注规范的基础之上将原始症状语料进行一级症状实体标注以及二级知识属性标注;在原始症状语料库的基础之上构建两级神经网络学习模型,其中一个模型用于对语料进行标注,另一个模型对标注好的语料进行知识属性识别,从而为中医临床提供了一种统一且标准的知识智能提取方法,完成中医临床数据知识自动编码,将中医临床数据进行知识化,使中医临床症状隐性知识显性化,实现中医临床症状知识的完整表达,提高中医临床大数据分析的效率,为中医临床科研一体化以及症状知识的深度利用和相关知识库的构建奠定基础,更好地服务于临床诊疗过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中医临床科研知识智能提取方法的流程图;
图2是本发明实施了扩展后的知识属性分类图;
图3是本发明实施例中医电子病历知识属性抽取结果的知识图谱示例;
图4是本发明实施例中医临床科研知识智能提取系统的结构示意图;
图5是本发明实施例中医临床科研知识智能提取系统的另一结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,该实施例中医临床科研知识智能提取方法包括以下步骤:
S1、利用中医临床各科名词构建原始症状语料数据库;
S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并标注,具体为:
用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;
用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
S3、构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;
S4、构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;
S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;
S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。
该实施例中,知识属性分类体系与标注规范包括15类骨干实体和23类属性实体,其中骨干实体包括骨干症状GA、寒热情况GB、病理声音情况GC、情志情况GD、排出物GE、机体活动类GF、体位情况GG、身体机能类GH、异常形体GI、皮肤专科GJ、妇科专科GK、男科专科GL、肛肠专科GM、五官专科CN、儿科专科GP;属性实体包括性质A、人群B、颜色描述C、光泽D、浮沉情况E、发作情况F、发作缓急G、次数描述H、量情况I、时间描述J、部位K、方位L、程度S、改变情况T、气味情况U、形态情况V、分布情况W、质地X、排泄情况Y、伴随产物Z、影响因素ZZ、获取方式HQFS、否定词NEG。
标注过程中,可将二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔。
标识符可以自定义,本实施例中,一级标识符为“{}”,二级标识符为“<>”,连接符为“:”。二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号为“:”。
每个症状语料可由两个标注者独立标注,在一个标注者标注完成后,另一标注者进行二次标注,当两者标注不一致和不确定时经过讨论找出解决方案,并进行修改,形成最终标注版本。
为了进一步完善,可以不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
如:
原文本:壮热口渴,痰壅气粗,烦躁不安,甚至神昏谵语。
将原文本输入语料标注模型进行标注,包括:
一级标注(症状实体标注):{壮热}{口渴},{痰壅}{气粗},{烦躁不安},甚至{神昏}{谵语}。
二级标注(知识属性标注):{<GB:壮热>}{<KA:口><GA:渴-干>},{<GE:痰><I:壅-壅盛>}{<GC:气粗>},{<GD:烦躁>不安},甚至{<GD:神昏>}{<GC:谵语-谵言>}
将标注结果输入知识属性识别模型,得到症状识别结果:
壮热;口渴;痰壅;气粗;烦躁不安;神昏;谵语
最终所得知识属性识别结果,如下表1所示:
表1识别结果
本发明通过构建原始症状语料数据库,并构建标注体系,在预先确立的知识属性分类体系与标注规范的基础之上将原始症状语料进行一级症状实体标注以及二级知识属性标注;在原始症状语料库的基础之上构建两级神经网络学习模型,其中一个模型用于对语料进行标注,另一个模型对标注好的语料进行知识属性识别,从而为中医临床提供了一种统一且标准的知识智能提取方法,更好地服务于临床诊疗过程。
实施例2
该实施例基于实施例1,区别在于原始语料库的建立和标注规范。
该实施例以现有的各种中医书籍为基础,涉及了全面的临床分科,将其作为症状知识属性标注的数据源,并录入Excel,构建原始症状语料数据库。同时,在可参考的各个标准基础之上结合临床症状知识属性标注要求和医学专家指导对属性进行扩展,并将其作为症状知识属性标注规范,扩展后的知识属性分类如图2所示,将知识属性分为两大类,分别为骨干实体和属性实体,包括15类骨干实体和23类属性实体。
本实施例中,对原始症状语料进行整理标注,其方法为:首先用{}标识出一个症状实体,症状实体中包括知识属性,知识属性又包含了骨干实体和属性实体,其中骨干实体为必要知识属性,在症状知识属性标注规范中确定对应的骨干实体与属性实体,用“<>”标识属性实体,用知识属性分类中相应的字母对分别对属性实体进行分类标注,当原文出现的词与症状知识属性标注规范中的标准词不匹配时,使用“-”后接“标准词”来进行特殊标识。标注方法示例如下:
原文:在急危重症中,以大汗淋漓,汗出如油,精神疲惫,四肢厥冷,气短息微,舌卷少津,脉微欲绝,或脉大无力等为常见症的液脱证候。标注文:在急危重症中,以{symptom:汗异常-问汗出;大汗<J:淋漓-量多>},{symptom:汗异常-问汗出;汗出如油},{symptom:少神-望神;精神疲惫},{symptom:怕冷-问寒热;<A:四肢><C:厥冷-逆冷>},{symptom:呼吸微弱-呼吸异常;气短息微},{SZ:舌卷}{ST:少津},{MZ:脉微欲绝},或{MZ:脉大无力}等为常见症的液脱证候。对《中医药学名词》中的症状描述进行标注,部分症状标注如表1所示。
表2标注示例
为了确保标注的准确性,通过分析基础语料文本以及中医临床症状信息的特点,在相关医学专家的指导下,确立分类体系与标注规范,并基于《中医临床基本症状信息分类与代码》进行属性扩展,制定症状知识属性标注规范,构建原始中医症状语料数据库。将每个文本由A、B两个标注者独立标注,在A标注完成后,B进行二次标注,当A、B标注不一致和不确定时应经过讨论找出解决方案,再由A进行修改,形成最终标注版本。在此过程中,不断地对中医症状语料库进行标注更新,同时不断修订、完善标注规范,使其更加科学合理和易于操作,最终构建的中医症状语料库包含了7154个症状实体。
实施例3
该实施例基于实施例1,区别在于本实施例给出了具体的知识属性识别模型构建。本发明中识别知识属性分为两步,第一步识别症状、第二步识别症状中的属性。
对知识属性进行识别的基础是对症状实体进行识别,若要对知识属性进行识别,首先需要确定症状实体,对症状实体进行识别后,再对症状实体中包含的知识属性进行识别,其中知识属性包括骨干实体和属性实体。
本发明中知识属性识别的过程中两步用到的模型均是BERT-BiLSTM-CRF模型。该模型的选择是基于多个模型的比较结果而决定。
以构建的中医症状语料库作为基础语料,对构建的多个模型进行性能比较,遴选适合抽取症状实体以及知识属性的模型。在抽取模型遴选的过程中,使用神经学习网络模型BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF进行结果对比实验。
针对识别任务,采用机器学习算法中常用的三个指标,与国内外通行的指标一致,即精确率(Precision,P)、召回率(Recall,R)和F值(F1-score,F1),实验中将这三个指标作为模型识别性能的客观评价。其中TP表示把正例预测为正例的数目;TN表示把反例预测为反例的数目;FP表示把反例预测为正例的数目;FN表示把正例预测为反例的数目。
(1)精确率:是相对于预测结果而言的,表示正确预测为正例的样本占全部预测为正例的样本的比例。
(2)召回率:是相对原始样本而言的,表示正确预测为正例的样本占全部实际为正例的样本的比例。
(3)F1值:综合了Precision与Recall的产出的结果,可以看作是精确度和召回率的调和均值,范围在0到1之间。
由评价指标的定义可知,虽然精确率和召回率之间没有一定的关联,但是在大规模数据集中,两个评价指标互相牵制,而F1值则是融合了两者之间的一种新的度量方法,作为综合精确率和召回率的评估指标,反映了整体水平。
在模型遴选的实验过程中将每个数据集中的样本随机分为训练集、验证集和测试集,比例为6:2:2。
对症状实体进行识别时,使用BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF模型进行训练。结果如表3所示。当选取BERT-BiLSTM-CRF模型进行实体识别时,F1值最高,达到88.34%,相比BiLSTM-CRF、BERT、IDCNN-CRF模型分别提高了2.61%、0.75%、0.36%,因此选用BERT-BiLSTM-CRF模型对症状实体进行识别。
表3症状实体识别结果
在对知识属性的识别中,使用BiLSTM-CRF、BERT、IDCNN-CRF和BERT-BiLSTM-CRF模型进行训练。结果如表4所示。
表4知识属性识别结果
由表4数据可以看出,当选取BERT-BiLSTM-CRF模型识别知识属性时,F1值最高,相比BiLSTM-CRF、BERT、IDCNN-CRF模型分别提高了20.68%、5.06%、1.86%。因此,选用BERT-BiLSTM-CRF模型对知识属性进行识别。
将BERT-BiLSTM-CRF模型运用至中医医案、中医电子病历以及中医文献摘要抽取中发现其结果相较其他模型而言更好,对部分电子病历进行知识属性抽取,并以知识图谱方式对结果进行展示如图3所示。
实施例4
该实施例基于上述方法实施例,主要用于通过系统的方式实现方法实施例。
如图4所示,该实施例的中医临床科研知识智能提取系统,包括:
语料库构建模块,用于利用中医临床各科名词构建原始症状语料数据库;并根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行一级标注和二级标注,具体用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
语料标注模块,用于预先构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;并用于将待标注的症状语料通过训练好的语料标注模型进行分类标注,输出标注好的症状语料;
知识属性识别模块,用于预先构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;并用于将语料标注模块输出的标注好的症状语料通过训练好的知识属性识别模型进行识别,识别出骨干实体和属性实体,生成知识属性识别结果。
进一步地,如图5所示,该系统还包括更新模块,用于不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
各个模块均是用于具体实现上述方法实施例的步骤,在此不赘述。
实施例5
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质被处理器执行时实现方法实施例的中医临床科研知识智能提取方法。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种中医临床科研知识智能提取方法,其特征在于,包括以下步骤:
S1、利用中医临床各科名词构建原始症状语料数据库;
S2、根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行提取并标注,具体为:
用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,且每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;
用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔;当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
S3、构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;
S4、构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;
S5、将待标注的症状语料输入训练好的语料标注模型中,对该待标注的症状语料进行分类标注,输出标注好的症状语料;
S6、将标注好的症状语料输入训练好的知识属性识别模型中,识别出骨干实体和属性实体,生成知识属性识别结果。
2.根据权利要求1所述的中医临床科研知识智能提取方法,其特征在于,知识属性分类体系与标注规范包括15类骨干实体和23类属性实体,其中骨干实体包括骨干症状GA、寒热情况GB、病理声音情况GC、情志情况GD、排出物GE、机体活动类GF、体位情况GG、身体机能类GH、异常形体GI、皮肤专科GJ、妇科专科GK、男科专科GL、肛肠专科GM、五官专科CN、儿科专科GP;属性实体包括性质A、人群B、颜色描述C、光泽D、浮沉情况E、发作情况F、发作缓急G、次数描述H、量情况I、时间描述J、部位K、方位L、程度S、改变情况T、气味情况U、形态情况V、分布情况W、质地X、排泄情况Y、伴随产物Z、影响因素ZZ、获取方式HQFS、否定词NEG。
3.根据权利要求1所述的中医临床科研知识智能提取方法,其特征在于,每个症状语料由两个标注者独立标注,在一个标注者标注完成后,另一标注者进行二次标注,当两者标注不一致和不确定时经过讨论找出解决方案,并进行修改,形成最终标注版本。
4.根据权利要求1所述的中医临床科研知识智能提取方法,其特征在于,不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
5.根据权利要求1所述的中医临床科研知识智能提取方法,其特征在于,一级标识符为“{}”,二级标识符为“<>”,连接符为“:”。
6.根据权利要求1所述的中医临床科研知识智能提取方法,其特征在于,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号为“:”。
7.一种中医临床科研知识智能提取系统,其特征在于,包括:
语料库构建模块,用于利用中医临床各科名词构建原始症状语料数据库;并根据预先确立的知识属性分类体系与标注规范对原始症状语料数据库中的原始症状语料进行一级标注和二级标注,具体用一级标识符依次标识出原始症状语料中每一句症状描述中的症状实体,每个症状实体中包含至少一个骨干实体,或者每个症状实体中包含至少一个骨干实体和一个属性实体;用二级标识符标识每一个骨干实体或属性实体,该二级标识符中具体用知识属性分类中相应的字母对骨干实体或属性实体进行分类标注,该二级标识符中知识属性分类中相应的字母与骨干实体或属性实体之间用指定的符号进行区隔;当原始症状语料中出现的词与症状知识属性标注规范中的标准词不匹配时,使用连接符后接知识属性分类体系与标注规范中的标准词的方式来进行特殊标识;
语料标注模块,用于预先构建语料标注模型,通过标注好的原始症状语料数据库对语料标注模型进行训练并不断改进模型,得到训练好的语料标注模型;并用于将待标注的症状语料通过训练好的语料标注模型进行分类标注,输出标注好的症状语料;
知识属性识别模块,用于预先构建知识属性识别模型,通过标注好的原始症状语料数据库作为训练样本并不断改进模型,以识别出一级标识符和二级标识符,最终识别出骨干实体和属性实体,得到训练好的知识属性识别模型;并用于将语料标注模块输出的标注好的症状语料通过训练好的知识属性识别模型进行识别,识别出骨干实体和属性实体,生成知识属性识别结果。
8.根据权利要求7所述的中医临床科研知识智能提取系统,其特征在于,该系统还包括更新模块,用于不断地对原始症状语料数据库进行标注更新,同时不断修订、完善知识属性分类体系与标注规范。
9.一种计算机存储介质,其特征在于,其内存储可被处理器执行的计算机程序,该计算机程序执行权利要求1-6中任一项所述的中医临床科研知识智能提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311131197.8A CN117198547B (zh) | 2023-09-01 | 2023-09-01 | 中医临床科研知识智能提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311131197.8A CN117198547B (zh) | 2023-09-01 | 2023-09-01 | 中医临床科研知识智能提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117198547A CN117198547A (zh) | 2023-12-08 |
CN117198547B true CN117198547B (zh) | 2024-04-30 |
Family
ID=89004593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311131197.8A Active CN117198547B (zh) | 2023-09-01 | 2023-09-01 | 中医临床科研知识智能提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117198547B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110335676A (zh) * | 2019-07-09 | 2019-10-15 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN110931128A (zh) * | 2019-12-05 | 2020-03-27 | 中国科学院自动化研究所 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
CN111611398A (zh) * | 2020-04-02 | 2020-09-01 | 中南大学 | 一种基于知识图谱的临床表现联想方法、装置、设备及介质 |
CN112015917A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于知识图谱的数据处理方法、装置及计算机设备 |
CN114139531A (zh) * | 2021-11-30 | 2022-03-04 | 哈尔滨理工大学 | 一种基于深度学习的医疗实体预测方法及系统 |
CN114372154A (zh) * | 2022-01-11 | 2022-04-19 | 江苏曼荼罗软件股份有限公司 | 一种基于知识图谱的预导诊及分诊技术方法 |
CN116467446A (zh) * | 2023-04-12 | 2023-07-21 | 平安科技(深圳)有限公司 | 医疗实体关系识别模型训练方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210005329A1 (en) * | 2019-07-01 | 2021-01-07 | International Business Machines Corporation | Seriousness Cognitive Service for Pharmacovigilence |
-
2023
- 2023-09-01 CN CN202311131197.8A patent/CN117198547B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480131A (zh) * | 2017-07-25 | 2017-12-15 | 李姣 | 中文电子病历症状语义提取方法及其系统 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110335676A (zh) * | 2019-07-09 | 2019-10-15 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN110931128A (zh) * | 2019-12-05 | 2020-03-27 | 中国科学院自动化研究所 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
CN111611398A (zh) * | 2020-04-02 | 2020-09-01 | 中南大学 | 一种基于知识图谱的临床表现联想方法、装置、设备及介质 |
CN112015917A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于知识图谱的数据处理方法、装置及计算机设备 |
CN114139531A (zh) * | 2021-11-30 | 2022-03-04 | 哈尔滨理工大学 | 一种基于深度学习的医疗实体预测方法及系统 |
CN114372154A (zh) * | 2022-01-11 | 2022-04-19 | 江苏曼荼罗软件股份有限公司 | 一种基于知识图谱的预导诊及分诊技术方法 |
CN116467446A (zh) * | 2023-04-12 | 2023-07-21 | 平安科技(深圳)有限公司 | 医疗实体关系识别模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117198547A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN109684448B (zh) | 一种智能问答方法 | |
Popovski et al. | A survey of named-entity recognition methods for food information extraction | |
Zirn et al. | Multidimensional topic analysis in political texts | |
CN108280149A (zh) | 一种基于多维度分类标签的医患纠纷类案件推荐方法 | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
US20200234801A1 (en) | Methods and systems for healthcare clinical trials | |
Wang et al. | A framework and its empirical study of automatic diagnosis of traditional Chinese medicine utilizing raw free-text clinical records | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
CN113806493A (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
Xu | Bootstrapping relation extraction from semantic seeds | |
Falissard et al. | Neural translation and automated recognition of ICD-10 medical entities from natural language: Model development and performance assessment | |
Li et al. | Improved technology similarity measurement in the medical field based on subject-action-object semantic structure: a case study of Alzheimer's disease | |
Mehler et al. | The Frankfurt Latin Lexicon: From morphological expansion and word embeddings to semiographs | |
WO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
Nentidis et al. | Overview of BioASQ 8a and 8b: Results of the Eighth Edition of the BioASQ Tasks a and b. | |
Li et al. | Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records | |
Amato et al. | A lexicon-grammar based methodology for ontology population for e-health applications | |
CN117198547B (zh) | 中医临床科研知识智能提取方法及系统 | |
Braunschweig | Recovering the semantics of tabular web data | |
Bettouche et al. | Mapping researcher activity based on publication data by means of transformers | |
DeVille et al. | Text as Data: Computational Methods of Understanding Written Expression Using SAS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |