CN111640511B - 医疗事实验证的方法、装置、电子设备及存储介质 - Google Patents
医疗事实验证的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111640511B CN111640511B CN202010473438.7A CN202010473438A CN111640511B CN 111640511 B CN111640511 B CN 111640511B CN 202010473438 A CN202010473438 A CN 202010473438A CN 111640511 B CN111640511 B CN 111640511B
- Authority
- CN
- China
- Prior art keywords
- evidence
- candidate
- target
- attribute
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims description 57
- 238000003058 natural language processing Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 201000005505 Measles Diseases 0.000 description 29
- 208000024891 symptom Diseases 0.000 description 20
- 206010000496 acne Diseases 0.000 description 19
- 206010025421 Macule Diseases 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 208000035473 Communicable disease Diseases 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 206010033733 Papule Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 241000712079 Measles morbillivirus Species 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 206010039101 Rhinorrhoea Diseases 0.000 description 2
- -1 complications Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 1
- 208000036071 Rhinorrhea Diseases 0.000 description 1
- 206010067723 Skin plaque Diseases 0.000 description 1
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 206010046851 Uveitis Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000012567 medical material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 208000010753 nasal discharge Diseases 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- NOOLISFMXDJSKH-UHFFFAOYSA-N p-menthan-3-ol Chemical compound CC(C)C1CCC(C)CC1O NOOLISFMXDJSKH-UHFFFAOYSA-N 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了医疗事实验证的方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及人工智能领域。本申请可应用于知识图谱领域。具体实现方案为:获取待验证的医疗事实和候选证据,待验证的医疗事实包括目标实体、目标属性和目标属性值;将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性;在目标属性和判定属性相同的情况下,将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度;在候选证据的相关度符合预设条件的情况下,验证待验证的医疗事实为正确。本申请有利于降低人工成本。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能领域。本申请可应用于知识图谱领域。
背景技术
现有医疗事实验证的方式主要有:一种是通过人工查找和标注的方式进行验证,该方式要求标注人员具备医疗专业知识,人本成本较高,很难处理大规模的医疗数据。还有一种是通过人工预先配置文本模板或词性模板抽取医疗文档中出现的事实,比较抽取的事实和待验证的事实以完成验证。但人工定义的规则泛化性比较差,而且同样耗费人力成本,很难处理大规模的医疗专业数据。
发明内容
为了解决现有技术中至少一个问题,本申请实施例提供一种医疗事实验证的方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供一种医疗事实验证的方法,包括:
获取待验证的医疗事实和候选证据,待验证的医疗事实包括目标实体、目标属性和目标属性值;
将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性;
在目标属性和判定属性相同的情况下,将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度;
在候选证据的相关度符合预设条件的情况下,验证待验证的医疗事实为正确。
第二方面,本申请实施例提供了一种医疗事实验证的装置,包括:
第一获取模块,用于获取待验证的医疗事实和候选证据,待验证的医疗事实包括目标实体、目标属性和目标属性值;
第一判定模块,用于将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性;
第二判定模块,用于在目标属性和判定属性相同的情况下,将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度;
第一验证模块,用于在候选证据的相关度符合预设条件的情况下,验证待验证的医疗事实为正确。
第三方面,本申请实施例提出一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中任一项的方法。
第四方面,本申请实施例提出一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行第一方面中任一的方法。
第五方面,本申请实施例提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:因为采用通过属性判定模型和相关度判定模型,依次完成了属性和相关度判定,从而在候选证据所描述的属性符合目标属性并且相关度符合条件的情况下验证医疗事实正确的技术手段,克服了现有需要人工验证导致成本高的技术问题,降低人工成本,更加适用于大规模的数据处理。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的医疗事实验证的方法的流程图一;
图2是根据本申请实施例的医疗事实验证的方法的流程图二;
图3是根据本申请实施例的属性判定模型的示意图;
图4是根据本申请实施例的相关度判定模型的示意图;
图5是根据本申请实施例的医疗事实验证的装置的结构图一;
图6是根据本申请实施例的医疗事实验证的装置的结构图二;
图7是根据本申请实施例的医疗事实验证的装置的结构图三;
图8是根据本申请实施例的医疗事实验证的装置的结构图四;
图9是根据本申请实施例的医疗事实验证的装置的结构图五;
图10是用来实现本申请实施例的医疗事实验证的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供一种医疗事实验证的方法,可以应用于电子设备中,电子设备可以具备数据处理功能,如数值计算、逻辑计算和存储数据等功能。参见图1,图1是医疗事实验证的方法的流程图,该方法包括下述步骤:
S101、获取待验证的医疗事实和候选证据,待验证的医疗事实包括目标实体、目标属性和目标属性值;
S102、将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性;
S103、在目标属性和判定属性相同的情况下,将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度;
S104、在候选证据的相关度符合预设条件的情况下,验证待验证的医疗事实为正确。
本申请实施例中,每条医疗事实可以以SPO三元组的形式进行表示,S表示实体,P表示属性,O表示属性值。以医疗事实<麻疹,症状,皮肤斑丘疹>为例,实体S为麻疹,属性P为症状,属性值O为皮肤斑丘疹。
相应的,上述步骤S101-S103的处理可以针对本次待验证的医疗事实进行处理,并且不同次可以针对不同的待验证的医疗事实进行处理:本申请中将每一次待验证的医疗事实中的实体、属性和属性值,对应称为目标实体、目标属性和目标属性值。
可选地,医疗事实中的属性可以包括临床特征、病因病理、治疗方案、推荐用药、并发症和药品作用中的至少一项。
可选地,候选证据为验证医疗事实是否正确的候选证据,候选证据可以依据待验证的医疗事实从指定的医疗数据库中检索得到。指定的医疗数据库中可以存储各类权威医疗资料,包括书籍、杂志和论文等。
本实施例可以运用于构建医疗知识图谱。在构建医疗知识图谱的过程中,通过机器抽取的方式医疗事实,例如<麻疹,症状,皮肤斑丘疹>,候选证据可以依据待验证的医疗事实在指定的医疗文档库中进行检索所得。通过步骤S101-S104提供的验证方法完成对该医疗事实进行验证,如果验证正确则正式确定该医疗事实加入医疗知识图谱中,同时还可以利用候选证据的相关度确定对应的支撑证据,有利于提高医疗图谱数据的准确性。
上述实施例中,对于待验证的医疗事实和候选证据,首先,通过属性判定模型判定候选证据所描述的目标实体和目标属性值所对应的属性,得到判定属性;如果该判定属性符合目标属性,再通过相关度判定模型对候选证据关于目标实体和目标属性值的相关度进行判定;在候选证据的相关度满足条件的情况下,验证医疗事实正确。
本申请实施例通过属性判定模型和相关度判定模型,完成了属性和相关度判定的两重判定,在候选证据所描述的属性符合目标属性并且相关度符合条件的情况下验证医疗事实正确,强化了医疗事实和候选证据的关联判断,提高了验证结果的严谨性,更加满足医疗专业数据处理的要求;并且,无需人工标注或者借助人工定义的规则,降低人工成本,更加适用于大规模的数据处理。
在一种实施方式中,参见图2,在步骤S101之前还包括:S100、根据待验证的医疗事实,在预先建立的医疗文档库中进行检索,得到与待验证的医疗事实对应的多个候选证据。
在一种实施方式中,参见图2,在步骤S102之后,方法还包括:S201、在目标属性和判定属性不相同的情况下,确定候选证据无法验证待验证的医疗事实为正确。例如,对于待验证的医疗事实为<麻疹,症状,皮肤斑丘疹>,步骤S102基于某一候选证据得到的判定属性为“治疗方案”,与目标属性“症状”不相同,此时确定该候选证据无法验证待验证的医疗事实为正确。
该实施例中经过属性判定模型判定属性不符合时,直接判定候选证据无法验证待验证的医疗事实为正确,停止当前该候选证据的验证,有效提高计算效率,尤其是在处理大规模的医疗专业数据时,可以显著提高验证效率。
在一种实施方式中,参见图3,图3为步骤S102中采用的属性判定模型的示意图,属性判定模型包括第一自然语言处理模型和第一分类器;
步骤S102将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性,包括:
将目标实体、目标属性值和候选证据输入第一自然语言处理模型,得到目标实体、目标属性值和候选证据的第一特征向量;
将第一特征向量输入第一分类器,得到判定属性。
上述实施方式中,属性判定模型采用了自然语言处理模型和分类器的结构,先对实体和属性值与候选证据进行特征提取,然后基于特征进行分类从而判定所属属性,结构简单且能够实现属性判定。
上述实施方式给出的属性判定模型的结构为一种可选方式,在它实施方式中,本领域技术人员通过其它模型的结构同样可以实现基于目标实体、目标属性值和候选证据判定属性的实施方式也在本申请实施例的保护范围内。
可选地,第一自然语言处理模型采用知识增强语义表示模型(ERNIE,enhancedrepresentation from knowledge integration)。在其它可选方式中,第一自然语言处理模型也可以选用BERT模型。
可选地,第一分类器采用Softmax分类器。选用其它分类器,同样可以实现基于自然语言处理模型处理所分析的特征向量进行分类从而确定对应的属性的实施方式,也在本申请实施例的保护范围内。
可选地,参见图3,步骤S102中采用“SO[SEP]PARA”的形式将目标实体S、目标属性值O和候选证据PARA输入属性判定模型,[SEP]为分割符。另外,图3“P CLS”表示属性P输出,“CLS”表示输出。以待验证的医疗事实<麻疹,症状,皮肤斑丘疹>,候选证据为“XXXXX”为例,以“麻疹皮肤斑丘疹[SEP]XXXXX”输入属性判定模型中,属性判定模型基于输出判定属性“症状”。
在一种实施方式中,步骤S102中采用的属性判定模型的建立方式包括:
采用第一自然语言处理模型和第一分类器构建属性判定模型,第一自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第一样本数据对构建的属性判定模型进行训练,每个第一样本数据包括正确的医疗事实和支撑证据。
在上述实施例中,采用通过医疗语料进行预训练的第一自然语言处理模型,属性判定模型的训练采用微调即可,即采用少量样本数据进行训练,大大降低对样本数据的数量要求,从而降低人工标注样本数据的成本。
在一种实施方式中,参见图4,图4为步骤S103中采用的属性判定模型的示意图,相关度判定模型包括第二自然语言处理模型、两个第二分类器、全连接层(fully connectedlayers,FC)和第三分类器;
对应的,步骤S103中将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度,包括:
将目标实体、目标属性值和候选证据输入第二自然语言处理模型,得到目标实体和候选证据的第一层特征向量以及目标属性值和候选证据的第一层特征向量;
将目标实体和候选证据的第一层特征向量以及目标属性值和候选证据的第一层特征向量分别输入两个第二分类器,得到目标实体和候选证据的第二层特征向量以及目标属性值和候选证据的第二层特征向量;
将目标实体和候选证据的第二层特征向量以及目标属性值和候选证据的第二层特征向量通过全连接层处理后输入第三分类器,得到候选证据的相关度。
上述实施方式中,在采用自然语言处理模型和分类器的基础上,将自然语言处理模型输出的数据拆分为实体与候选证据的特征向量、属性值和候选证据的特征向量,然后通过两个分类器分别单独处理后,有效加强了候选证据分别和实体与属性值之间的关联,提高了相关度的准确性。
全连接层的输出层的神经元和输入层的每个神经元都连接。因此上述实施方式采用全连接层,可以将目标实体和候选证据的第二层特征向量以及目标属性值和候选证据的第二层特征向量处理为一个列项向量,方便后续第三分类器的处理。
可选地,第二自然语言处理模型采用ERNIE模型。在其它可选方式中,第一自然语言处理模型也可以选用BERT模型。
可选地,两个第二分类器和第三分类器均可采用Softmax分类器。
可选地,参见图4,步骤S103中采用“S[SEP]O[SEP]PARA”的形式将目标实体S、目标属性值O和候选证据PARA输入相关度判定模型。以待验证的医疗事实<麻疹,症状,皮肤斑丘疹>,候选证据为“XXXXX”为例,以“麻疹[SEP]皮肤斑丘疹[SEP]XXXXX”输入相关度判定模型中。
此外,图4中“X CLS”表示X输出,X为候选证据的相关度。
在一种实施方式中,步骤S103中采用的相关度判定模型的建立方式包括:
采用第二自然语言处理模型、两个第二分类器、全连接层和第三分类器构建相关度判定模型,第二自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第二样本数据对构建的相关度判定模型进行训练,每个第二样本数据包括医疗事实、支撑证据以及医疗事实和支撑证据的相关度。
在上述实施例中,采用通过医疗语料进行预训练的第二自然语言处理模型,相关度判定模型的训练采用微调即可,即采用少量样本数据进行训练,大大降低对样本数据的数量要求,从而降低人工标注样本数据的成本。
可选地,第二样本数据可以依据现有的医疗知识库中已知SPO三元组和证据检索模块返回的结果获得。
可选地,第二样本数据中,医疗事实和支撑证据的相关度可以由人工标注所得。
在上述实施例中,采用通过医疗语料进行预训练的第二自然语言处理模型,相关度判定模型的训练采用微调即可,即采用少量样本数据进行训练,大大降低对样本数据的数量要求,从而降低人工标注样本数据的成本。
在一种示例中,步骤S103的相关度判定模型输出的候选证据的相关度可以为一数值,比如区间[0,1]的任意数。候选证据的相关度越大,候选证据的相关度越高,说明候选证据越能够支撑该医疗事实的正确,也从侧面说明该医疗事实为正确的概率越高。
相比于其它行业,医疗行业对整体数据准确率要求更加严谨和严格。因此,上述实施例给出的属性判定模型和相关度判定模型,其模型结构较为巧妙,有助于提高了验证结果的准确率,更加满足医疗行业对数据的严谨要求。而且,本申请实施例的模型,通过基础特征、设计适合的深度学习模型结构以及在大规模的标注数据上进行训练,不需要依赖人工定义的高级特征,就可以取得较高的准确率与召回率,降低了人工成本。
在一种实施方式中,步骤S104,包括:
若多个候选证据中存在至少一个候选证据的相关度大于预设阈值,则验证待验证的医疗事实为正确,并将至少一个候选证据中相关度最高的候选证据作为验证医疗事实为正确的支撑证据。
由于已经经过属性判定模型的验证,因此相关度大于预设值即可进行验证医疗事实的正确,判定简单且准确度高。同时,选取相关度最高的候选证据作为支撑证据,给出验证医疗事实正确的依据。
对于上述步骤S104,需要说明的是,如果多个候选证据中只存在一个候选证据的相关度大于预设阈值,直接将这一个相关度大于预设的候选证据认为是相关度最高的候选证据。此外,如果医疗事实只对应一个候选证据,如果候选证据的相关度大于预设阈值,则验证待验证的医疗事实为正确,并将相关度最高的候选证据作为验证医疗事实为正确的支撑证据。
在其它实施方式中,步骤S104中的预设条件还可以设置为其它条件,比如,设置为超过预设数量的候选证据的相关度大于预设阈值,预设数量的取值大于1;又比如,设置为多个候选证据中相关度大于预设阈值的候选证据的占比大于预设占比值。
在其它实施方式中,步骤S104中也可以替换为选取相关度排序在前的多个候选证据作为支撑证据,并将多个支撑证据按照相关度进行排序呈现。
在一种实施方式中,本实施例的方法还包括:若不存在有至少一个候选证据的相关度大于预设阈值,验证医疗事实为不正确。其中,不存在有至少一个候选证据的相关度大于预设阈值包括所有候选证据的相关度均小于预设阈值以及候选证据均无对应的相关度(即在步骤S102中得到的判定属性均与目标属性不相同)。
下面以一个例子详细说明上述步骤S101~步骤S104:
在步骤S101中,获取待验证的医疗事实以及候选证据,其中,
待验证的医疗事实为<麻疹,症状,皮肤斑丘疹>,
目标实体:“麻疹”,
目标属性:“症状”,
目标属性值:“皮肤斑丘疹”;
候选证据为“麻疹(measles)是由麻疹病毒(measles virus)引起的病毒感染性传染病,在我国法定的传染病中属于乙类传染病,其主要的临床表现有发热、咳嗽、流涕等卡他症状及眼结合膜炎,特征性表现为口腔麻疹粘膜斑(Koplik spots)及皮肤斑丘疹”。
在步骤S102中,将目标实体“麻疹”、目标属性值“皮肤斑丘疹”和上述候选证据输入属性判定模型,得到“麻疹”和“皮肤斑丘疹”相对应的判定属性“症状”;
具体的,可参考图3,属性判定模型包括第一自然语言处理模型和第一分类器。先通过第一自然语言处理模型提取“麻疹”、“皮肤斑丘疹”和候选证据的第一特征向量,再通过第一分类器根据第一特征向量确定判定属性为“症状”。
在步骤S103中,因为目标属性“症状”和判定属性“症状”相同,继续将目标实体“麻疹”和目标属性值“皮肤斑丘疹”输入相关度判定模型,得到上述候选证据关于目标实体“麻疹”和目标属性值“皮肤斑丘疹”的相关度,假设得到上述候选证据的相关度为0.8;
具体的,可参考图4,相关度判定模型包括第二自然语言处理模型、两个第二分类器、全连接层和第三分类器。第一,通过第二自然语言处理模型得到“麻疹”和候选证据的第一层特征向量以及“皮肤斑丘疹”和候选证据的第一层特征向量;第二,通过两个第二分类器分别根据“麻疹”和候选证据的第一层特征向量以及“皮肤斑丘疹”、候选证据的第一层特征向量对应得到“麻疹”和候选证据的第二层特征向量、“皮肤斑丘疹”和候选证据的第二层特征向量;第三,将“麻疹”和候选证据的第二层特征向量以及“皮肤斑丘疹”和候选证据的第二层特征向量通过全连接层处理后输入第三分类器,得到第三分类器输出的候选证据的相关度。
在步骤S104中,假设预设条件为相关度大于0.7,由于0.8>0.7,因此候选证据的相关度0.8符合预设条件,验证待验证的医疗事实<麻疹,症状,皮肤斑丘疹>为正确,并且,上述候选证据可以作为验证<麻疹,症状,皮肤斑丘疹>正确的支撑证据。
上述给出的是一个候选证据的验证过程的示例,对于存在多个候选证据的情况,例如存在候选证据A、候选证据B、候选证据C,同样地,通过步骤S101~步骤S104分别求解候选证据A、候选证据B、候选证据C的相关度,得到相关度依次为0.3、0.75、0.8,因为存在相关度大于0.7的候选证据,则可以验证该医疗事实成立,同时,可以选取相关度最高的候选证据C作为支撑证据。
下述为输出的医疗事实验证结果的一种示例,具体的:
“S”:麻疹,
“P”:“症状”,
“O”:“皮肤斑丘疹”,
“label”:“1”,
“evidence”:“第五节麻疹
麻疹(measles)是由麻疹病毒(measles virus)引起的病毒感染性传染病,在我国法定的传染病中属于乙类传染病,其主要的临床表现有发热、咳嗽、流涕等卡他症状及眼结合膜炎,特征性表现为口腔麻疹粘膜斑
(Koplik spots)及皮肤斑丘疹。”
其中,label表示医疗事实的验证结果,label=1表示验证正确,label=0表示验证错误;evidence表示验证医疗事实为正确的支撑证据。因此,上述示例中,对于待验证的医疗事实SPO<麻疹,症状,皮肤斑丘疹>,验证结果为正确,并从《传染病学》第8版中选取上述evidence字段,作为该医疗事实验证正确的支撑证据。
本申请实施例实现的方法,是一种基于预训练语言模型的医疗事实验证方法,有效提升在医疗数据上的事实验证的效果问题。本申请实施例所提供的方法至少具备下述一种优点:
1.通用性强,可以处理大量且广泛的医疗事实验证问题。
2.人工成本低,主要体现在两个方面:第一,对于新的事实类型、新的文档集合、新的表达方式,不需要人工重新定义抽取规则,可以依靠模型本身的泛化性给出正确结果;第二,通过预训练与微调相结合的方式建立模型,降低对标注样本的数量要求,从而可以降低人工标注样本的成本。
3.相比于通用的事实验证方法,本申请实施例能够适用于医疗事实验证,并且对数据要求较为严谨,能在医疗数据上能带来一定的效果提升。
对应的,本申请实施例还提供一种医疗事实验证的装置,该装置所包括的各个模块可以承载或设置于电子设备的硬件中,比如计算机的存储器可以承载该装置的各个模块,以供计算机的中央处理器(CPU,central processing unit)运行存储器中的各个模块。
参见图5,图5为该医疗事实验证的装置500的示意图,装置500包括:
第一获取模块501,用于获取待验证的医疗事实和候选证据,待验证的医疗事实包括目标实体、目标属性和目标属性值;
第一判定模块502,用于将目标实体、目标属性值和候选证据输入属性判定模型,得到判定属性;
第二判定模块503,用于在目标属性和判定属性相同的情况下,将目标实体、目标属性值和候选证据输入相关度判定模型,得到候选证据的相关度;
第一验证模块504,用于在候选证据的相关度符合预设条件的情况下,验证待验证的医疗事实为正确。
在一种实施方式中,参见图6,医疗事实验证的装置600还包括:第二验证模块601,用于在目标属性和判定属性不相同的情况下,确定候选证据无法验证待验证的医疗事实为正确。
在一种实施方式中,其中,属性判定模型包括第一自然语言处理模型和第一分类器;
参见图7,第一判定模块502,包括:
特征子模块701,用于将目标实体、目标属性值和候选证据输入第一自然语言处理模型,得到目标实体、目标属性值和候选证据的第一特征向量;
属性判定子模块702,用于将第一特征向量输入第一分类器,得到判定属性。
在一种实施方式中,其中,属性判定模型的建立方式包括:
采用第一自然语言处理模型和第一分类器构建属性判定模型,第一自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第一样本数据对构建的属性判定模型进行训练,每个第一样本数据包括正确的医疗事实和支撑证据。
在一种实施方式中,其中,相关度判定模型包括第二自然语言处理模型、两个第二分类器、全连接层和第三分类器;
参见图8,第二判定模块503,包括:
第一层特征子模块801,用于将目标实体、目标属性值和候选证据输入第二自然语言处理模型,得到目标实体和候选证据的第一层特征向量以及目标属性值和候选证据的第一层特征向量;
第二层特征子模块802,用于将目标实体和候选证据的第一层特征向量以及目标属性值和候选证据的第一层特征向量分别输入两个第二分类器,得到目标实体和候选证据的第二层特征向量以及目标属性值和候选证据的第二层特征向量;
相关度判定子模块803,用于将目标实体和候选证据的第二层特征向量以及目标属性值和候选证据的第二层特征向量通过全连接层处理后输入第三分类器,得到候选证据的相关度。
在一种实施方式中,其中,相关度判定模型的建立方式包括:
采用第二自然语言处理模型、两个第二分类器、全连接层和第三分类器构建相关度判定模型,第二自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第二样本数据对构建的相关度判定模型进行训练,每个第二样本数据包括医疗事实、支撑证据以及医疗事实和支撑证据的相关度。
在一种实施方式中,其中,参见图9,第一验证模块504,包括:
验证子模块901,用于若多个候选证据中存在至少一个候选证据的相关度大于预设阈值,则验证待验证的医疗事实为正确;
证据子模块902,用于将至少一个候选证据中相关度最高的候选证据作为验证医疗事实为正确的支撑证据。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图10所示,是根据本申请实施例的医疗事实验证的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的医疗事实验证的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的医疗事实验证的方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的医疗事实验证的方法对应的程序指令/模块(例如,附图5所示的第一获取模块501、第一判定模块502、第二判定模块503和第二判定模块504)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的医疗事实验证的方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据医疗事实验证的方法的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至根据医疗事实验证的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与医疗事实验证的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,采用通过属性判定模型和相关度判定模型,依次完成了属性和相关度判定,从而在候选证据所描述的属性符合目标属性并且相关度符合条件的情况下验证医疗事实正确的技术手段,克服了现有需要人工验证导致成本高的技术问题,降低人工成本,更加适用于大规模的数据处理。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (13)
1.一种医疗事实验证的方法,包括:
获取待验证的医疗事实和候选证据,所述待验证的医疗事实包括目标实体、目标属性和目标属性值;
将所述目标实体、所述目标属性值和所述候选证据输入属性判定模型,得到判定属性;
在所述目标属性和所述判定属性相同的情况下,将所述目标实体、所述目标属性值和所述候选证据输入相关度判定模型,得到所述候选证据的相关度;
在所述候选证据的相关度符合预设条件的情况下,验证所述待验证的医疗事实为正确;
所述属性判定模型包括第一自然语言处理模型和第一分类器;
所述属性判定模型的建立方式包括:
采用所述第一自然语言处理模型和所述第一分类器构建所述属性判定模型,所述第一自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第一样本数据对所述构建的属性判定模型进行训练,每个第一样本数据包括正确的医疗事实和支撑证据;
所述相关度判定模型包括第二自然语言处理模型、两个第二分类器、全连接层和第三分类器;
所述相关度判定模型的建立方式包括:
采用所述第二自然语言处理模型、所述两个第二分类器、所述全连接层和所述第三分类器构建所述相关度判定模型,所述第二自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第二样本数据对所述构建的相关度判定模型进行训练,每个第二样本数据包括医疗事实、支撑证据以及所述医疗事实和所述支撑证据的相关度。
2.根据权利要求1所述的方法,其中,所述方法还包括:在所述目标属性和所述判定属性不相同的情况下,确定所述候选证据无法验证所述待验证的医疗事实为正确。
3.根据权利要求1所述的方法,所述将所述目标实体、所述目标属性值和所述候选证据输入属性判定模型,得到判定属性,包括:
将所述目标实体、所述目标属性值和所述候选证据输入所述第一自然语言处理模型,得到所述目标实体、所述目标属性值和所述候选证据的第一特征向量;
将所述第一特征向量输入所述第一分类器,得到所述判定属性。
4.根据权利要求1所述的方法,其中,
所述将所述目标实体、所述目标属性值和所述候选证据输入相关度判定模型,得到所述候选证据的相关度,包括:
将所述目标实体、所述目标属性值和所述候选证据输入所述第二自然语言处理模型,得到所述目标实体和所述候选证据的第一层特征向量以及所述目标属性值和所述候选证据的第一层特征向量;
将所述目标实体和所述候选证据的第一层特征向量以及所述目标属性值和所述候选证据的第一层特征向量分别输入所述两个第二分类器,得到所述目标实体和所述候选证据的第二层特征向量以及所述目标属性值和所述候选证据的第二层特征向量;
将所述目标实体和所述候选证据的第二层特征向量以及所述目标属性值和所述候选证据的第二层特征向量通过所述全连接层处理后输入所述第三分类器,得到所述候选证据的相关度。
5.根据权利要求1所述的方法,其中,所述在所述候选证据的相关度符合预设条件的情况下,验证所述待验证的医疗事实为正确,包括:
若多个候选证据中存在至少一个所述候选证据的相关度大于预设阈值,则验证所述待验证的医疗事实为正确,并将所述至少一个候选证据中相关度最高的候选证据作为验证所述医疗事实为正确的支撑证据。
6.一种医疗事实验证的装置,包括:
第一获取模块,用于获取待验证的医疗事实和候选证据,所述待验证的医疗事实包括目标实体、目标属性和目标属性值;
第一判定模块,用于将所述目标实体、所述目标属性值和所述候选证据输入属性判定模型,得到判定属性;
第二判定模块,用于在所述目标属性和所述判定属性相同的情况下,将所述目标实体、所述目标属性值和所述候选证据输入相关度判定模型,得到所述候选证据的相关度;
第一验证模块,用于在所述候选证据的相关度符合预设条件的情况下,验证所述待验证的医疗事实为正确;
所述属性判定模型包括第一自然语言处理模型和第一分类器;
所述属性判定模型的建立方式包括:
采用所述第一自然语言处理模型和所述第一分类器构建所述属性判定模型,所述第一自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第一样本数据对所述构建的属性判定模型进行训练,每个第一样本数据包括正确的医疗事实和支撑证据;
所述相关度判定模型包括第二自然语言处理模型、两个第二分类器、全连接层和第三分类器;
所述相关度判定模型的建立方式包括:
采用所述第二自然语言处理模型、所述两个第二分类器、所述全连接层和所述第三分类器构建所述相关度判定模型,所述第二自然语言处理模型为基于医疗语料进行预训练得到的自然语言处理模型;
采用多个第二样本数据对所述构建的相关度判定模型进行训练,每个第二样本数据包括医疗事实、支撑证据以及所述医疗事实和所述支撑证据的相关度。
7.根据权利要求6所述的装置,其中,所述装置还包括:第二验证模块,用于在所述目标属性和所述判定属性不相同的情况下,确定所述候选证据无法验证所述待验证的医疗事实为正确。
8.根据权利要求6所述的装置,所述第一判定模块,包括:
特征子模块,用于将所述目标实体、所述目标属性值和所述候选证据输入所述第一自然语言处理模型,得到所述目标实体、所述目标属性值和所述候选证据的第一特征向量;
属性判定子模块,用于将所述第一特征向量输入所述第一分类器,得到所述判定属性。
9.根据权利要求6所述的装置,所述第二判定模块,包括:
第一层特征子模块,用于将所述目标实体、所述目标属性值和所述候选证据输入所述第二自然语言处理模型,得到所述目标实体和所述候选证据的第一层特征向量以及所述目标属性值和所述候选证据的第一层特征向量;
第二层特征子模块,用于将所述目标实体和所述候选证据的第一层特征向量以及所述目标属性值和所述候选证据的第一层特征向量分别输入所述两个第二分类器,得到所述目标实体和所述候选证据的第二层特征向量以及所述目标属性值和所述候选证据的第二层特征向量;
相关度判定子模块,用于将所述目标实体和所述候选证据的第二层特征向量以及所述目标属性值和所述候选证据的第二层特征向量通过所述全连接层处理后输入所述第三分类器,得到所述候选证据的相关度。
10.根据权利要求6所述的装置,其中,所述第一验证模块,包括:
验证子模块,用于若多个候选证据中存在至少一个所述候选证据的相关度大于预设阈值,则验证所述待验证的医疗事实为正确;
证据子模块,用于将所述至少一个候选证据中相关度最高的候选证据作为验证所述医疗事实为正确的支撑证据。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010473438.7A CN111640511B (zh) | 2020-05-29 | 2020-05-29 | 医疗事实验证的方法、装置、电子设备及存储介质 |
JP2020193010A JP7097423B2 (ja) | 2020-05-29 | 2020-11-20 | 医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム |
KR1020200160945A KR102456535B1 (ko) | 2020-05-29 | 2020-11-26 | 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
US17/132,704 US20210374576A1 (en) | 2020-05-29 | 2020-12-23 | Medical Fact Verification Method and Apparatus, Electronic Device, and Storage Medium |
EP21150084.8A EP3916738B1 (en) | 2020-05-29 | 2021-01-04 | Medical fact verification method and apparatus, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010473438.7A CN111640511B (zh) | 2020-05-29 | 2020-05-29 | 医疗事实验证的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111640511A CN111640511A (zh) | 2020-09-08 |
CN111640511B true CN111640511B (zh) | 2023-08-04 |
Family
ID=72329517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010473438.7A Active CN111640511B (zh) | 2020-05-29 | 2020-05-29 | 医疗事实验证的方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210374576A1 (zh) |
EP (1) | EP3916738B1 (zh) |
JP (1) | JP7097423B2 (zh) |
KR (1) | KR102456535B1 (zh) |
CN (1) | CN111640511B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111473433B (zh) | 2020-04-14 | 2021-12-28 | 北京小米移动软件有限公司 | 一种新风空调系统及风口调节方法 |
CN112216359B (zh) | 2020-09-29 | 2024-03-26 | 百度国际科技(深圳)有限公司 | 医疗数据校验方法、装置及电子设备 |
CN112509690B (zh) * | 2020-11-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
CN113220841B (zh) * | 2021-05-17 | 2023-11-17 | 北京百度网讯科技有限公司 | 确定鉴别信息的方法、装置、电子设备和存储介质 |
CN116383239B (zh) * | 2023-06-06 | 2023-08-15 | 中国人民解放军国防科技大学 | 一种基于混合证据的事实验证方法、系统及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777966A (zh) * | 2016-12-13 | 2017-05-31 | 天津迈沃医药技术股份有限公司 | 基于医疗信息平台的数据互动训练方法及系统 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
CN109273098A (zh) * | 2018-10-23 | 2019-01-25 | 平安科技(深圳)有限公司 | 一种基于智能决策的药品疗效预测方法和装置 |
CN109783651A (zh) * | 2019-01-29 | 2019-05-21 | 北京百度网讯科技有限公司 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
CN110263083A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 知识图谱的处理方法、装置、设备和介质 |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN110379520A (zh) * | 2019-06-18 | 2019-10-25 | 北京百度网讯科技有限公司 | 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
CN110675954A (zh) * | 2019-10-11 | 2020-01-10 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796390B2 (en) | 2006-07-03 | 2020-10-06 | 3M Innovative Properties Company | System and method for medical coding of vascular interventional radiology procedures |
US9002773B2 (en) * | 2010-09-24 | 2015-04-07 | International Business Machines Corporation | Decision-support application and system for problem solving using a question-answering system |
US10380251B2 (en) | 2016-09-09 | 2019-08-13 | International Business Machines Corporation | Mining new negation triggers dynamically based on structured and unstructured knowledge |
EP3306501A1 (en) * | 2016-10-06 | 2018-04-11 | Fujitsu Limited | A computer apparatus and method to identify healthcare resources used by a patient of a medical institution |
US10311050B2 (en) * | 2017-01-23 | 2019-06-04 | International Business Machines Corporation | Crowdsourced discovery of paths in a knowledge graph |
US20190006027A1 (en) | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
CN107391682B (zh) | 2017-07-24 | 2020-06-09 | 京东方科技集团股份有限公司 | 知识验证方法、知识验证设备以及存储介质 |
US11024424B2 (en) * | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
CN109299285A (zh) | 2018-09-11 | 2019-02-01 | 中国医学科学院医学信息研究所 | 一种药物基因组学知识图谱构建方法及系统 |
-
2020
- 2020-05-29 CN CN202010473438.7A patent/CN111640511B/zh active Active
- 2020-11-20 JP JP2020193010A patent/JP7097423B2/ja active Active
- 2020-11-26 KR KR1020200160945A patent/KR102456535B1/ko active IP Right Grant
- 2020-12-23 US US17/132,704 patent/US20210374576A1/en active Pending
-
2021
- 2021-01-04 EP EP21150084.8A patent/EP3916738B1/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN106777966A (zh) * | 2016-12-13 | 2017-05-31 | 天津迈沃医药技术股份有限公司 | 基于医疗信息平台的数据互动训练方法及系统 |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
CN109273098A (zh) * | 2018-10-23 | 2019-01-25 | 平安科技(深圳)有限公司 | 一种基于智能决策的药品疗效预测方法和装置 |
CN109783651A (zh) * | 2019-01-29 | 2019-05-21 | 北京百度网讯科技有限公司 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN110379520A (zh) * | 2019-06-18 | 2019-10-25 | 北京百度网讯科技有限公司 | 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
CN110263083A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 知识图谱的处理方法、装置、设备和介质 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
CN110675954A (zh) * | 2019-10-11 | 2020-01-10 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
张莹莹.基于知识图谱的舌像诊疗系统研究与构建.《中国优秀硕士学位论文全文数据库医药卫生科技辑》.2019,(第12期),第E056-12页. * |
Also Published As
Publication number | Publication date |
---|---|
KR20210148813A (ko) | 2021-12-08 |
CN111640511A (zh) | 2020-09-08 |
JP7097423B2 (ja) | 2022-07-07 |
JP2021190071A (ja) | 2021-12-13 |
EP3916738B1 (en) | 2024-01-31 |
EP3916738A1 (en) | 2021-12-01 |
US20210374576A1 (en) | 2021-12-02 |
KR102456535B1 (ko) | 2022-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640511B (zh) | 医疗事实验证的方法、装置、电子设备及存储介质 | |
JP7223785B2 (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
CN110517785B (zh) | 相似病例的查找方法、装置及设备 | |
CN111710412B (zh) | 诊断结果的校验方法、装置及电子设备 | |
CN112329964B (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
CN111753543A (zh) | 药物推荐方法、装置、电子设备及存储介质 | |
CN112509690B (zh) | 用于控制质量的方法、装置、设备和存储介质 | |
CN112347769B (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
CN111523596A (zh) | 目标识别模型训练方法、装置、设备以及存储介质 | |
CN111221984A (zh) | 多模态内容处理方法、装置、设备及存储介质 | |
CN111681726A (zh) | 电子病历数据的处理方法、装置、设备和介质 | |
US11847411B2 (en) | Obtaining supported decision trees from text for medical health applications | |
CN111274407B (zh) | 知识图谱中三元组置信度计算方法和装置 | |
CN112216359B (zh) | 医疗数据校验方法、装置及电子设备 | |
US20170344550A1 (en) | Cognitive Computer Assisted Attribute Acquisition Through Iterative Disclosure | |
US20230196825A1 (en) | Face key point detection method and apparatus, and electronic device | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
CN111275121B (zh) | 一种医学影像处理方法、装置和电子设备 | |
CN110991183B (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN112579750A (zh) | 相似病案的检索方法、装置、设备及存储介质 | |
CN115248890B (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN111462894B (zh) | 一种医疗冲突的检测方法、装置、电子设备及存储介质 | |
CN111785340B (zh) | 一种医疗数据处理方法、装置、设备及存储介质 | |
CN111125445B (zh) | 社区主题生成方法、装置、电子设备及存储介质 | |
CN112489790A (zh) | 关键数据确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |