CN114817386A - 一种结构化医疗数据生成方法及装置 - Google Patents
一种结构化医疗数据生成方法及装置 Download PDFInfo
- Publication number
- CN114817386A CN114817386A CN202210346488.8A CN202210346488A CN114817386A CN 114817386 A CN114817386 A CN 114817386A CN 202210346488 A CN202210346488 A CN 202210346488A CN 114817386 A CN114817386 A CN 114817386A
- Authority
- CN
- China
- Prior art keywords
- medical
- named entities
- text
- entity
- medical named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000004405 cytokine-induced killer cell Anatomy 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开是关于一种结构化医疗数据生成方法及装置,该方法包括:接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。该方法通过结合医疗命名实体以及医疗命名实体之间的逻辑关系生成结构化医疗数据,实现对海量医疗文本进行数据结构化,提高了处理速度,同时提高了准确率。
Description
交叉引用
本案是以母案的申请号为:201610862821.5,申请日为:2016年09月28日,发明名称为:一种结构化医疗数据生成方法及装置的分案申请。
技术领域
本公开涉及医疗文本的自然语言处理技术领域,具体而言,涉及一种结构化医疗数据生成方法以及一种结构化医疗数据生成装置。
背景技术
医疗数据主要包含患者的病历、医嘱、护理文书、检查所见、检查结论等,这些数据反映了患者的基本信息、临床诊断、治疗过程和结果;随着医疗系统信息化建立和完善,越来越多的医疗数据由人工记录的方式转为电子化录入,对于病历、医嘱、护理文书、检查报告等临床信息主要由医疗人员通过自然语言的方式书写而成,信息结构较为复杂,如何对大量这些信息进行处理、分析和挖掘是医疗信息化建设的一个重要问题。
医疗文本结构化是一个文本信息提取和转换(或编码)的过程,具体来说,是自动化地将非结构化的自然语言信息转化为计算机能够“理解”和方便处理的数据结构;所得结构化数据可用于信息检索、相识病历的发现、患者信息管理、医疗数据的深度分析等。
传统的医疗文本结构化处理方法,大都依赖于医疗从业人员凭借经验对病理报告的文本内容进行人工处理,其过程实质上是依靠医疗人员的医疗知识,以人工的方式提取出包含在病理文本数据中的标本及其各指标的值。但是,这种人工处理的方式不仅耗时耗力,而且正确率难以得到保证。此外,也有一些研究人员尝试通过传统自然语言处理等手段进行结构化处理。但医疗文本信息的写作方式与通常的书写文本有很大的不同,常常没有特定的主谓或主谓宾等结构,很难通过句法分析方式处理。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种结构化医疗数据生成方法以及一种结构化医疗数据生成装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种结构化医疗数据生成方法,包括:
接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;
基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
在本公开的一种示例性实施例中,根据隐式马尔科夫模型对所述待处理医疗文本进行分词。
在本公开的一种示例性实施例中,从所述多个词语中识别出多个第二医疗命名实体包括:
基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体;以及,
基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。
在本公开的一种示例性实施例中,建立所述多个第二医疗命名实体之间的逻辑关系包括:
基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系;
在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。
在本公开的一种示例性实施例中,结合自然语言实体关系确认所述逻辑关系是否确实存在包括:
基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。
根据本公开的另一个方面,提供一种结构化医疗数据生成装置,包括:
文本接收模块:用于接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
实体识别模块:用于结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;
关系识别模块:用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
数据生成模块:用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
在本公开的一种示例性实施例中,根据隐式马尔科夫模型对所述待处理医疗文本进行分词。
在本公开的一种示例性实施例中,从所述多个词语中识别出多个第二医疗命名实体包括:
基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体;以及,
基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。
在本公开的一种示例性实施例中,建立所述多个第二医疗命名实体之间的逻辑关系包括:
基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系;
在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。
在本公开的一种示例性实施例中,结合自然语言实体关系确认所述逻辑关系是否确实存在包括:
基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。
本公开的结构化医疗数据生成方法及装置,通过结合医疗命名实体以及疗命名实体之间的逻辑关系可以基于医疗文本自动生成结构化医疗数据。相比于现有技术而言,实现对海量医疗文本进行数据结构化,提高了处理速度,同时提高了准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种结构化医疗数据生成方法的流程图。
图2示意性示出本公开示例性实施例中实体识别的步骤。
图3示意性示出本公开示例性实施例中关系识别的步骤。
图4示意性示出本公开示例性实施例中另一种结构化医疗数据生成方法的流程图。
图5示意性示出本公开示例性实施例中一种结构化医疗数据生成装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了一种结构化医疗数据生成方法。参考图1所示,所诉结构化医疗数据生成方法可以包括以下步骤:
步骤S110.接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
步骤S120.结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;
步骤S130.基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
步骤S140.结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
本示例实施方式中的结构化医疗数据生成方法,通过结合医疗命名实体以及疗命名实体之间的逻辑关系可以基于医疗文本自动生成结构化医疗数据。相比于现有技术而言,实现对海量医疗文本进行数据结构化,提高了处理速度,同时提高了准确率。
下面,将对本示例实施方式中结构化医疗数据生成方法的各个步骤进行进一步的详细说明。
在步骤S110中,接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语。
在本技术领域中,分词是指将连续的字序列根据一定的规范重新组合成词序列的过程。举例而言,本示例实施方式中可以结合已知医疗命名实体和常规文本常规词频,根据隐式马尔科夫模型(Hidden Markov Model,HMM)进行分词。其中,隐式马尔科夫模型(Hidden Markov Model,HMM)是一个统计模型,可以用来描述一个含有隐含未知参数的马尔可夫过程,然后利用这些参数来作进一步分析。但容易理解的是,在本公开的其他示例性实施例中,也可以采用其他方式进行分词,本示例性实施例中对此不做特殊限定。
本示例实施方式中,上述已知医疗命名实体可以来自一医疗知识图谱。医疗知识图谱是一个根据实际结构化需要维护的医疗知识数据库,本示例实施方式中,医疗知识图谱可以包括医疗命名实体词表和医疗命名实体分类间关系逻辑表,可以理解为根据实际医学知识抽象出来的知识集合;医疗命名实体词表由医疗命名实体和所对应分类组成,比如医疗命名实体可以为发热(分类为表现),其作用在于召回文本中医疗命名实体;医疗命名实体间关系逻辑表通过医疗命名实体间关系构成,其作用在于召回文本中医疗命名实体中潜在的逻辑关系,比如可以为头部(分类为解剖部位)和发热(分类为表现)存在逻辑关系等。本示例实施方式中,医疗知识图谱可以通过医疗人员通过医疗用语词典结合挖掘实际文本产生。
在步骤S120中,结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体。参考图2所示,本示例实施方式中步骤S120例如可以包括下述步骤S122~S124。其中:
在步骤S122中,基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体。举例而言,比如分词得出的结果可能包括:老人、儿童、68岁、女性、没有、哮喘、血压、血糖、咳嗽、肺癌、糖尿病等等,可以直接根据医疗知识图谱中的词进行精确匹配。
在步骤S124中,基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。举例而言,比如分词得出的结果包括:日期、药物剂量等,则可以通过模糊匹配方式进行匹配。模糊匹配的方式可以包括:通过正则表达式的方式对文本中出现的模式进行识别,比如出现了日期为2010年12月11日的分词结果,则可以通过(\d+年\d+月\d+日)正则表达式进行识别,但本公开不以此为限。此外,在本公开的其他示例性实施例中,也可以根据情况以其他方式进行匹配,本示例性实施例中对此不做特殊限定。
在步骤S130中,基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系。参考图3所示,本示例实施方式中步骤S130例如可以包括下述步骤S132~S134。其中:
在步骤S132中,基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系。
上述关系的建立主要通过医学人员根据医学知识建立,比如化疗方案对应药物、化疗方案发生的时间之间是否可能存在逻辑关系,但本公开不以此为限。此外,在本公开的其他示例性实施例中,也可以根据情况以其他方式判断所述逻辑关系是否存在,本示例性实施例中对此不做特殊限定。
在步骤S134中,在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。
比如,在一份医疗文本中,具体的文本内容为:2015-12-11复查PET-CT未见病情进展、2016-01-16行CIK细胞免疫治疗1程;其中,实体2015-12-11、实体2016-01-16和实体CIK细胞免疫治疗都存在潜在关系,但是只有2016-01-16才是真实修饰词。但本领域技术人员容易理解的是,在本公开的其他示例性实施例中,也可以采用其他方式判断所述逻辑关系是否确实存在,本示例实施方式中对此不做特殊限定。
在步骤S140中,结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
在步骤S130中,产生的结果是一个完全结构化结果,而实际需求可能需要的是更为通用的数据结构,比如可以是:csv格式或者json格式,但是本公开不以此为限,用户可以根据需求自行选择;本公开同时也根据实际不同需要设计了不同的数据抽取模块。
本公开的结构化医疗数据生成方法及装置,通过结合医疗命名实体以及疗命名实体之间的逻辑关系生成结构化医疗数据,实现对海量医疗文本进行数据结构化,提高了处理速度,同时提高了准确率。
在本公开的另一些实施例中,上述结合自然语言实体关系确认所述逻辑关系是否确实存在包括:基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在,但本公开不以此为限。此外,在本公开的其他示例性实施例中,也可以根据情况以其他方式确认所述逻辑关系是否确实存在,本示例性实施例中对此不做特殊限定。
在本公开的一些实施例中,上述条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式。
在本公开的另一些实施例中,参考图4所示,公开了另一种结构化医疗数据生成方法,包括步骤S410~S440,其中:
在步骤S410中,接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语。
上述步骤和步骤S110相同,因此不再赘述。
在步骤S420中,通过医疗知识图谱中医学用词语表,对医疗文本中医疗实体进行召回。
分词完成后,根据医疗命名实体词表中分类进行对医疗命名实体词表中出现的词进行召回;对于无法通过词表中精确完整定义的实体,通过模糊匹配的方式进行召回。
在步骤S430中,通过医疗知识图谱中医学用词语表中实体间规则策略,对已召回的实体之间存在的逻辑关系进行召回。
本步骤包括如下两个步骤:首先,通过医疗知识图谱中主体分类间逻辑关系来确定已召回实体间可能存在的逻辑关系;其次,在召回主体间可能存在关系之后,需要根据文本语义关系来判断上述逻辑关系是否确实存在。
在步骤S440中,根据实际需要,通过实体以及实体间召回的关系,进行特征提取,满足实际中检索、对比、分析等需求。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
本示例实施方式中还提供了一种结构化医疗数据生成装置,该结构化医疗数据生成装置是一种基于医疗知识图谱化的装置,实现对海量医疗文本进行数据结构化。参考图5所示,所述结构化医疗数据生成装置可以包括:文本接收模块510、实体识别模块520、关系识别模块530以及数据生成模块540;其中:
文本接收模块510可以用于接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
实体识别模块520可以用于结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;
关系识别模块530可以用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
数据生成模块540可以用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
在本公开的另一些实施例中,根据隐式马尔科夫模型对所述待处理医疗文本进行分词。
在本公开的另一些实施例中,从所述多个词语中识别出多个第二医疗命名实体包括:
基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体;以及,
基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。
在本公开的另一些实施例中,建立所述多个第二医疗命名实体之间的逻辑关系包括:
基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系;
在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。
在本公开的另一些实施例中,结合自然语言实体关系确认所述逻辑关系是否确实存在包括:
基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。
由于本公开实施方式的结构化医疗数据生成装置的各个功能模块与上述方法发明实施方式中相同,因此在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种结构化医疗数据生成方法,其特征在于,包括:
接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
结合多个第一医疗命名实体从所述多个词语中识别多个第二医疗命名实体;
基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
2.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,根据隐式马尔科夫模型对所述待处理医疗文本进行分词。
3.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,从所述多个词语中识别出多个第二医疗命名实体包括:
基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体;以及
基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。
4.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,建立所述多个第二医疗命名实体之间的逻辑关系包括:
基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系;
在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。
5.根据权利要求4所述的结构化医疗数据生成方法,其特征在于,结合自然语言实体关系确认所述逻辑关系是否确实存在包括:
基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。
6.根据权利要求3所述的结构化医疗数据生成方法,其特征在于,所述预设规则包括正则表达式。
7.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,对所述待处理医疗文本进行分词,得到多个词语,包括:
结合已知医疗命名实体和常规文本常规词频对所述待处理医疗文本进行分词,得到多个词语;其中,所述已知医疗命名实体来自医疗知识图谱,所述医疗知识图谱包括医疗命名实体词表和医疗命名实体分类间关系逻辑表。
8.根据权利要求7所述的结构化医疗数据生成方法,其特征在于,所述医疗命名实体词表由医疗命名实体和所对应分类组成,用于召回文本中医疗命名实体;
所述医疗命名实体间关系逻辑表通过医疗命名实体间关系构成,用于召回文本中医疗命名实体中潜在的逻辑关系。
9.一种医疗数据特征的提取方法,其特征在于,包括:
接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
结合多个第一医疗命名实体从所述多个词语中召回多个第二医疗命名实体;
基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系,对所述多个第二医疗命名实体之间的逻辑关系进行召回;
结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系,生成所述待处理医疗文本的医疗数据特征。
10.一种结构化医疗数据生成装置,其特征在于,包括:
文本接收模块,用于接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;
实体识别模块,用于结合多个第一医疗命名实体从所述多个词语中识别多个第二医疗命名实体;
关系识别模块,用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;
数据生成模块,用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210346488.8A CN114817386A (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610862821.5A CN106407443B (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
CN202210346488.8A CN114817386A (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610862821.5A Division CN106407443B (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817386A true CN114817386A (zh) | 2022-07-29 |
Family
ID=59228272
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210346488.8A Pending CN114817386A (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
CN201610862821.5A Active CN106407443B (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610862821.5A Active CN106407443B (zh) | 2016-09-28 | 2016-09-28 | 一种结构化医疗数据生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114817386A (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919794B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
CN109284497B (zh) * | 2017-07-20 | 2021-01-12 | 京东方科技集团股份有限公司 | 用于识别自然语言的医疗文本中的医疗实体的方法和装置 |
CN107808124B (zh) * | 2017-10-09 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
EP3567605A1 (en) * | 2018-05-08 | 2019-11-13 | Siemens Healthcare GmbH | Structured report data from a medical text report |
CN109522552B (zh) * | 2018-11-09 | 2023-08-29 | 天津开心生活科技有限公司 | 一种医疗信息的归一化方法、装置、介质及电子设备 |
CN109599186B (zh) * | 2018-11-21 | 2022-10-04 | 金色熊猫有限公司 | 数据处理方法、装置及介质 |
CN109857992B (zh) * | 2018-12-29 | 2023-08-04 | 医渡云(北京)技术有限公司 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
CN112417057A (zh) * | 2019-08-20 | 2021-02-26 | 南京医渡云医学技术有限公司 | 结构化数据的生成方法、装置、可读介质和电子设备 |
CN110704632A (zh) * | 2019-08-26 | 2020-01-17 | 南京医渡云医学技术有限公司 | 临床数据的处理方法、装置、可读介质和电子设备 |
CN111091883B (zh) * | 2019-12-16 | 2023-07-04 | 东软集团股份有限公司 | 一种医疗文本处理方法、装置、存储介质及设备 |
CN113032469B (zh) * | 2019-12-24 | 2024-02-20 | 医渡云(北京)技术有限公司 | 文本结构化模型训练、医疗文本结构化方法及装置 |
CN111190902A (zh) * | 2019-12-25 | 2020-05-22 | 南京医睿科技有限公司 | 一种医疗数据的结构化方法、装置、设备及存储介质 |
CN111326262B (zh) * | 2020-03-19 | 2023-05-23 | 北京嘉和海森健康科技有限公司 | 电子病历数据中实体关系抽取方法、装置及系统 |
CN112053754A (zh) * | 2020-08-19 | 2020-12-08 | 杭州古珀医疗科技有限公司 | 基于自然语言的非结构医疗数据转结构数据系统及其方法 |
CN112614559A (zh) * | 2020-12-29 | 2021-04-06 | 苏州超云生命智能产业研究院有限公司 | 病历文本处理方法、装置、计算机设备和存储介质 |
CN112925918B (zh) * | 2021-02-26 | 2023-03-24 | 华南理工大学 | 一种基于疾病领域知识图谱的问答匹配系统 |
CN113033179B (zh) * | 2021-03-24 | 2024-05-24 | 北京百度网讯科技有限公司 | 知识获取方法、装置、电子设备及可读存储介质 |
CN114334167A (zh) * | 2021-12-31 | 2022-04-12 | 医渡云(北京)技术有限公司 | 医学数据挖掘方法及装置、存储介质、电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
US20160048655A1 (en) * | 2014-08-14 | 2016-02-18 | Accenture Global Services Limited | System for automated analysis of clinical text for pharmacovigilance |
KR20160030809A (ko) * | 2014-09-11 | 2016-03-21 | 경희대학교 산학협력단 | 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090168163A1 (en) * | 2005-11-01 | 2009-07-02 | Global Bionic Optics Pty Ltd. | Optical lens systems |
CN103955531B (zh) * | 2014-05-12 | 2017-06-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN104965992B (zh) * | 2015-07-13 | 2018-01-09 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
-
2016
- 2016-09-28 CN CN202210346488.8A patent/CN114817386A/zh active Pending
- 2016-09-28 CN CN201610862821.5A patent/CN106407443B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
US20160048655A1 (en) * | 2014-08-14 | 2016-02-18 | Accenture Global Services Limited | System for automated analysis of clinical text for pharmacovigilance |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
KR20160030809A (ko) * | 2014-09-11 | 2016-03-21 | 경희대학교 산학협력단 | 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN106407443A (zh) | 2017-02-15 |
CN106407443B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407443B (zh) | 一种结构化医疗数据生成方法及装置 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
CN111798941A (zh) | 用于生成临床查询的预测系统 | |
CN112883157B (zh) | 一种多源异构医疗数据的标准化方法及装置 | |
Hammami et al. | Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
US20210183526A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
CN109857736A (zh) | 医院异构系统的数据编码统一化方法及系统、设备、介质 | |
CN111061835B (zh) | 查询方法及装置、电子设备和计算机可读存储介质 | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
CN111460173A (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
CN110993116A (zh) | 诊疗数据提取方法及装置、电子设备、存储介质 | |
Hom et al. | Facilitating clinical research through automation: Combining optical character recognition with natural language processing | |
Malke et al. | Enhancing case capture, quality, and completeness of primary melanoma pathology records via natural language processing | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
Kefeli et al. | TCGA-Reports: A machine-readable pathology report resource for benchmarking text-based AI models | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN110853716B (zh) | 病历模板的创建方法及装置 | |
CN112183113A (zh) | 基于健康医疗大数据的保险客户名单筛选方法及装置 | |
CN111126034A (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
Gérardin et al. | Detecting automatically the layout of clinical documents to enhance the performances of downstream natural language processing | |
CN112185572B (zh) | 一种肿瘤专病数据库构建系统、方法、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |