CN112185572A - 一种肿瘤专病数据库构建系统、方法、电子设备和介质 - Google Patents

一种肿瘤专病数据库构建系统、方法、电子设备和介质 Download PDF

Info

Publication number
CN112185572A
CN112185572A CN202011026999.9A CN202011026999A CN112185572A CN 112185572 A CN112185572 A CN 112185572A CN 202011026999 A CN202011026999 A CN 202011026999A CN 112185572 A CN112185572 A CN 112185572A
Authority
CN
China
Prior art keywords
data
text information
text
module
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011026999.9A
Other languages
English (en)
Other versions
CN112185572B (zh
Inventor
许永超
魏博
马素芬
骆佳俊
李力行
凌少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genowis Beijing Gene Technology Co ltd
Original Assignee
Genowis Beijing Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genowis Beijing Gene Technology Co ltd filed Critical Genowis Beijing Gene Technology Co ltd
Priority to CN202011026999.9A priority Critical patent/CN112185572B/zh
Publication of CN112185572A publication Critical patent/CN112185572A/zh
Application granted granted Critical
Publication of CN112185572B publication Critical patent/CN112185572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种肿瘤专病数据库构建系统、方法、电子设备和介质,其中,该系统包括:数据拆分模块,用于将原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块;模型预测模块,用于对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与基础文本信息进行数据封装;指标归一化模块,用于得到结构化病理文本;结构化数据存储模块,用于生成肿瘤专病数据库,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。

Description

一种肿瘤专病数据库构建系统、方法、电子设备和介质
技术领域
本申请涉及文本处理领域,具体而言,涉及一种肿瘤专病数据库构建系统、方法、电子设备和介质。
背景技术
传统的医疗文本结构化方案中,基于临床数据的文本抽取,大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大,病理医生和临床医生关注的指标细节差异也很大,临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。
发明内容
本申请的目的在于提供一种肿瘤专病数据库构建系统、方法、电子设备和介质,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。
第一方面,本申请实施例提供一种肿瘤专病数据库构建系统,包括:
数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块,用于对预处理后的文本信息进行字典标注;
数据合并模块,用于对预测结果和字典标注结果进行数据合并;
数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
在一种可能的实施方式中,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
在一种可能的实施方式中,所述模型预测模块包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
在一种可能的实施方式中,所述字典标注模块包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
在一种可能的实施方式中,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
在一种可能的实施方式中,所述数据封装模块包括:
切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;
第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;
第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。
在一种可能的实施方式中,所述指标归一化模块包括:
标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;
推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
第二方面,本申请实施例提供一种肿瘤专病数据库构建方法,包括:
将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
对所述待结构化提取的文本信息进行预处理;
利用命名实体识别模型对预处理后的文本信息进行预测;
对预处理后的文本信息进行字典标注;
对预测结果和字典标注结果进行数据合并;
将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行第二方面所述方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第二方面所述方法的步骤。
本申请所提供的一种肿瘤专病数据库构建系统,包括:数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。采用本方案可以提供高度模块化的病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。并且,可以根据医院实际业务高度定制,易于落地。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种肿瘤专病数据库构建系统的模块组成示意图;
图2示出了原始肿瘤专病病理文本截图;
图3示出了结构化JSON文本截图;
图4示出了本申请实施例所提供的一种肿瘤专病数据库构建方法的流程图;
图5示出了本申请实施例所提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的医疗文本结构化方案中,基于临床数据的文本抽取,大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大,病理医生和临床医生关注的指标细节差异也很大,临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。基于此,本申请实施例提供一种肿瘤专病数据库构建系统、方法、电子设备和介质,下面进行具体说明。
请参照图1,图1为本申请实施例所提供的一种肿瘤专病数据库构建系统的模块组成示意图。如图1所示,所述系统可以包括:数据获取子系统10、数据处理子系统20和数据存储子系统30。
数据获取子系统10,用于获取原始肿瘤专病病理文本,并对原始肿瘤专病病理文本的编码方式进行识别。
具体地,数据获取子系统10从硬件上或者数据库中获取原始肿瘤专病病理文本数据,包括xlsx文本、csv文本、mysql数据库数据及其他数据格式的存储文件。数据获取子系统10同时负责对文本编码方式的判断,建议UTF-8编码。
数据处理子系统20可以包括:
数据拆分模块201,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块202,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块203,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块204,用于对预处理后的文本信息进行字典标注;
数据合并模块205,用于对预测结果和字典标注结果进行数据合并;
数据封装模块206,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块207,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本。
具体地,数据拆分模块201用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息。基础文本信息指的是不需要结构化提取的部分,可以通过指定具体的字段名称来获取,然后直接传入数据封装模块206。待结构化提取的文本信息也通过具体的字段名来获取,传入数据预处理模块202。
数据预处理模块202具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理,可以将待结构化提取的文本信息清洗为其他模块易于处理的文本信息。
原始的待结构化提取的文本信息中存在大量标点符号、特殊符号乱用的情况,以及一些噪音输入。由于书写方式及描述形式不同,数据预处理模块202需要针对不同情况进行不同的定制化处理。具体包括如下3个部分:
(1)全半角转换
例如:KI—67(+)->KI—67(+)
(2)特殊符号转换
例如:肝脏标本①见脉管癌栓。->肝脏标本1见脉管癌栓;
(3)噪音过滤
例如:(肝右叶)肝癌,建议行免疫组化,鉴别肝细胞肝癌和肝内胆管癌。->(肝右叶)肝癌。
模型预测模块203可以包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注。具体地,训练单元将历史病理文本报告作为训练数据,并按照BIOES标注模式进行标注。标注工作可以分癌种进行,并定义好需要提取的标签。返回内容为4元组:文本内容、标签、在文本中的开始位置、在文本中的结束位置。BIOES标注法中,B表示这个词处于一个实体的开始(Begin),I表示内部(inside),O表示外部(outside),E表示这个词处于一个实体的结束为止,S表示,这个词是自己就可以组成一个实体(Single)。需要说明的是,本实施例采用BIOES标注法仅仅是为了教导本领域技术人员如何实施本发明,在具体实施中,还可以采用其他命名实体标注方法,本实施例不限于此。
预测单元,用于利用命名实体识别模型(BILSTM-CRF)对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。BILSTM-CRF模型用于序列标注,其将BiLSTM和CRF结合在一起,使模型即可以像CRF一样考虑序列前后之间的关联性,又可以拥有LSTM的特征抽取及拟合能力。
模型预测模块203主要是把输入的文本数据中不同的重要信息分别打上不同的标记符号:例如:
输入:text1='(右锁骨上淋巴结)恶性淋巴瘤,淋巴结结构消失,呈结节状。结节间见纤维分隔。结节中见中-大的异型淋巴样细胞,免疫组化示Pax-5弱阳性,CD30+,MUM-1+,TIA-1+,Ki67近100%阳性。CD20、CD3、CD2、CD5、CD4、CD7、CD43、CD15、EMA、CD10、BCL-6、EBV、CD56、OCT-2、Bob-1、ALK、GB、EBER阴性,考虑为结节硬化型霍奇金淋巴瘤。';
输出:[[['右锁骨上淋巴结','lesion',1,8],['Pax-5','ihc_k',58,63],['弱阳性','ihc_v',63,66],['CD30','ihc_k',67,71],['+','ihc_v',71,72],['MUM-1','ihc_k',73,78],['+','ihc_v',78,79],['TIA-1','ihc_k',80,85],['+','ihc_v',85,86],['Ki67','ihc_k',87,91],['近100%阳性','ihc_v',91,98],['CD20','ihc_k',99,103],['CD3','ihc_k',104,107],['CD2','ihc_k',108,111],['CD5','ihc_k',112,115],['CD4','ihc_k',116,119],['CD7','ihc_k',120,123],['CD43','ihc_k',124,128],['CD15','ihc_k',129,133],['EMA','ihc_k',134,137],['CD10','ihc_k',138,142],['BCL-6','ihc_k',143,148],['EBV','ihc_k',149,152],['CD56','ihc_k',153,157],['OCT-2','ihc_k',158,163],['Bob-1','ihc_k',164,169],['ALK','ihc_k',170,173],['GB','ihc_k',174,176],['EBER','ihc_k',177,181],['阴性','ihc_v',181,183]。
字典标注模块204可以包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
字典标注模块204返回内容同样为4元组:文本内容、标签、在文本中的开始位置、在文本中的结束位置,主要解决特定字符串无法通过模型预测出来的问题,并通过构建字典来保证一定的可解释性和结果的准确性,,摆脱深度模型完全黑盒状态。
数据合并模块205具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
数据合并模块205是把预测结果和字典标注结果做融合处理,主要解决一词多义、两个词取值区间不一致等问题。数据合并模块205可以支持不同的合并策略和取值策略,当预测结果和字典标注结果有差异时,可以在预测结果上通过字典优化。数据合并模块205设计了两个接口trust(第一接口)和policy(第二接口),有如下处理方式:
(1)当trust='d',表示采纳字典结果;当trust='m',表示采纳模型结果(不存在融合推理,只相信某一方结果)。
(2)当trust='dm',且policy='a',表示aggressive,采纳字典结果和模型结果较长的那一个。
(3)当trust='dm',且policy='c',conservative,表示采纳字典结果和模型结果较短的那一个。
数据封装模块206可以包括:
切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;
第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;
第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。
数据封装模块206接收来自数据合并模块205的多个四元组内容和来自数据拆分模块201的不需要结构化的基础文本信息,并按照一定的数据嵌套和归属原则,对其进行整合并转成易于读取和存储的字典格式。数据嵌套和归属原则应结合具体的业务逻辑进行总结。例如在理想的病理报告中,一份数据应该体现病人(身份编号),报告(病理号),流程(初次诊断,整合诊断),标本(冰冻,穿刺,活检),部位(各器官解剖位置),肿瘤(多灶),样本(蜡块),检测项(各ihc,mol指标),检测方法(ihc各抗体,分子项目)等对应关系。
数据封装的具体过程如下:
(1)切分单元对数据合并模块205传入的四元组列表按照嵌套层级的对应的标签进行切分。嵌套层级的对应的标签可以是['flow','lesion'],即用标签为flow和lesion的四元组进行切分。每一段切分的结果关联一组嵌套标记。例如某段切分结果是['低级别胶质瘤','diagnosis2',9,15],其对应的切分标记有['初步诊断','flow',0,4]和['小脑','lesion',6,8]。
(2)第一整理单元对切分出的结果可以按照key-value一一对应的原则进行整理。例如,[['初步诊断','flow',0,4],['小脑','lesion',6,8],['低级别胶质瘤','diagnosis2',9,15]整理为{'flow':'初步诊断','lesion':'小脑','diagnosis2':'低级别胶质瘤'}。
(3)第二整理单元对于一些需要成对出现的指标,例如病理中的免疫组化检测,通常会分别识别检测项和检测值。对于这一类值可以采用“最短向右滑动”的策略,即搜索右侧最近的内容作为成对出现的结果。例如,['GFAP','ihc_k',186,190],['+','ihc_v',191,192],['Olig-2','ihc_k',194,200],['-','ihc_v',201,202],其整理结果为[{'ihc_k':'GFAP','ihc_v':'+'},{'ihc_k':'Ol ig-2','ihc_v':'-'}]。
(4)冗余单元根据业务需要,可以做一些数据冗余,即对一些指标和取值重复存储,例如一个病人的年龄是在病人维度中,但是通常也会复制到报告维度中。
(5)封装单元最终整理出多人的数据封装JSON结果。
指标归一化模块207可以包括:
标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;
推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
指标归一化模块207是把字典数据中的免疫组化、原位杂交、分子指标数据、疾病等数据归一化成统一的规范的名称。
指标归一化的具体过程如下::
(1)标准化单元进行数据本身的标准化。例如Ki-67->Ki67。这类工作通常可以通过构建标准化字典完成。
(2)纠错单元进行字符串纠错。即通过相似性计算,推荐正确的写法。例如患病部位可能是’(肝右叶‘,会被推荐为’肝右叶‘,即去掉左括号。本模块综合利用LCS(距离和公共子序列长度)和TF-IDF算法返回指定字符串最相似的字符串。最长公共子序列(LCS)是一个在一个序列集合中(通常为两个序列)用来查找所有序列中最长子序列的问题。一个数列,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则称为已知序列的最长公共子序列。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
(3)推理单元进行知识推理。基于特定的业务需求,结合已有的知识图谱进行推理。例如,在已知病理类型的情况下,推理(父类)病理大类;或者根据肿瘤大小,淋巴结清扫情况以及转移情况推理TNM分期。推理的结果存储在哪个嵌套层级下需要根据业务决定。本方案支持一定程度的推理,极大程度优化结构化结果,并补充额外信息,生成专病数据库。
数据存储子系统30,包括结构化数据存储模块301,用于存储数据处理子系统20输出的结构化的病理文本,生成肿瘤专病数据库,医生或者研究员可直接在此基础上做进一步的数据分析或者知识挖掘工作。
另外,数据存储子系统30还可以根据不同的业务场景或者需求将数据处理子系统20抽取好的结果保存到不同的数据文件中,例如数据库、json、csv等通用的数据格式,可以通过文件传输,线上服务或者数据库的形式支持外部应用。具体输出字段可以人工配置,以便适配下游数据利用或者数据检索。例如,抽取的字段是’lesion‘(患病部位),可以修改为’sample_location‘(取材部位)。
通过整个结构化抽取过程,可以将多行表格文件结果化为一个规整的JSON数据。例如,获取的原始肿瘤专病病理文本截图如图2所示,最终得到结构化的病理文本,结构化JSON文本截图如图3所示。
综上所述,本申请实施例所提供的一种肿瘤专病数据库构建系统,包括:数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。采用本方案可以提供高度模块化的病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。并且,可以根据医院实际业务高度定制,易于落地。
基于相同的发明构思,本申请实施例还提供一种肿瘤专病数据库构建方法、电子设备和介质。
请参照图4,图4为本申请实施例所提供的一种肿瘤专病数据库构建方法的流程图。如图4所示,包括如下步骤:
S401,将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
S402,对所述待结构化提取的文本信息进行预处理;
S403,利用命名实体识别模型对预处理后的文本信息进行预测;
S404,对预处理后的文本信息进行字典标注;
S405,对预测结果和字典标注结果进行数据合并;
S406,将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
S407,对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
S408,将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
在步骤SS402中,对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
在步骤SS403中,利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
在步骤SS404中,构建字典,通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
在步骤SS405中,当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
在步骤SS406中,将数据合并后的文本信息按照嵌套层级的对应标签进行切分;按照关键词和取值一一对应的原则对切分结果进行整理;针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;对需要进行数据冗余的指标和取值进行重复存储;对整理后的文本信息与所述基础文本信息进行数据封装。
在步骤SS407中,构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;基于特定的业务需求,结合已有的知识图谱进行推理。
本申请实施例公开了一种电子设备,如图5所示,包括:处理器501、存储器502和总线503,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线503通信。所述机器可读指令被所述处理器501执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的肿瘤专病数据库构建方法的计算机程序产品,包括存储了处理器501可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种肿瘤专病数据库构建系统,其特征在于,包括:
数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块,用于对预处理后的文本信息进行字典标注;
数据合并模块,用于对预测结果和字典标注结果进行数据合并;
数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
2.根据权利要求1所述的系统,其特征在于,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
3.根据权利要求1所述的系统,其特征在于,所述模型预测模块包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
4.根据权利要求1所述的系统,其特征在于,所述字典标注模块包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
5.根据权利要求1所述的系统,其特征在于,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
6.根据权利要求1所述的系统,其特征在于,所述数据封装模块包括:
切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;
第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;
第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。
7.根据权利要求1所述的系统,其特征在于,所述指标归一化模块包括:
标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;
推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
8.一种肿瘤专病数据库构建方法,其特征在于,包括:
将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
对所述待结构化提取的文本信息进行预处理;
利用命名实体识别模型对预处理后的文本信息进行预测;
对预处理后的文本信息进行字典标注;
对预测结果和字典标注结果进行数据合并;
将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求8所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。
CN202011026999.9A 2020-09-25 2020-09-25 一种肿瘤专病数据库构建系统、方法、电子设备和介质 Active CN112185572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011026999.9A CN112185572B (zh) 2020-09-25 2020-09-25 一种肿瘤专病数据库构建系统、方法、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011026999.9A CN112185572B (zh) 2020-09-25 2020-09-25 一种肿瘤专病数据库构建系统、方法、电子设备和介质

Publications (2)

Publication Number Publication Date
CN112185572A true CN112185572A (zh) 2021-01-05
CN112185572B CN112185572B (zh) 2024-03-01

Family

ID=73944986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011026999.9A Active CN112185572B (zh) 2020-09-25 2020-09-25 一种肿瘤专病数据库构建系统、方法、电子设备和介质

Country Status (1)

Country Link
CN (1) CN112185572B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704340A (zh) * 2021-08-30 2021-11-26 远景智能国际私人投资有限公司 数据处理方法、装置、服务器及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665951A (zh) * 2018-04-16 2018-10-16 北京天使软件技术有限公司 一种将预结构化数据生成医学报告的方法和系统
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN110750992A (zh) * 2019-10-09 2020-02-04 吉林大学 命名实体识别方法、装置、电子设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN108665951A (zh) * 2018-04-16 2018-10-16 北京天使软件技术有限公司 一种将预结构化数据生成医学报告的方法和系统
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN110750992A (zh) * 2019-10-09 2020-02-04 吉林大学 命名实体识别方法、装置、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704340A (zh) * 2021-08-30 2021-11-26 远景智能国际私人投资有限公司 数据处理方法、装置、服务器及存储介质
CN113704340B (zh) * 2021-08-30 2023-07-21 远景智能国际私人投资有限公司 数据处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN112185572B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
Singh et al. A deep neural network for early detection and prediction of chronic kidney disease
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
CN106407443B (zh) 一种结构化医疗数据生成方法及装置
Banerjee et al. Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort
EP3567605A1 (en) Structured report data from a medical text report
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN114996388A (zh) 一种诊断名称标准化的智能匹配方法及系统
CN112655047A (zh) 对医学记录分类的方法
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
US20220415456A1 (en) Character acquisition, page processing and knowledge graph construction method and device, medium
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
CN113297852B (zh) 一种医学实体词的识别方法和装置
Wu Acknowledgement entity recognition in CORD-19 papers
CN110534170A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN103262070A (zh) 解剖结构中病变的图片报告示意图的生成
Chen et al. Automated medical chart review for breast cancer outcomes research: a novel natural language processing extraction system
CN112185572B (zh) 一种肿瘤专病数据库构建系统、方法、电子设备和介质
JP2002269114A (ja) 知識データベース及び知識データベースの構築方法
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN111063446A (zh) 用于标准化医疗文本数据的方法、装置、设备及存储介质
Abdul-Jabbar et al. Razy: A String Matching Algorithm for Automatic Analysis of Pathological Reports
Müller et al. Studying public medical images from the open access literature and social networks for model training and knowledge extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant