CN112289398A - 病理报告解析方法及装置、存储介质、终端 - Google Patents

病理报告解析方法及装置、存储介质、终端 Download PDF

Info

Publication number
CN112289398A
CN112289398A CN202010825906.2A CN202010825906A CN112289398A CN 112289398 A CN112289398 A CN 112289398A CN 202010825906 A CN202010825906 A CN 202010825906A CN 112289398 A CN112289398 A CN 112289398A
Authority
CN
China
Prior art keywords
word
report
pathological
analyzed
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010825906.2A
Other languages
English (en)
Other versions
CN112289398B (zh
Inventor
秦晓宏
刘焕春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Clinbrain Information Technology Co Ltd
Original Assignee
Shanghai Clinbrain Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Clinbrain Information Technology Co Ltd filed Critical Shanghai Clinbrain Information Technology Co Ltd
Priority to CN202010825906.2A priority Critical patent/CN112289398B/zh
Publication of CN112289398A publication Critical patent/CN112289398A/zh
Application granted granted Critical
Publication of CN112289398B publication Critical patent/CN112289398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Machine Translation (AREA)

Abstract

一种病理报告解析方法及装置、存储介质及终端,所述方法包括:获取待解析病理报告;基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;输出病理报告解析结果。上述方案能够提高病理报告的解析结果准确度。

Description

病理报告解析方法及装置、存储介质、终端
技术领域
本发明实施例涉及文本解析领域,尤其涉及一种病理报告解析方法及装置、存储介质及终端。
背景技术
随着科学和技术的发展,医疗行业也与时俱进,步入信息化、数据化及结构化时代,为了便于医疗数据的存储、统计、分析、研究等,需要将非结构化文本变成结构化的文本。
医疗数据中的病理报告是指手术完成后,从患者体内取下的组织经过一系列技术处理后,病理医生根据染色情况,对病理组织进行诊断描述,并记载一些与疾病相关的信息,可以为临床后续治疗提供信息的一段或多段文字。
目前,通常采用如下几种方式对病理报告进行结构化处理。方式一,采用正则方式实现病理文本结构化。方式二,采用基于转换器的双向编码表征法(BidirectionalEncoder Representation from Transformers,BRET)、长短期记忆人工神经网络(LongShort-Term Memory,LSTM)进行对病理报告进行解析。
然而,方式一采用正则方式实现病理文本结构化由于需要依赖设定的模板,一旦病理文本结构发生改变,就需要及时更新对应的模板,才能将新结构的数据结构化,若是没有及时对模板进行更新,则导致病理报告结构化准确度较低。方式二,对病理报告进行结构化得到的结构化结果的准确度较低。
综上,现有技术中对病理报告进行结构化的解析的结果的准确度较低。
发明内容
本发明实施例解决的技术问题是病理报告的解析结果准确度较低。
为解决上述技术问题,本发明实施例提供一种病理报告解析方法,包括:获取待解析病理报告;基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;输出所述病理报告解析结果。
可选的,所述判断每个词是否能够进行再分词,从所述中间字词库中删除能够进行再次分词的词,包括:当某一词能够进行再次分词时,判断能够进行再次分词的词是否属于特定词典,其中,所述特定词典来自于所述指定词典,所述特定词典包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典;当所述能够进行再次分词的词不属于所述特定词典时,从所述中间字词库中删除所述能够进行再次分词的词;当所述能够进行再次分词的词属于所述特定词典时,则不删除所述能够进行再次分词的词。
可选的,所述指定词典包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典、jieba词典。
可选的,所述基于设定字词库,对所述待解析病理报告进行分词,包括:采用最大正向匹配算法及发现新词的方式对所述待解析病理报告进行分词。
可选的,采用如下方式训练得到所述病理报告解析模型:获取训练样本集,所述训练样本集包括若干个标注样本;基于所述设定字词库对所述标注样本进行分词,得到分词后的标注样本;将所述分词后的标注样本进行向量化,得到所述标注样本对应的词向量集;将所述标注样本对应的词向量集输入至spaCy;采用所述标注样本对应的词向量集对所述spaCy中的参数进行训练,直至满足设定收敛条件,得到所述病理报告解析模型。
可选的,所述标注样本包括已标注样本以及扩充标注样本,所述扩充标注样本采用如下方式得到:获取所述已标注样本所采用的标签对应的替换数据;采用所述替换数据替换所述已标注样本中带有对应标签的标注数据,得到所述扩充标注样本。
可选的,所述输出所述病理报告解析结果,包括:按照所述标签获取对应的数据,将所述标签及所述标签对应的数据进行结构化处理,得到结构化处理后的数据,将结构化处理之后的数据作为所述病理报告解析结果输出。
可选的,所述病理报告解析方法还包括:对所述spaCy中的停用词表进行修改。
可选的,所述对所述spaCy的停用词表进行修改,包括以下至少一种:从所述停用词表中删除第一类停用词,其中,所述第一类停用词包括如下至少一种:拉丁数字、希腊字母、星号;向所述停用词表中增加第二类停用词,所述第二类停用词包括如下至少一种:随时复查、等待观察。
本发明实施例还提供一种病理报告解析装置,包括:获取单元,用于获取待解析病理报告;分词单元,用于基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;向量化单元,用于对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;解析单元,用于采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;输出单元,用于输出所述病理报告解析结果。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一种病理报告解析方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一种病理报告解析方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
基于设定字词库对待解析病理报告进行分词,通过对分词后的待解析病理报告进行向量化,得到待解析病理报告对应的词向量集,采用预训练的病理报告解析模型对待解析病理报告对应的词向量集进行病理报告进行解析,得到病理报告解析结果,由于所采用的设定字词库采用如下处理方式得到:通过将多个指定词典合并得到中间字词库,遍历中间字词库中的所有词,判断每个词能够进行再次分词,将能够进行再次分词的词则从中间字词库中删除后得到,从而可以使得设定字词库中的词的粒度较细,以提高在对病理报告进行分词时,提高分词的准确度以及进行较细粒度分词,从而可以通过提高分词的准确度来提高病理报告解析结果的准确度。
附图说明
图1是本发明实施例中的一种病理报告解析方法的流程图;
图2是本发明实施例中的一种病理报告解析模型的训练流程图;
图3是本发明实施例中的一种病理报告解析结果在可视化界面的显示效果示意图;
图4是本发明实施例中的一种病理报告解析装置的结构示意图。
具体实施方式
目前,通常采用如下几种方式对病理报告进行结构化处理。方式一,采用正则方式实现病理文本结构化。方式二,采用BERT、长短期记忆人工神经网络(Long Short-TermMemory,LSTM)进行对病理报告进行解析。
然而,方式一采用正则方式实现病理文本结构化由于需要依赖设定的模板,一旦病理文本结构发生改变,就需要及时更新对应的模板,才能将新结构的数据结构化,若是没有及时对模板进行更新,则导致病理报告结构化准确度较低。方式二,对病理报告进行结构化得到的结构化结果的准确度较低。
综上,现有技术中对病理报告进行结构化的解析的结果的准确度较低。
为解决上述问题,在本发明实施例中,基于设定字词库对待解析病理报告进行分词,通过对分词后的待解析病理报告进行向量化,得到待解析病理报告对应的词向量集,采用预训练的病理报告解析模型对待解析病理报告对应的词向量集进行病理报告进行解析,得到病理报告解析结果,由于所采用的设定字词库采用如下处理方式得到:通过将多个指定词典合并得到中间字词库,遍历中间字词库中的所有词,判断每个词能够进行再次分词,将能够进行再次分词的词则从中间字词库中删除后得到,从而可以使得设定字词库中的词的粒度较细,以提高在对病理报告进行分词时,提高分词的准确度以及进行较细粒度分词,从而可以通过提高分词的准确度来提高病理报告解析结果的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例提供一种病理报告解析方法,参照图1,给出了本发明实施例中的一种病理报告解析方法的流程图,具体可以包括如下步骤:
步骤S11,获取待解析病理报告。
步骤S12,基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告。
在现有技术中,采用现有技术中的词典库进行分词时,分词的粒度较粗,易出现部分词无法分离出来的现象,从而影响后续的病理报告解析的准确度。例如,针对病理报告中出现的“肝内见淋巴结转移”,现有技术中分词的结果为:肝内/见/淋巴结/转移,肝内作为一个独立的词被分出来,从而导致无法识别出肝这个器官,由于无法识别出肝这个器官,从而影响后续无法正确的确定淋巴结的转移部位。
针对上述问题,本发明实施例中所采用的设定字词库可以通过如下方式处理得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,以得到所述设定字词库。通过对字词库进行能够进行再次分词的词的删除处理,可以使得设定字词库的粒度更加细。
在具体实施中,指定词典可以包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典、jieba词典。可以理解的是,根据实际需求,指定词典还可以包括其他类型的词典,此处不再一一举例。
在本发明实施例中,可以将所有的指定词典如疾病诊断名词典、身体部位词典、症状词典、手术词典、jieba词典全部合并在一起得到中间字词库。也可以在jiaba词典的基础上,结合其他指定词典如疾病诊断名词典、身体部位词典、症状词典、手术词典等对jiaba词典进行扩充,得到中间字词库。
为了提高从中间字词库中删除的再次分词的词的准确性,在本发明实施例中,当某一词能够进行再次分词时,判断能够进行再次分词的词是否属于特定词典,其中,所述特定词典来自于所述指定词典,所述特定词典包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典。
当能够进行再次分词的词不属于所述特定词典时,从所述中间字词库中删除所述能够进行再次分词的词。相应地,当能够进行再次分词的词属于所述特定词典时,则不删除所述能够进行再次分词的词。从而可以避免误删特定词典中的词。
其中,能够进行再次分词的词也可以称为父词。
例如,对于中间字词库中的词“肝内”,由于“肝内”能够再次分为“肝”和“内”,也即“肝内”为父词,可以从中间字词库中删除父词“肝内”。
又如,对于中间字词库中的词“肝硬化”,虽然“肝硬化”能够再次分为“肝”和“硬化”,也即“肝硬化”为父词,但是由于父词“肝硬化”属于疾病诊断名词典,故不删除父词“肝硬化”。
在本发明实施例中,可以采用如下方式基于设定字词库,对待解析病理报告进行分词。采用最大正向匹配算法及发现新词的方式对待解析病理报告进行分词。
最大正向最大匹配算法的算法思想为从左到右将待解析病理报告中的几个连续字符与设定字词库中的词进行匹配,如果匹配上,则切分出一个词。在进行最大正向最大匹配时,不是第一次匹配到就可以切分的,而是要做到最大匹配,最大匹配出的词必须保证下一个扫描不是设定字词库中的词或词的前缀才可以结束。
在本发明实施例中,为了扩充设定字词库,尽量减少在分词时出现未登录词的概率,还可以根据业务库中的语料,对业务库中的语料进行分词、统计及筛选等操作,以扩充与症状、疾病、身体部位等相关的词典。其中,业务库通常可以包括肉眼可见、镜下所见、病理诊断以及免疫组化等相关的语料。
步骤S13,对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集。
在具体实施中,可以采用预训练的词向量转换工具,对分词后的待解析病理报告进行向量化,得到待解析病理报告对应的词向量集。其中,为了提高词向量转换的准确度,可以采用医疗领域内的业务库中的数据,进行字词库向量工具的训练。
在具体实施中,在采用设定字词库进行分词时,对于百科中有的字词,字词的初始化用百科中的字词向量,对于没有的字词,初始化用截断正太分布的初始化字词向量,然后字词库以无监督的方式通过word2vec训练字词向量,得到最终要用的词向量集。
步骤S14,采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果。
在具体实施中,在得到待解析病理报告对应的词向量集之后,可以采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果。
步骤S15,输出病理报告解析结果。
在具体实施中,病理报告解析结果的输出格式可以根据实际需求进行设定。
由上述内容可知,基于设定字词库对待解析病理报告进行分词,通过对分词后的待解析病理报告进行向量化,得到待解析病理报告对应的词向量集,采用预训练的病理报告解析模型对待解析病理报告对应的词向量集进行病理报告进行解析,得到病理报告解析结果,由于所采用的设定字词库采用如下处理方式得到:通过将多个指定词典合并得到中间字词库,遍历中间字词库中的所有词,判断每个词能够进行再次分词,将能够进行再次分词的词则从中间字词库中删除后得到,从而可以使得设定字词库中的词的粒度较细,以提高在对病理报告进行分词时,提高分词的准确度以及进行较细粒度分词,从而可以通过提高分词的准确度来提高病理报告解析结果的准确度。
在具体实施中,病理报告解析模型可以采用如下方式训练得到,参照图2,具体可以包括如下步骤:
步骤S21,获取训练样本集。
在具体实施中,由于不同的病理科医生的书写方式以及名称的写法不同,不同部位的称呼也可能不同,从而导致病理报告的内容不同,进而在进行样本标注时,定义的标签的字段名称也不相同。因此,在进行样本标注时,可以根据待解析病理报告的类型,确定标签,并在样本中对标签对应的数据进行标注。病理报告的类型可以根据并病变的部位进行划分,也可以根据转移部位进行划分,可以理解的是,还可以通过其他方式进行划分。例如。腹部病理报告、肝部病理报告、胰腺病理报告等其他部位的病理报告。
在本发明实施例中,对各个样本进行数据标注完成之后,可以将标注好的数据转换成标准jsonl格式,作为标注样本。
在具体实施中,所获取到的训练样本集可以包括若干个标注样本。
在具体实施中,由于样本标注是一件非常耗费人力物力的事情,而在病理报告解析模型的训练过程中需要一定数据量的标注样本,为此,在本发明实施例中,可以基于已标注样本,进行样本扩充,得到扩充标注样本,从而标注样本可以包括已标注样本和扩充标注样本。
具体而言,可以采用如下方式得到扩充标注样本:获取已标注样本所采用的标签对应的替换数据。采用替换数据替换已标注样本中带有对应标签的标注数据,得到扩充标注样本。
例如,对于已标注样本“肝内见淋巴结转移”,标签为转移部位,转移部位所标注的数据为“肝”,在基于已标注样本“肝内见淋巴结转移”进行样本扩充时,标签转移部位对应的替换数据可以包括肺、乳腺、脾等,将替换数据肺、乳腺、脾分别替换已标注样本中的肝,可以如下扩充标注样本:肺内见淋巴结转移;扩充标注样本:乳腺内见淋巴结转移;扩充标注样本:脾内见淋巴结转移。
又如,已标注样本为胃癌根治样本:胃小弯长13.0cm,大弯长22.0cm,间距6.0cm,距上切端6.0cm,下切端6.0cm,胃体部见一溃疡型肿块,大小4.0×3.0×1.0cm,切面灰白、质韧。下续少量十二指肠,长2.0cm,直径3.0cm,粘膜光滑。附大网膜组织,大小24.0×23.0×1.3cm,未触及明显肿大结节。小弯侧找到结节13枚,直径0.2-1.2cm,大弯侧找到结节2枚,直径0.3-0.5cm。“上切端”:不规则组织一块,大小2.2×2.0×0.3cm。在样本标注时采用的标签为:上切端、下切端、侵犯位置、肿块大小及转移部位,其中,标签上切端对应的标注数据为6.0cm,标签下切端对应的标注数据为6.0cm,标签肿块大小对应的标注数据为4.0×3.0×1.0cm,由于在该样本中不存在标签侵犯位置以及标签转移部位对应的数据,则不标注。标签肿块大小对应的替换数据可以包括:4.5×2.0×2.0cm、5.0×3.0×3.0cm等,分别将4.5×2.0×2.0cm、5.0×3.0×3.0cm替换已标注样本中的4.0×3.0×1.0cm,可以得到两个扩充标注样本,分别为扩充标注样本一:胃小弯长13.0cm……胃体部见一溃疡型肿块,大小4.5×2.0×2.0cm,切面灰白……大小2.2×2.0×0.3cm;扩充标注样本二:胃小弯长13.0cm……胃体部见一溃疡型肿块,大小5.0×3.0×3.0cm,切面灰白……大小2.2×2.0×0.3cm。
可以理解的是,在进行样本扩充时,可以针对已标注样本中的一个标签对应的数据,进行样本扩充,也可以针对多个标签对应的数据进行样本扩充,还可以对所有标签对应的数据进行样本扩充,具体可根据实际需求进行配置,上述举例仅做示意性说明,以便于本领域技术人员更好的理解和样本扩充方案,并不限制保护范围。
通过基于已标注样本,采用标签对应的替换数据,进行样本扩充,可以基于少量的标注样本,得到更多的标注样本,使得样本的表达形式更加的多样化,既节省了大量的人力和物力,又可以提高病理报告解析模型的训练效果。
步骤S22,基于所述设定字词库对所述标注样本进行分词,得到分词后的标注样本。
步骤S23,将所述分词后的标注样本进行向量化,得到所述标注样本对应的词向量集。
步骤S24,将所述标注样本对应的词向量集输入至spaCy。
步骤S25,采用所述标注样本对应的词向量集对所述spaCy中的参数进行训练,直至满足设定收敛条件,得到所述病理报告解析模型。
在具体实施中,spaCy处理文本的过程是模块化的,当调用自然语言处理(NaturalLanguage Processing,NLP)处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,组件也称为处理管道或者模型。spaCy默认的处理管道依次是:词性标注器(tagger)、依存句法分析(parser)、命名实体识别(ner)等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件。
病理报告解析模型的训练过程也即tagger、parser以及ner的训练过程。由于spaCy本身现在并没有开放中文模型,所以可以根据中文语料库训练中文模型。
spaCy的模型是统计学的,作出的每一个判别都是预测。其预测基于模型在训练过程中见过的样本。训练一个病理报告解析模型,首先需要训练样本(文本样本),以及希望模型预测出的标注。标注可以是词性标签,命名实体或其他信息。之后,模型会找出未标记的文本并作出预测。因为我们知道正确答案,就可以给模型计算输出的错误结果反馈其与预期输出的偏差。根据偏差情况,调整spaCy中参数,使得模型实际输出的结果与预期输出趋于一致,也即满足设定收敛条件,从而得到所述病理报告解析模型。病理报告解析模型在对进行病理报告解析时,可以结合病理报告中的命名实体识别结果以及上下文语义得到所需的解析结果。
在具体实施中,spaCy中还涉及语言数据(Language data),完整的语言支持,需要创建Language子集,声明自定义语言数据,比如停用词列表和例外分词,并且测试新的分词器。语言设置完成,就可以创建词汇表,包括词频、布朗集(Brown Cluster)和词向量。
每一种语言都不相同,而且通常都有很多例外和特殊情况,尤其是最常见的词。其中一些例外情况是各语言间通用的,但其他的则是完全特殊的,经常是特殊到需要硬编码。spaCy.Lang模块包含了大多数特殊语言数据,以简单的Python文件进行组织,以便于升级和扩展数据。
spaCy中的停用词表为进行数据处理之前或之后通常会自动过滤掉某些字或词的列表,停用词表中的词通常为在平常语言中没有什么意义,通常会被当做空白符处理,但是在医疗领域的场景中,平常语言中的一些停用词却具有特殊的意义,如拉丁数字I、II、III、IV等通常可以用于表示癌变期数,这些拉丁数据为有意义的字符,不能随意去掉,因此为避免将医疗领域中的一些词被当做停用词删除,在本发明实施例中,可以对spaCy中的停用词表进行修改。
在具体实施中,对spaCy中的停用词表进行修改可以包括从所述停用词表中删除第一类停用词,所述第一类停用词可以包括如下至少一种:拉丁数字、希腊字母、星号(*)等,其中,第一类停用词指在常规领域内无意义,但在医疗领域在对诊断具有意义的词。
对spaCy中的停用词表进行修改也可以包括向所述停用词表中增加第二类停用词,所述第二类停用词可以包括如下至少一种:随时复查、等待观察等。其中,第二类停用词指对诊断没有意义的词。
进一步地,在步骤S15输出病理报告解析结果时,可以按照标签获取对应的数据,将标签以及标签对应的数据进行结构化处理,得到结构化处理之后的数据,将结构化处理之后的数据作为病理报告解析结果输出。
在一些实施例中,病理报告解析结果可以采用表格的方式输出,如表1所示:
表1
文本 标签
胰腺癌 病变
33.7×32.8mm 大小
肝脏 远处转移
胃底部 侵犯
腹主动脉 淋巴结转移
可以理解的是,在表1所示意的显示内容的基础上,也可以显示其他内容,具体可以由用户根据需求进行配置即可。
在另一实施例中,可以采用文本方式输出病理报告解析结果,标签及对应的数据之间可以采用空格的方式进行隔开,参照图3给出的本发明实施例中的一种病理报告解析结果在可视化界面的显示效果示意图,标签数据“胰腺癌”与标签“病变”之间采用空格隔开;标签数据“33.7×32.8mm”与标签“大小”之间采用空格隔开;标签数据“肝脏”与标签“远处转移”之间采用空格隔开;标签数据“胃底部”与标签“侵犯”之间采用空格隔开;标签数据“腹主动脉”与标签“淋巴结转移”之间采用空格隔开。不同的标签之间可以采用背景色、方框、空格或者标点符号等方式进行隔开。此外,病理报告解析结果中还可以包括一些其他内容,如转移可能性预测、受侵犯的可能性预测等。图3中,远处转移的可能性预测为转移可能性大,侵犯的预测为具有受侵犯可能,淋巴结转移预测为淋巴结转移可能性大。
根据输出的病理报告解析结果,可以帮助科研医生进行统计或分类等,帮助临床医生给患者进行更有效的后续治疗。通过对病理报告的结构化可以为医生快速提供关键信息,提高医生的工作效率。
在具体实施中,可以将结构化后的病理报告解析结果存储在关系型数据库,供科研人员和临床医生查看,便于科研人员和临床医生等科研,筛选,诊疗等。
在具体实施中,可以在前端平台的可视化界面上显示病理报告解析模型的处理结果,通过可视化界面对病理报告解析模型的解析结构进行实时演示,可以使得用户可以直观的感受病理报告解析结果以及模型的好坏。
在可视化界面上可以设置有待解析病理报告的输入口,以及病理报告解析结果的显示处,此外,还可以设置有标签的配置入口,在标签的配置入口处可以设置有若干个标签,用户可以通过标签配置入口,增加新的标签,也可以删除已有标签,也可以修改已有标签,也可以搜索标签等。此外,用户也可以配置病理报告解析结果的显示内容。
采用病理报告解析模型可以对存量数据或者增量数据进行解析,此时,存量数据或增量数据即可以作为待解析病理报告。其中,存量数据通常配置为一次性运行,也即对全部的存量数据进行解析;增量数据通常配置为实时运行或者定时运行。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种病理报告解析装置。
参照图4,给出了本发明实施例中的一种病理报告解析装置的结构示意图,病理报告解析装置40可以包括:
获取单元41,用于获取待解析病理报告;
分词单元42,用于基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;
向量化单元43,用于对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;
解析单元44,用于采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;
输出单元45,用于输出所述病理报告解析结果。
在具体实施中,病理报告解析装置40的具体工作原理及工作流程,可以参见本发明上述任一实施例中提供的病理报告解析方法中的描述,此处不再赘述。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一实施例中的病理报告解析方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一实施例中的病理报告解析方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (12)

1.一种病理报告解析方法,其特征在于,包括:
获取待解析病理报告;
基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;
对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;
采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;
输出所述病理报告解析结果。
2.如权利要求1所述的病理报告解析方法,其特征在于,所述判断每个词是否能够进行再分词,从所述中间字词库中删除能够进行再次分词的词,包括:
当某一词能够进行再次分词时,判断能够进行再次分词的词是否属于特定词典,其中,所述特定词典来自于所述指定词典,所述特定词典包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典;
当所述能够进行再次分词的词不属于所述特定词典时,从所述中间字词库中删除所述能够进行再次分词的词;
当所述能够进行再次分词的词属于所述特定词典时,则不删除所述能够进行再次分词的词。
3.如权利要求1所述的病理报告解析方法,其特征在于,所述指定词典包括以下至少一种:疾病诊断名词典、身体部位词典、症状词典、手术词典、jieba词典。
4.如权利要求1所述的病理报告解析方法,其特征在于,所述基于设定字词库,对所述待解析病理报告进行分词,包括:
采用最大正向匹配算法及发现新词的方式对所述待解析病理报告进行分词。
5.如权利要求1所述的病理报告解析方法,其特征在于,采用如下方式训练得到所述病理报告解析模型:
获取训练样本集,所述训练样本集包括若干个标注样本;
基于所述设定字词库对所述标注样本进行分词,得到分词后的标注样本;
将所述分词后的标注样本进行向量化,得到所述标注样本对应的词向量集;
将所述标注样本对应的词向量集输入至spaCy;
采用所述标注样本对应的词向量集对所述spaCy中的参数进行训练,直至所述spaCy中的参数满足设定收敛条件,得到所述病理报告解析模型。
6.如权利要求5所述的病理报告解析方法,其特征在于,所述标注样本包括已标注样本以及扩充标注样本,所述扩充标注样本采用如下方式得到:
获取所述已标注样本所采用的标签对应的替换数据;
采用所述替换数据替换所述已标注样本中带有对应标签的标注数据,得到所述扩充标注样本。
7.如权利要求6所述的病理报告解析方法,其特征在于,所述输出所述病理报告解析结果,包括:
按照所述标签获取对应的数据,将所述标签及所述标签对应的数据进行结构化处理,得到结构化处理后的数据,将结构化处理之后的数据作为所述病理报告解析结果输出。
8.如权利要求5所述的病理报告解析方法,其特征在于,还包括:对所述spaCy中的停用词表进行修改。
9.如权利要求8所述的病理报告解析方法,其特征在于,所述对所述spaCy的停用词表进行修改,包括以下至少一种:
从所述停用词表中删除第一类停用词,其中,所述第一类停用词包括如下至少一种:拉丁数字、希腊字母、星号;
向所述停用词表中增加第二类停用词,所述第二类停用词包括如下至少一种:随时复查、等待观察。
10.一种病理报告解析装置,其特征在于,包括:
获取单元,用于获取待解析病理报告;
分词单元,用于基于设定字词库,对所述待解析病理报告进行分词,得到分词后的待解析病理报告,其中,所述设定字词库采用如下方式得到:将若干个指定词典合并得到中间字词库,遍历所述中间字词库中的所有词,判断每个词是否能够进行再次分词,从所述中间字词库中删除能够进行再次分词的词,得到所述设定字词库;
向量化单元,用于对所述分词后的待解析病理报告进行向量化,得到所述待解析病理报告对应的词向量集;
解析单元,用于采用预训练的病理报告解析模型对所述待解析病理报告对应的词向量集进行病理报告解析,得到病理报告解析结果;
输出单元,用于输出所述病理报告解析结果。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至9任一项所述的病理报告解析方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至9中任一项所述的病理报告解析方法的步骤。
CN202010825906.2A 2020-08-17 2020-08-17 病理报告解析方法及装置、存储介质、终端 Active CN112289398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010825906.2A CN112289398B (zh) 2020-08-17 2020-08-17 病理报告解析方法及装置、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010825906.2A CN112289398B (zh) 2020-08-17 2020-08-17 病理报告解析方法及装置、存储介质、终端

Publications (2)

Publication Number Publication Date
CN112289398A true CN112289398A (zh) 2021-01-29
CN112289398B CN112289398B (zh) 2024-05-31

Family

ID=74420737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010825906.2A Active CN112289398B (zh) 2020-08-17 2020-08-17 病理报告解析方法及装置、存储介质、终端

Country Status (1)

Country Link
CN (1) CN112289398B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109918672A (zh) * 2019-03-13 2019-06-21 东华大学 一种基于树结构的甲状腺超声报告的结构化处理方法
CN110457682A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 电子病历词性标注方法、模型训练方法及相关装置
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
US10740561B1 (en) * 2019-04-25 2020-08-11 Alibaba Group Holding Limited Identifying entities in electronic medical records

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109918672A (zh) * 2019-03-13 2019-06-21 东华大学 一种基于树结构的甲状腺超声报告的结构化处理方法
US10740561B1 (en) * 2019-04-25 2020-08-11 Alibaba Group Holding Limited Identifying entities in electronic medical records
CN110457682A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 电子病历词性标注方法、模型训练方法及相关装置
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, SHIDAN,ET AL.: ""Pathology Image Analysis Using Segmentation Deep Learning Algorithms"", 《AMERICAN JOURNAL OF PATHOLOGY》, vol. 189, no. 9, pages 1686 - 1698 *
王明令,等: ""海量文本疾病主题自动提取研究"", 《数字技术与应用》, vol. 37, no. 5, pages 74 - 75 *

Also Published As

Publication number Publication date
CN112289398B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN105095665B (zh) 一种中文疾病诊断信息的自然语言处理方法及系统
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN109145260B (zh) 一种文本信息自动提取方法
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
Carchiolo et al. Medical prescription classification: a NLP-based approach
CN109918672B (zh) 一种基于树结构的甲状腺超声报告的结构化处理方法
CN105138829B (zh) 一种中文诊疗信息的自然语言处理方法及系统
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN111460175A (zh) 一种基于snomed-ct的医学名词词典构造与拓展方法
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN117787282B (zh) 基于大语言模型的医患文本智能提取方法
CN112635013A (zh) 医学影像信息的处理方法、装置、电子设备和存储介质
US20220375576A1 (en) Apparatus and method for diagnosing a medical condition from a medical image
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN114328938B (zh) 一种影像报告结构化提取方法
CN112289398B (zh) 病理报告解析方法及装置、存储介质、终端
CN113963804A (zh) 医学数据关系挖掘方法及装置
CN112700826B (zh) 医学数据的处理方法、装置及存储介质
Kivotova et al. Extracting clinical information from chest X-ray reports: A case study for Russian language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant