CN111814478B - 影像学检查报告结构化方法及装置 - Google Patents
影像学检查报告结构化方法及装置 Download PDFInfo
- Publication number
- CN111814478B CN111814478B CN202010650261.3A CN202010650261A CN111814478B CN 111814478 B CN111814478 B CN 111814478B CN 202010650261 A CN202010650261 A CN 202010650261A CN 111814478 B CN111814478 B CN 111814478B
- Authority
- CN
- China
- Prior art keywords
- entity
- report
- word
- determining
- imaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 87
- 238000007689 inspection Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims abstract description 19
- 230000001419 dependent effect Effects 0.000 claims abstract description 12
- 210000000056 organ Anatomy 0.000 claims description 39
- 230000003902 lesion Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 210000001835 viscera Anatomy 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 210000004185 liver Anatomy 0.000 description 23
- 238000002604 ultrasonography Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000036541 health Effects 0.000 description 11
- 125000002015 acyclic group Chemical group 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 210000000232 gallbladder Anatomy 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 210000002216 heart Anatomy 0.000 description 2
- 210000000496 pancreas Anatomy 0.000 description 2
- 230000002285 radioactive effect Effects 0.000 description 2
- 210000000952 spleen Anatomy 0.000 description 2
- 210000001685 thyroid gland Anatomy 0.000 description 2
- 210000003932 urinary bladder Anatomy 0.000 description 2
- 206010018852 Haematoma Diseases 0.000 description 1
- 241000483399 Ipimorpha retusa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000000941 bile Anatomy 0.000 description 1
- 210000000013 bile duct Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 210000005162 left hepatic lobe Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000277 pancreatic duct Anatomy 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000000626 ureter Anatomy 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种影像学检查报告结构化方法及装置,该方法包括:对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于特定信息构建分词词典;基于分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词;基于实体词和预设的特定信息的存储结构,构建实体词的依存关系树;基于预核保的影像学检查报告和实体词的依存关系树,确定词性为值的实体词的有向无环图,有向无环图包括多条依存路径;确定多条依存路径中的最优路径;基于最优路径,确定结构化的影像学检查报告;利用结构化的影像学检查报告进行核保处理。本发明能够自动的对体检影像检查报告做结构化自动抽取,为核保提供了更丰富的数据支持。
Description
技术领域
本发明涉及数据结构化技术领域,尤其涉及影像学检查报告结构化方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
健康医疗险的体检检查包括内科、外科、眼科、口腔、血检、检、影像学检查等,影像学检查是体检检查中最能反映人体健康状态的一种检查。它包含超声检查、X光检查、CT等,影像学检查报告通常包含患者信息,检查信息及诊断信息等,对应不同检查部位就有不同的检查描述及结果说明,而且即使相同检查部位,不同的体检医院、不同的仪器出的报告也是不一样的。形成的电子化的影像学检查报告只是将影像学检查的所有文字以大段文本非结构化的形式保存。
随着互联网保险尤其是健康医疗险的爆发及各种推广期间,健康医疗险保单业务量急剧增加,保单核保工作量也急剧增加。现有的核保中,主要是通过具有医学背景知识的专业核保员来人工解读,而电子化的影像学检查报告,由于其采用的是不同描述数据以及非结构化的形式,这样需要大量的人力来解读,影响了核保的效率。
发明内容
本发明实施例提供一种影像学检查报告结构化方法,用以解决现有的电子化的影像学检查报告采用不同描述数据以及非结构化的形式,导致需要大量的人力来解读,影响核保的效率的技术问题,该方法包括:
对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
确定多条依存路径中的最优路径;
基于最优路径,确定结构化的影像学检查报告;
利用所述结构化的影像学检查报告进行核保处理。
本发明实施例还提供一种影像学检查报告结构化装置,用以解决现有的,电子化的影像学检查报告采用不同描述数据以及非结构化的形式,导致需要大量的人力来解读,影响核保的效率的技术问题,该装置包括:
分词词典构建模块,用于对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
实体词获取模块,用于基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
依存关系树构建模块,用于基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
有向无环图确定模块,用于基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
最优路径确定模块,用于确定多条依存路径中的最优路径;
结构化的影像学检查报告确定模块,用于基于最优路径,确定结构化的影像学检查报告;
核保处理模块,用于利用所述结构化的影像学检查报告进行核保处理。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述影像学检查报告结构化方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述影像学检查报告结构化方法的计算机程序。
本发明实施例中,对历史的影像学检查报告进行预设特定信息抽取,基于特定信息和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,基于实体词和特定信息的存储结构,构建实体词的依存关系树;基于预核保的影像学检查报告和实体词的依存关系树,确定词性为值的实体词的有向无环图,确定有向无环图中多条依存路径中的最优路径;基于最优路径,确定结构化的影像学检查报告;利用结构化的影像学检查报告进行核保处理,与现有技术中电子化的影像学检查报告采用不同描述数据以及非结构化的形式,导致需要大量的人力来解读,影响核保的效率的技术方案相比,通过对体检影像学检查报告自动结构化,可以为核保提供更丰富的数据支持,提高核保的审核效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种影像学检查报告结构化方法流程图;
图2为本发明实施例中本发明实施例中体检影像报告结构化存储示意图;
图3为本发明实施例中本发明实施例中体检影像报告结构化存储中别名库的示意图。
图4是本发明实施例中提供的一种以“大小”这个实体词构建的部分依存路径示意图;
图5是本发明实施例中提供的一种针对实体词“正常”构建的有向无环图示意图;
图6是本发明实施例中提供的一种针对实体词“增强”构建的有向无环图示意图;
图7是本发明实施例中提供的一种针对实体词“0.9cm×0.8cm”构建的有向无环图示意图;
图8是本发明实施例中提供的一种影像学检查报告结构化装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
随着互联网保险尤其是健康医疗险的爆发及各种推广期间,保单业务量急剧增加,保单核保工作量急剧增加尤其是对那些带有体检报告的保单,需要花费大量的人力来审核。体检报告里的B超、X射线等检查报告里包含很多检查描述,需要具有医学背景知识的专业核保员来解读。本发明主要是引入一种体检影像学检查报告自动结构化的方法,来自动抽取影像学检查报告中的重要指标,为核保健康风险评估提供稳定可靠的基础健康数据源,为核保模型研发人员对被保人的健康数据进行分析挖掘提供数据支持,进而通过利用AI模型辅助核保员加速审核流程。
图1为本发明实施例中提供的一种影像学检查报告结构化方法流程图,如图1所示,该方法包括:
步骤101:对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
步骤102:基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
步骤103:基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
步骤104:基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
步骤105:确定多条依存路径中的最优路径;
步骤106:基于最优路径,确定结构化的影像学检查报告;
步骤107:利用所述结构化的影像学检查报告进行核保处理。
在本发明实施例中,在体检中,影像检查(B超,X射线等)不仅扩大了客户的健康检查范围,提高了健康风险的诊断水平,同时也增加了医务核保人员的审核工作量。大数据及AI技术高速发展,新技术已经能够协助人们处理海量的数据,但是仅限于处理结构化数据,而对于以文本形式存在于彩超及放射性检查报告的海量非结构化数据存在一定的难度,计算机难以对其进行自动化处理和分析。需要通过对检查报告描述做量化定义,才能使得计算机对关键信息抽取及理解处理。现在核保中体检报告主要包括以下影像学检查:肝脏彩超、胆囊彩超、胰腺彩超、脾脏彩超、双肾彩超、膀胱彩超、前列腺彩超、子宫彩超、附件彩超、乳腺彩超、颈动脉彩超、甲状腺彩超、心脏彩超、放射性检查等。
为了完整地从非结构化体检报告中抽取医学影像诊断信息,首先需要确定特定器官,比如肝脏的代表性描述都有哪些,从而发现可能的规律并构造等价的抽取模式。本发明步骤101中依据体检报告中的影像检查描述构建分词词典(语料库),针对各个器官的检查报告定制化抽取方法,将各个器官的基础描述比如肝脏的大小、轮廓、形态、表面、等描述数据全部抽取作为器官的脏器属性,接下来对每个器官的病变做抽取,比如肝脏的占位病变包含以下属性:后方回声、形状特征、位置、回声强弱、形状等。
因此,本发明将每个器官的检查报告结构化抽取分为两大部分:脏器和占位病变。脏器主要是指体检影像报告中,对人体内不能直接观察到组织的概括,如:肝、胆、脾、肾、膀胱、输尿管、心脏、甲状腺等;占位病变是体检影像检查诊断报告单中常用的医学术语,通常出现在X线检查、B超检查、CT检查结果中,是指被检查组织内异常肿块对正常组织产生挤压异位的现象。占位病变通常是指肿瘤(良性、恶性)结石、血肿、寄生虫、包裹性积液等病变。具体的结构化抽取的信息如表1所示。
表1:肝脏示例
在本发明实施例中,体检中的彩超及放射性检查的主体描述主要包括部位、脏器描述及占位病变。其它的将作为这几个主体的属性词存在。每个器官的属性词既有相同的属性也有特有的属性描述,比如大小、轮廓、位置等,也有自己特殊的属性词比如肝脏有门禁脉、包膜;胆囊有囊壁、胆汁、胆管;胰腺有胰管、胰头、胰尾等。同时每个属性都有自己的别名库而且对应的值也有候选库来支撑结构化抽取。各属性如下示意:
大小,用于描述器官及病变的体积大小。它由不同的同义词比如:体积、斜径、大小约等,对应的候选值有:正常、增大、缩小、未探及、数值等
轮廓,用于描述器官及病变的形状。它的同义词包括:边缘、边界、肝左叶轮廓等,对应的候选值有:正常、模糊、规整、清、欠清、不清、清晰。
所以,本发明对体检报告中的影像检查描述报告,自定义了类似如下的存储结构:
将器官部位信息存储于前,在器官部位信息之后并列存储脏器和占位病变,在脏器后存储脏器属性信息,在占位病变后存储占位病变属性信息。
具体如图2所示。
本发明还提到别名库,别名库如图3所示。
在本发明实施例中,步骤102,医学影像检查报告实体词识别主要通过结巴分词和自定义词典(步骤101构建的分词词典),对实体词进行全匹配切分,并且以自定义标签作为词性,利用词性标注获取实体词。检查报告的实体词自定义标签主要分为node(节点)和value(值)两种。
在本发明实施例中,步骤103是根据实体词以及定义的存储结构,构建所有value实体的依存关系树,具体构建方式如下:
将词性为值的实体词置于依存关系树的尾端;
基于预设特定信息的存储结构中器官部位信息、脏器、脏器属性信息、占位病变和占位病变属性信息的存储位置,依据连接器官部位信息、脏器、脏器属性信息和词性为值的实体词,和/或,依据连接器官部位信息、占位病变、占位病变属性信息和词性为值的实体词,构建实体词的依存关系树。
举例说明,比如:“肝脏切面形态大小正常”:root->肝(node:肝脏切面|肝脏)->脏器->大小(node:形态大小|体积|斜径|大小约|约)->正常(value:增大|缩小|未探及|数值)。比如“大小”这个实体词的部分依存路径如图4所示。
在本发明实施例中,步骤104具体包括:
从预核保的影像学检查报告对应的实体词中值对应的实体词开始,从值对应的实体词的依存关系树中进行搜索,获得值对应的实体词的多条依存路径。
步骤105具体包括:
结合预核保的影像学检查报告中的上下文语句(即按照语句与实体词的距离、节点词与实体词的距离对每条依存路径进行加权打分),确定每条依存路径的分数,基于所述分数确定最优路径。
具体的,通过第103步的实体词及词性识别,以及实体的依存关系树进而从value属性的实体词开始来构建每个词的有向无环图。当匹配到实体词时,搜索该实体词所有依存路径多段图,然后结合上下文对图内路径进行打分,比如对一个句子,从第一个实体词开始,分别向前、向后寻找,当找到路径当中的节点词时,按句子与实体词的距离、节点词和实体词的距离对路径进行加权打分,最后选出一条分数最高的路径作为该实体词的依存关系。
具体示例如下:
“肝脏切面形态大小正常,肝实质回声增强,肝右叶查见大小约0.9cm×0.8cm的无回声。”
通过实体词及词性识别,以及特定类实体词处理主要是对数字类(单位,大小,长度,重量等)做合并处理,还有倒装句式处理。构建图5提供的一种针对实体词“正常”构建的有向无环图示意图、图6提供的一种针对实体词“增强”构建的有向无环图示意图、和图7提供的一种针对实体词“0.9cm×0.8cm”构建的有向无环图示意图;如下有向无环图。
然后,结合上下文计算每个有向无环图的每条路径的分数,找出得分最高的路径作为最优解,比如:“肝脏切面/形态/大小/正常,肝/实质回声/增强”。
首先根据实体属性,先找value实体“正常”,然后匹配依存关系树节点找到“正常”的依存关系树,即图5所示的“正常”依存关系树,计算当前节点的匹配节点分数,然后再向后遍历依存节点计算匹配分数,如果向后遍历没有发现最优匹配,继续向前遍历,最后得到每个路径的分数,选取最优路径。
遍历及计算匹配分数的相应程序如下:
上述程序主要由三部分组成:
len(matched_node_string)表示每个节点实体词的匹配程度,比如“肝脏”这个实体词在依存树上可以匹配到“肝脏”和“肝脏右叶”,根据编辑距离匹配的分数分别为1.0和0.5,这表明“肝脏”是最佳匹配。
“distance(node from matched_node inafter_sentence)”表示向后遍历实体节点路径。
“distance(node from matched_node in pre_sentence)/2”表示向前遍历。一般检查结果的主体在其后面,所以向前遍历权重降低一半。
最后对“肝脏切面形态大小正常,肝实质回声增强,肝右叶查见大小约0.9cm×0.8cm的无回声。”结构化的输出如下:
Start->root->肝->脏器->大小->正常->end
Start->root->肝->脏器->实质->增强->end
Start->root->肝->占位病变->大小->0.9cm×0.8cm->end
在输出了结构化的影像学检查报告后,利用所述结构化的影像学检查报告进行核保处理,可以为核保提供了更丰富的数据支持,同时可以作为机器学习模型的数据源,研究分析客户的健康风险。
本发明实施例中还提供了一种影像学检查报告结构化装置,如下面的实施例所述。由于该装置解决问题的原理与影像学检查报告结构化方法相似,因此该装置的实施可以参见影像学检查报告结构化方法的实施,重复之处不再赘述。
图8是本发明实施例中提供的一种影像学检查报告结构化装置结构示意图,如图8所示,该装置包括:
分词词典构建模块02,用于对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
实体词获取模块04,用于基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
依存关系树构建模块06,用于基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
有向无环图确定模块08,用于基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
最优路径确定模块10,用于确定多条依存路径中的最优路径;
结构化的影像学检查报告确定模块12,用于基于最优路径,确定结构化的影像学检查报告;
核保处理模块14,用于利用所述结构化的影像学检查报告进行核保处理。
在本发明实施例中,所述特定信息包括器官部位信息、脏器属性信息和占位病变属性信息。
在本发明实施例中,按照如下方式预设特定信息的存储结构:
将器官部位信息存储于前,在器官部位信息之后并列存储脏器和占位病变,在脏器后存储脏器属性信息,在占位病变后存储占位病变属性信息。
在本发明实施例中,依存关系树构建模块06具体用于:
将词性为值的实体词置于依存关系树的尾端;
基于预设特定信息的存储结构中器官部位信息、脏器、脏器属性信息、占位病变和占位病变属性信息的存储位置,依据连接器官部位信息、脏器、脏器属性信息和词性为值的实体词,和/或,依据连接器官部位信息、占位病变、占位病变属性信息和词性为值的实体词,构建实体词的依存关系树。
在本发明实施例中,有向无环图确定模块08具体用于:
从预核保的影像学检查报告对应的实体词中值对应的实体词开始,从值对应的实体词的依存关系树中进行搜索,获得值对应的实体词的多条依存路径。
在本发明实施例中,最优路径确定模块10具体用于:
结合预核保的影像学检查报告中的上下文语句,确定每条依存路径的分数,基于所述分数确定最优路径。
在本发明实施例中,最优路径确定模块10具体用于:
按照语句与实体词的距离、节点词与实体词的距离对每条依存路径进行加权打分,确定每条依存路径的分数。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述影像学检查报告结构化方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述影像学检查报告结构化方法的计算机程序。
本发明实施例中,对历史的影像学检查报告进行预设特定信息抽取,基于特定信息和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,基于实体词和特定信息的存储结构,构建实体词的依存关系树;基于预核保的影像学检查报告和实体词的依存关系树,确定词性为值的实体词的有向无环图,确定有向无环图中多条依存路径中的最优路径;基于最优路径,确定结构化的影像学检查报告;利用结构化的影像学检查报告进行核保处理,与现有技术中电子化的影像学检查报告采用不同描述数据以及非结构化的形式,导致需要大量的人力来解读,影响核保的效率的技术方案相比,通过对体检影像学检查报告自动结构化,为核保健康风险评估提供稳定可靠的基础健康数据源,为核保模型研发人员对被保人的健康数据进行分析挖掘提供数据支持,进而通过利用AI模型辅助核保员加速审核流程。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种影像学检查报告结构化方法,其特征在于,包括:
对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
确定多条依存路径中的最优路径;
基于最优路径,确定结构化的影像学检查报告;
利用所述结构化的影像学检查报告进行核保处理;
其中,基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,包括:
从预核保的影像学检查报告对应的实体词中值对应的实体词开始,从值对应的实体词的依存关系树中进行搜索,获得值对应的实体词的多条依存路径;
确定多条依存路径中的最优路径,包括:
结合预核保的影像学检查报告中的上下文语句,确定每条依存路径的分数,基于所述分数确定最优路径;
结合预核保的影像学检查报告中的上下文语句,确定每条依存路径的分数,包括:
按照上下文语句与实体词的距离、节点词与实体词的距离,对每条依存路径进行加权打分,确定每条依存路径的分数。
2.如权利要求1所述的影像学检查报告结构化方法,其特征在于,所述特定信息包括器官部位信息、脏器属性信息和占位病变属性信息。
3.如权利要求2所述的影像学检查报告结构化方法,其特征在于,按照如下方式预设特定信息的存储结构:
将器官部位信息存储于前,在器官部位信息之后并列存储脏器和占位病变,在脏器后存储脏器属性信息,在占位病变后存储占位病变属性信息。
4.如权利要求3所述的影像学检查报告结构化方法,其特征在于,基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树,包括:
将词性为值的实体词置于依存关系树的尾端;
基于预设特定信息的存储结构中器官部位信息、脏器、脏器属性信息、占位病变和占位病变属性信息的存储位置,依次连接器官部位信息、脏器、脏器属性信息和词性为值的实体词,和/或,依次连接器官部位信息、占位病变、占位病变属性信息和词性为值的实体词,构建实体词的依存关系树。
5.一种影像学检查报告结构化装置,其特征在于,包括:
分词词典构建模块,用于对历史的影像学检查报告进行预设特定信息抽取,获得特定信息,基于所述特定信息构建分词词典;
实体词获取模块,用于基于所述分词词典和预设的实体词词性标签,对影像学检查报告进行分词处理,获得实体词,所述预设的实体词词性标签包括节点和值;
依存关系树构建模块,用于基于所述实体词和预设的特定信息的存储结构,构建实体词的依存关系树;
有向无环图确定模块,用于基于预核保的影像学检查报告和所述实体词的依存关系树,确定词性为值的实体词的有向无环图,所述有向无环图包括多条依存路径;
最优路径确定模块,用于确定多条依存路径中的最优路径;
结构化的影像学检查报告确定模块,用于基于最优路径,确定结构化的影像学检查报告;
核保处理模块,用于利用所述结构化的影像学检查报告进行核保处理;
其中,有向无环图确定模块具体用于:
从预核保的影像学检查报告对应的实体词中值对应的实体词开始,从值对应的实体词的依存关系树中进行搜索,获得值对应的实体词的多条依存路径;
最优路径确定模块具体用于:
结合预核保的影像学检查报告中的上下文语句,确定每条依存路径的分数,基于所述分数确定最优路径;
最优路径确定模块还具体用于:
按照上下文语句与实体词的距离、节点词与实体词的距离,对每条依存路径进行加权打分,确定每条依存路径的分数。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述影像学检查报告结构化方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至4任一所述影像学检查报告结构化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650261.3A CN111814478B (zh) | 2020-07-08 | 2020-07-08 | 影像学检查报告结构化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650261.3A CN111814478B (zh) | 2020-07-08 | 2020-07-08 | 影像学检查报告结构化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814478A CN111814478A (zh) | 2020-10-23 |
CN111814478B true CN111814478B (zh) | 2023-11-24 |
Family
ID=72841979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650261.3A Active CN111814478B (zh) | 2020-07-08 | 2020-07-08 | 影像学检查报告结构化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814478B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112635013B (zh) * | 2020-11-30 | 2023-10-27 | 泰康保险集团股份有限公司 | 医学影像信息的处理方法、装置、电子设备和存储介质 |
CN113160963A (zh) * | 2020-12-18 | 2021-07-23 | 中电云脑(天津)科技有限公司 | 一种事件确定方法、装置、电子设备和存储介质 |
CN112712879B (zh) * | 2021-01-18 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 医学影像报告的信息提取方法、装置、设备及存储介质 |
CN117827925A (zh) * | 2022-09-27 | 2024-04-05 | 华为技术有限公司 | 一种数据管理方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012008944A (ja) * | 2010-06-28 | 2012-01-12 | Hitachi Aloka Medical Ltd | 診断レポート検索装置 |
CN107463786A (zh) * | 2017-08-17 | 2017-12-12 | 王卫鹏 | 基于结构化报告模板的医学影像知识库建立方法 |
CN109918672A (zh) * | 2019-03-13 | 2019-06-21 | 东华大学 | 一种基于树结构的甲状腺超声报告的结构化处理方法 |
CN110413963A (zh) * | 2019-07-03 | 2019-11-05 | 东华大学 | 基于领域本体的乳腺超声检查报告结构化方法 |
-
2020
- 2020-07-08 CN CN202010650261.3A patent/CN111814478B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012008944A (ja) * | 2010-06-28 | 2012-01-12 | Hitachi Aloka Medical Ltd | 診断レポート検索装置 |
CN107463786A (zh) * | 2017-08-17 | 2017-12-12 | 王卫鹏 | 基于结构化报告模板的医学影像知识库建立方法 |
CN109918672A (zh) * | 2019-03-13 | 2019-06-21 | 东华大学 | 一种基于树结构的甲状腺超声报告的结构化处理方法 |
CN110413963A (zh) * | 2019-07-03 | 2019-11-05 | 东华大学 | 基于领域本体的乳腺超声检查报告结构化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111814478A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814478B (zh) | 影像学检查报告结构化方法及装置 | |
JP2019512131A (ja) | 画像ベースの患者固有の血流力学的モデルにおいて解像されていない血管を特定してモデル化するためのシステム及び方法 | |
CN111932554B (zh) | 一种肺部血管分割方法、设备及存储介质 | |
CN106056126A (zh) | 医学成像中的斑块易损性评定 | |
CN108475540A (zh) | 用于使用来自过程的信息进行解剖建模的系统和方法描述 | |
JPWO2013001678A1 (ja) | 類似症例検索装置および関連度データベース作成装置並びに類似症例検索方法および関連度データベース作成方法 | |
CN116884580A (zh) | 用于提供冠状动脉钙负荷的纵向显示的装置和方法 | |
CN115830017B (zh) | 基于图文多模态融合的肿瘤检测系统、方法、设备及介质 | |
Fashandi et al. | An investigation of the effect of fat suppression and dimensionality on the accuracy of breast MRI segmentation using U‐nets | |
CN116050691A (zh) | 医疗影像报告评估方法、装置、电子设备及存储介质 | |
Zeng et al. | Machine Learning-Based Medical Imaging Detection and Diagnostic Assistance | |
Wang et al. | Accuracy and reliability analysis of a machine learning based segmentation tool for intertrochanteric femoral fracture CT | |
Alidoost et al. | Model utility of a deep learning-based segmentation is not Dice coefficient dependent: A case study in volumetric brain blood vessel segmentation | |
JP2004130090A (ja) | コンピュータ援用患者診断決定支援システム | |
Overton et al. | Open Biomedical Ontologies applied to prostate cancer | |
CN116309346A (zh) | 医学图像的检测方法、装置、设备、存储介质及程序产品 | |
Georgsson et al. | An identification of handling uncertainties within medical screening: a case study within screening for breast cancer | |
Kumar et al. | Comparative Study of Liver Segmentation using U-Net and ResNet50 | |
CN111798468A (zh) | 图像处理方法及装置、存储介质及电子终端 | |
CN112991314A (zh) | 血管分割方法、装置及存储介质 | |
CN112489051A (zh) | 基于血管及病变区域的肝脏裁切方法及系统 | |
Allgöwer et al. | Liver Tumor Segmentation Using Classical Algorithms & Deep Learning | |
Mlouhi et al. | Statistical Analysis and Segmentation IVUS Images | |
Iskandar et al. | Spatio-temporal semantic representation of Cardiac MRI in heart attack patients | |
CN115760961A (zh) | 血管图像处理方法、装置、服务器及后处理图像生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |