CN113160997A - 肿瘤检验报告的处理方法、模型训练方法及相关装置 - Google Patents

肿瘤检验报告的处理方法、模型训练方法及相关装置 Download PDF

Info

Publication number
CN113160997A
CN113160997A CN202110225927.5A CN202110225927A CN113160997A CN 113160997 A CN113160997 A CN 113160997A CN 202110225927 A CN202110225927 A CN 202110225927A CN 113160997 A CN113160997 A CN 113160997A
Authority
CN
China
Prior art keywords
event
tumor
training
text information
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110225927.5A
Other languages
English (en)
Inventor
程龙龙
袁丁
黄硕
江正义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yunnao Tianjin Technology Co ltd
Original Assignee
Zhongdian Yunnao Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yunnao Tianjin Technology Co ltd filed Critical Zhongdian Yunnao Tianjin Technology Co ltd
Priority to CN202110225927.5A priority Critical patent/CN113160997A/zh
Publication of CN113160997A publication Critical patent/CN113160997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请实施例提供一种肿瘤检验报告的处理方法、模型训练方法及相关装置。通过对肿瘤检验报告的文字信息进行事件抽取,确定该文字信息中的事件元素以及事件元素对应的事件类型。进一步的,将该文字信息中的事件元素添加用于表示该事件元素对应的事件类型的处理操作之后输出。通过上述方法,能够智能抽取出肿瘤检验报告中的事件元素。以此,尽可能的解决相关技术中缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性的问题。

Description

肿瘤检验报告的处理方法、模型训练方法及相关装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种肿瘤检验报告的处理方法、模型训练方法及相关装置。
背景技术
肿瘤CT(Computed Tomography,电子计算机断层扫描)的检验报告供医生进行病情分析,故此合理的检验报告有助于提高病情分析。
相关技术中,为了便于医生查看检验报告,通过仅仅是将电子版的肿瘤CT的检验报告输出给医生查看。缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性。
发明内容
本申请的目的是提供一种肿瘤检验报告的处理方法及相关装置。用于解决相关技术中缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性的问题。
第一方面,本申请实施例提供了一种肿瘤检验报告的处理方法,所述方法包括:获取所述肿瘤检验报告的文本信息;
对所述文本信息进行事件抽取,确定所述文本信息中的事件元素以及所述事件元素对应的事件类型;
对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
在一些可能的实施例中,所述对所述文本信息进行事件抽取之前,所述方法还包括:
识别所述文本信息中的触发词,提取所述触发词对应的文本子句;
所述对所述文本信息进行事件抽取,包括:
针对所述文本子句执行所述事件抽取操作。
在一些可能的实施例中,所述用于表示所述事件元素对应的事件类型的处理操作,包括以下操作中的至少一种:
为所述事件元素添加底色、改变所述事件元素的字体样式;
其中,所述字体样式包括字体类型、字体颜色以及字号大小中的任一种或组合。
第二方面,本申请实施例提供了一种模型训练方法,所述方法包括:
基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型;
将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
在一些可能的实施例中,所述基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集,包括:
采用经所述第一训练集训练后的所述肿瘤事件抽取模型对所述预测集执行识别操作,确定所述预测集中每一词语对应的识别结果;
基于所述第一训练集中各词语的识别结果,对所述第一训练集中的词语进行筛选操作,由筛选出的词语构建所述第二训练集。
第三方面,本申请实施例提供了一种肿瘤检验报告的处理装置,所述装置包括:
文本信息模块,用于获取所述肿瘤检验报告的文本信息;
事件抽取模块,用于对所述文本信息进行事件抽取,确定所述文本信息中的事件元素以及所述事件元素对应的事件类型;
输出模块,用于对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
在一些可能的实施例中,所述事件抽取模块对所述文本信息进行事件抽取之前,还被配置为:
识别所述文本信息中的触发词,提取所述触发词对应的文本子句;
所述事件抽取模块对所述文本信息进行事件抽取时,被配置为:
针对所述文本子句执行所述事件抽取操作。
在一些可能的实施例中,所述用于表示所述事件元素对应的事件类型的处理操作,包括以下操作中的至少一种:
为所述事件元素添加底色、改变所述事件元素的字体样式;
其中,所述字体样式包括字体类型、字体颜色以及字号大小中的任一种或组合。
第四方面,本申请实施例提供了一种模型训练装置,所述装置包括:
文本信息处理模块,用于基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
第一训练模块,用于将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型;
训练集生成模块,用于将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
第二训练模块,用于采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
在一些可能的实施例中,所述训练集生成模块,被配置为:
采用经所述第一训练集训练后的所述肿瘤事件抽取模型对所述预测集执行识别操作,确定所述预测集中每一词语对应的识别结果;
基于所述第一训练集中各词语的识别结果,对所述第一训练集中的词语进行筛选操作,由筛选出的词语构建所述第二训练集。
第五方面,本申请另一实施例还提供了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的第一方面和第二方面的方法。
第六方面,本申请另一实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行本申请实施例提供的第一方面和第二方面的方法。
本申请实施例,通过对肿瘤检验报告的文字信息进行事件抽取,确定该文字信息中的事件元素以及事件元素对应的事件类型。进一步的,将该文字信息中的事件元素添加用于表示该事件元素对应的事件类型的处理操作之后输出。通过上述方法,能够智能抽取出肿瘤检验报告中的事件元素。以此,尽可能的解决相关技术中缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性的问题。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个实施例的应用环境的示意图;
图2为根据本申请一个实施例的肿瘤检验报告的处理方法流程图;
图3为根据本申请一个实施例的模型训练方法整体流程图;
图4为根据本申请一个实施例的瘤检验报告的处理装置示意图;
图5为根据本申请一个实施例的模型训练装置示意图;
图6为根据本申请一个实施例的电子设备示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
在本申请实施例的描述中,除非另有说明,术语“多个”是指两个或两个以上,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
相关技术中,医务人员需要根据肿瘤CT的检验报告来确定肿瘤的分析结果。肿瘤检验报告多为非结构化的文字描述,医务人员需要人为检索检验报告中用于确定肿瘤分析结果的事件元素。这种方式不仅不利于医务人员查看检验报告,且存在事件元素提取不全的隐患。由此可见,相关技术中缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性。基于此,本申请的发明构思为:通过对肿瘤检验报告中的文字信息进行事件抽取,抽取出该肿瘤检验报告中的事件元素,并确定事件元素所对应的事件类型。将肿瘤检验报告中的事件元素添加用于表示该事件元素对应的事件类型的处理操作,通过上述方法,能够实现对检验报告中的事件元素及该事件元素对应的事件类型进行可视化展示,以此,尽可能的解决相关技术中缺少一种能够更加合理的利用肿瘤检验报告的方式来提高针对的可靠性和准确性的问题。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面结合附图对本申请实施例所提供的一种视频处理方法进行详细说明。
参见图1,为根据本申请一个实施例的应用环境的示意图。
下面结合附图对本申请实施例中肿瘤检验报告的处理方法和模型训练方法进行详细说明。
如图1所示,该应用环境中例如可以包括网络10、服务器20、至少一种终端30以及数据库40。其中:服务器20用于抽取肿瘤检验报告中的事件元素,并基于该事件元素生成肿瘤分析结果。
服务器20用于对肿瘤检验报告的文本信息执行识别操作,通过事件抽取确定该文本信息中的事件元素及事件元素的所属事件类型。并根据事件元素的所属事件类型对所识别的事件元素进行处理。将处理后的肿瘤检验报告通过网络10发送给终端设备30。终端设备30能够将肿瘤检验报告进行输出展。
此外,服务器20可在识别到肿瘤检验报告中的事件元素及事件元素的所属事件类型之后,根据事件元素及事件元素的所属类型生成该肿瘤检验报告对应的肿瘤分析结果。并通过网络10将肿瘤分析结果发送给终端设备30。
在一些可能的实施例中,服务器20在生成肿瘤分析结果之后,将该肿瘤分析结果存入数据库40中。将该肿瘤分析结果进行备份后通过网络10发送给终端设备30进行展示。
应理解的是,本申请中的描述中仅就单个服务器或终端设备加以详述,但本申请示出的服务器20、终端设备30以及数据库40旨在表示本申请的技术方案涉及的服务器、终端设备以及存储系统的操作。对单个服务器和存储系统加以详述至少为了说明方便,而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意,如果向图示环境中添加附加模块或从其中去除个别模块,不会改变本申请的示例实施例的底层概念。另外,虽然为了方便说明而在图1中示出了从数据库40到服务器20的双向箭头,但本领域技术人员可以理解的是,上述数据的收发也是需要通过网络10实现的。
需要说明的是,本申请实施例中的存储系统例如可以是缓存系统、也可以是硬盘存储、内存存储等等。
图2示出了本申请实施例提供的一种肿瘤检验报告的处理方法整体流程图,具体包括如下步骤:
步骤201:获取所述肿瘤检验报告的文本信息;
相关技术中,肿瘤检验报告多为非结构化的文字描述。考虑到事件抽取技术能够从计算机无法识别的非结构化信息中自动提取出用户感兴趣的内容,基于此,本申请在获取肿瘤检验报告的文本信息之后通过肿瘤事件抽取模型对肿瘤检验报告中的事件元素进行抽取,通过事件元素及事件元素所属的事件类型确定肿瘤检验报告的分析结果。
为便于理解本申请所提供的方案,首先对事件抽取技术中进行简要说明。
事件抽取技术主要包括事件检测(Event Detection)和事件元素识别(ArgumentDetection)两部分。事件检测,能够从非结构化的文字描述中识别触发词以及触发词所代表的事件类型。事件元素识别,能够识别到事件的参与者,并确定所识别的事件元素对应的事件类型。
本申请基于事件抽取技术,将肿瘤检验报告中用于生成肿瘤分析结果的关键信息(如原发病灶、转移病灶以及病灶大小)作为事件类别。并将每一事件类别所对应的文本内容作为事件元素。通过将肿瘤检验报告中的事件元素进行抽取,并基于触发词确定该事件元素所对应的事件类型,以此实现智能的从肿瘤检验报告中筛选出用于生成肿瘤分析结果的关键内容。为便于理解本申请中的事件类型、事件元素以及触发词,下面以肿瘤检验报告的文本信息进行举例说明:
肿瘤检验报告的文本信息为:“右肺上叶后基底段站位,考虑周围型肺癌可能性较大。左肺下叶结节,转移待排,建议追查。右肺上叶后基底段见类圆形结节,约17×15MM”。
其中,事件类型即为用于生成肿瘤分析结果的关键信息,包括原发病灶、转移病灶以及病灶大小;
事件元素为事件的参与者,即为事件类型对应的主体。一种事件类型中至少包含一个事件元素。以上述肿瘤检验报告的文本信息为例,原发病灶这一事件类型对应的事件元素即为右肺上叶、转移病灶这一事件类型对应的事件元素即为左肺下叶、病灶大小这一事件类型对应的事件元素即为17×15mm;
触发词用于定位事件元素所属的事件类型。触发词多为用于表示事件元素某一属性的名词(如用于表示原发病灶的触发词“癌”、用于表示病灶大小的单位名词“MM”等)或用于专指形容事件元素的形容词(如用于表示转移病灶的触发词“转移、侵入”等)。
考虑到触发词是用于表示事件元素的某一属性或专值形容某一事件元素的词,触发词多与事件元素在文本信息中多处于同一段话内。在执行步骤202之前,可通过提取触发词所对应的文本子句,针对每一文本子句执行事件提取操作。例如从“右肺上叶后基底段站位,考虑周围型肺癌可能性较大。左肺下叶结节,转移待排,建议追查。右肺上叶后基底段见类圆形结节,约17×15MM。”这一肿瘤检验报告识别出触发词“癌”后,通过标点符号定位到该触发词所在文本子句“右肺上叶后基底段站位,考虑周围型肺癌可能性较大”。再通过肿瘤事件抽取模型对该文本子句执行事件抽取操作,识别该文本子句中的事件元素“右肺上叶”。根据触发词对应的事件类型可知,该事件元素为“右肺上叶”,该事件元素所属事件类型为“原发病灶”。
此外,为保证文本子句提取的准确性,通过标点符号定位触发词所在的文本子句时,识别触发词左右相邻的句号。若未识别到触发词的左侧句号,则表示该触发词处于文本信息中的首句内容,实施时可将文本信息中的首句作为该触发词所在的文本子句。
在确定肿瘤检验报告中的事件元素后,执行步骤203:对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
在通过上述步骤确定肿瘤检验报告中的事件元素后,可对事件元素的文本内容进行样式修改,以便于为医务人员指示出肿瘤检验报告中的关键信息。实施时,可为肿瘤检验报告中的每一事件元素执行用于表示所述事件元素对应的事件类型处理操作。以此帮助医务人员更直观的确定每一事件元素对应的事件类型。
在一些可能的实施例中,所述用于表示所述事件元素对应的事件类型的处理操作,包括以下操作中的至少一种:
为所述事件元素添加底色、改变所述事件元素的字体样式;
其中,所述字体样式包括字体类型、字体颜色以及字号大小中的任一种或组合。
此外,为保证肿瘤事件抽取模型执行事件抽取的准确性,本申请采用SSL学习方法(Semi-Supervised Learning,半监督学习)对肿瘤事件抽取模型进行训练。本申请实施例还提供了一种模型训练方法,具体可如图3所示,包括:
步骤301:基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
在执行步骤301时,从大量历史肿瘤检测报告中提取部分历史肿瘤检测报告的文本信息,获取该文本信息中的事件元素,并为各事件元素添加用于表示该事件元素所属事件类型(原发病灶、转移病灶以及病灶大小)的标签,以此构建有标签数据集。进一步的,将余下历史肿瘤检验报告作为无标签数据集。
半监督学习的基本思想是利用数据分布上的模型假设建立学习器,实现对未标签样例进行识别。即,通过有标签数据集对神经网络模型进行训练,在神经网络模型识别标签后,采用无标签数据集来增加神经网络模型的学习能力。
故此在通过步骤301确定有标签数据集和无标签数据集后,执行步骤302:将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型。
考虑到有标签数据集的成本较高,有标签数据集的样本数量相对较少,故而无标签数据集中存在部分文本内容与有标签数据集存在差异,但所属事件类型相同的事件元素。基于此,可通过无标签数据集构建训练集对肿瘤事件模型进行训练,以提高肿瘤事件抽取模型的识能力。在肿瘤事件抽取模型具有识别有标签数据集中的事件元素后,执行步骤303:将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
实施时,将无标签数据集作为预测集,并采用肿瘤事件抽取模型对该预测集执行识别操作,以此确定无标签数据集中每一词语对应的识别结果。该识别结果即为该词语被肿瘤事件抽取模型识别为某一事件类型对应的事件元素的概率。
进一步的,将识别结果大于预设阈值的词语作为第二训练集,并执行步骤304:采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
在一些可能的实施例中,预设阈值为75%在肿瘤事件抽取模型经过第一训练集的训练后,能够识别到事件类型为“原发病灶”对应的事件元素“右肺下叶”,在该模型对无标签数据集执行识别操作时,识别到无标签数据集中的“左肺下叶”为“原发病灶”的概率为93%,由于“左肺下叶”的识别结果大于预设阈值,此时将“左肺下叶”作为第二训练集,并为“左肺下叶”添加“原发病灶”标签。以使经过第二训练集训练后的肿瘤事件抽取模型能够识别到“左肺下叶”以及“左肺下叶”的所属事件类型“原发病灶”。
此外,在本发明实施例采用第一训练集和第二训练集对肿瘤事件抽取模型进行训练的过程中引入了随机噪音信息,以提高模型的泛化能力。实施时,可在训练时添加预设的噪音添加规则。预设的噪音添加规则可包括用于在第一训练集和/或第二训练集中添加如参数正则化(Dropout)、随机深度以及随机增强等模型噪音添加规则。
在介绍完本申请所提供的肿瘤抽取模型的训练流程后,本申请实施例提供了一种肿瘤检验报告的处理装置400,如图4所示,该装置包括:
文本信息模块401,用于获取所述肿瘤检验报告的文本信息;
事件抽取模块402,用于对所述文本信息进行事件抽取,确定所述文本信息中的事件元素以及所述事件元素对应的事件类型;
输出模块403,用于对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
在一些可能的实施例中,所述事件抽取模块对所述文本信息进行事件抽取之前,还被配置为:
识别所述文本信息中的触发词,提取所述触发词对应的文本子句;
所述事件抽取模块对所述文本信息进行事件抽取时,被配置为:
针对所述文本子句执行所述事件抽取操作。
在一些可能的实施例中,所述用于表示所述事件元素对应的事件类型的处理操作,包括以下操作中的至少一种:
为所述事件元素添加底色、改变所述事件元素的字体样式;
其中,所述字体样式包括字体类型、字体颜色以及字号大小中的任一种或组合。
基于相同的发明构思,本申请实施例还提供了一种肿瘤事件抽取模型训练装置500,如图5所示,该装置包括:
本申请实施例提供了一种模型训练装置,所述装置包括:
文本信息处理模块501,用于基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
第一训练模块502,用于将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型;
训练集生成模块503,用于将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
第二训练模块504,用于采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
在一些可能的实施例中,所述训练集生成模块,被配置为:
采用经所述第一训练集训练后的所述肿瘤事件抽取模型对所述预测集执行识别操作,确定所述预测集中每一词语对应的识别结果;
基于所述第一训练集中各词语的识别结果,对所述第一训练集中的词语进行筛选操作,由筛选出的词语构建所述第二训练集。
在介绍完本申请所提供的装置后,下面参照图6来描述根据本申请的这种实施方式的电子设备130。图6显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的一种肿瘤检验报告的处理方法或者模型训练方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种图像分割模型训练方法或者图像处理方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于肿瘤检验报告的处理方法或者模型训练方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种肿瘤检验报告的处理方法,其特征在于,所述方法包括:
获取所述肿瘤检验报告的文本信息;
对所述文本信息进行事件抽取,确定所述文本信息中的事件元素以及所述事件元素对应的事件类型;
对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本信息进行事件抽取之前,所述方法还包括:
识别所述文本信息中的触发词,提取所述触发词对应的文本子句;
所述对所述文本信息进行事件抽取,包括:
针对所述文本子句执行所述事件抽取操作。
3.根据权利要求1所述的方法,其特征在于,所述用于表示所述事件元素对应的事件类型的处理操作,包括以下操作中的至少一种:
为所述事件元素添加底色、改变所述事件元素的字体样式;
其中,所述字体样式包括字体类型、字体颜色以及字号大小中的任一种或组合。
4.一种模型训练方法,其特征在于,所述方法包括:
基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型;
将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集,包括:
采用经所述第一训练集训练后的所述肿瘤事件抽取模型对所述预测集执行识别操作,确定所述预测集中每一词语对应的识别结果;
基于所述第一训练集中各词语的识别结果,对所述第一训练集中的词语进行筛选操作,由筛选出的词语构建所述第二训练集。
6.一种肿瘤检验报告的处理装置,其特征在于,所述装置包括:
文本信息模块,用于获取所述肿瘤检验报告的文本信息;
事件抽取模块,用于对所述文本信息进行事件抽取,确定所述文本信息中的事件元素以及所述事件元素对应的事件类型;
输出模块,用于对所述文本信息中的所述事件元素添加用于表示所述事件元素对应的事件类型的处理操作后,输出所述文本信息,所述处理操作用于突出显示所述事件元素。
7.根据权利要求6所述的装置,其特征在于,所述事件抽取模块对所述文本信息进行事件抽取之前,还被配置为:
识别所述文本信息中的触发词,提取所述触发词对应的文本子句;
所述事件抽取模块对所述文本信息进行事件抽取时,被配置为:
针对所述文本子句执行所述事件抽取操作。
8.一种模型训练装置,其特征在于,所述装置包括:
文本信息处理模块,用于基于历史肿瘤检测报告的文本信息构建有标签数据集合和无标签数据集合;
第一训练模块,用于将所述有标签数据集作为第一训练集,并基于所述第一训练集对待训练的肿瘤事件抽取模型进行训练,以使经所述第一训练集训练后的所述肿瘤事件抽取模型能够识别所述第一训练集中的事件元素和所述事件元素对应的事件类型;
训练集生成模块,用于将所述无标签数据集合作为预测集,并基于所述预测集确定用于对所述肿瘤事件抽取模型进行训练的第二训练集;
第二训练模块,用于采用所述第二训练集对所述肿瘤事件抽取模型进行训练,以使经所述第二训练集训练后的所述肿瘤事件抽取模型能够识别所述第二训练集中的事件元素和所述事件元素对应的事件类型。
9.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任何一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行如权利要求1-5任何一项所述的方法。
CN202110225927.5A 2021-03-01 2021-03-01 肿瘤检验报告的处理方法、模型训练方法及相关装置 Pending CN113160997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110225927.5A CN113160997A (zh) 2021-03-01 2021-03-01 肿瘤检验报告的处理方法、模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110225927.5A CN113160997A (zh) 2021-03-01 2021-03-01 肿瘤检验报告的处理方法、模型训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN113160997A true CN113160997A (zh) 2021-07-23

Family

ID=76883760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110225927.5A Pending CN113160997A (zh) 2021-03-01 2021-03-01 肿瘤检验报告的处理方法、模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN113160997A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107358040A (zh) * 2017-07-01 2017-11-17 深圳市前海安测信息技术有限公司 基于医生问诊的慢病患者健康检查系统及方法
CN107491655A (zh) * 2017-08-31 2017-12-19 康安健康管理咨询(常熟)有限公司 基于机器学习的肝脏疾病信息智能咨询方法及系统
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN110032617A (zh) * 2019-03-05 2019-07-19 中电科软件信息服务有限公司 基于规则的卒中数据抽取管理系统及方法
CN110517746A (zh) * 2019-08-28 2019-11-29 杭州融御科技有限公司 一种超声诊断结果结构化报告系统
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107358040A (zh) * 2017-07-01 2017-11-17 深圳市前海安测信息技术有限公司 基于医生问诊的慢病患者健康检查系统及方法
CN107491655A (zh) * 2017-08-31 2017-12-19 康安健康管理咨询(常熟)有限公司 基于机器学习的肝脏疾病信息智能咨询方法及系统
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN110032617A (zh) * 2019-03-05 2019-07-19 中电科软件信息服务有限公司 基于规则的卒中数据抽取管理系统及方法
CN110517746A (zh) * 2019-08-28 2019-11-29 杭州融御科技有限公司 一种超声诊断结果结构化报告系统
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10818397B2 (en) Clinical content analytics engine
US10929420B2 (en) Structured report data from a medical text report
CN109584975B (zh) 医疗数据标准化处理方法及装置
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
US8612261B1 (en) Automated learning for medical data processing system
US20220044812A1 (en) Automated generation of structured patient data record
Taira et al. Automatic structuring of radiology free-text reports
US20140181128A1 (en) Systems and Methods for Processing Patient Data History
JP2020149682A (ja) 治療順序を判定する方法、コンピュータプログラム及びコンピューティング装置
CN109524121B (zh) 医疗文件处理方法与装置
US20220068449A1 (en) Integrated diagnostics systems and methods
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN112507701A (zh) 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112860842A (zh) 病历标注方法、装置及存储介质
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
US20240006039A1 (en) Medical structured reporting workflow assisted by natural language processing techniques
US10318092B2 (en) Medical records visualization system for displaying related medical records in clusters with marked interrelationships on a time line
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
CN113160997A (zh) 肿瘤检验报告的处理方法、模型训练方法及相关装置
US8756234B1 (en) Information theory entropy reduction program
Wu et al. Developing EMR-based algorithms to Identify hospital adverse events for health system performance evaluation and improvement: Study protocol
CN113517047A (zh) 医学数据的获取方法、装置、电子设备及存储介质
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
CN111400759A (zh) 访视时间表生成方法及装置、存储介质、电子设备
CN112786132B (zh) 病历文本数据分割方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Cheng Longlong

Inventor after: Huang Shuo

Inventor after: Yuan Ding

Inventor after: Jiang Zhengyi

Inventor before: Cheng Longlong

Inventor before: Yuan Ding

Inventor before: Huang Shuo

Inventor before: Jiang Zhengyi

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication