CN112541066A

CN112541066A - 基于文本结构化的医技报告检测方法及相关设备

Info

Publication number: CN112541066A
Application number: CN202011458663.XA
Authority: CN
Inventors: 吴及; 郭辰仪; 王道烩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23
Anticipated expiration: 2040-12-11
Also published as: CN112541066B

Abstract

本公开实施例提供了一种基于文本结构化的医技报告检测方法及相关设备。该方法包括：获取待检测医技报告；对待检测医技报告进行预处理，获得所见描述信息和诊断结果信息的分句结果；利用训练完成的实体识别模型对分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得待检测医技报告的结构化文本；基于待检测医技报告的结构化文本，获得待检测医技报告的目标检测结果；输出并显示待检测医技报告的结构化文本及其目标检测结果。

Description

基于文本结构化的医技报告检测方法及相关设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种基于文本结构化的医技报告检测方法及装置、计算机可读存储介质、电子设备。

背景技术

目前，由于人口基数大，医疗资源有限，尤其在影像检查相关医技科室中矛盾更加突出。

例如许多三甲医院的超声、CT(Computed Tomography，电子计算机断层扫描)、核磁以及胃肠镜检查，经常需要排队预约1-2周不等。由于工作量长期处于饱和状态，不可避免在医技报告的撰写中会出现一些错误。

与日常语言不同，医学病历(包括医技报告)具有独特的结构和书写规范，在进行结构化处理和质检时，至少存在以下问题：

(1)基于大量日常用语训练的结构化模型，由于词汇和语法与医学病历的差异较大，直接使用日常用语训练的结构化模型进行医学病历的信息抽取，其结果的准确性和完整性普遍较低，无法满足医疗数据分析的要求。

(2)即使同在医学领域内，不同的医学细分领域，差异也很大。例如影像报告同门诊病历间、超声报告同内镜报告间，医生对于同样的疾病有不同的关注重点，使用的词汇和语法也不尽相同，因而很难采用一个模型解决所有问题。

(3)对同一医学细分领域不同中心的数据，医生会依据自己的受教育经历以及所在中心的行医经验习惯，形成特有的语言描述方式，增加了结构化处理的难度。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开实施例提供一种基于文本结构化的医技报告检测方法及装置、计算机可读存储介质、电子设备，能够提高医技报告检测的效率和质量。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供一种基于文本结构化的医技报告检测方法，所述方法包括：获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息；对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果；利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本；基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果；输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

本公开实施例提供一种基于文本结构化的医技报告检测装置，所述装置包括：医技报告获取单元，用于获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息；医技报告预处理单元，用于对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果；实体识别结果获得单元，用于利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；医技报告结构化单元，用于对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本；医技报告综合检测单元，用于基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果；医技报告检测结果显示单元，用于输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的基于文本结构化的医技报告检测方法。

本公开实施例提供了一种电子设备，包括：至少一个处理器；存储装置，配置为存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如上述实施例中所述的基于文本结构化的医技报告检测方法。

在本公开的一些实施例所提供的技术方案中，一方面，通过对待检测医技报告进行预处理，分别获得待检测医技报告中的所见描述信息和诊断结果信息的分句结果，从而使得在获得待检测医技报告的目标检测结果时，能够获得所见描述信息和诊断结果信息的内容一致性检查结果，即能够解决待检测医技报告中的内涵质检问题，检测能力更强更全面；另一方面，还通过利用训练完成的实体识别模型对分句结果进行处理，确定每个分句结果中每个实体的目标实体标签，并对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，从而可以根据每个分句结果中每个实体之间的实体关系，获得该待检测医技报告的结构化文本，进一步基于该结构化文本获得该待检测医技报告的目标检测结果，即本申请提供了一套可快速实现和部署的结构化方法，采用机器学习技术实现待检测医技报告的质量控制，提升了检测效率和检测质量，降低了检测时间成本和人力成本。此外，通过本公开实施例提供的方法能够检测出待检测医技报告中潜在的错误，并给予医生及时的反馈，那么对于避免一些不必要的医疗事故和纠纷是非常有帮助的。同时，医技报告质量关系到患者后续治疗方案的制定，需要给予后续阅读报告的医生全面的、准确的参考信息，因此从医院管理方面而言，医技报告质量把控非常重要。随着医院信息系统(Hospital Information System，HIS)、影像归档和通信系统(icture Archiving and Communication System，PACS)在各医院广泛部署应用，各医院都积累了大量的医技报告检查文档数据，如果能够将这些宝贵的数据资源利用起来，对于临床研究、系统开发都会有很大助益。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的一实施例的基于文本结构化的医技报告检测方法的流程图。

图2示意性示出了根据本公开的一实施例的基于文本结构化的医技报告检测方法的整体技术框架。

图3示意性示出了根据本公开的一实施例的BiLSTM和CRF网络模型的结构示意图。

图4示意性示出了根据本公开的一实施例的器官划分的示意图。

图5示意性示出了根据本公开的一实施例的部分结构化结果的示意图。

图6示意性示出了根据本公开的一实施例的书写错误检测功能的示意图。

图7示意性示出了根据本公开的一实施例的内涵质控的结构示意图。

图8示意性示出了根据本公开的一实施例的基于文本结构化的医技报告检测装置的框图。

图9示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在至少一个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

医技报告的内容具有很强的专业性，各个部分的描述背后有大量的医学专业知识作为支撑，这也使得医技报告的质检是一个非常具有挑战性的任务。技术方面，相关技术中采用的文本质检系统，普遍基于规则和正则表达式的综合使用。首先基于大量的文本数据，人工挑选有问题的医技报告，总结问题存在的规律，转化为计算机语言逻辑，同时结合正则表达式的文本匹配能力，实现医技报告质检功能。但是通过这种方式建立起的文本质检系统，至少存在以下缺陷：(1)费时费力。在医院的医技报告中出现错误的概率并不高，希望完全通过人工的方式收集和总结规律工作量非常大。(2)鲁棒性差。由于不同医院、不同级别医疗机构，在医技报告撰写习惯上差异很大，任何系统都需要在部署时进行数据适应性调整。如果采用完全的基于规则的文本质检系统，很可能之前的规则不再适用，需要重新整理和提取质检规则。(3)难以解决内涵质检问题。由于基于规则的检测，只能解决文字层面的形式质检问题，对于报告中存在的违反医学常识的情况，不具备检测能力。

下面结合附图对本公开示例实施方式进行详细说明。基于上述相关技术中存在的技术问题，本公开实施例提出了一种基于文本结构化的医技报告检测方法，以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行，例如服务器，或者终端设备，或者服务器与终端设备之间进行交互，本公开对此不做限定。

本公开实施例中提及的服务器可以是独立的服务器，也可以是多个服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。本公开实施例中，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、可穿戴智能设备、车机、智能电视等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图1示意性示出了根据本公开的一实施例的基于文本结构化的医技报告检测方法的流程图。如图1所示，本公开实施例提供的方法可以包括以下步骤。在步骤S110中，获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息。

本公开实施例中，医技科室旧称辅助诊疗科室，是指运用专门的诊疗技术和设备，协同临床科诊断和治疗疾病的医疗技术科室。医技科室可以包括手术室、核医学科、放射科、超声科、心血管超声和心功能科、检验科、康复科、病理科、药剂科、内镜室、消毒供应室、营养科。

本公开实施例中，待检测医技报告是指由医技科室出具的报告，例如，CT报告、MRI(Magnetic Resonance Imaging，磁共振成像)报告、彩超报告、心电图报告、检验报告等。其中，待检测医技报告中的主要数据可以分为两部分：一部分是所见描述信息，可以称之为所见部分，是临床医师根据具体的检查结果做出的较详细的描述，为检查所见；另一部分是诊断结果信息，是具体出现的问题及临床诊断的病症，可以称之为诊断部分，有时候也称之为检查结论或者诊断建议。

在步骤S120中，对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果。

在示例性实施例中，对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果，可以包括：将所述待检测医技报告中的所述所见描述信息和所述诊断结果信息划分为所见部分和诊断部分；分别对所述所见部分的所见描述信息和所述诊断部分的诊断结果信息中的特殊符号进行替换；根据预定标点符号，分别对替换后的所述所见部分的所见描述信息和所述诊断部分的诊断结果信息进行分句处理，获得所述所见部分的所见描述信息和所述诊断部分的诊断结果信息的分句结果。

在步骤S130中，利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签。

在示例性实施例中，利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签，可以包括：将每个分句结果输入至所述实体识别模型，获得每个分句结果中每个实体的初始实体标签；利用专业医学词汇、测量值模板和时间模板对每个分句结果中每个实体的初始实体标签进行修正，确定每个分句结果中每个实体的目标实体标签。

在示例性实施例中，所述方法还可以包括：获得标注数据集；利用所述标注数据集训练获得所述实体识别模型。

在示例性实施例中，获得标注数据集，可以包括：获得目标专业医学词汇及其标注的目标实体标签，所述目标专业医学词汇是含义明确的专业医学词汇；根据所述目标专业医学词汇及其标注的目标实体标签，利用规则匹配方式确定样本医技报告中的部分专业医学词汇进行标注，确定所述部分专业医学词汇中每个专业医学词汇的目标实体标签；获取所述样本医技报告中的剩余专业医学词汇中每个专业医学词汇标注的目标实体标签。其中，所述标注数据集包括所述目标专业医学词汇及其目标实体标签、所述部分专业医学词汇中每个专业医学词汇及其目标实体标签和所述剩余专业医学词汇中每个专业医学词汇标注及其目标实体标签。

在示例性实施例中，获得标注数据集，所述方法还可以包括：获得所述样本医技报告中部分特征数据中每个特征数据标注的目标实体标签；利用所述部分特征数据中每个特征数据标注的目标实体标签训练获得预标注模型；采用所述预标注模型确定所述样本医技报告中剩余特征数据中每个特征数据的初始实体标签；获得所述剩余特征数据中每个特征数据的初始实体标签的修正结果，作为所述剩余特征数据中每个特征数据的目标实体标签；利用所述剩余特征数据中每个特征数据及其目标实体标签迭代训练所述预标注模型。其中，所述标注数据集包括所述部分特征数据中每个特征数据标注及其目标实体标签和所述剩余特征数据中每个特征数据及其目标实体标签。

在步骤S140中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本。

在示例性实施例中，所述目标实体标签包括器官。其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，可以包括：利用医学专业知识确定一级器官及其二级器官；抽取每个分句结果中目标实体标签为器官的目标实体；利用器官类型分类模型对每个分句结果中目标实体标签为器官的目标实体进行处理，确定每个目标实体所属的目标一级器官或者目标二级器官；根据每个目标实体所属的目标一级器官或者目标二级器官，生成所述待检测医技报告的器官划分树状结构。

在示例性实施例中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，还可以包括：从每个分句结果获得每个目标二级器官对应的实体及其目标实体标签；将每个目标二级器官对应的实体及其目标实体标签逐个入栈；基于当前入栈的实体及其目标实体标签与前一入栈的实体及其目标实体标签，确定每个目标二级器官对应的节点和叶子节点，生成每个目标二级器官的二级器官树状结构；结合所述待检测医技报告的器官划分树状结构和每个目标二级器官的二级器官树状结构，生成所述待检测医技报告的树状结构。其中所述待检测医技报告的结构化文本包括所述待检测医技报告的树状结构。

在示例性实施例中，所述目标实体标签还可以包括时间。其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，还可以包括：从每个分句结果中抽取包含目标实体标签为时间的实体的目标分句结果；根据规则对所述目标分句结果及其内包含的目标实体标签为时间的实体进行分类，确定每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，其中所述目标时间分类类型为运行总时间、器官进入时间、在器官内运行时间、异常组织观测时间、附加说明中的任意一种；根据每个目标分句结果的每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，生成所述待检测医技报告的时间结构化表；其中所述待检测医技报告的结构化文本包括所述待检测医技报告的时间结构化表。

在示例性实施例中，所述目标实体标签还可以包括异常结构和测量值。其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，还可以包括：遍历所述待检测医技报告的树状结构上的每个目标二级器官下的节点和叶子节点，抽取目标实体标签为异常结构的实体；确定目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官；确定目标实体标签为异常结构的实体对应的目标实体标签为测量值的目标异常信息实体，所述目标异常信息实体包括目标实体标签为异常结构的实体对应的大小及其异常类型；根据目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官、以及对应的目标实体标签为测量值的目标异常信息实体，生成所述待检测医技报告的测量值结构化表；其中所述待检测医技报告的结构化文本包括所述待检测医技报告的测量值结构化表。

在步骤S150中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果。

在示例性实施例中，所述目标实体标签还可以包括属性和异常结构，所述目标检测结果可以包括内容检测结果。其中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，可以包括：检索所述待检测医技报告的树状结构，获得所述所见描述信息中目标实体标签为异常结构的实体；从所述待检测医技报告的树状结构中，抽取所述所见描述信息中目标实体标签为异常结构的实体对应的目标实体标签为属性的实体，其中对应的目标实体标签为属性的实体包括所述所见描述信息中的发病部位；根据所述诊断结果信息中每个实体的目标实体标签，识别出所述诊断结果信息中描述的诊断结果；利用所述诊断结果信息中描述的诊断结果检索器官组织关系知识库和组织属性关系知识库，获得所述诊断结果信息中的诊断部位；对比所述所见描述信息中的发病部位与所述诊断结果信息中的诊断部位，获得所述待检测医技报告的所见诊断异常部位一致性检查结果；其中所述内容一致性检查结果包括所述所见诊断异常部位一致性检查结果。

在示例性实施例中，所述目标实体标签还可以包括时间和测量值。其中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，还可以包括：从所述待检测医技报告中抽取目标实体标签为时间或测量值的实体；检索属性合理性知识库获得所述目标实体标签为时间或测量值的实体对应的经验范围；将所述目标实体标签为时间或测量值的实体与所述经验范围进行比对，获得所述待检测医技报告的数值合理性检查结果；其中所述内容一致性检查结果包括所述数值合理性检查结果。

在示例性实施例中，所述目标检测结果可以包括形式检测结果。其中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，可以包括：利用训练完成的双层长短时记忆神经网络模型获得所述待检测医技报告的字级别错误；利用正确词词典和错误词词典获得所述待检测医技报告的词级别错误；利用规则匹配获得所述待检测医技报告中的时间错误和测量值错误；根据所述待检测医技报告的字级别错误、词级别错误、时间错误和测量值错误，生成所述待检测医技报告的形式检测结果。

在步骤S160中，输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

下面结合图2-图7对上述实施例提出的方法进行举例说明，但本公开并不限定于此。图2给出了本公开实施例的基于文本结构化的医技报告检测方法的整体技术框架。如图2所示，整个基于文本结构化的医技报告检测系统的输入为待检测医技报告(即图2中的医技报告)，一般包含所见描述、诊断结果等信息；输出为对该待检测医技报告进行结构化的结果(结构化文本，即图2中的结构化数据)以及对待检测医技报告进行质检的结果(即目标检测结果)。

给定输入后，系统主要包括“预处理”、“医技报告文本解析模块”和“医技报告质检模块”。图2实施例提供的技术的整体框架如下：

(1)预处理模块，其主要用于对输入的待检测医技报告进行适当的预处理，如不同部分/字段的划分、特殊符号的替换等。

(2)在医技报告文本解析模块，利用相关机器学习算法对待检测医技报告中的实体以及实体之间的关系进行抽取，并根据抽取的实体关系和相关的领域医学专业知识对待检测医技报告进行结构化解析，最终得到结构化文本。

(3)医技报告质检模块中具有两个子模块：形式质检模块和内涵质检模块。其中，形式质控模块是对待检测医技报告的书写规范进行检查，如错别字、时间等。内涵质控模块用于根据待检测医技报告的结构化文本和医学专业知识对待检测医技报告的内容进行质检，如所见描述与诊断结果的一致性检查以获得所见描述信息和诊断结果信息的内容一致性检查结果等。

下面分别对这个三个处理流程进行举例说明。

首先是预处理过程。预处理模块的输入是非结构化的待检测医技报告，输出的是分句结果，其主要作用是对待检测医技报告的内容进行划分、特殊字符替换、分句等。

以待检测医技报告为胶囊内窥镜报告为例，主要可以包含如下工作：

1.将原始的待检测医技报告的“镜检所见”(即所见描述信息)和“诊断结果”(即诊断结果信息)部分划分开来。

2.对待检测医技报告中的一些无法处理的特殊符号进行替换，如将全角符号转为半角符号。

3.对输入的待检测医技报告按照预定义好的标点符号(即预定标点符号，例如可以包括但不限于“，”、“。”、“；”等)进行分句。例如“胃底粘膜光滑，见多发溃疡。胃体未见溃疡。”的分句结果为：(胃底粘膜光滑)，(见多发溃疡)，(胃体未见溃疡)。

然后是医技报告文本解析模块。医技报告文本解析模块的功能是结合医学专业知识、利用机器学习算法将非结构化的待检测医技报告处理成结构化的形式。医技报告文本解析模块的输入是预处理模块输出的非结构化的分句结果、整理的医学领域相关的医学专业知识，输出是结构化的待检测医技报告即待检测医技报告的结构化文本/结构化数据。

参考图2，可以将医技报告文本解析模块进一步划分为实体识别模块和结构化解析模块。

首先阐述本公开实施例中的实体和属性识别方案。

本公开实施例中，待检测医技报告的实体主要为存在上下级关系的多级器官或部位。其属性类型/实体类型/实体标签，可以包括但不限于“否定”、“指代”、“数量”、“大小”、“边界”、“形态”、“颜色”等。不同的待检测医技报告如超声报告还可以包括“血流CDFI(color Doppler flow imaging，彩色多普勒血流显像)”、“回声”等，内窥镜胶囊报告还可以包括“时间”等，可以根据具体的医技报告领域进行补充。

其中，图2实施例中的实体识别模块的功能是对待检测医技报告中的实体进行识别。

本公开实施例提供了一套报告文本快速标注处理流程，也即图2中的数据集(即标注数据集)快速构建流程。

为了更加快速、准确地进行实体识别，图2实施例提出了一个能够快速迭代的处理流程。由于机器学习方法需要有大量的标注数据进行学习，所以如何快速构建出相关领域的较大规模的数据集是一个非常重要的问题。本公开实施例通过对医技报告的特点进行分析，提出了如下的快速搭建标注数据集的流程：

1.专业词汇整理、制定标注规范。

由于医技报告属于专业领域的文本，所以一般包含较多的专业词汇。通过对相关领域的知识进行整理分析，可以整理出一些含义明确、没有歧义的专业词汇作为目标专业词汇，并确定其对应的目标实体标签，用于对样本医技报告中的实体进行识别。

在医技报告例如内窥镜报告中，这一部分目标专业词汇可以包括代表器官的专业词汇“胃底”、“胃体”等，代表异常结构的词汇“溃疡”、“静脉曲张”等。

通过利用规则匹配的方式对样本医技报告中的部分实体(即样本医技报告中的部分专业医学词汇，样本医技报告是指标注数据集中用于训练实体识别模型的医技报告)进行标注，从而省去该部分实体的人工标注工作量。

通过对大量的样本医技报告进行分析，制定出需要识别的实体类型，作为之后人工标注数据的标注规范。在样本医技报告例如内窥镜报告处理系统中，一共定义了“器官”、“组织”、“属性”、“异常结构”、“时间”、“测量值”、“否定”、“表现”、“其它”等九种实体类型。前面使用规则匹配的可以是这里的某几种，并作为后续人工标注样本医技报告中的实体的目标实体标签的标注规范，即通过人工标注样本医技报告中的剩余专业医学词汇中每个专业医学词汇的目标实体标签，剩余专业医学词汇是指除了上述已经标注的目标专业医学词汇以及通过规则匹配自动标注的部分专业医学词汇以外的专业医学词汇。

需要说明的是，上述提出的先标注医技报告中的部分目标专业词汇的目标实体标签，然后利用规则匹配的方式对样本医技报告中的部分实体进行标注的方法，并不限于标注医技报告中的专业词汇，例如还可以用于标注医技报告中的影像特征数据。

2.人工标注少量数据，训练预标注模型。

本公开实施例中，预标注模型可以采用BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆网络)+CRF(Conditional Random Field，条件随机场)的组合，但本公开并不限定于此，其他合适的机器学习模型也是可以的，例如可以用BERT(Bidirectional Encoder Representations from Transformers，来自变压器的双向编码器表示)代替BiLSTM。

本公开实施例中利用迭代训练预标注模型来标注的特征数据可以包括医技报告中的任意需要获取的数据，例如可以包括上述的专业词汇，也可以包括影像特征数据，在下面以影像特征数据为例进行举例说明，但本公开实际并不限定于此。

医技报告中除了包含专业词汇之外，还有一些对医生所观察到的影像特征描述，称之为影像特征数据。为了对这一部分的实体进行识别，本公开实施例先人工标注少量的部分影像特征数据中的每个影像特征数据的目标实体标签放入标注数据集。例如，“胃底未见溃疡”的目标实体标签为(“器官”，“器官”，“否定”，“否定”，“异常结构”，“异常结构”)。

然后利用上述少量的部分影像特征数据中的每个影像特征数据的目标实体标签训练出预标注模型。虽然可能标注的准确率并不能够达到使用的要求，但是可以利用该预标注模型对样本医技报告中的剩余影像特征数据中的每个影像特征数据打上“粗标签”，称之为初始实体标签，后续人工标注只需要在预标注的基础上进行适当的修改，将人工对初始实体标签的修正结果作为其目标实体标签，从而大大降低标注的成本。例如，对于“胃底未见溃疡”，预标注模型可能给出的“粗标签”为(“器官”，“器官”，“否定”，“其它”，“异常结构”，“异常结构”)，人工检查之后可以修改为(“器官”，“器官”，“否定”，“否定”，“异常结构”，“异常结构”)。

3.迭代优化、快速搭建大规模的标注数据集。在得到了初步的预标注模型之后，通过不断地加入新标注的数据，例如利用剩余影像特征数据中每个影像特征数据及其目标实体标签去迭代训练上述预标注模型，能够逐步提高预标注模型的准确率，进而不断降低后续数据标注的工作量。

与此同时，还可以通过人工抽样校对预标注模型的预测结果，对于部分共性问题进行修正，重新训练预标注模型，从而可以进一步提高预标注模型的预测准确性。通过上述迭代的方式能够在仅使用少量人力的情况下快速得到大量的标注数据。

拥有了大量的标注数据后，可以选择合适的机器学习算法，并利用标注数据训练该选择的机器学习算法获得实体识别模型，来实现对待检测医技报告中的实体进行自动抽取。实体识别模块中包括该实体识别模型，其输入是预处理之后的待检测医技报告，输出是待检测医技中每个位置的每个实体的目标实体标签。基于深度学习的方法，通过人工神经网络来对数据中的关系进行自动的学习。

图3示意性示出了根据本公开的一实施例的BiLSTM和CRF网络模型的结构示意图。在待检测医技报告例如胶囊内窥镜报告中，可以使用双向长短时记忆网络加条件随机场(BiLSTM+CRF)的网络结构(如图3所示)来作为实体识别模型。如图3所示，实体识别模型可以包括BiLSTM编码器(encoder)和CRF层(layer)。将每个分句结果中的每个词的词向量(word embeddings)输入BiLSTM编码器。

其中，自然语言的分句结果经过BiLSTM进行特征提取之后，会得到一个特征输出。训练时，将这个特征和相应的标记(label)输入到CRF中，就可以计算损失了。预测时，将自然语言的分句结果输入到该网络，经CRF就可以识别分句结果中的实体了。例如，图3中，假设一个分句结果中包括第1个词、第2个词、第3个词和第4个词分别为“Mark”、“Watney”、“visited”、“Mars”，则分别将第1个词、第2个词、第3个词和第4个词输入BiLSTM编码器生成I₁和r₁、I₂和r₂、I₃和r₃、I₄和r₄，然后根本根据I₁和r₁、I₂和r₂、I₃和r₃、I₄和r₄生成c₁、c₂、c₃、c₄，再将c₁、c₂、c₃、c₄分别输入至CRF层生成B-PER(其中B表示开始，是begin的简写；PER表示人名)、E-PER(其中E表示结束，是end的简写)、O(表示单字词)、S-LOC(其中LOC表示位置)。

BiLSTM能够捕捉每个位置左右的信息，从而得到每个字更好的向量表示。CRF能够自动学习输出序列的转移特征，从而引导系统输出转移概率高的序列。但本公开并不限定于此，利用还可以利用BERT等代替这里的BiLSTM，用于得到每个位置的表示向量。首先利用实体识别模型对实体进行自动识别，然后利用整理的专业医学词汇和特定格式的模板(例如下述的测量值模板和时间模板)对机器学习的实体识别结果(即利用实体识别模型获得的每个实体对应的初始实体标签)进行修正。例如，“见一3.0cm*2.0cm溃疡”，实体识别模型的实体识别结果可能是(“其它”，“数量”，“测量值”，“测量值”，“测量值”，“测量值”，“测量值”，“其它”，“测量值”，“测量值”，“测量值”，“测量值”，“测量值”，“异常结构”，“异常结构”)，利用整理的测量值模板能够匹配到其中的测量值部分，就能够将中间的“其它”纠正为“测量值”。再例如，通过对医技报告进行分析，整理了时间模板，如(<数字>时<数字>分<数字>秒)等，用于对机器学习的实体识别结果进行修正。

图2实施例中的结构化解析模块的功能是对实体识别后的待检测医技报告进行关系抽取并结构化。结构化解析模块的输入是待检测医技报告中识别的实体及其目标实体标签，输出可根据后续任务整理成不同的格式。结构化解析模块的主要功能如下：

(1)关系挖掘。利用医学专业知识和自然语言处理技术，通过对实体识别后的待检测医技报告进行分析，挖掘出待检测医技报告中各个实体之间存在的实体关系。

(2)结构化处理。根据上述得到的实体关系，对待检测医技报告中的信息进行结构化的处理，进而方便后续的存储、检索以及分析等。结构化数据可以是多种格式，如表格形式数据、知识图谱、树形图等，也可以对不同的信息采用不同的格式。比如当待检测医技报告为消化内窥镜报告时，对于时间和测量值部分采用了表格形式数据，方便后续存储和展示；对于整个待检测医技报告的内容采用了树形图，方便后续在树上进行推理。

在待检测医技报告例如胶囊内窥镜报告处理系统中，上述结构化解析模块可以通过以下三个部分进行实现：

(1)多级器官部位划分。

(2)属性结构树生成。

(3)特有属性处理。

首先描述多级器官部位划分。

根据医学专业知识以及对待检测医技报告结构的整理，根据待检测医技报告内容可以将其描述的器官分为两级，如图4所示。例如一级器官假设包括一级器官1、一级器官2、…一级器官n，n为大于或等于1的正整数，例如可以包括“胃”、“十二指肠”等，对于每一个一级器官，再将其内容划分为多个对应的二级器官。一个一级器官可以对应多个二级器官，例如假设一级器官1可以对应二级器官1、二级器官2、…二级器官m，m为大于或等于1的正整数。例如，对应一级器官“胃”，则“胃”的二级器官有“贲门”、“胃底”等。不同器官的描述相对独立，这也为后面的结构化工作降低了难度。其中，不同器官的描述相对独立是指对不同部位的描述一般是分开的，不存在相互交叉的部分。如待检测医技报告的内容是“对胃的描述”+“对小肠的描述”，而不会是“对胃的描述”+“对小肠的描述”+“对胃的描述”这种混合模式。

本公开实施例中可以采用朴素贝叶斯分类器作为器官类型分类模型，器官类型分类模型的输入是对原始的待检测医技报告进行分句后的分句结果中的每个实体以及每个实体的目标实体标签，即输入是具有目标实体标签的待检测医技报告，然后将其中器官的部分抽取出来，用于进行分类。器官类型分类模型的输出是每个分句结果所属的一级器官以及二级器官类型(分别称之为目标一级器官和目标二级器官)。

具体地，首先从原始的样本医技报告的文本中抽取出具有代表性的关键词，如“胃底”、“十二指肠”等，统计出每个器官出现的先验概率以及在器官出现的情况下，关键词出现的条件概率。得到了两个概率矩阵之后，在预测过程中，通过抽取待检测医技报告的分句结果中的关键词，利用贝叶斯公式得到在出现关键词的情况下，器官为各个类别的后验概率。最终将该部分判定为后验概率最大的器官即可。

本公开实施例中，采用朴素贝叶斯分类器的好处是：分类器简单，执行效率高；能够很好地解决器官划分的问题。但本公开并不限定于此，也可以采用其他合适的分类器。

然后进行属性结构化树的生成。在对待检测医技报告按照器官划分之后，需要对每一个目标二级器官对应的文本结构化为树状格式。这里输入的是每个目标二级器官对应描述的实体及其目标实体标签，输出是如图5所示的树形结构化结果。该部分使用的方法是根据实体识别结果即识别的实体及其目标实体标签，基于语法和统计、规则联合方法，使用基于栈的语法分析算法，将各个目标二级器官的树形结构化结果(二级器官树状结构)与图4所示的器官划分结构(器官划分树状结构)相结合，最终能够将整个待检测医技报告的文档结构化为树状格式，即获得待检测医技报告的树状结构。

下面就基于语法和统计、规则联合方法，使用基于栈的语法分析算法进行举例说明。在算法的处理过程中，将当前元素入栈，并根据栈顶几个元素的值来判断其所属关系，最终得到结构化的树形结构。例如，对于分句结果“胃底粘膜光滑，未见静脉曲张”，其实体识别结果为：(胃底，器官)、(粘膜，组织)，(光滑，表现)，(未见，否定)，(静脉曲张，异常结构)。在逐个将元素(每个目标二级器官对应的实体及其目标实体标签)入栈的过程中，比如当前入栈的(光滑，表现)之后，发现其前一个元素类型(即前一入栈的实体对应的目标实体标签)是“组织”，其自身的类型为“表现”。基于规则，“组织”后的“表现”是对“组织”的修饰，所以(光滑，表现)就成为了(粘膜，组织)的叶子节点。处理之后，栈顶的元素为(粘膜，组织)。依次将元素逐个入栈，最终栈中留下的元素就是整颗树的根节点，其余节点都成为了树中的节点。根据栈中元素的情况，从而可以判断哪些元素是其它元素的叶子节点，这个过程中使用了统计的语法和一些规则。例如，如图5所示，目标二级器官“胃底”对应的节点分别为“粘液湖”、“静脉曲张”和“粘膜”，这三个节点对应的叶子节点分别为“清亮”、“无”、“光滑”。

本公开实施例中，由于不同领域的待检测医技报告存在其特有的属性，因此还可以上述已有的结构化流程进行补充和完善，即进行特有属性处理。以待检测医技报告为胶囊内窥镜报告为例，通过对胶囊内窥镜报告的研究以及根据一些医学专业知识，可以发现在胶囊内窥镜报告中存在着很多专门描述胶囊运行过程的语句，同一般的描述不同，这部分需要特殊的结构化形式以方便进一步使用。特有属性处理的输入是图5所示的结构化之后的数据，输出是如下表1和下表2所示的表格数据。通过分析，将胶囊内窥镜报告中的描述事件的类型分为“运行总时间”、“器官进入时间”、“在器官内运行时间”、“异常组织观测时间”、“附加说明”等五种类型，具体地，“器官进入时间”根据具体器官的不同，又可以分为“某器官进入时间”，“在器官内运行时间”根据具体器官的不同，又可以分为“在某器官内运行时间”。例如，从原始的待检测医技报告中抽取出包含时间的分句结果之后，按照规则对分句结果进行分类，并抽取出其中包含的时间，结构化为表1所示的结构，称之为时间结构化表。

表1时间结构化实例

待检测医技报告中出现的异常结构，对于诊断能够提供非常重要的信息，所以需要对这部分进行单独的结构化处理。通过在上述树状结构的数据即待检测医技报告的树状结构上进行推理，对每个目标二级器官下的树进行遍历，当发现了异常结构之后，再遍历其叶子节点中的大小等信息，可以抽取出每个异常结构所属的器官、大小以及异常类型等信息，然后将其结构化表2所示的结构，称之为测量值结构化表。

表2测量值结构化实例

在医生撰写待检测医技报告的过程中，可能会出现一些错误。医技报告质检模块的功能是对待检测报告中的错误进行检测。医技报告质检模块的输入是预处理后的待检测医技报告、报告结构化结果即结构化数据以及领域相关的医学专业知识，输出是对待检测医技报告中可能的错误进行标记，对医生进行提醒。

医技报告质检模块的质检功能分为如下的两类：

(1)形式质控部分。该部分主要是对待检测医技报告中的书写等部分进行检查，如错别字以及常用的数字、单位错误进行识别。

(2)内涵质控部分。该部分是对和诊断密切相关的内容进行检查，如数值的合理性、所见和诊断的一致性等。

首先介绍形式质控。形式质控模块的功能是对待检测医技报告的书写等内容进行质检。下面以待检测医技报告为内窥镜报告为例，举例说明如何检测书写错误的具体技术方案。

对于待检测医技报告中出现的错别字、错词、多字、少字、重复字以及时间和测量值错误、单位错误等问题，可以利用如图6所示的检测系统进行检测。对于字级别错误，通过收集大量的正确语料，然后人工加入上述错误来生成包含错误的错误语料。之后利用这两份语料训练双层LSTM神经网络来判断输入的每个分句结果的每个位置是否发生错误。

对于词级别错误，在对输入的待检测医技报告进行分词处理之后，利用整理的正确词词典和错误词词典来进行检测。对于时间错误和测量值错误，通过人工整理的一些规则来进行匹配，比如对时间而言，小时应该在0-23之间、分钟应该在0-59之间，通过这个简单的规则可以进行第一步检测，其次对于一个运行过程上的各个时间点而言，时间的先后顺序是确定的，通过这个也可以进行检测。通过图6中所示的三个错误检测模块，最终输出可能发生错误的字词位置即错误字词位置，生成待检测医技报告的形式检测结果，向医生给出提示。需要说明的是，图6中的原始病历报告包括上述的待检测医技报告。

内涵质控模块的功能是对待检测医技报告的具体的可见描述以及诊断结果进行质检。由于医生在做出具体诊断的过程中会用到大量的医学专业知识，所以内涵质控模块需要医学专业知识作为支撑。通过对待检测医技报告中的可见描述部分抽取到的实体关系进行分析，结合诊断部分提到的疾病，根据医学专业知识，进而可以推断出描述和诊断之间是否具有冲突。

以胶囊内窥镜报告的数值合理性以及所见与诊断异常部位一致性检测为例，提出内涵质控模块的一个具体实现方案。在胶囊内窥镜检查中，胶囊的运行时间以及病灶的大小等数值信息根据医学经验具有一个合理的范围，通过对待检测医技报告中的该部分信息进行抽取，并与经验范围进行比对，可以实现数值合理性检查功能，获得数值合理性检查结果。

所见与诊断异常部位一致性检测的实现，可以利用结构化的树状数据即上述待检测医技报告的树状结构，即图7中的结构化报告，通过在树上进行检索，可以得到所见部分中提及的各个异常，并抽取出数量、部位等属性。在诊断部分通过实体识别模块识别出其中描述的疾病，并通过专业知识库，得到对应的发病部位。通过对所见部分抽取的发病部位和诊断部分抽取的疾病部位进行比对，从而实现所见和诊断异常部位一致性检查的功能，获得所见诊断异常部位一致性检查结果。

如图7所示，专业知识库包含了医学专业知识，这里假设包括器官组织关系知识库、组织属性关系知识库和属性合理性知识库。

其中，器官组织关系知识库是指在该领域的部位所属关系。比如在消化内窥镜报告中，胃包含如下几个部分：贲门、胃底、胃体、幽门等。这些可以用来定位到待检测医技报告中具体的某个部分。组织属性关系知识库总结了各个组织在报告中会关注的属性。比如在消化内窥镜报告处理系统中，“溃疡”重要的属性有大小、是否出血、是否有苔等。属性合理性知识库是指属性值的合理范围。比如对于溃疡而言，一般不会超过10cm，那么如果报告中出现10cm的溃疡的话，那么很大概率出现了错误。

本公开实施例提出的医技报告文本解析模块中，通用的适用于医技报告的文本实体和属性划分体系，报告文本快速标注迭代流程、以多级组织器官为中心的关系提取和结构化方法，均属本公开的保护范围。

本公开实施例提出的医技报告质检模块中，适用于医技报告的形式质控方法，以及基于结构化信息和医学的专业知识库的内涵质控方法，均属本公开的保护范围。

例如，按照上述技术路线，开发了胶囊内窥镜报告的结构化与质检系统。性能如下：

1.在胶囊内窥镜报告的实体识别模块中，最终的神经网络模型即实体识别模型的大小仅5M左右，可在CPU(central processing unit，中央处理器)机器上进行部署，对算力要求较低。在测试集上各类实体平均识别准确率达到了99.2％，召回率为99.0％。

2.在胶囊内窥镜报告的结构化解析模块，不同于传统的结构化方式，本公开实施例将一篇待检测医技报告结构化为树状结构，这为后续的检索和分析提供了非常大的便利。对于重要的信息，如时间和测量值部分进行了单独地结构化。

3.在医技报告质检模块，最终系统在测试数据上的错误召回率为87.0％，句子级别的虚警率为4.4％。在所见的异常信息抽取部分，最终的准确率为84.0％，召回率为86.5％。诊断部位提取部分最终的准确率为87.0％。

本公开实施方式提供的基于文本结构化的医技报告检测方法，一方面，提出了一套通用的适用于医技报告的文本实体和属性划分体系，适用于不同的医技报告，例如超声、CT、胃镜等；另一方面，还提出了一套快速文本标注的迭代流程，利用医技报告自身的半结构化特性，仅需要少量人工标注即可实现以及报告实体和关系的完全标注，可快速适配新的医技报告领域或不同的医疗中心。此外，采用机器学习模型+医学的专业知识库+规则整理的方式，共同解决医技报告中的形式质检和内涵质检问题，检测能力更强更全面。本公开实施例提供的方案针对医技报告特点，提出一套可快速实现和部署的结构化方法。可以通过少量的人工标注，实现医技报告的质控、检索等高层次语义需求任务。

图8示意性示出了根据本公开的一实施例的基于文本结构化的医技报告检测装置的框图。如图8所示，本公开实施例提供的基于文本结构化的医技报告检测装置800可以包括医技报告获取单元810医技报告预处理单元820实体识别结果获得单元830医技报告结构化单元840医技报告综合检测单元850以及医技报告检测结果显示单元860。

本公开实施例中，医技报告获取单元810可以用于获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息。医技报告预处理单元820可以用于对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果。实体识别结果获得单元830可以用于利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签。医技报告结构化单元840可以用于对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本。医技报告综合检测单元850可以用于基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果。医技报告检测结果显示单元860可以用于输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

在示例性实施例中，医技报告预处理单元820可以包括：部分划分单元，可以用于将所述待检测医技报告中的所述所见描述信息和所述诊断结果信息划分为所见部分和诊断部分；符号替换单元，可以用于分别对所述所见部分的所见描述信息和所述诊断部分的诊断结果信息中的特殊符号进行替换；分句处理单元，可以用于根据预定标点符号，分别对替换后的所述所见部分的所见描述信息和所述诊断部分的诊断结果信息进行分句处理，获得所述所见部分的所见描述信息和所述诊断部分的诊断结果信息的分句结果。

在示例性实施例中，实体识别结果获得单元830可以包括：机器识别实体单元，可以用于将每个分句结果输入至所述实体识别模型，获得每个分句结果中每个实体的初始实体标签；机器识别结果修正单元，可以用于利用专业医学词汇、测量值模板和时间模板对每个分句结果中每个实体的初始实体标签进行修正，确定每个分句结果中每个实体的目标实体标签。

在示例性实施例中，基于文本结构化的医技报告检测装置800还可以包括：标注数据集获得单元，可以用于获得标注数据集；实体识别模型训练单元，可以用于利用所述标注数据集训练获得所述实体识别模型。

在示例性实施例中，标注数据集获得单元可以包括：目标专业医学词汇标注单元，可以用于获得目标专业医学词汇及其标注的目标实体标签，所述目标专业医学词汇是含义明确的专业医学词汇；规则匹配标注部分专业医学词汇单元，可以用于根据所述目标专业医学词汇及其标注的目标实体标签，利用规则匹配方式确定样本医技报告中的部分专业医学词汇进行标注，确定所述部分专业医学词汇中每个专业医学词汇的目标实体标签；剩余专业医学词汇标注单元，可以用于获取所述样本医技报告中的剩余专业医学词汇中每个专业医学词汇标注的目标实体标签。其中，所述标注数据集可以包括所述目标专业医学词汇及其目标实体标签、所述部分专业医学词汇中每个专业医学词汇及其目标实体标签和所述剩余专业医学词汇中每个专业医学词汇标注及其目标实体标签。

在示例性实施例中，标注数据集获得单元还可以包括：部分影像特征标注单元，可以用于获得所述样本医技报告中部分特征数据中每个特征数据标注的目标实体标签；预标注模型训练单元，可以用于利用所述部分特征数据中每个特征数据标注的目标实体标签训练获得预标注模型；预标注模型标注影像特征单元，可以用于采用所述预标注模型确定所述样本医技报告中剩余特征数据中每个特征数据的初始实体标签；影像特征标注结果修正单元，可以用于获得所述剩余特征数据中每个特征数据的初始实体标签的修正结果，作为所述剩余特征数据中每个特征数据的目标实体标签；迭代训练预标注模型单元，可以用于利用所述剩余特征数据中每个特征数据及其目标实体标签迭代训练所述预标注模型。其中，所述标注数据集可以包括所述部分特征数据中每个特征数据标注及其目标实体标签和所述剩余特征数据中每个特征数据及其目标实体标签。

在示例性实施例中，所述目标实体标签可以包括器官。其中，医技报告结构化单元840可以包括：器官分类确定单元，可以用于利用医学专业知识确定一级器官及其二级器官；抽取每个分句结果中目标实体标签为器官的目标实体；器官实体抽取单元，可以用于利用器官类型分类模型对每个分句结果中目标实体标签为器官的目标实体进行处理，确定每个目标实体所属的目标一级器官或者目标二级器官；器官划分树状结构生成单元，可以用于根据每个目标实体所属的目标一级器官或者目标二级器官，生成所述待检测医技报告的器官划分树状结构。

在示例性实施例中，医技报告结构化单元840还可以包括：二级器官实体获得单元，可以用于从每个分句结果获得每个目标二级器官对应的实体及其目标实体标签；实体识别结果入栈单元，可以用于将每个目标二级器官对应的实体及其目标实体标签逐个入栈；二级器官树状结构生成单元，可以用于基于当前入栈的实体及其目标实体标签与前一入栈的实体及其目标实体标签，确定每个目标二级器官对应的节点和叶子节点，生成每个目标二级器官的二级器官树状结构；树状结构生成单元，可以用于结合所述待检测医技报告的器官划分树状结构和每个目标二级器官的二级器官树状结构，生成所述待检测医技报告的树状结构。其中所述待检测医技报告的结构化文本可以包括所述待检测医技报告的树状结构。

在示例性实施例中，所述目标实体标签还可以包括时间。其中，医技报告结构化单元840还可以包括：时间实体分句抽取单元，可以用于从每个分句结果中抽取包含目标实体标签为时间的实体的目标分句结果；时间实体分类单元，可以用于根据规则对所述目标分句结果及其内包含的目标实体标签为时间的实体进行分类，确定每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，其中所述目标时间分类类型为运行总时间、器官进入时间、在器官内运行时间、异常组织观测时间、附加说明中的任意一种；时间结构化表生成单元，可以用于根据每个目标分句结果的每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，生成所述待检测医技报告的时间结构化表。其中所述待检测医技报告的结构化文本可以包括所述待检测医技报告的时间结构化表。

在示例性实施例中，所述目标实体标签还可以包括异常结构和测量值。其中，医技报告结构化单元840还可以包括：异常结构实体抽取单元，可以用于遍历所述待检测医技报告的树状结构上的每个目标二级器官下的节点和叶子节点，抽取目标实体标签为异常结构的实体；异常实体器官确定单元，可以用于确定目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官；异常信息实体确定单元，可以用于确定目标实体标签为异常结构的实体对应的目标实体标签为测量值的目标异常信息实体，所述目标异常信息实体包括目标实体标签为异常结构的实体对应的大小及其异常类型；测量值结构化表生成单元，可以用于根据目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官、以及对应的目标实体标签为测量值的目标异常信息实体，生成所述待检测医技报告的测量值结构化表。其中所述待检测医技报告的结构化文本可以包括所述待检测医技报告的测量值结构化表。

在示例性实施例中，所述目标实体标签还可以包括属性和异常结构，所述目标检测结果可以包括内容检测结果。其中，医技报告综合检测单元850可以包括：异常结构实体检索单元，可以用于检索所述待检测医技报告的树状结构，获得所述所见描述信息中目标实体标签为异常结构的实体；异常结构属性抽取单元，可以用于从所述待检测医技报告的树状结构中，抽取所述所见描述信息中目标实体标签为异常结构的实体对应的目标实体标签为属性的实体，其中对应的目标实体标签为属性的实体包括所述所见描述信息中的发病部位；诊断结果识别单元，可以用于根据所述诊断结果信息中每个实体的目标实体标签，识别出所述诊断结果信息中描述的诊断结果；诊断部位获得单元，可以用于利用所述诊断结果信息中描述的诊断结果检索器官组织关系知识库和组织属性关系知识库，获得所述诊断结果信息中的诊断部位；所见诊断一致性检查单元，可以用于对比所述所见描述信息中的发病部位与所述诊断结果信息中的诊断部位，获得所述待检测医技报告的所见诊断异常部位一致性检查结果。其中所述内容检测结果可以包括所述所见诊断异常部位一致性检查结果。

在示例性实施例中，所述目标实体标签还可以包括时间和测量值。其中，医技报告综合检测单元850还可以包括：数值抽取单元，可以用于从所述待检测医技报告中抽取目标实体标签为时间或测量值的实体；经验范围确定单元，可以用于检索属性合理性知识库获得所述目标实体标签为时间或测量值的实体对应的经验范围；数值对比单元，可以用于将所述目标实体标签为时间或测量值的实体与所述经验范围进行比对，获得所述待检测医技报告的数值合理性检查结果。其中所述内容检测结果可以包括所述数值合理性检查结果。

在示例性实施例中，所述目标检测结果可以包括形式检测结果。其中，医技报告综合检测单元850可以包括：字级别错误获得单元，可以用于利用训练完成的双层长短时记忆神经网络模型获得所述待检测医技报告的字级别错误；词级别错误获得单元，可以用于利用正确词词典和错误词词典获得所述待检测医技报告的词级别错误；时间测量值错误获得单元，可以用于利用规则匹配获得所述待检测医技报告中的时间错误和测量值错误；形式检测结果获得单元，可以用于根据所述待检测医技报告的字级别错误、词级别错误、时间错误和测量值错误，生成所述待检测医技报告的形式检测结果。

本公开实施例的基于文本结构化的医技报告检测装置的其它内容可以参照上述实施例。应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

下面参考图9，其示出了适于用来实现本申请实施例的电子设备的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。参照图9，本公开实施例提供的电子设备可以包括：处理器901、通信接口902、存储器903和通信总线904。

其中处理器901、通信接口902和存储器903通过通信总线904完成相互间的通信。可选的，通信接口902可以为通信模块的接口，如GSM(Global System for Mobilecommunications，全球移动通信系统)模块的接口。处理器901用于执行程序。存储器903用于存放程序。程序可以包括计算机程序，该计算机程序包括计算机操作指令。其中，程序中可以包括：游戏客户端的程序。处理器901可以是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本公开实施例的一个或多个集成电路。存储器903可以包含高速RAM(random access memory，随机存取存储器)存储器，也可以还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息；对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果；利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本；基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果；输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。

Claims

1.一种基于文本结构化的医技报告检测方法，其特征在于，包括：

获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息；

对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果；

利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；

对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本；

基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果；

输出并显示所述待检测医技报告的结构化文本及其目标检测结果。

2.根据权利要求1所述的方法，其特征在于，利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签，包括：

将每个分句结果输入至所述实体识别模型，获得每个分句结果中每个实体的初始实体标签；

利用专业医学词汇、测量值模板和时间模板对每个分句结果中每个实体的初始实体标签进行修正，确定每个分句结果中每个实体的目标实体标签。

3.根据权利要求2所述的方法，其特征在于，还包括：

获得标注数据集；

利用所述标注数据集训练获得所述实体识别模型。

其中，获得标注数据集，包括：

获得目标专业医学词汇及其标注的目标实体标签，所述目标专业医学词汇是含义明确的专业医学词汇；

根据所述目标专业医学词汇及其标注的目标实体标签，利用规则匹配方式确定样本医技报告中的部分专业医学词汇进行标注，确定所述部分专业医学词汇中每个专业医学词汇的目标实体标签；

获取所述样本医技报告中的剩余专业医学词汇中每个专业医学词汇标注的目标实体标签；

其中，所述标注数据集包括所述目标专业医学词汇及其目标实体标签、所述部分专业医学词汇中每个专业医学词汇及其目标实体标签和所述剩余专业医学词汇中每个专业医学词汇标注及其目标实体标签。

4.根据权利要求3所述的方法，其特征在于，获得标注数据集，还包括：

获得所述样本医技报告中部分特征数据中每个特征数据标注的目标实体标签；

利用所述部分特征数据中每个特征数据标注的目标实体标签训练获得预标注模型；

采用所述预标注模型确定所述样本医技报告中剩余特征数据中每个特征数据的初始实体标签；

获得所述剩余特征数据中每个特征数据的初始实体标签的修正结果，作为所述剩余特征数据中每个特征数据的目标实体标签；

利用所述剩余特征数据中每个特征数据及其目标实体标签迭代训练所述预标注模型；

其中，所述标注数据集包括所述部分特征数据中每个特征数据标注及其目标实体标签和所述剩余特征数据中每个特征数据及其目标实体标签。

5.根据权利要求1所述的方法，其特征在于，所述目标实体标签包括器官；其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，包括：

利用医学专业知识确定一级器官及其二级器官；

抽取每个分句结果中目标实体标签为器官的目标实体；

利用器官类型分类模型对每个分句结果中目标实体标签为器官的目标实体进行处理，确定每个目标实体所属的目标一级器官或者目标二级器官；

根据每个目标实体所属的目标一级器官或者目标二级器官，生成所述待检测医技报告的器官划分树状结构；

从每个分句结果获得每个目标二级器官对应的实体及其目标实体标签；

将每个目标二级器官对应的实体及其目标实体标签逐个入栈；

基于当前入栈的实体及其目标实体标签与前一入栈的实体及其目标实体标签，确定每个目标二级器官对应的节点和叶子节点，生成每个目标二级器官的二级器官树状结构；

结合所述待检测医技报告的器官划分树状结构和每个目标二级器官的二级器官树状结构，生成所述待检测医技报告的树状结构；

其中所述待检测医技报告的结构化文本包括所述待检测医技报告的树状结构。

6.根据权利要求5所述的方法，其特征在于，所述目标实体标签还包括时间；其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，还包括：

从每个分句结果中抽取包含目标实体标签为时间的实体的目标分句结果；

根据规则对所述目标分句结果及其内包含的目标实体标签为时间的实体进行分类，确定每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，其中所述目标时间分类类型为运行总时间、器官进入时间、在器官内运行时间、异常组织观测时间、附加说明中的任意一种；

根据每个目标分句结果的每个目标分句结果及其内包含的目标实体标签为时间的实体的目标时间分类类型，生成所述待检测医技报告的时间结构化表；

其中所述待检测医技报告的结构化文本包括所述待检测医技报告的时间结构化表。

7.根据权利要求5所述的方法，其特征在于，所述目标实体标签还包括异常结构和测量值；其中，对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本，还包括：

遍历所述待检测医技报告的树状结构上的每个目标二级器官下的节点和叶子节点，抽取目标实体标签为异常结构的实体；

确定目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官；

确定目标实体标签为异常结构的实体对应的目标实体标签为测量值的目标异常信息实体，所述目标异常信息实体包括目标实体标签为异常结构的实体对应的大小及其异常类型；

根据目标实体标签为异常结构的实体所属的目标一级器官和目标二级器官、以及对应的目标实体标签为测量值的目标异常信息实体，生成所述待检测医技报告的测量值结构化表；

其中所述待检测医技报告的结构化文本包括所述待检测医技报告的测量值结构化表。

8.根据权利要求5所述的方法，其特征在于，所述目标实体标签还包括属性和异常结构，所述目标检测结果包括内容检测结果；其中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，包括：

检索所述待检测医技报告的树状结构，获得所述所见描述信息中目标实体标签为异常结构的实体；

从所述待检测医技报告的树状结构中，抽取所述所见描述信息中目标实体标签为异常结构的实体对应的目标实体标签为属性的实体，其中对应的目标实体标签为属性的实体包括所述所见描述信息中的发病部位；

根据所述诊断结果信息中每个实体的目标实体标签，识别出所述诊断结果信息中描述的诊断结果；

利用所述诊断结果信息中描述的诊断结果检索器官组织关系知识库和组织属性关系知识库，获得所述诊断结果信息中的诊断部位；

对比所述所见描述信息中的发病部位与所述诊断结果信息中的诊断部位，获得所述待检测医技报告的所见诊断异常部位一致性检查结果；

其中所述内容一致性检查结果包括所述所见诊断异常部位一致性检查结果。

9.根据权利要求1所述的方法，其特征在于，所述目标检测结果包括形式检测结果；其中，基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，包括：

利用训练完成的双层长短时记忆神经网络模型获得所述待检测医技报告的字级别错误；

利用正确词词典和错误词词典获得所述待检测医技报告的词级别错误；

利用规则匹配获得所述待检测医技报告中的时间错误和测量值错误；

根据所述待检测医技报告的字级别错误、词级别错误、时间错误和测量值错误，生成所述待检测医技报告的形式检测结果。

10.一种基于文本结构化的医技报告检测装置，其特征在于，包括：

医技报告获取单元，用于获取待检测医技报告，所述待检测医技报告包括所见描述信息和诊断结果信息；

医技报告预处理单元，用于对所述待检测医技报告进行预处理，获得所述所见描述信息和所述诊断结果信息的分句结果；

实体识别结果获得单元，用于利用训练完成的实体识别模型对所述分句结果进行处理，确定每个分句结果中每个实体的目标实体标签；

医技报告结构化单元，用于对每个分句结果中每个实体的目标实体标签进行关系挖掘，确定每个分句结果中每个实体之间的实体关系，并根据每个分句结果中每个实体之间的实体关系，获得所述待检测医技报告的结构化文本；

医技报告综合检测单元，用于基于所述待检测医技报告的结构化文本，获得所述待检测医技报告的目标检测结果，其中所述目标检测结果包括所述所见描述信息和所述诊断结果信息的内容一致性检查结果；

医技报告检测结果显示单元，用于输出并显示所述待检测医技报告的结构化文本及其目标检测结果。