CN110378347B

CN110378347B - 一种医疗检验单的关键信息提取方法及装置

Info

Publication number: CN110378347B
Application number: CN201910598986.XA
Authority: CN
Inventors: 吴志超; 柯登峰; 刘宁; 王静; 胡茜
Original assignee: Beijing Aidoctor Intelligent Medical Technology Co ltd
Current assignee: Beijing Aidoctor Intelligent Medical Technology Co ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-10-08
Anticipated expiration: 2039-07-04
Also published as: CN110378347A

Abstract

本发明实施例提供一种医疗检验单的关键信息提取方法及装置，依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，从而根据所有字符各自对应的左边界坐标和右边界坐标将目标检验单中的所有字符分割成多个文本行，并将每个文本行分割成多个字符块，最终利用关键词匹配的方式从所有字符块中提取出目标检验单中的关键信息。该方法及装置能够准确提取出医疗检验单中的关键信息，克服了现有技术中难以准确提取医疗检验单中的数据的问题，有利于将患者的医疗检验单中的关键信息存储入库，以使得能够将患者的健康信息进行有效地共享流通。

Description

一种医疗检验单的关键信息提取方法及装置

技术领域

本发明涉及字符识别技术领域，更具体地，涉及一种医疗检验单的关键信息提取方法及装置。

背景技术

医疗检验单是医生对患者病情做出诊断，观察患者健康状况的重要依据。然而在现有医疗体系下，患者的健康信息并没有建立起有效的共享流通机制，每当患者转院往往需要进行一些重复的化验检查，甚至在一些常规性的检查中，患者也要不断经历排队、挂号、等待的阵痛。如何节省患者就诊的时间开销，如何为患者建立可以有效流通的健康信息，有效的解决方式是将患者的医疗检验单中的数据进行有效提取并存储入库。

医疗检验单中的数据通常以表格的形式呈现，传统提取表格的做法是采用视觉模式来划分表元素。然而，医疗检验单中的表格通常没有明确的分隔线、矩形或者间隔，单纯用视觉模式划分表格元素的方式准确性较低，不能适用于医疗检验单中数据的提取。

发明内容

本发明实施例为了克服了现有技术中难以准确提取医疗检验单中的数据的问题，提供一种医疗检验单的关键信息提取方法及装置。

第一方面，本发明实施例提供一种医疗检验单的关键信息提取方法，包括：

依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符；

对于任意一个文本行，利用预设分块规则根据所述文本行中所有字符各自对应的左边界坐标和右边界坐标将所述文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符；

利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从所述第一字符块中提取出所述第一关键信息，所述第一关键信息为医院名称；

利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出所述第二关键信息，所述第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间；

将所述第一字符块和所述第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，所述第三关键信息包括检查项目、结果、单位和参考范围。

第二方面，本发明实施例提供一种医疗检验单的关键信息提取装置，包括：

字符分行模块，用于依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符；

字符分块模块，用于对于任意一个文本行，利用预设分块规则根据所述文本行中所有字符各自对应的左边界坐标和右边界坐标将所述文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符；

第一关键信息提取模块，用于利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从所述第一字符块中提取出所述第一关键信息，所述第一关键信息为医院名称；

第二关键信息提取模块，用于利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出所述第二关键信息，所述第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间；

第三关键信息提取模块，用于将所述第一字符块和所述第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，所述第三关键信息包括检查项目、结果、单位和参考范围。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的医疗检验单的关键信息提取方法及装置，依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，从而根据所有字符各自对应的左边界坐标和右边界坐标将目标检验单中的所有字符分割成多个文本行，并将每个文本行分割成多个字符块，最终利用关键词匹配的方式从所有字符块中提取出目标检验单中的关键信息。该方法及装置能够准确提取出医疗检验单中的关键信息，克服了现有技术中难以准确提取医疗检验单中的数据的问题，有利于将患者的医疗检验单中的关键信息存储入库，以使得能够将患者的健康信息进行有效地共享流通。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的医疗检验单的关键信息提取方法的流程示意图；

图2为本发明实施例提供的医疗检验单的关键信息提取装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的医疗检验单的关键信息提取方法的流程示意图，如图1所示，本发明实施例提供一种医疗检验单的关键信息提取方法，包括：

S1，依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符；

具体地，利用字符识别技术按照目标检验单中的文本自上而下、自左向右的顺序依次识别目标检验单中的各个字符，并获取每个字符对应的左边界坐标和右边界坐标。其中，字符识别技术可以为光学字符识别(OCR)技术，也可以为其他字符识别技术，可以根据实际需求进行设置，此处不做具体限定。

进一步地，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多文本行，其中，每个文本行包含多个字符。可以理解的是，在同一文本行中，各个字符的左边界坐标和右边界坐标是依次递增的，由此可知，若上述依次识别出的相邻两个字符的左边界坐标和右边界坐标出现了递减的情况，则可以确定这相邻两个字符是处于不同文本行的，即，需要在这相邻两个字符之间进行分行处理。本发明实施例中，基于上述原理预先设置预设分行规则，以利用预设分行规则将目标检验单中的所有字符分割成多文本行。

S2，对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符；

具体地，在将目标检验单中的所有字符分割成多个文本行之后，对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块。由此，可将每个文本行中的所有字符分割成多个字符块。其中，每个字符块包含至少一个字符。可以理解的是，在同一字符块中，相邻两个字符之间的间距较小，因此，在同一文本行中，若相邻两个字符之间的间距较大，则可以确定这两个相邻字符属于不同的字符块。本发明实施例中，相邻两个字符之间的间距可以表示为当前字符的右边界坐标与其下一个字符的左边界坐标之间的坐标差。因此，若当前字符的右边界坐标与其下一个字符的左边界坐标之间的坐标差较大，则可以确定当前字符与其下一个字符属于不同的字符块。即，需要在当前字符与其下一个字符之间进行分块处理。本发明实施例中，基于上述原理预先设置了预设分块规则，以利用预设分块规则将每个文本行中的所有字符分割成多个字符块。

S3，利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从第一字符块中提取出第一关键信息，第一关键信息为医院名称；

具体地，通过上述方法步骤，目标检验单中的所有字符被分割成了多个文本行，且每个文本行被分割成了多个文本块。在此基础上，利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块。其中，第一关键信息为医院名称。即，遍历目标检验单中的所有字符块，若某个字符块中包含“医院”这两个字符，则说明该字符块中包含医院名称，并将该字符块作为第一字符块。在筛选出第一字符块之后，从第一字符块中提取出第一关键信息，也即从第一字符块中提取出医院名称。本发明实施例中，可以将第一字符块中的字符与全国医院词典中的医院名称进行匹配，若第一字符块中的某几个字符与全国医院词典中的某个医院名称匹配成功，则可确定这几个字符即为目标检验单中的医院名称。

S4，利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出第二关键信息，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间；

具体地，利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块。其中，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间等。即，遍历目标检验单中的所有字符块，若某个字符块中包含“姓名”或“性别”或“年龄”或“检查医生”或“检查时间”等字符，则将该字符块作为第二字符块。在筛选出第二字符块之后，从第二字符块中提取出第二关键信息，也即从第二字符块中提取出患者姓名、患者性别、患者年龄、检查医生和检查时间等信息。本发明实施例中，若某个第二字符块中包含“姓名”这两个字符，则可将该第二字符块中出现在“姓名”这两个字符之后的字符作为患者姓名；若某个第二字符块中包含“性别”这两个字符，则可将该第二字符块中出现在“性别”这两个字符之后的字符作为患者性别；若某个第二字符块中包含“年龄”这两个字符，则可将该第二字符块中出现在“年龄”这两个字符之后的字符作为患者年龄；若某个第二字符块中包含“检查医生”这四个字符，则可将该第二字符块中出现在“检查医生”这四个字符之后的字符作为检查医生姓名；若某个第二字符块中包含“检查时间”这四个字符，则可将该第二字符块中出现在“检查时间”这四个字符之后的字符作为具体的检查时间。

S5，将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，第三关键信息包括检查项目、结果、单位和参考范围。

具体地，在上述技术方案的基础上，将目标检验单中除了第一字符块和第二字符块之外的其他每个字符块作为第三字符块。在此基础上，从所有第三字符块中提取出第三关键信息，其中，第三关键信息包括检查项目、结果、单位和参考范围等。需要说明的是，在医疗检验单中，检查项目一般是用中文字符表示；结果一般是用单个数值表示；单位一般是用英文字符表示；参考范围一般用数值范围表示。有鉴于此，本发明实施例中，若某个文本行中包含多个第三字符块，则将该文本行中包含中文字符的第三字符块中的所有字符作为一个检查项目；将该文本行中包含单个数值的第三字符块中的所有字符作为上述检查项目对应的结果；将该文本行中包含英文字符的第三字符块中的所有字符作为上述结果对应的单位；将该文本行中包含数值范围的第三字符块中的所有字符作为上述结果对应的参考范围。由此，可以提取出目标检验单中的所有检查项目和每个检查项目对应的结果、单位和参考范围。

本发明实施例提供的医疗检验单的关键信息提取方法，依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，从而根据所有字符各自对应的左边界坐标和右边界坐标将目标检验单中的所有字符分割成多个文本行，并将每个文本行分割成多个字符块，最终利用关键词匹配的方式从所有字符块中提取出目标检验单中的关键信息。该方法能够准确提取出医疗检验单中的关键信息，克服了现有技术中难以准确提取医疗检验单中的数据的问题，有利于将患者的医疗检验单中的关键信息存储入库，以使得能够将患者的健康信息进行有效地共享流通。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，之后还包括：利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第一标记位置；利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第二标记位置；利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第三标记位置；根据所有第一标记位置、所有第二标记位置和所有第三标记位置对所有第三字符块进行二次分块处理；相应地，从所有第三字符块中提取出第三关键信息，具体为：从二次分块处理后的所有第三字符块中提取出第三关键信息。

具体地，本发明实施例中，将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，可以理解的是，第三字符块中包含的是目标检验单中检查项目的相关信息。一般地，医疗检验单中检查项目的相关信息一般包括各个检查项目的名称、结果、单位和参考范围，其中同一检查项目的名称、结果、单位和参考范围是并列显示在同一文本行中的。然而，由于有些检查项目的名称过长，致使这些检查项目的名称和结果之间的间距很小，导致容易将这些检查项目的名称和结果错误地划分在同一字符块中，因此，第三字符块中可能存在分块错误的情况。有鉴于此，本发明实施例中，在获得第三字符块之后，分别利用距离参考方式、全局参考方式和局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，以对所有第三字符块进行二次分块处理，具体实现如下：

利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第一标记位置；其中，距离参考方式以目标检验单中各字符块之间距离的均值为参考，进一步确定每个第三字符块是否需要进行二次分块处理，并将需要进行二次分块处理的位置标记为第一标记位置。利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第二标记位置；其中，全局参考方式以包含第三字符块的各文本行中包含的字符块数量为参考，确定出需要进行二次分块处理的文本行，最终以其他所有文本行为参考在每个需要进行二次分块处理的文本行中确定出需要进行二次分块处理的第三字符块，并将第三字符块中需要进行二次分块处理的位置标记为第二标记位置。利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第三标记位置；其中，局部参考方式以包含第三字符块的各文本行中包含的字符块数量为参考，确定出需要进行二次分块处理的文本行，最终以邻近文本行为参考在每个需要进行二次分块处理的文本行中确定出需要进行二次分块处理的第三字符块，并将第三字符块中需要进行二次分块处理的位置标记为第三标记位置。

进一步地，根据所有第一标记位置、所有第二标记位置和所有第三标记位置对所有第三字符块进行二次分块处理，即，在所有第一标记位置、所有第二标记位置和所有第三标记位置对第三字符块进一步进行分块处理。由此，可有效纠正第三字符块中出现的分块错误的情况，进一步确保每个第三字符块的分块准确性。最终，从二次分块处理后的所有第三字符块中提取出第三关键信息，以确保能够准确提取出目标检验单中的各个检查项目的名称、结果、单位和参考范围。

本发明实施例提供的医疗检验单的关键信息提取方法，分别利用距离参考方式、全局参考方式和局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，以对所有第三字符块进行二次分块处理，可有效纠正第三字符块中出现的分块错误的情况，进一步确保每个第三字符块的分块准确性，以确保能够从二次分块处理后的所有第三字符块中准确提取出目标检验单中的各个检查项目的名称、结果、单位和参考范围。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：计算目标检验单包含的所有字符块中的每相邻两个字符块之间的距离的均值，根据均值确定第一阈值；对于任意一个第三字符块，依次遍历第三字符块中的每个字符，对于任意当前字符，若当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第一阈值，则将当前字符与当前字符的下一个字符之间的位置确定为需要进行二次分块处理的位置。

具体地，本发明实施例中，利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体实现如下：

首先获取目标检验单包含的所有字符块，并计算所有字符块中的每相邻两个字符块之间的距离，再求取每相邻两个字符块之间的距离的均值，进而根据均值确定第一阈值。其中，第一阈值一般小于均值，可以根据实际需求进行设置，此处不做具体限定。在确定第一阈值之后，对于任意一个第三字符块，依次遍历第三字符块中的每个字符，对于任意当前字符，若当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第一阈值，则说明当前字符与其下一个字符之间的间距较大，在这种情况下，当前字符与其下一个字符应该属于不同的字符块，因此，将当前字符与当前字符的下一个字符之间的位置确定为需要进行二次分块处理的位置。

本发明实施例提供的医疗检验单的关键信息提取方法，利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，以对所有第三字符块进行二次分块处理，可有效纠正第三字符块中出现的分块错误的情况，进一步确保每个第三字符块的分块准确性。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：将包含第三字符块的每一个文本行作为一个目标文本行，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块正确的文本行和分块存在错误的文本行，分别作为参考文本行和待纠正文本行；对于任意一个待纠正文本行，根据待纠正文本行和参考文本行之间的坐标重叠率确定待纠正文本行中需要进行二次分块处理的位置。

具体地，本发明实施例中，利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体实现如下：

将包含第三字符块的每一个文本行作为一个目标文本行，也就是说，若某个文本行中包含一个或多个第三字符块，则将该文本行作为一个目标文本行。在此基础上，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块正确的文本行和分块存在错误的文本行，分别作为参考文本行和待纠正文本行。举例而言，若统计结果中有6个目标文本行所包含的字符块数量为5，而仅有1个目标文本行所包含的字符块数量为2，则可确定上述6个目标文本行为分块正确的文本行，并将其作为参考文本行，同时可确定另外1个目标文本行为分块存在错误的文本行，并将其作为待纠正文本行。

通过上述方法步骤即可获得所有待纠正文本行和所有参考文本行，在此基础上，对于任意一个待纠正文本行，根据待纠正文本行和参考文本行之间的坐标重叠率确定待纠正文本行中需要进行二次分块处理的位置。具体地，对于某个待纠正文本行而言，从所有参考文本行中选取一个参考文本行，计算该待纠正文本行与该参考文本行中对应两个字符块之间的坐标重叠率，若坐标重叠率小于坐标重叠率阈值，则说明待纠正文本行中的字符块存在分块错误的情况，因此，需要将待纠正文本行中的字符块进行二次分块处理，最终可以根据参考文本行中字符块的最后一个字符的右边界位置确定出待纠正文本行中的字符块需要进行二次分块处理的位置。其中，坐标重叠率阈值可以根据实际需求进行设置，此处不做具体限定。

本发明实施例提供的医疗检验单的关键信息提取方法，利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，以对所有第三字符块进行二次分块处理，可有效纠正第三字符块中出现的分块错误的情况，进一步确保每个第三字符块的分块准确性。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：将包含第三目标分块的每一个文本行作为一个目标文本行，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块存在错误的文本行，作为待纠正文本行；对于任意一个待纠正文本行，根据待纠正文本行和待纠正文本行的临近文本行之间的坐标重叠率确定待纠正文本行中需要进行二次分块处理的位置。

具体地，本发明实施例中，利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体实现如下：

将包含第三字符块的每一个文本行作为一个目标文本行，也就是说，若某个文本行中包含一个或多个第三字符块，则将该文本行作为一个目标文本行。在此基础上，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块存在错误的文本行，作为待纠正文本行。举例而言，若统计结果中有6个目标文本行所包含的字符块数量为5，而仅有1个目标文本行所包含的字符块数量为2，则可确定上述仅有1个目标文本行为分块存在错误的文本行，并将其作为待纠正文本行。

通过上述方法步骤即可获得所有待纠正文本行，在此基础上，对于任意一个待纠正文本行，根据待纠正文本行与其邻近文本行之间的坐标重叠率确定待纠正文本行中需要进行二次分块处理的位置。具体地，对于某个待纠正文本行而言，计算该待纠正文本行与其邻近文本行中对应两个字符块之间的坐标重叠率，若坐标重叠率小于坐标重叠率阈值，则说明待纠正文本行中的字符块存在分块错误的情况，因此，需要将待纠正文本行中的字符块进行二次分块处理，最终可以根据邻近文本行中字符块的最后一个字符的右边界位置确定出待纠正文本行中的字符块需要进行二次分块处理的位置。其中，坐标重叠率阈值可以根据实际需求进行设置，此处不做具体限定。

本发明实施例提供的医疗检验单的关键信息提取方法，利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，以对所有第三字符块进行二次分块处理，可有效纠正第三字符块中出现的分块错误的情况，进一步确保每个第三字符块的分块准确性。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，具体为：依次遍历每个字符，对于任意一个当前字符，若当前字符的右边界坐标大于当前字符的下一个字符的左边界坐标，且当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第二阈值，则将当前字符和当前字符的下一个字符进行分行处理，以使得将所有字符分割成多个文本行。

具体地，需要说明的是，在同一文本行中，各个字符的左边界坐标和右边界坐标是依次递增的，由此可知，若相邻两个字符的左边界坐标和右边界坐标出现了递减的情况，则可以确定这相邻两个字符是处于不同文本行的。有鉴于此，本发明实施例中，在依次识别出目标检验单中的各个字符和每个字符的左边界坐标和右边界坐标之后，依次遍历每个字符，对于任意一个当前字符，若当前字符的右边界坐标大于当前字符的下一个字符的左边界坐标，且当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第二阈值，则说明当前字符和当前字符的下一个字符属于不同的文本行，因此需要将当前字符和当前字符的下一个字符进行分行处理。其中，第二阈值可以根据实际需求进行设置，此处不做具体限定。通过上述方法步骤，即可将目标检验单中的所有字符分割成多个文本行。

本发明实施例提供的医疗检验单的关键信息提取方法，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将目标检验单中的所有字符分割成多个文本行，有利于根据文本行分割获得目标检验单中的所有字符块，进而有利于从字符块中提取出目标检验单中的关键信息。

基于上述任一实施例，提供一种医疗检验单的关键信息提取方法，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，具体为：依次遍历文本行中的每个字符，对于任意一个当前字符，若当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第三阈值，则将当前字符和当前字符的下一个字符进行分块处理，以使得将文本行中的所有字符分割成多个字符块。

具体地，需要说明的是，在同一字符块中，相邻两个字符之间的间距较小，因此，在同一文本行中，若相邻两个字符之间的间距较大，则可以确定这两个相邻字符属于不同的字符块。有鉴于此，本发明实施例中，在将目标检验单中的所有字符分割成多个文本行之后，对于任意一个文本行，依次遍历该文本行中的每个字符，对于任意一个当前字符，若当前字符的右边界坐标与当前字符的下一个字符的左边界坐标之间的坐标差大于第三阈值，则说明当前字符和当前字符的下一个字符属于不同的文本块，因此需要将当前字符和当前字符的下一个字符进行分块处理。其中，第三阈值可以根据实际需求进行设置，此处不做具体限定。通过上述方法步骤，即可将目标检验单中的每个文本行分割成多个字符块。

本发明实施例提供的医疗检验单的关键信息提取方法，对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，以使得将目标检验单中的每个文本行分割成多个字符块，有利于从字符块中提取出目标检验单中的关键信息。

图2为本发明实施例提供的医疗检验单的关键信息提取装置的结构示意图，如图2所示，该装置包括：字符分行模块21、字符分块模块22、第一关键信息提取模块23、第二关键信息提取模块24和第三关键信息提取模块25，其中：

字符分行模块21用于依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符。

具体地，字符分行模块21利用字符识别技术按照目标检验单中的文本自上而下、自左向右的顺序依次识别目标检验单中的各个字符，并获取每个字符对应的左边界坐标和右边界坐标。其中，字符识别技术可以为光学字符识别(OCR)技术，也可以为其他字符识别技术，可以根据实际需求进行设置，此处不做具体限定。

进一步地，字符分行模块21利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多文本行，其中，每个文本行包含多个字符。可以理解的是，在同一文本行中，各个字符的左边界坐标和右边界坐标是依次递增的，由此可知，若上述依次识别出的相邻两个字符的左边界坐标和右边界坐标出现了递减的情况，则可以确定这相邻两个字符是处于不同文本行的，即，需要在这相邻两个字符之间进行分行处理。本发明实施例中，基于上述原理预先设置预设分行规则，以利用预设分行规则将目标检验单中的所有字符分割成多文本行。

字符分块模块22用于对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符。

具体地，在将目标检验单中的所有字符分割成多个文本行之后，对于任意一个文本行，字符分块模块22利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块。由此，可将每个文本行中的所有字符分割成多个字符块。其中，每个字符块包含至少一个字符。可以理解的是，在同一字符块中，相邻两个字符之间的间距较小，因此，在同一文本行中，若相邻两个字符之间的间距较大，则可以确定这两个相邻字符属于不同的字符块。本发明实施例中，相邻两个字符之间的间距可以表示为当前字符的右边界坐标与其下一个字符的左边界坐标之间的坐标差。因此，若当前字符的右边界坐标与其下一个字符的左边界坐标之间的坐标差较大，则可以确定当前字符与其下一个字符属于不同的字符块。即，需要在当前字符与其下一个字符之间进行分块处理。本发明实施例中，基于上述原理预先设置了预设分块规则，以利用预设分块规则将每个文本行中的所有字符分割成多个字符块。

第一关键信息提取模块23用于利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从第一字符块中提取出第一关键信息，第一关键信息为医院名称。

具体地，通过上述方法步骤，目标检验单中的所有字符被分割成了多个文本行，且每个文本行被分割成了多个文本块。在此基础上，第一关键信息提取模块23利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块。其中，第一关键信息为医院名称。即，遍历目标检验单中的所有字符块，若某个字符块中包含“医院”这两个字符，则说明该字符块中包含医院名称，并将该字符块作为第一字符块。在筛选出第一字符块之后，从第一字符块中提取出第一关键信息，也即从第一字符块中提取出医院名称。

第二关键信息提取模块24用于利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出第二关键信息，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间。

具体地，第二关键信息提取模块24利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块。其中，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间等。即，遍历目标检验单中的所有字符块，若某个字符块中包含“姓名”或“性别”或“年龄”或“检查医生”或“检查时间”等字符，则将该字符块作为第二字符块。在筛选出第二字符块之后，从第二字符块中提取出第二关键信息，也即从第二字符块中提取出患者姓名、患者性别、患者年龄、检查医生和检查时间等信息。

第三关键信息提取模块25用于将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，第三关键信息包括检查项目、结果、单位和参考范围。

具体地，在上述技术方案的基础上，第三关键信息提取模块25将目标检验单中除了第一字符块和第二字符块之外的其他每个字符块作为第三字符块。在此基础上，第三关键信息提取模块25从所有第三字符块中提取出第三关键信息，其中，第三关键信息包括检查项目、结果、单位和参考范围等。需要说明的是，在医疗检验单中，检查项目一般是用中文字符表示；结果一般是用单个数值表示；单位一般是用英文字符表示；参考范围一般用数值范围表示。有鉴于此，本发明实施例中，第三关键信息提取模块25根据检查项目、结果、单位和参考范围各自对应的表示形式从所有第三字符块中提取出目标检验单中的所有检查项目和每个检查项目对应的结果、单位和参考范围。

本发明实施例提供的医疗检验单的关键信息提取装置，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。

本发明实施例提供的医疗检验单的关键信息提取装置，依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，从而根据所有字符各自对应的左边界坐标和右边界坐标将目标检验单中的所有字符分割成多个文本行，并将每个文本行分割成多个字符块，最终利用关键词匹配的方式从所有字符块中提取出目标检验单中的关键信息。该装置能够准确提取出医疗检验单中的关键信息，克服了现有技术中难以准确提取医疗检验单中的数据的问题，有利于将患者的医疗检验单中的关键信息存储入库，以使得能够将患者的健康信息进行有效地共享流通。

图3为本发明实施例提供的电子设备的实体结构示意图。参照图3，所述电子设备，包括：处理器(processor)31、存储器(memory)32和总线33；其中，所述处理器31和存储器32通过所述总线33完成相互间的通信；所述处理器31用于调用所述存储器32中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符；对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符；利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从第一字符块中提取出第一关键信息，第一关键信息为医院名称；利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出第二关键信息，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间；将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，第三关键信息包括检查项目、结果、单位和参考范围。

此外，上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：依次识别出目标检验单中的各个字符和每个字符对应的左边界坐标和右边界坐标，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，其中每个文本行包含多个字符；对于任意一个文本行，利用预设分块规则根据文本行中所有字符各自对应的左边界坐标和右边界坐标将文本行中的所有字符分割成多个字符块，其中每个字符块包含至少一个字符；利用关键词匹配的方式从所有字符块中筛选出包含第一关键信息的字符块，作为第一字符块，并从第一字符块中提取出第一关键信息，第一关键信息为医院名称；利用关键词匹配的方式从所有字符块中筛选出包含第二关键信息的字符块，作为第二字符块，并从所有第二字符块中提取出第二关键信息，第二关键信息包括患者姓名、患者性别、患者年龄、检查医生和检查时间；将第一字符块和第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，第三关键信息包括检查项目、结果、单位和参考范围。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医疗检验单的关键信息提取方法，其特征在于，包括：

将所述第一字符块和所述第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，所述第三关键信息包括检查项目、结果、单位和参考范围；

将所述第一字符块和所述第二字符块之外的其他每个字符块作为第三字符块，之后还包括：

利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第一标记位置；

利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第二标记位置；

利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，将其标记为第三标记位置；

根据所有第一标记位置、所有第二标记位置和所有第三标记位置对所有第三字符块进行二次分块处理；

相应地，从所有第三字符块中提取出所述第三关键信息，具体为：

从二次分块处理后的所有第三字符块中提取出所述第三关键信息；

所述利用全局参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：

将包含所述第三字符块的每一个文本行作为一个目标文本行，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块正确的文本行和分块存在错误的文本行，分别作为参考文本行和待纠正文本行；

对于任意一个待纠正文本行，根据所述待纠正文本行和所述参考文本行之间的坐标重叠率确定所述待纠正文本行中需要进行二次分块处理的位置。

2.根据权利要求1所述的医疗检验单的关键信息提取方法，其特征在于，利用距离参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：

计算所述目标检验单包含的所有字符块中的每相邻两个字符块之间的距离的均值，根据所述均值确定第一阈值；

对于任意一个第三字符块，依次遍历所述第三字符块中的每个字符，对于任意当前字符，若所述当前字符的右边界坐标与所述当前字符的下一个字符的左边界坐标之间的坐标差大于所述第一阈值，则将所述当前字符与所述当前字符的下一个字符之间的位置确定为需要进行二次分块处理的位置。

3.根据权利要求1所述的医疗检验单的关键信息提取方法，其特征在于，利用局部参考方式确定所有第三字符块中需要进行二次分块处理的位置，具体为：

将包含所述第三字符块的每一个文本行作为一个目标文本行，统计每个目标文本行所包含的字符块数量，根据统计结果确定出所有目标文本行中分块存在错误的文本行，作为待纠正文本行；

对于任意一个待纠正文本行，根据所述待纠正文本行和所述待纠正文本行的邻近文本行之间的坐标重叠率确定所述待纠正文本行中需要进行二次分块处理的位置。

4.根据权利要求1所述的医疗检验单的关键信息提取方法，其特征在于，利用预设分行规则根据所有字符各自对应的左边界坐标和右边界坐标将所有字符分割成多个文本行，具体为：

依次遍历每个字符，对于任意一个当前字符，若所述当前字符的右边界坐标大于所述当前字符的下一个字符的左边界坐标，且所述当前字符的右边界坐标与所述当前字符的下一个字符的左边界坐标之间的坐标差大于第二阈值，则将所述当前字符和所述当前字符的下一个字符进行分行处理，以使得将所有字符分割成多个文本行。

5.根据权利要求1所述的医疗检验单的关键信息提取方法，其特征在于，利用预设分块规则根据所述文本行中所有字符各自对应的左边界坐标和右边界坐标将所述文本行中的所有字符分割成多个字符块，具体为：

依次遍历所述文本行中的每个字符，对于任意一个当前字符，若所述当前字符的右边界坐标与所述当前字符的下一个字符的左边界坐标之间的坐标差大于第三阈值，则将所述当前字符和所述当前字符的下一个字符进行分块处理，以使得将所述文本行中的所有字符分割成多个字符块。

6.一种医疗检验单的关键信息提取装置，其特征在于，包括：

第三关键信息提取模块，用于将所述第一字符块和所述第二字符块之外的其他每个字符块作为第三字符块，从所有第三字符块中提取出第三关键信息，所述第三关键信息包括检查项目、结果、单位和参考范围；

7.一种电子设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，所述存储器存储有可被所述处理器执行的程序指令，其特征在于，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

8.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。