CN112509661B

CN112509661B - 用于识别体检报告的方法、计算设备和介质

Info

Publication number: CN112509661B
Application number: CN202110144841.XA
Authority: CN
Inventors: 马超
Original assignee: Shanghai Baifude Network Technology Co ltd; Nanjing Jilafo Network Technology Co ltd
Current assignee: Shanghai Baifude Network Technology Co ltd; Nanjing Jilafo Network Technology Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-25
Anticipated expiration: 2041-02-03
Also published as: CN112509661A

Abstract

本公开涉及一种用于识别体检报告的方法、计算设备和计算机可读存储介质。该方法包括：响应于确定待识别的体检报告的类型为第一预定类型，解析待识别的体检报告，以便生成多个文字块信息和多个坐标信息；基于所识别的机构属性信息，遍历关于体检指标的知识图谱，以便确定体检指标集合和对应的标准体检指标集合；基于所确定的体检指标集合，遍历多个文字块信息，以便确定目标体检指标的坐标信息；基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值；以及基于目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。本公开能够有效识别体检报告，而且无需预先为每家体检机构定制识别模版。

Description

用于识别体检报告的方法、计算设备和介质

技术领域

本公开总体上涉及数据识别技术，具体地，涉及用于识别体检报告的方法、计算设备和计算机可读存储介质。

背景技术

随着互联网技术的发展，人们不仅可以通过互联网购买商品，而且可以通过互联网平台来向体检机构预约体检和基于体检结果进行投保或者就医。而体检报告通常为非结构化的数据，例如是PDF格式，或者是图像扫描件的方式，因此，互联网平台无法支持体检报告的结构化存储、分析与查询。这使得如何快速而准确地识别体检报告日益受到关注。

传统的体检报告识别方法例如是基于特征的识别法。例如，可以预先根据体检机构的体检报告配置对应的识别模版，然后根据识别模版中预先设定的区域或上下文来提取对应体检机构的体检报告中的目标文本。应当理解，不同的体检机构的体检报告的格式存在较大差异，而且体检项目内容和体检指标的表述也不尽相同。因此，对于需要对接多家体检机构的互联网平台而言，需要预先配置相当多数量的识别模版，以便识别多家体检机构的体检报告，这样不仅费时费力，而且一旦体检机构的体检报告的格式发生变化，还需要重新编写对应的识别模版。

综上，传统的体检报告识别方法存在不仅需要预先为每家体检机构定制识别模版，而且需要花费大量时间编写和维护识别模版的不足之处。

发明内容

本公开提供了一种用于识别体检报告的方法、计算设备和计算机可读存储介质，不仅能够有效识别体检报告，而且无需预先为每家体检机构定制识别模版，能够有效降低系统的开发与维护耗时间与成本。

根据本公开的第一方面，提供了一种用于识别体检报告的方法，该方法包括：响应于确定待识别的体检报告的类型为第一预定类型，解析待识别的体检报告，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息；识别待识别的体检报告的机构属性信息；基于机构属性信息，遍历关于体检指标的知识图谱，以便确定与机构属性信息相关联的体检指标集合和对应的标准体检指标集合，知识图谱至少指示与机构属性信息相关联的体检指标和标准体检指标之间的映射关系；基于所确定的体检指标集合，遍历多个文字块信息，以便确定关于待识别的体检报告的目标体检指标的坐标信息；基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值；以及基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得设备执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本公开的第一方面的方法。

在一些实施例中，基于目标体检指标的坐标信息确定与目标体检指标对应的目标体检指标值包括：遍历多个文字块信息，以便在多个文字块信息中确定与体检指标集合中的目标体检指标相匹配的目标文字块；确定当前文字块的纵坐标是否与目标文字块的纵坐标相匹配；响应于确定当前文字块的纵坐标与目标文字块的纵坐标相匹配，确定当前文字块的横坐标是否大于目标文字块的横坐标；以及响应于确定当前文字块的横坐标大于目标文字块的横坐标，基于当前文字块确定与目标体检指标对应的目标体检指标值。

在一些实施例中，确定当前文字块的纵坐标与目标文字块的纵坐标相匹配包括：响应于确定当前文字块的纵坐标与目标文字块的纵坐标的差距小于或者等于预定阈值，确定当前文字块的纵坐标与目标文字块的纵坐标相匹配。

在一些实施例中，知识图谱指示多个体检机构节点，多个体检机构节点中的每一个体检机构节点关联有多个体检套餐节点，多个体检套餐节点中的每一个体检套餐节点关联有多个体检项目节点，多个体检项目节点中的每一个体检项目节点关联有体检指标节点，体检指标节点与标准体检指标相对应。

在一些实施例中，遍历关于体检指标的知识图谱以便确定与机构属性信息相关联的体检指标集合和对应的标准体检指标集合包括：基于机构属性信息和第一预定关系类型，遍历知识图谱，以获得与机构属性信息相匹配的体检机构节点的体检套餐节点，第一预定关系类型指示体检机构节点与体检套餐节点之间的关系类型；基于所获得的体检套餐节点、第二预定关系类型和第三预定关系类型，遍历知识图谱以获得与体检套餐节点相关联的体检指标节点和标准体检指标节点，第二预定关系类型指示体检套餐节点与体检指标节点之间的关系类型，第三预定关系类型指示体检指标节点和标准体检指标节点之间的关系类型，第三预定关系类型不同于第一预定关系类型和第二预定关系类型；以及基于与体检套餐节点相关联的体检指标节点和标准体检指标节点，生成体检指标集合和对应的标准体检指标集合。

在一些实施例中，用于识别体检报告的方法还包括：响应于确定待识别的体检报告的类型为第二预定类型，识别待识别的体检报告所包括的原始图像中的预定边框，第二预定类型为图像格式；基于所识别的预定边框，裁剪原始图像，以获得目标图像区域；经由预定校正模型，提取目标图像区域的图像特征，以便基于所提取的图像特征生成经校正的图像，预定校正模型经由多组关于对应的扭曲文档图像和复原的扭曲文档图像的样本所训练；以及识别所生成的经校正的图像，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息。

在一些实施例中，预定校正模块是基于U-Net网络而构建的。

在一些实施例中，用于识别体检报告的方法还包括：获得多个用户的关于待识别的体检报告的多个体检数据；基于标准体检指标，对多个体检数据进行聚类；以及基于聚类结果，生成关于多个用户的健康信息。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于实施识别体检报告的方法的系统的示意图。

图2示出了根据本公开的实施例的用于识别体检报告的方法的流程图。

图3示出了根据本公开的实施例的体检报告的部分内容的示意图。

图4示出了根据本公开的实施例的关于体检指标的知识图谱400的部分内容的示意图。

图5示出了根据本公开的实施例的用于确定与目标体检指标对应的目标体检指标值的方法的流程图。

图6示出了根据本公开的实施例的校正体检报告的方法600的流程图。

图7示出了根据本公开的实施例的预定校正模型的示意图。

图8示意性示出了适于用来实现本公开的实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文所描述，在传统的识别体检报告的方法中，需要预先配置相当多数量的识别模版以便识别不同体检机构的体检报告，不仅费时费力，而且一旦体检机构的体检报告的格式发生变化，还需要重新编写识别模版。另外，传统的体检项结果都是按照体检机构的标准进行存储，不同体检机构的标准通常不一致，为后续体检数据的汇总与分析带来不便。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于识别体检报告的方法。该方案通过将第一预定类型的体检报告解析成多个文字块信息和多个坐标信息，遍历关于体检指标的知识图谱以便确定与所识别的体检报告的机构属性信息相关联的体检指标集合和对应的标准体检指标集合，本公开可以将不同体检机构的各体检指标对应为标准体检指标。另外，本公开通过遍历多个文字块信息以便确定关于待识别的体检报告的目标体检指标的坐标信息；基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值，本公开可以在所解析的体检报告的文字块信息中定位各个体检指标位置和对应的体检指标值。再者，本公开基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据，本公开可以生成包括的标准体检指标和对应的目标体检指标值的结构化数据，以利于有效识别与存储体检报告体检数据。因此，本公开不仅能够有效识别体检报告，而且能够无需预先为每家体检机构定制识别模版，有效降低了系统的开发与维护耗时与成本。另外，通过用知识图谱来指示体检指标和标准体检指标项的关系，以及将体检数据转换为标准体检指标和对应的目标体检指标值，使得不同体检机构体检结果可以以统一的标准进行存储，为后续的健康状况分析提供了数据基础。

图1示出了根据本公开的实施例的用于实施识别体检报告的方法的系统100的示意图。如图1所示，系统100包括：计算设备110、多个体检机构的服务器140（例如包括第一体检机构的服务器140-1至第N体检机构的服务器140-N）、网络150。

关于体检机构的服务器140，其用于生成体检机构的体检报告，以及将所生成的体检报告发送至计算设备110。

关于计算设备110，其用于分别接收来自各体检机构的服务器140的多个待识别的体检报告，识别所接收的多个待识别的体检报告。具体而言，计算设备110确定待识别的体检报告的类型为第一预定类型时，解析待识别的体检报告，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息；以及遍历关于体检指标的知识图谱以便确定与待识别的体检报告的机构属性信息相关联的体检指标集合和对应的标准体检指标集合。计算设备110还用于确定关于待识别的体检报告的目标体检指标的坐标信息；基于目标体检指标的坐标信息确定与目标体检指标对应的目标体检指标值；以及基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如至少包括：待识别的体检报告解析单元114、机构属性信息识别单元116、体检指标集合和标准体检指标集合确定单元118、目标体检指标坐标信息确定单元120、目标体检指标值确定单元122、体检数据生成单元124。

关于待识别的体检报告解析单元114，其用于确定待识别的体检报告的类型是否为第一预定类型；以及如果确定待识别的体检报告的类型为第一预定类型，解析待识别的体检报告，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息。

关于机构属性信息识别单元116，其用于识别待识别的体检报告的机构属性信息。

关于体检指标集合和标准体检指标集合确定单元118，其用于基于机构属性信息，遍历关于体检指标的知识图谱，以便确定与机构属性信息相关联的体检指标集合和对应的标准体检指标集合，知识图谱至少指示与机构属性信息相关联的体检指标和标准体检指标之间的映射关系。

关于目标体检指标坐标信息确定单元120，其用于基于所确定的体检指标集合，遍历多个文字块信息，以便确定关于待识别的体检报告的目标体检指标的坐标信息。

关于目标体检指标值确定单元122，其用于基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值。

关于体检数据生成单元124，其用于基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。

通过上述手段，本公开可以将非结构化的体检报告识别为结构化的体检数据，以利于将体检结果进行结构化存储。另外，本公开无需为每家体检机构定制识别模版，简化了识别体检报告的方法，并且减少了用于编写和维护识别模版的时间与成本。

以下将结合图2描述根据本公开的实施例的用于识别体检报告的方法200。图2示出了根据本公开的实施例的用于识别体检报告的方法200的流程图。应当理解，方法200例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备110确定待识别的体检报告的类型是否为第一预定类型。

关于待识别的体检报告，其例如包括体检者信息、体检机构信息、体检套餐、体检项目、体检指标、对应的体检指标值以及结论信息。图3示出了根据本公开的实施例的体检报告300的部分内容的示意图。如图3所示，体检报告300至少包括第一体检项目310（例如为“一般检查”）、第二体检项目312（例如为“内科”）。每一个体检项目下包括多个体检指标320和多个对应的体检指标值322。如图3所示，身高、体重、脉搏为体检指标，177.5、82.8、97为对应的体检指标值。待识别的体检报告的类型可以是PDF格式的（例如是第一预定类型），也可以是图像格式的（例如是第二预定类型，如图像扫描件形式的体检报告）。无论是PDF格式的还是图像格式的体检报告均为非结构化的数据，因此不便于直接基于体检结果进行后续的数据检索、解析与统计。

体检套餐例如包括：入职体检、基础套餐、全面套餐等等。体检项目例如包括：普通内科、普通外科、常规体检等等。体检指标例如包括：视力、身高、收缩压、脉搏、体重、舒张压等等。与体检指标对应的体检指标值例如为与视力、身高、收缩压、脉搏、体重、舒张压这些体检指标分别对应的检测值。不同体检机构的体检报告在体检套餐、体检项目、体检指标方面的表达方式通常存在差异。例如，在A体检机构的体检报告中，“常规体检”这一体检项目中包括被命名为高压、低压的体检指标；而在B体检机构的体检报告中，对应的体检项目被命名为“一般体检”，对应的体检指标被命名为收缩压、舒张压。不同的体检机构的体检报告在体检项目和体检指标方面表述的差异性为准确识别体检报告、以及后续的数据检索与统计带来了挑战。

在步骤204处，如果计算设备110确定待识别的体检报告的类型为第一预定类型，解析待识别的体检报告，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息。例如，如果确定待识别的体检报告的类型为PDF格式的，则计算设备110解析待识别的体检报告。如果计算设备110确定待识别的体检报告的类型为第二预定类型（例如是图像格式的），跳转至步骤216处，计算设备110可以经由OCR识别待识别的体检报告，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息。

关于解析待识别的体检报告以生成多个文字块信息和多个坐标信息的方式，其例如包括：利用PDFbox和itext来解析待识别的体检报告。以下代码段示例性地示出了可以用于解析PDF格式的待识别的体检报告中文字块的坐标信息的程序实现方式：

PdfReader reader = new PdfReader(pdfPath);

PdfReaderContentParser parser = new PdfReaderContentParser(reader);

PdfStamper stamper = new PdfStamper(reader, new FileOutputStream("d:/Examinationreport.pdf"));

for(int i = 1;i <= reader.getNumberOfPages();i++){

ExaminationreportRenderListener listener = newExaminationreportRenderListener();

parser.processContent(i, listener);

List<Rectangle2D.Float> rectText = listener.rectText;

List<String> textList = listener.textList;

List<Float> listY = listener.listY;

List<Map<String,Rectangle2D.Float>> list_text = listener.rows_text_rect;

for(int k = 0;k < list_text.size();k++){

Map<String,Rectangle2D.Float> map = list_text.get(k);

for(Map.Entry<String,Rectangle2D.Float>entry:map.entrySet()){

System.out.println(entry.getKey()+"---"+entry.getValue());

}

应当理解，用于解析待识别的体检报告的方式还包括多种。以下示例性地示出了经由解析待识别的体检报告而生成的多个文字块信息和多个坐标信息：

{

"words": "身高",

"location": {

"top": 112,

"left": 72,

"width": 49,

"height": 29

}

},

{

"words": "177.5",

"location": {

"top": 112,

"left": 634,

"width": 66,

"height": 29

}

},

{

"words": "体重",

"location": {

"top": 161,

"left": 72,

"width": 48,

"height": 29

}

},

{

"words": "82.8",

"location": {

"top": 151,

"left": 633,

"width": 58,

"height": 41

}

},

在上述示例性的多个文字块信息和多个坐标信息中，文字块信息例如是"words":"身高"，坐标信息例如是"location": {"top": 112, "left": 72, "width": 49, "height": 29 }。"width"和"height"例如指示文字块的宽度和高度。"top"和"left"例如指示文字块的纵坐标和横坐标。

在步骤206处，计算设备110识别待识别的体检报告的机构属性信息。例如，所识别的待识别的体检报告的机构属性信息为“A机构”。

在步骤208处，计算设备110基于机构属性信息，遍历关于体检指标的知识图谱，以便确定与机构属性信息相关联的体检指标集合和对应的标准体检指标集合，知识图谱至少指示与机构属性信息相关联的体检指标和标准体检指标之间的映射关系。

关于知识图谱，知识图谱指示多个体检机构节点，多个体检机构节点中的每一个体检机构节点关联有多个体检套餐节点，多个体检套餐节点中的每一个体检套餐节点关联有多个体检项目节点，多个体检项目节点中的每一个体检项目节点关联有体检指标节点，体检指标节点与标准体检指标相对应。

图4示出了根据本公开的实施例的关于体检指标的知识图谱400的部分内容的示意图。如图4所示，知识图谱400包括多个存在关系的节点（例如图4中的圆形）。知识图谱400例如是使用Neo4J图数据库来构建的。知识图谱400例如包括了A机构410、B机构412等多个体检机构节点。以A机构410这一体检机构节点为例，与其存在“在售”关系的体检套餐节点例如包括：入职体检420、精英套餐422等多个不同类型的体检套餐节点。例如，与入职体检420这一检套餐节点存在“包含”（或者“包括”）关系的是常规体检430这一体检项目节点。与精英套餐422这一体检套餐节点存在“包含”关系的是普通内科432和普通外科434这两个体检项目节点。以常规体检430这一体检项目节点为例，与其存在“包含”关系的例如是视力440、身高442、收缩压444、脉搏446、体重448、舒张压450多个体检指标节点。与视力440、身高442、收缩压444、脉搏446、体重448、舒张压450这些体检指标节点存在“标准”关系的分别是：对应的VT 460、HT 462、DBp 464、P 466、BW 468、LBp 470这些标准体检指标节点。同时，标准体检指标节点VT 460、HT 462、DBp 464、P 466、BW 468、LBp 470也分别对应B机构412这一体检机构节点的基础套餐424这一体检套餐节点中的一般体检436中所包括的视力、身高、高压、脉搏、体重、低压这些体检指标节点。应当理解，B机构412的一般体检436这一体检项目节点与A机构410的常规体检430这一体检项目节点所关联的体检指标完全相同，仅是个别体检指标的表达不同。因此，通过采用上述手段，本公开可以将不同体检机构、不同套餐、不同体检项、不同的体检指标，通过标准体检指标进行关联，为体检报告的标准化存储提供了数据基础。另外，本公开还可以通过标准体检项目（例如，一般体检480）分别对应B机构412的一般体检436和A机构410的常规体检430。

知识图谱的构建方式例如是基于Neo4J图数据库来构建的。例如，构建知识图谱的方式例如包括：首先，计算设备110通过指令“MATCH (n) DETACH DELETE n” （其中，MATCH代表匹配操作，n代表节点标示符）来创建空白的环境。然后通过指令“CREATE (n:Institution {name:'A'}) RETURN n” （其中，CREATE代表创建操作，Institution代表标签，其指示节点的类型。{}代表节点的属性，A代表节点的属性值）创建体检机构节点（例如A机构）。然后，以类似的方法依次创建体检套餐节点、体检项目节点、体检指标节点、标准体检指标节点以及标准体检项目节点等。之后，计算设备110例如利用指令MATCH (a:Institution {name:'A机构'})，(b: Combined Health Checkup Services {name:'入职体检'}), MERGE (a)-[: on sale]->(b)（其中，[]代表关系，“on sal”代表关系类型，“-->”代表关系方向，即从a到b的关系）来创建节点之间的关系，例如，藉由上述指令建立体检机构节点（例如A机构）与体检套餐节点（例如入职体检）之间的“在售”关系（例如标记490所指示）。以此类推，依次建立体检套餐节点与体检项目节点之间的“包含”关系（例如标记492所指示）、体检项目节点与体检指标节点之间的“包含”关系（例如标记494所指示）、体检指标节点与标准体检指标节点之间的“标准”关系（例如标记496所指示）、以及体检项目节点与标准体检项目节点之间的“标准”关系（例如标记498所指示）。创建好的知识图谱400例如如图4所示。

关于遍历知识图谱以便确定与机构属性信息相关联的体检指标集合和对应的标准体检指标集合的方法例如包括：首先，计算设备110基于机构属性信息和第一预定关系类型，遍历知识图谱，以获得与机构属性信息相匹配的体检机构节点的体检套餐节点，第一预定关系类型指示体检机构节点与体检套餐节点之间的关系类型。其例如而不限于是“在售”（或者“on sale”）。例如，通过指令“MATCH (a: Institution)-[: on sale]->(b:Combined Health Checkup Services) 查询A机构下关系类型为“在售”的所有体检套餐节点。然后，计算设备110基于所获得的体检套餐节点、第二预定关系类型和第三预定关系类型，遍历知识图谱以获得与体检套餐节点相关联的体检指标节点和标准体检指标节点，第二预定关系类型指示体检套餐节点与体检指标节点之间的关系类型，第三预定关系类型指示体检指标节点和标准体检指标节点之间的关系类型，第三预定关系类型不同于第一预定关系类型和第二预定关系类型。例如，遍历知识图谱以获得与机构属性信息相匹配的体检机构的体检套餐。{ EXAMINATION CHECKLIST:'XX'}) RETURN a,b”。然后，例如，通过“MATCH (a: EXAMINATION CHECKLIST)-[:standard]->(b: standard EXAMINATIONCHECKLIST ) RETURN a,b”查询A机构下所有体检指标节点所对应的所有标准体检指标节点。之后，计算设备110基于与体检套餐节点相关联的体检指标节点和标准体检指标节点，生成体检指标集合和对应的标准体检指标集合。

在步骤210处，计算设备110基于所确定的体检指标集合，遍历多个文字块信息，以便确定关于待识别的体检报告的目标体检指标的坐标信息。

例如，计算设备110遍历多个文字块信息，以便获得与体检指标集合所包括的体检指标相匹配的目标体检指标；然后获取目标体检指标的坐标信息。例如，经由遍历多个文字块信息，找到文字块"身高"与体检指标集合所包括的体检指标“身高”相匹配（“相匹配”例如是：文字块中包括与体检指标一致的文字），则确定文字块 "身高"为目标体检指标。然后，获取文字块"身高"的坐标信息"location": {"top": 112, "left": 72, "width":49, "height": 29 }。

在步骤212处，计算设备110基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值。

经研究发现，与目标体检指标对应的目标体检指标值通常位于目标体检指标右侧第一项。因此，可以通过确定位于目标体检指标右侧第一项的、并且纵坐标与目标体检指标纵坐标的偏差范围在预定阈值范围之内的文字块为与目标体检指标对应的目标体检指标值。预定阈值可以预先设定并调整，其例如而不限于是+-10pt。

关于确定与目标体检指标对应的目标体检指标值的方式可以包括多种，例如，计算设备110遍历多个文字块信息，以便在多个文字块信息中确定与体检指标集合中的目标体检指标相匹配的目标文字块；确定当前文字块的纵坐标是否与目标文字块的纵坐标相匹配；如果确定当前文字块的纵坐标与目标文字块的纵坐标相匹配，确定当前文字块的横坐标是否大于目标文字块的横坐标；以及如果确定当前文字块的横坐标大于目标文字块的横坐标，基于当前文字块确定与目标体检指标对应的目标体检指标值。以下将结合图5说明确定与目标体检指标对应的目标体检指标值的方法500，在此，不再赘述。

例如，在步骤210处所确定的目标体检指标的坐标信息"location": {"top":112, "left": 72, "width": 49, "height": 29 }，确定位于文字块身高"右侧第一项（例如横坐标大于文字块"身高"的横坐标）、并且纵坐标与文字块"身高"的纵坐标"top": 112的偏差范围在预定阈值（例如而不限于是+-10pt）之内的文字块 "177.5"为与目标体检指标相匹配的目标文字块"身高"所对应的目标体检指标值为 "177.5"。

在步骤214处，计算设备110基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。

例如，基于与目标体检指标所对应的标准体检指标、与目标体检指标所对应的目标体检指标值，确定与各标准体检指标所应的体检指标值体检数据，以便生成关于待识别的体检报告的体检数据，体检数据包括各标准体检指标和各标准体检指标所所应的体检指标值体检数据。例如，基于步骤212处所确定的与目标体检指标"身高"所对应的目标体检指标值 "177.5"，以及基于与目标体检指标"身高"所对应的标准体检指标HT，可以确定与标准体检指标“HT”所对应的体检指标值 "177.5"。例如，针对其他目标体检指标，例如"体重"，确定其所对应的标准体检指标“P”所对应的体检指标值 "82.8"，以此类推，针对待识别的体检报告中所包括所有体检指标对应的标准体检指标所对应的体检指标值，进而生成关于待识别的体检报告的体检数据。

在上述方案中，通过将第一预定类型的体检报告解析成多个文字块信息和多个坐标信息，遍历关于体检指标的知识图谱以便确定与所识别的体检报告的机构属性信息相关联的体检指标集合和对应的标准体检指标集合，本公开可以将不同体检机构的各体检指标对应为标准体检指标。另外，本公开通过遍历多个文字块信息以便确定关于待识别的体检报告的目标体检指标的坐标信息；基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值，本公开可以在所解析的体检报告的文字块信息中定位各个体检指标位置和对应的体检指标值。再者，本公开基于与目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据，本公开可以生成包括的标准体检指标和对应的目标体检指标值的结构化数据，以利于有效识别与存储体检报告体检数据。因此，本公开不仅能够有效识别体检报告，而且能够无需预先为每家体检机构定制识别模版，有效降低了系统的开发与维护耗时与成本。另外，通过用知识图谱来指示体检指标和标准体检指标项的关系，以及将体检数据转换为标准体检指标和对应的目标体检指标值，使得不同体检机构体检结果可以以统一的标准进行存储，为后续的健康状况分析提供了数据基础。

在一些实施例中，计算设备110可以获得多个用户的关于待识别的体检报告的多个体检数据；基于标准体检指标，对多个体检数据进行聚类；以及基于聚类结果，生成关于多个用户的健康信息。由此，本公开可以得出多个用户组成的团体的体检报告，进而从宏观上反映一个团体的健康状况，由此解决现有技术中仅能针对单人生成体检报告，但无法提供团体的体检报告的不足之处。

以下将结合图5描述用于确定与目标体检指标对应的目标体检指标值的方法。图5示出了根据本公开的实施例的用于确定与目标体检指标对应的目标体检指标值的方法500的流程图。应当理解，方法500例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。

在步骤502处，计算设备110遍历多个文字块信息，以便在多个文字块信息中确定与体检指标集合中的目标体检指标相匹配的目标文字块。

在步骤504处，计算设备110确定当前文字块的纵坐标是否与目标文字块的纵坐标相匹配。确定当前文字块的纵坐标与目标文字块的纵坐标相匹配的方法例如包括：确定当前文字块的纵坐标与目标文字块的纵坐标的差距是否小于或者等于预定阈值；以及如果确定当前文字块的纵坐标与目标文字块的纵坐标的差距小于或者等于预定阈值，确定当前文字块的纵坐标与目标文字块的纵坐标相匹配。

在步骤506处，如果计算设备110确定当前文字块的纵坐标与目标文字块的纵坐标相匹配，确定当前文字块的横坐标是否大于目标文字块的横坐标。

在步骤508处，如果计算设备110确定当前文字块的横坐标大于目标文字块的横坐标，基于当前文字块确定与目标体检指标对应的目标体检指标值。

通过采取上述手段，能够快速并准确地将体检报告中各原始的体检指标及其对应体检指标值转换为结构化的标准体检指标和及其对应体检指标值，以便于存储、检索和分析。

在一些实施例中，方法200还包括用于校正扭曲的体检报告的方法600。以下将结合图6描述用于校正体检报告的方法600。图6示出了根据本公开的实施例的校正体检报告的方法600的流程图。应当理解，方法600例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。

在步骤602处，如果计算设备110确定待识别的体检报告的类型为第二预定类型，识别待识别的体检报告所包括的原始图像中的预定边框，第二预定类型为图像格式。

待识别的体检报告例如是拍摄时叠加了预定边框的物理的体检报告而生成的。拍摄物理的体检报告时，通常会因为物理的体检报告文档页弯曲、折叠等原因或者因为拍摄角度等原因而导致待识别的体检报告所包括的原始图像中所显示的文档出现扭曲现象，需要对原始图像中的扭曲文档进行校正，以便提高后续识别体检报告内容的准确性。

在步骤604处，计算设备110基于所识别的预定边框，裁剪原始图像，以获得目标图像区域。例如，计算设备110裁剪原始图像，留下原始图像在预定边框之内的图像区域，将在预定边框之内的图像区域确定为目标图像区域。通过采用上述手段，可以便捷地去除待识别的体检报告的复杂背景。

在步骤606处，计算设备110经由预定校正模型，提取目标图像区域的图像特征，以便基于所提取的图像特征生成经校正的图像，预定校正模型经由多组关于对应的扭曲文档图像和复原的扭曲文档图像的样本所训练。

关于预定校正模型，其例如而不限于是基于U-Net网络而构建的。U-Net网络使用全卷积神经网络。例如，图7示出了根据本公开的实施例的预定校正模型700的示意图。如图7所示，预定校正模型700由两个 U-Net 网络组成，即预定校正模型700包括第一U-Net网络710和第二U-Net网络730。每一个U-Net网络的左侧部分（也被称为“压缩路径contractingpath”）包括由卷积和池化层（Max Pooling）所构成的一系列下采样操作。该压缩路径例如由4个block所组成，每个block例如使用了3个有效卷积和1个Max Pooling进行下采样。网络的右侧部分(也被称为“扩展路径expansive path”)例如由4个block组成，每个block开始之前通过反卷积将Feature Map的尺寸乘2，同时将其个数减半，然后和左侧对称的压缩路径的Feature Map合并。

从第一U-Net网络模型710的最后一个反卷积层之后输出一个前向映射 720（即第一预测结果）和一个反卷积特征722。之后，连接前向映射 720和反卷积特征722以作为第二U-Net网络模型730的输入特征724。第二U-Net网络模型730输出第二预测结果740。第二预测结果740可直接用于生成经校正的图像（即复原的扭曲文档图像）。

关于损失函数，以下结合公式（1）来说明损失函数的计算方式。

（1）

（2）

在上述公式（1）中，

代表损失函数。

代表样本数量。

代表预定校正模型输出的第i点的映射的位置。

代表预定校正模型输出的第i点其对应的groundtruth 映射的位置。

代表系数。

代表代表预定校正模型输出的第i点的映射的位置与其对应的 groundtruth 映射的位置之间的相对误差。在训练时，把同一损失函数用于第一U-Net网络模型710 的第一预测结果和第二U-Net网络模型730的第二预测结果740。在测试或应用时，损失函数用于第二预测结果740。

关于训练样本，其例如包括：多组（例如是几千组）对应的扭曲文档图像和复原的扭曲文档图像。在一些实施例中，多个对应的扭曲文档图像例如是基于经步骤604处裁剪的目标图像区域而生成的多个图像。多个复原的扭曲文档图例如是经校正（例如采用图像处理工具）处理后的文档图像。

在一些实施例中，多个复原的扭曲文档图像例如是基于经由扫描仪扫描的平整的体检报告的图像而生成的。多个对应的扭曲文档图像例如是由复原的扭曲文档图像合成的扭曲文档图像。

该合成的方式例如包括：在复原的扭曲文档图像上放置一个 m x n 网格，其中m和n为自然数。以该网格为扭曲控制点。例如，在m x n 网格的上选择一个随机顶点 K 作为初始变形点；然后，基于随机生成的变形方向和变形强度、权重而传播至其他顶点P，以便生成扭曲网格。之后，以扭曲网格为变形阈，通过线性方式对扭曲网格进行插值，以生成扭曲文档图像，其中扭曲文档图像的像素密度大于预定像素阈值。以此种方式，可以针对每一个复原的扭曲文档图像合成多个扭曲文档图像。以下结合公式（3）来说明扭曲网格的其他顶点P的计算方式。

P _i=K_i+ w*X (3)

在上述公式（3）中，P _i代表扭曲网格的第i个顶点的位置。Ki代表扭曲网格的第i个顶点的位置。w代表权重。X代表变形方向和变形强度的叠加。

在步骤608处，计算设备110识别所生成的经校正的图像，以便生成关于待识别的体检报告的多个文字块信息和多个坐标信息。

通过采用上述技术手段，本公开能够针对因为物理的体检报告文档页弯曲、折叠等原因或者因为拍摄角度等原因而导致体检报告原始图像时的扭曲现象进行校正，进而提高体检报告的识别的准确性。

图8示意性示出了适于用来实现本公开实施例的电子设备（或者计算设备）800的框图。设备800可以是用于实现执行图2、图5至6所示的方法200、500至600的设备。如图8所示，设备800包括中央处理单元（CPU）801，其可以根据存储在只读存储器（ROM）802中的计算机程序指令或者从存储单元808加载到随机存取存储器（RAM）803中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可存储设备800操作所需的各种程序和数据。CPU、ROM以及RAM通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808，中央处理单元801执行上文所描述的各个方法和处理，例如执行方法200、500至600。例如，在一些实施例中，方法200、500至600可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法200、500至600的一个或多个操作。备选地，在其他实施例中，CPU可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法200、500至600的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表1个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于识别体检报告的方法，包括：

响应于确定待识别的体检报告的类型为第一预定类型，解析所述待识别的体检报告，以便生成关于所述待识别的体检报告的多个文字块信息和多个坐标信息；识别所述待识别的体检报告的机构属性信息；

基于所述机构属性信息，遍历关于体检指标的知识图谱，以便确定与所述机构属性信息相关联的体检指标集合和对应的标准体检指标集合，所述知识图谱至少指示与所述机构属性信息相关联的体检指标和标准体检指标之间的映射关系，所述知识图谱指示多个体检机构节点，所述多个体检机构节点中的每一个体检机构节点关联有多个体检套餐节点，所述多个体检套餐节点中的每一个体检套餐节点关联有多个体检项目节点，所述多个体检项目节点中的每一个体检项目节点关联有体检指标节点，所述体检指标节点与标准体检指标相对应，所述体检套餐节点与体检指标节点之间的关系类型由第二预定关系类型所指示，所述体检指标节点和标准体检指标节点之间的关系类型由第三预定关系类型所指示，所述第三预定关系类型不同于所述第二预定关系类型；

基于所确定的体检指标集合，遍历所述多个文字块信息，以便确定关于所述待识别的体检报告的目标体检指标的坐标信息；

基于所述目标体检指标的坐标信息，确定与所述目标体检指标对应的目标体检指标值；以及

基于与所述目标体检指标对应的目标体检指标值和对应的标准体检指标集合，生成关于所述待识别的体检报告的体检数据，体检数据包括各标准体检指标和各标准体检指标所所应的体检指标值体检数据。

2.根据权利要求1所述的方法，其中基于所述目标体检指标的坐标信息确定与所述目标体检指标对应的目标体检指标值包括：

遍历所述多个文字块信息，以便在多个文字块信息中确定与所述体检指标集合中的目标体检指标相匹配的目标文字块；

确定当前文字块的纵坐标是否与所述目标文字块的纵坐标相匹配；

响应于确定当前文字块的纵坐标与所述目标文字块的纵坐标相匹配，确定所述当前文字块的横坐标是否大于所述目标文字块的横坐标；以及

响应于确定所述当前文字块的横坐标大于所述目标文字块的横坐标，基于所述当前文字块确定与所述目标体检指标对应的目标体检指标值。

3.根据权利要求2所述的方法，其中确定当前文字块的纵坐标与所述目标文字块的纵坐标相匹配包括：

响应于确定当前文字块的纵坐标与所述目标文字块的纵坐标的差距小于或者等于预定阈值，确定当前文字块的纵坐标与所述目标文字块的纵坐标相匹配。

4.根据权利要求1所述的方法，其中遍历关于体检指标的知识图谱以便确定与所述机构属性信息相关联的体检指标集合和对应的标准体检指标集合包括：

基于所述机构属性信息和第一预定关系类型，遍历所述知识图谱，以获得与所述机构属性信息相匹配的体检机构节点的体检套餐节点，所述第一预定关系类型指示所述体检机构节点与所述体检套餐节点之间的关系类型；

基于所获得的体检套餐节点、第二预定关系类型和第三预定关系类型，遍历所述知识图谱以获得与所述体检套餐节点相关联的体检指标节点和标准体检指标节点，所述第三预定关系类型不同于所述第一预定关系类型；以及

基于与所述体检套餐节点相关联的体检指标节点和标准体检指标节点，生成体检指标集合和对应的标准体检指标集合。

5.根据权利要求1所述的方法，还包括：

响应于确定待识别的体检报告的类型为第二预定类型，识别待识别的体检报告所包括的原始图像中的预定边框，所述第二预定类型为图像格式；

基于所识别的预定边框，裁剪所述原始图像，以获得目标图像区域；

经由预定校正模型，提取所述目标图像区域的图像特征，以便基于所提取的图像特征生成经校正的图像，所述预定校正模型经由多组关于对应的扭曲文档图像和复原的扭曲文档图像的样本所训练；以及

识别所生成的经校正的图像，以便生成关于所述待识别的体检报告的多个文字块信息和多个坐标信息。

6.根据权利要求1所述的方法，其中所述预定校正模块是基于U-Net网络而构建的。

7.根据权利要求1所述的方法，还包括：

获得多个用户的关于所述待识别的体检报告的多个体检数据；

基于标准体检指标，对所述多个体检数据进行聚类；以及

基于聚类结果，生成关于多个用户的健康信息。

8.一种计算设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述计算设备实现权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，所述程序被机器执行时实现权利要求1-7任一项所述的方法。