CN113313038A

CN113313038A - 一种用于识别图表的方法、装置及存储介质

Info

Publication number: CN113313038A
Application number: CN202110614188.9A
Authority: CN
Inventors: 周昊帅; 陆丛希; 李林锴; 袁宇帆; 孙鸿程
Original assignee: Shanghai Youwei Intelligent Technology Co ltd
Current assignee: Shanghai Youwei Intelligent Technology Co ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-27
Also published as: WO2022253024A1

Abstract

本申请公开了一种用于识别图表的方法，包括：获取含有图表的对象图像，其中图表包括由相互交叉的第一坐标轴和第二坐标轴定义的标记区域、沿第一坐标轴分布的多个第一坐标轴标记以及沿第二坐标轴分布的多个第二坐标轴标记，并且图表还包括位于标记区域中的特征标记；使用经训练的神经网络处理对象图像，以识别图表并将其从对象图像中分离；使用经训练的神经网络处理图表，以识别多个第一坐标轴标记、多个第二坐标轴标记以及特征标记；基于识别的多个第一坐标轴标记和多个第二坐标轴标记，生成图表坐标系，图表坐标系用于拟合第一坐标轴和第二坐标轴；基于识别的特征标记相对于图表坐标系的位置，确定特征标记的坐标读数。

Description

一种用于识别图表的方法、装置及存储介质

技术领域

本申请涉及一种图表处理技术，更具体地，涉及一种用于识别图表的方法、装置及存储介质。

背景技术

对于有听损的患者来说，去临床听力门诊做的最基础、最常用的检测项目就是纯音听阈测定，其检测结果一般用听力图来表示。基于听力图所呈现的检测结果，患者听力是否有下降、以及下降的程度都可以比较准确地评估出来。

纯音是指频率成分单一的声音，比如500Hz单频率音、1000Hz单频率音等；而听阈是指患者在测试当中主观地表达能觉察到且觉察次数在一半以上的最小声音响度，比如30dB、40dB等。同时，由于声音能通过气导和骨导传播，听力图有些时候也会包含气导和骨导两种传播方式，但绝大部分都是以气导为主。气导是声音通过空气传导，经过耳廓、外耳道、鼓膜、听骨链到卵圆窗的传导后传入内耳。骨导是声音直接作用于颅骨传至内耳。

标准听力图通常包含表示声音频率的横坐标和表示声音响度的纵坐标，横坐标通常包含多个固定赫兹数的声音频率坐标轴标记，而纵坐标通常包含多个固定分贝数的声音响度坐标轴标记。听力图一般包含一条、两条或四条曲线。多数情况下，听力图可以包含两条曲线，即左耳气导曲线和右耳气导曲线。当听力图包含四条曲线时，这四条曲线为左右耳的气导曲线加上左右耳的骨导曲线。每条气导或骨导曲线都包括多个特征标记，该特征标记的颜色和形状表示不同的检测类型。标准情况下，蓝色表示左耳，红色表示右耳，“O”表示右耳气导，“X”表示左耳气导，“<”表示右耳骨导，“>”表示左耳骨导。

图1示出了一个示例性听力图10。如图1所示，该听力图的横坐标表示声音频率，而纵坐标表示声音响度。该听力图具体包含两条气导曲线，其中连接“X”的曲线12表示左耳气导曲线，其中每个标识“X”表示不同频率下的左耳气导的听力水平/损失值；连接“O”的曲线14表示右耳气导曲线，其中每个标识“O”表示不同频率下的右耳气导的听力水平/损失值。例如，右耳的听力损失为250Hz阈值15dB，500Hz阈值20dB，1000Hz阈值25dB，2000Hz阈值40dB，3000Hz阈值50dB，4000Hz阈值65dB，6000Hz阈值80dB，8000Hz阈值75dB；左耳的听力损失为250Hz阈值20dB，500Hz阈值20dB，1000Hz阈值20dB，2000Hz阈值35dB，3000Hz阈值40dB，4000Hz阈值70dB，6000Hz阈值80dB，8000Hz阈值80dB。

听力图通常会被医生或听力师使用，以为患者配置与其适合的助听器。当医生或听力师拿到患者的听力图后，需要听力师自行读出听力图中的曲线上特征标记数值，并且随后手动输入不同厂家助听器的验配软件中，得到助听器的参数。得到的参数可以被写入助听器中，以配置助听器。这个过程比较繁琐，标记有时因为交叠或者颜色为黑白难以分辨，读图过程缓慢且容易出错。从图1可以看出，听力图上的标记可能会存在交叠，因此读数可能受其影响，难以分辨的标识会导致人工读数缓慢并且容易出错。

因此，有必要提供一种改进的识别听力图的方法和装置。

发明内容

本申请的一个目的在于提供一种用于识别图表特别是听力图表的方法和装置，以解决人工读取图表容易出错且耗时耗力的问题。

在本申请的一个方面，提供了一种用于识别图表的方法，所述方法包括：获取含有图表的对象图像，其中所述图表包括由相互交叉的第一坐标轴和第二坐标轴定义的标记区域、沿所述第一坐标轴分布的多个第一坐标轴标记以及沿所述第二坐标轴分布的多个第二坐标轴标记，并且所述图表还包括位于所述标记区域中的特征标记；使用经训练的第一神经网络处理所述对象图像，以识别所述图表并将其从所述对象图像中分离；使用经训练的第二神经网络处理所述图表，以识别所述多个第一坐标轴标记、所述多个第二坐标轴标记以及所述特征标记；基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记，生成图表坐标系，所述图表坐标系用于拟合所述第一坐标轴和所述第二坐标轴；以及基于识别的所述特征标记相对于所述图表坐标系的位置确定所述特征标记的坐标读数。

在一些实施例中，在使用经训练的第一神经网络处理所述对象图像的步骤之后，所述方法还包括：旋转所述图表以使得所述第一坐标轴大致沿水平方向延伸并且使所述第二坐标轴大致沿竖直方向延伸。

在一些实施例中，旋转所述图表的步骤进一步包括：使用霍夫直线变换法确定所述第一坐标轴和所述第二坐标轴的待旋转角度；以及基于确定的所述待旋转角度旋转所述第一坐标轴和所述第二坐标轴。

在一些实施例中，所述经训练的第一神经网络和所述经训练的第二神经网络是由不同的数据集训练得到的。

在一些实施例中，所述第一神经网络和所述第二神经网络使用相同的神经网络算法。

在一些实施例中，所述第一神经网络和所述第二神经网络均使用Faster RCNN算法结合FPN算法。

在一些实施例中，所述第二神经网络是由合成训练数据集训练的，所述合成训练数据集包括多个合成听力图，其中每个合成听力图包括背景图以及叠加在所述背景图上的多个基于字库生成的坐标轴标记。

在一些实施例中，所述合成听力图还包括叠加在所述背景图上的干扰字模。

在一些实施例中，基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记生成图表坐标系的步骤进一步包括：使用Huber回归算法拟合所述第一坐标轴和所述第二坐标轴。

在一些实施例中，基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记生成图表坐标系的步骤进一步包括：使用RANSAC算法分别对所述多个第一坐标轴标记和所述多个第二坐标轴标记按空间域进行拟合；以及使用RANSAC算法分别对所述多个第一坐标轴标记中的至少一部分和所述多个第二坐标轴标记中的至少一部分按数值域进行拟合，从而得到拟合的第一坐标轴和第二坐标轴。

在一些实施例中，基于识别的所述特征标记相对于所述图表坐标系的位置确定所述特征标记的坐标读数的步骤包括：将所述特征标记中的每一个投影到所述第一坐标轴上，以确定所述特征标记中的每一个的第一坐标轴读数；将所述特征标记中的每一个投影到所述第二坐标轴上，以确定所述特征标记中的每一个的第二坐标轴读数；以及将针对每个特征标记所确定的第一坐标轴读数和第二坐标轴读数组合为所述特征标记的坐标读数。

在一些实施例中，所述图表是听力图，所述第一坐标轴表示声音的频率，所述第二坐标轴表示声音的响度，所述第一坐标轴标记是频率值，所述第二坐标轴标记是响度值，所述特征标记的坐标读数具有对应的频率值和响度值。

在一些实施例中，所述特征标记进一步包括表示左耳听力的左耳特征标记和表示右耳听力的右耳特征标记。

在一些实施例中，所述特征标记进一步包括表示左耳听力的左耳气导特征标记或左耳骨导特征标记和表示右耳听力的右耳气导特征标记或右耳骨导特征标记。

在本申请的另一方面，还提供了一种用于自动识别图表的装置，所述用于自动识别图表的装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行上述方面的步骤。

在本申请的又一方面，还提供了一种非暂态计算机存储介质，其上存储有一个或多个执行指令，所述一个或多个可执行指令被处理器执行后执行上述方面的步骤。

以上为本申请的概述，可能有简化、概括和省略细节的情况，因此本领域的技术人员应该认识到，该部分仅是示例说明性的，而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征，也非旨在用作为确定所要求保护主题的范围的辅助手段。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1示出了一个示例性听力图10；

图2示出了根据本申请一个实施例的用于识别图表的方法；

图3示出了一个示例性的对象图像；

图4a示出了从对象图像中提取的包含听力图的图表区域的一个示例；

图4b示出了经偏转校正处理后的图表区域；

图5示出了从图3所示的对象图像中识别出来的一个听力图；

图6示出了一个叠加有字模的背景图；

图7示出了基于坐标轴标记拟合的两个相互垂直的坐标轴；

图8a至图8c示出了利用RANSAC算法来进行坐标轴拟合的过程；

图9示出了投影计算特征标记的坐标读数的方法；

图10示出了结合有坐标读数的对象图像。

在详细解释本发明的任何实施例之前，应该理解，本发明的应用不限于在下面的描述中阐述的或在以下附图中示出的构造的细节和部件的布置。本发明能够具有其他实施例并且能够以各种方式实践或实施。而且，应该理解，这里使用的措辞和术语是为了描述的目的，不应被认为是限制性的。

具体实施方式

在下面的详细描述中，参考了构成其一部分的附图。在附图中，类似的符号通常表示类似的组成部分，除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下，可以采用其他实施方式，并且可以做出其他变化。可以理解，可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合、设计，而所有这些都明确地构成本申请内容的一部分。

为了便于处理类似听力图等具有标准格式的图表，本申请的发明人提出了一种方法，其利用神经网络技术来处理图像并识别图像中的图表以及图表标记对应的读数。这种处理方法可以有效地减少人力占用，提高了处理效率。在一些实施例中，这种图表处理方法可以由具有计算和数据处理能力的电子设备执行，以实现自动化的处理流程。

图2示出了根据本申请一个实施例的用于识别图表的方法200。在一些实施例中，被识别的图表可以是例如图1所示的听力图，但是本领域技术人员可以理解本申请的保护范围不限于此，其他类似的具有标准格式的图表，特别是以直角坐标系(具有两根相互垂直的坐标轴的坐标系)表现的图表，例如频谱图等，也可以利用本申请实施例的方法来进行识别。在下文中，均以类似图1所示的听力图为例对本申请的用于识别图表的方法进行说明。

如图2所示，在步骤202中，获取含有图表的对象图像。图3示出了一个示例性的对象图像。如图3所示，该对象图像是一张其上打印有两个听力图的白纸的照片，在实际应用中，图3所示的照片通常需要被打印出来，例如患者将其在医院测得的听力图的打印报告的照片或电子扫描件携带至助听器厂家或商家，以便其为自己配置适合的助听器。从图3可以看出，待处理识别的图表存在于对象图像中，作为其一部分。对象图像上还可能包含其他图表、文字或数字，例如图3所示的对象图像上方显示的患者个人信息等文字；此外对象图像还可能包含照片拍摄背景，例如图3所示的照片两侧的灰黑色阴影。在一些实施例中，对象图像可以是通过例如电子方式输入或传输到用于执行方法200的电子设备，例如通过邮件等通讯软件、网络硬盘等远程存储软件、或者通过例如移动硬盘、优盘等硬件存储介质输入。可以理解，本申请对于对象图像的格式并不做具体限定。

接着，在步骤204，使用经训练的第一神经网络处理对象图像，以识别图表并将其从对象图像中分离。

正如前述，对象图像中可能具有与图表无关的文字、图像或其他背景，这些无关信息可能会影响对图表的识别。虽然理论上不执行步骤204而直接对对象图像进行听力图的识别，但是由于听力图只占据了整张对象图像的一部分甚至一小部分，因此直接进行后续处理步骤会使得准确率大大降低。并且，在一些情况下，对象图像中可能包含有多个听力图，略过步骤204也会使得后续的处理变得十分复杂。因此，为了更好地对图表中的内容进行后续识别，可以先对象图像进行处理，以将图表从其所在的区域中提取出来。

为了提高提取图表的准确性，本申请采用了神经网络技术对对象图像进行处理。在一些实施例中，用于识别图表的第一神经网络可以采用了目标检测任务中常用的Faster-RCNN(Faster Region Based Convolutional Neural Network)神经网络模型。在从对象图像中提取图表的过程中，第一神经网络的检测目标为类似听力图的图表。可以理解，第一神经网络可以被由包括类似的对象图像和听力图的数据集预先训练得到，因而其能够有针对性地识别听力图。例如，可以通过给出一些已标注听力图位置的图像来训练第一神经网络。在训练与测试时，听力图被作为前景的唯一类别，而将其他所有区域都视为背景进行训练与测试。

第一神经网络首先通过多个卷积层对获取的对象图像进行特征提取，提取出整张图像的特征图。在一些实施例中，采用Faster RCNN模型的第一神经网络主要由两部分构成，第一部分是RPN(Region Proposal Network)，第二部分是Fast RCNN。其中，RPN主要用来提取候选框，而Fast RCNN则在提取出的候选框上对候选框进行校正并分类。相比于一级的检测算法(例如YOLO算法等)，虽然Faster RCNN的处理速度较慢，但是其精度较高，特别适合检测小目标。

第一神经网络还使用了金字塔网络(FPN)模型。FPN则是一种能够高效地提取对象图像中各个维度特征的方法。FPN对卷积神经网络中不同层次的特征图进行了融合，使得最终融合的特征图既具有高层次、总结性的信息，也具有低层次、更具细粒度的信息。由于FPN能够有效提升检测准确率，因此在步骤204中使用的第一神经网络中同时使用了Faster-RCNN和FPN模型。

可以理解，虽然第一神经网络模型整体采用了Faster-RCNN模型，但是该模型中的某些部分可以替换为能够实现相同功能的算法或模型。例如，分类结构可以通过支持向量机(SVM)替代；另外，可以采用其他常见的目标检测模型，例如Fast-RCNN和YOLO等。此外，在此类目标检测模型神经网络架构中，可以结合特征FPN模型，融合底层特征高分辨率的信息和高层特征的高语义信息，进一步提高目标图表的检测效果。

图4a示出了从对象图像中提取的包含听力图的图表区域的一个示例。可以看出，对象图像中的背景部分基本都已被去除，因此后续处理仅需针对该图表区域进行处理，这可以提高后续处理效率。从图4a还可以看出，在一些情况下，由于对象图像本身的问题，听力图的取向可能与图表区域的边缘存在一定的角度。换言之，经由步骤204识别出的听力图相对截取出的图表区域边缘存在一定的偏转角度。偏转角度的存在会影响听力图的后续处理。因此，在一些实施例中，在得到包含听力图的图表区域之后，可以继续进行偏转角度校正。例如，可以利用听力图中存在的多个与坐标轴平行的直线来对听力图进行定向；优选地，可以利用霍夫直线检测法检测听力图中的一条或多条直线，并得到这些直线的角度。

具体地，霍夫直线检测法在处理图像时，会将图像中的点映射到参数空间中的一条曲线，将图像中的直线映射到参数空间中的一个点。在图像中，同在一条直线上的点对应参数空间中相交于一点的曲线簇，该交点即为该直线。霍夫直线检测法可以将图像转换至参数空间。由于听力图中的大部分直线均分别与两个坐标轴中的一个坐标轴平行，因此听力图中直线斜率对应的霍夫变换参数的众数即为听力图的待旋转角度。优选地，可以在霍夫变换至参数空间后进行非极大值抑制，保留参数空间中置信度较高的直线。

在确定置信度较高的直线后，可以基于其表示的坐标轴与图表区域边缘之间的待旋转角度来对图表区域进行旋转，以补偿图表区域中听力图原有的偏转角度。图4b示出了经偏转校正处理后的图表区域，可以看出，原有图表区域之外被进行了一定的像素填充，使得校正后的图表区域的边缘与听力图对应的坐标轴分别大体平行。对于操作者而言，其可以观察到旋转听力图使得听力图上的一个坐标轴大致沿水平方向延伸，并且使得另一个坐标轴大致沿竖直方向延伸，正如图4b所示。

可以理解，在一些实施例中，也可以不对图表区域进行旋转处理而直接进行后续步骤，或者还对图表区域进行其他处理，例如图像畸变校正处理。

图5示出了从图3所示的对象图像中识别出来的一个听力图(左侧的听力图)。如图5所示，该听力图包括由相互交叉的第一坐标轴和第二坐标轴定义的标记区域，其中第一坐标轴是沿水平方向延伸的坐标轴，而第二坐标轴是沿竖直方向延伸的坐标轴。标记区域大体包括第一坐标轴与第二坐标轴为边的一个矩形区域。在该听力图中，第一坐标轴表示声音频率，沿第一坐标轴分布有多个第一坐标轴标记，例如125、250、500、1k、2k、4k、8k和16k；第二坐标轴表示声音响度，沿第二坐标轴分布有多个第二坐标轴标记，例如-10、0、10、20、30、40、50、60、70、80、90、100、110以及120。在图5中，坐标轴标记被用不同大小的方框标出，这些方框并非是原有对象图像中的一部分，而是为了便于表示坐标标记而另行添加的。此外，该听力图还包括位于标记区域中的多个特征标记，这些特征标记被用听力曲线连接，其中每两个相邻的特征标记之间连接有一条线段。

继续参考图2，在步骤206，可以使用经训练的第二神经网络处理图表，以识别多个第一坐标轴标记、多个第二坐标轴标记以及特征标记。

具体地，在得到其中带有听力图的图表区域后，可以对听力图中的信息进行处理。首先，可以检测坐标轴的位置和方向。由于坐标轴与其上坐标轴标记分布相近，因此通常可以根据坐标轴上的坐标轴标记对坐标轴的位置和方向进行拟合。因此，在处理图表时可以先识别坐标轴标记。

对于听力图这类标准图表，其坐标轴上的坐标轴标记一般为固定数字，因此可以针对图表中使用的多个固定类别且有限数量的坐标轴标记进行目标检测以确定坐标轴位置。在一些实施例中，第二神经网络可以采用了与步骤204中图表检测时使用的第一神经网络相同算法或模型的神经网络，例如Faster RCNN结合PFN模型，这些模型的具体结构在此不再赘述。第二神经网络通常也需要由特定数据集进行训练，以使得具备能够识别坐标轴标记和特征标记的能力。

在一些实施例中，可以预先构造训练数据集来训练第二神经网络。例如，可以通过下述方式来构造训练数据集。

首先，可以利用各种标准或非标准字库来生成合成训练数据集。之所以用字库来生成合成训练数据集，是因为听力图也是打印得到的，而听力图中的坐标轴标记同样是由一些常用的字库生成的。因此，基于字库预先生成各种坐标轴标记后，就可以直接得到数字和坐标轴标记之间的对应关系，并且在实际应用中可以批量地产生各种所需格式的坐标轴标记，而无需人工标注实际听力图中的坐标轴标记，这可以减少处理的复杂度。具体地，可以先生成各种坐标轴标记的字模(包含各种不同字体、不同旋转角度、不同大小等情况)；优选地，可以同时生成一些常见的干扰字模(同样包含各种不同字体、不同旋转角度、不同大小等情况)，这些干扰字模也可以作为合成训练数据集的一部分。在合成训练数据集中添加干扰字模可以增强第二神经网络区分所需的坐标轴标记与干扰的无关字符标记的能力。

接着，可以生成一些相对随机的背景(主要为图表，纯色纸(例如白纸或灰色纸)等)，并且可以将之前生成的字模以随机位置叠加在背景上。图6即示出了一个叠加有字模的合成听力图。可以看出，“8”、“6000”等干扰字模也可以被叠加在背景图上，背景图上同时还叠加有各种需要被识别的坐标轴标记，例如“20”、“80”、“500”、“2k”等等。在一些情况下，合成听力图还可以添加一些纹理或褶皱，以模拟实际听力图被患者折叠等情况。在训练第二神经网络时，结合合成听力图，这些预先生成的字模可以提高训练得到的第二神经网络的准确性。在一些实施例中，可以生成大量的合成听力图(例如数十、数百、数千或更多张图像)来作为合成训练数据集的一部分。

通过以上方式，可以大量地生成包含坐标轴标记的合成训练数据集，并且无需耗费时间的人工标注。这不仅有效解决了由于标注成本高而导致数据缺乏的问题，而且可以使得训练得到的神经网络能够对于各种字体、各种大小、各种角度的坐标轴标记都具有很好的识别能力，因而进一步提高了坐标轴标记识别的准确性。

可以理解，尽管特征标记相对种类较少，但是与特征标记有关的训练数据也可以类似地生成，并且用于训练第二神经网络。在此不再赘述。

经第二神经网络处理后，坐标轴标记和特征标记以及各个标记在听力图中的相对位置可以被确定。在一些实施例中，表示左耳听力的左耳气导特征标记或左耳骨导特征标记和表示右耳听力的右耳气导特征标记或右耳骨导特征标记；在另一些实施例中，所述特征标记进一步包括表示左耳听力的左耳特征标记和表示右耳听力的右耳特征标记。参考图5，坐标轴标记被以不同的方框标识出来。

在一些实施例中，第一坐标轴标记和第二坐标轴标记可以使用不同的子模块检测，这两个子模块大体具有相同的算法和功能，但是训练这两个子模块的数据集可能不完全相同。例如横坐标轴标记主要包括125、250、500、1k、2k、4k、8k、16k等，而纵坐标轴标记则主要包括-10、0、10、20、30、40、50、60、70、80、90、100、110、120等。需要说明的是，由于标准听力图中需要识别的标记主要就是上述标记，其他数字或文字通常并不需要被识别，因此采用神经网络技术来识别这类标记具有较高的准确性。此外，在以神经网络识别坐标轴标记时，这些坐标轴标记本身被认为是一些图像标记，而不需要将其识别为文字或数字，这可以节约处理资源。

特别地，参考图5所示，纵坐标轴标记是沿纵向方向分布的，其并不沿水平线分布。对于其他字符识别方法，例如光学字符识别(OCR)，纵向分布的标记识别准确性较差。此外，OCR方法可以识别的字符类别远多于听力图等标准格式图表所需要的识别的字符/标记类别，但是这会占用相当的处理资源，而这是识别听力图等标准图表所不必要的。因此，如本申请实施例中采用的神经网络来直接对有限数量的坐标轴标记进行识别，具体地，可以将可能出现的22种数字(125～16k、-10～120)作为前景，而将其他所有区域都作为背景进行训练与测试。

可以理解，与第一神经网络类似，第二神经网络模型中的某些部分也可以被替换为可以达到相同目的的算法结构，例如分类结构可以通过支持向量机(SVM)替代；另外，可以采用其他常见的目标检测模型：Fast-RCNN和YOLO等。

接着，在步骤208中，基于识别的多个第一坐标轴标记和多个第二坐标轴标记，生成图表坐标系，其中该图表坐标系用于拟合第一坐标轴和第二坐标轴。

具体地，得到坐标轴标记的位置后，可以利用稳健拟合方法利用坐标轴标记对坐标轴进行拟合。稳健拟合方法可以降低坐标轴标记检测错误带来的影响。

在一些实施例中，稳健拟合方法可以为Huber回归拟合方法，该方法的目标函数为：

相比于传统的线性回归方法中采用均方误差作为目标函数而对异常值敏感，Huber回归拟合方法在数据异常时采用绝对值误差作为目标函数，对异常点有着更好的抑制能力。对于例如图5所示的听力图或其他类似的标准格式图表而言，其上的两个坐标轴近似于两条直线，不应出现大幅弯曲，因此采用Huber回归拟合方法可以抑制因坐标点检测不准确而可能出现的异常值，这大大提高了系统的鲁棒性。图7示出了基于坐标轴标记拟合的两个相互垂直的坐标轴。可以看出，纵坐标轴大体穿过各个纵坐标轴标记，而横坐标轴大体穿过各个横坐标标记，拟合得到的两个坐标轴与听力图中的原始坐标轴的方位基本一致。

也可以通过其他方法来对坐标轴进行拟合。例如，可以采用RANSAC算法来进行坐标轴拟合。RANSAC算法同样也是一种稳健拟合方法。它将数据分为内群的点和离群的点；并且通过迭代的方式，不断在数据中随机选择部分数据点进行拟合，并保留其中能够得到内群点数最多的模型作为最终结果。

图8a至图8c示出了利用RANSAC算法来进行坐标轴拟合的过程。在该过程中，多个坐标轴标记被按照空间域和数值域进行了两次拟合，从而得到拟合后的坐标轴。

如图8a所示，首先，将检测得到的坐标轴标记的横坐标作为自变量，而将这些坐标轴标记的纵坐标作为因变量；然后，可以利用RANSAC算法进行线性回归拟合，得到一条能够最好拟合坐标轴标记的直线。接着，如图8b所示，基于第一次拟合得到的如图8a所示的直线，将之前检测得到的坐标轴标记中属于内群的坐标轴标记保留，而将属于离群的坐标轴标记去除，也即去除了图8a中靠下方的坐标轴标记250，以及坐标轴标记8000。第一次使用RANSAC算法进行拟合的目的在于去除空间域中离群的点，即消除坐标轴标记检测过程中误检测的坐标轴标记带来的影响，例如，被一同识别为坐标轴标记250的两个标记中更靠近其他标记拟合直线的标记被保留，而另一个标记则被去除。可以看出，在第一次拟合时，并不考虑坐标轴标记是否分类正确。

再然后，如图8c所示，将保留的坐标轴标记投射到图8b拟合的直线上，并且将其横坐标作为自变量。可以基于这些坐标轴标记和拟合的直线来确定两个坐标轴，也即表示频率值的横坐标轴和表示听力损失值的纵坐标轴。具体地，在拟合确定横坐标轴时，可以将这些投射的坐标轴标记的横坐标数值作为因变量，然后利用RANSAC算法来对自变量和因变量进行线性回归拟合，从而得到一条能够在数值上最好地拟合这些坐标轴标记的直线(正如图8c所示，坐标轴标记125与其他坐标轴标记的拟合值差异较大，因而其可以被认为是离群的点而被去除)；这样，该条直线即为拟合后得到的横坐标轴。类似地，在拟合确定横坐标轴时，可以将这些投射的坐标轴标记的横坐标数值(例如125、250和500等)取对数后(因为听力图中的频率值是采取对数坐标的)作为因变量，然后利用RANSAC算法来对自变量和因变量进行线性回归拟合，从而得到一条能够在数值上最好地拟合坐标轴标记的直线(图8c中竖直方向的纵坐标轴)；这样，该条直线即为拟合后得到的纵坐标轴。可以看出，第二次RANSAC算法的处理目的在于去除数值域上离群的点，也即消除坐标轴标记检测过程中标记错误分类带来的影响。这样，在坐标轴拟合过程中两次使用RANSAC算法可以使得在坐标轴标记检测不准确的情况下依旧能够正确地拟合出坐标轴，这大大地提升了系统的稳定性和可靠性。

可以理解，在拟合得到两个坐标轴对应的直线后，可以结合在步骤206中识别得到的坐标轴标记来生成图表坐标系，从而使得横坐标轴和纵坐标轴的每一段长度对应的频率值或响度值被确定。在一些实施例中，还可以在图表坐标系统生成类似于原始听力图中相互交叉的各个横坐标线和纵坐标线的拟合坐标线(图中未示出)。

接着，在步骤210中，可以基于识别的特征标记相对于图表坐标系的位置确定特征标记的坐标读数。

在坐标轴的位置和特征标记位置均确定后，可以将特征标记投影到步骤208中确定的两个坐标轴上，以确定该特征标记在这两个坐标轴上对应的坐标读数。在本申请的实施例中，可以利用拟合得到的坐标轴的斜率，计算经过特征标记的与坐标轴平行的直线的方程，并得到该直线与坐标轴的交点位置。最终，可以认定与该交点在该坐标轴上最近的坐标为该特征标记在该坐标轴上的坐标读数。

参考图9，示出了投影计算特征标记的坐标读数的一种方法，该方法适合例如采用Huber算法拟合确定的坐标轴。具体地，假设两个坐标轴的表达式分别为y＝k₁x+b₁和y＝k₂x+b₂，则经过特征标记m与频率坐标轴f平行的直线f′的表达式可求出为y＝k₁x+y_m-k₁x_m。同样，经过特征标记m且与响度坐标轴l平行的直线l′的表达式可求出为y＝k₂x+y_m-k₂x_m。然后，可求得特征标记m在频率坐标轴f上的投影，即直线l′与直线f的交点坐标为

在一些实施例中，可以比较上述交点与各个频率坐标轴标记之间的距离，其中距离最短者所对应的频率坐标轴标记即为特征标记m的频率，因为听力测试是在标准频率上进行测试的。同样，可求得特征标记m在响度坐标轴l上的投影，即直线f′与直线l的交点坐标为

在一些实施例中，可以比较该点与各个响度坐标轴标记之间的距离，其中距离最短者对应的响度坐标轴标记可以即为特征标记m的响度；在另一些实施例中，可以基于与各个响度坐标轴标记或至少相邻的两个响度坐标轴标记之间的距离，来按比例计算特征标记m的响度。因此，利用以上方法，每个特征标记对应的频率及响度均可计算得到，即可完成对听力图的读数。

在另一些实施例中，可以采用其他方式确定特征标记的坐标读数。对于采用例如图8a-8c所示的两次RANSAC算法拟合来确定坐标轴的实施例，特征标记拟合得到的直线是可以确定的。因此，可以利用拟合的直线来确定特征标记的坐标读数。具体地，在此种情况下，在获得特征标记投射至坐标轴上的投影后，也即图9中直线l′与直线f的交点的坐标(或直线f′与直线l的交点的坐标)后，可以将交点的横坐标或纵坐标作为自变量带入拟合的直线，求得对应的因变量(纵坐标或横坐标)的值。之后，可以将计算得到的因变量的值与各个可能的坐标轴标记数值的差值的绝对值进行比较，并从中选择最小差值对应的坐标轴标记的数值作为最终的坐标读数。

在一些实施例中，特征标记的坐标读数可以被结合到对象图像中，以便于操作者观察。图10示出了结合有坐标读数的对象图像。其中，每个特征标记都关联了一个坐标读数，该坐标读数还包括了该特征标记代表左耳或右耳的信息(R表示左耳，L表示右耳)。这样，医生或听力师可以直接向助听器中输入这些读数。在另一些实施例中，用于执行图表识别的电子设备可以将特征标记的坐标读数存储起来以备后续使用。例如，这些存储起来的坐标读数可以直接写入至助听器中以对助听器进行适应患者的个性化配置。

本申请的图表识别方法可以精确、高效地对类似听力图等图表进行读数，具有很强的鲁棒性，能够覆盖绝大多数应用场景。本申请还可以有效推进助听器的自动化验配，为广大患者带来便利。

本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了用于识别图表的方法、装置和存储介质的若干步骤或模块，但是这种划分仅仅是示例性的而非强制性的。实际上，根据本申请的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书，理解和实施对披露的实施方式的其他改变。在权利要求中，措词“包括”不排除其他的元素和步骤，并且措辞“一”、“一个”不排除复数。在本申请的实际应用中，一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。

Claims

1.一种用于识别图表的方法，其特征在于，所述方法包括：

获取含有图表的对象图像，其中所述图表包括由相互交叉的第一坐标轴和第二坐标轴定义的标记区域、沿所述第一坐标轴分布的多个第一坐标轴标记以及沿所述第二坐标轴分布的多个第二坐标轴标记，并且所述图表还包括位于所述标记区域中的特征标记；

使用经训练的第一神经网络处理所述对象图像，以识别所述图表并将其从所述对象图像中分离；

使用经训练的第二神经网络处理所述图表，以识别所述多个第一坐标轴标记、所述多个第二坐标轴标记以及所述特征标记；

基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记生成图表坐标系，所述图表坐标系用于拟合所述第一坐标轴和所述第二坐标轴；

基于识别的所述特征标记相对于所述图表坐标系的位置确定所述特征标记的坐标读数。

2.根据权利要求1所述的方法，其特征在于，在使用经训练的第一神经网络处理所述对象图像的步骤之后，所述方法还包括：

旋转所述图表以使得所述第一坐标轴大致沿水平方向延伸并且使所述第二坐标轴大致沿竖直方向延伸。

3.根据权利要求2所述的方法，其特征在于，旋转所述图表的步骤进一步包括：

使用霍夫直线变换法确定所述第一坐标轴和所述第二坐标轴的待旋转角度；以及

基于确定的所述待旋转角度旋转所述第一坐标轴和所述第二坐标轴。

4.根据权利要求1所述的方法，其特征在于，所述经训练的第一神经网络和所述经训练的第二神经网络是由不同的数据集训练得到的。

5.根据权利要求4所述的方法，其特征在于，所述第一神经网络和所述第二神经网络使用相同的神经网络算法。

6.根据权利要求5所述的方法，其特征在于，所述第一神经网络和所述第二神经网络均使用Faster RCNN算法结合FPN算法。

7.根据权利要求1所述的方法，其特征在于，所述第二神经网络是由合成训练数据集训练的，所述合成训练数据集包括多个合成听力图，其中每个合成听力图包括背景图以及叠加在所述背景图上的多个基于字库生成的坐标轴标记。

8.根据权利要求7所述的方法，其特征在于，所述合成听力图还包括叠加在所述背景图上的干扰字模。

9.根据权利要求1所述的方法，其特征在于，基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记生成图表坐标系的步骤进一步包括：

使用Huber回归算法拟合所述第一坐标轴和所述第二坐标轴。

10.根据权利要求1所述的方法，其特征在于，基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记生成图表坐标系的步骤进一步包括：

使用RANSAC算法分别对所述多个第一坐标轴标记和所述多个第二坐标轴标记按空间域进行拟合；以及

使用RANSAC算法分别对所述多个第一坐标轴标记中的至少一部分和所述多个第二坐标轴标记中的至少一部分按数值域进行拟合，从而得到拟合的第一坐标轴和第二坐标轴。

11.根据权利要求1所述的方法，其特征在于，基于识别的所述特征标记相对于所述图表坐标系的位置确定所述特征标记的坐标读数的步骤包括：

将所述特征标记中的每一个投影到所述第一坐标轴上，以确定所述特征标记中的每一个的第一坐标轴读数；

将所述特征标记中的每一个投影到所述第二坐标轴上，以确定所述特征标记中的每一个的第二坐标轴读数；以及

将针对每个特征标记所确定的第一坐标轴读数和第二坐标轴读数组合为所述特征标记的坐标读数。

12.根据权利要求1所述的方法，其特征在于，所述图表是听力图，所述第一坐标轴表示声音的频率，所述第二坐标轴表示声音的响度，所述第一坐标轴标记是频率值，所述第二坐标轴标记是响度值，所述特征标记的坐标读数具有对应的频率值和响度值。

13.根据权利要求12所述的方法，其特征在于，所述特征标记进一步包括表示左耳听力的左耳特征标记和表示右耳听力的右耳特征标记。

14.根据权利要求12所述的方法，其特征在于，所述特征标记进一步包括表示左耳听力的左耳气导特征标记或左耳骨导特征标记和表示右耳听力的右耳气导特征标记或右耳骨导特征标记。

15.一种用于识别图表的装置，其特征在于，所述装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：

基于识别的所述多个第一坐标轴标记和所述多个第二坐标轴标记，生成图表坐标系，所述图表坐标系用于拟合所述第一坐标轴和所述第二坐标轴；

16.一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行一种用于识别图表的方法，所述方法包括下述步骤：