CN111768820A

CN111768820A - 纸质病历数字化及目标检测模型训练方法、装置、存储介质

Info

Publication number: CN111768820A
Application number: CN202010568144.2A
Authority: CN
Inventors: 张少典; 顾根
Original assignee: Shanghai Synyi Medical Technology Co ltd
Current assignee: Shanghai Synyi Medical Technology Co ltd
Priority date: 2020-06-04
Filing date: 2020-06-19
Publication date: 2020-10-13

Abstract

本申请提供纸质病历数字化及目标检测模型训练方法、装置、存储介质，旨在解决单纯光学字符识别对纸质病历文档识别造成信息错乱的问题，极大地还原了纯文本的文档结构信息，提高了纸质病历文档的数字化质量，为后续的文本挖掘任务奠定了基础；而且本发明的方法框架可通用，可广泛地应用于纸质扫描文档光学字符识别处理。

Description

纸质病历数字化及目标检测模型训练方法、装置、存储介质

技术领域

本申请涉及人工智能模型技术领域，特别是涉及纸质病历数字化及目标检测模型训练方法、装置、存储介质。

背景技术

电子病历系统已在应用中普及，极大地提高了患者医疗数据文档的存储、查询以及使用效率。由于技术发展原因存在大量的纸质病历文档有待数字化，使后来者能对历史数据进行使用。病历文档由于其特有的目的及功能，病历写作者通常通过视觉设计和语义设计相结合的方法来帮助书写者和阅读者理解文档的层次和段落。视觉设计如字体样式、页面布局等，语义信息包括使用多级标题、标头词、表格划分等。通常的光学字符识别忽略这些信息造成难以进一步降低的错误率，进而降低了这些纸质数字化病历的使用价值。利用文档结构视觉信息语义信息结合光学字符识别能提高纸质病历文档的数字化质量。

文本挖掘技术是指使用计算机程序自动处理文本内容，对有价值的文本信息进行挖掘和抽取。文本挖掘是一个综合计算机技术，涉及语言学模型、自然语言处理技术、机器学习算法等。

从病历文档内容的语义角色来说，病历文档的结构一般包括：病历文本类型、患者基本信息、主诉、现病史、个人史等细节段落。获取文档篇章语义信息，对于病历文本的数字化以及挖掘任务十分有帮助，比如借用丰富的结构化信息进行光学字符识别、信息抽取、文档检索等。对于纸质病历来说，数字化的第一步就是进行光学字符识别，一般使用开源或者商业工具将图片转化为txt文本，再进行后续的任务以减小任务的复杂度。

然而，这个过程中会严重丢失掉很多病历的视觉信息，各个语义段落中的内容互相掺杂，而使数字化病历的信息杂乱无章，造成二次利用的困难。因此，本领域亟需一种更完善的纸质病历数字化的解决方案。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供纸质病历数字化及目标检测模型训练方法、装置、存储介质，用于解决现有技术中的问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于人工智能的纸质病历数字化方法，包括：利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块；分别将所述多个文档子模块转换成对应的文本信息；初始化病例文档的结构树根节点，并遍历每个文档子模块所对应的文本信息的行内容；若当前行内容被识别为段落标题，则初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空；若当前行内容被识别为非段落标题，则继续识别其是否为内容段落；若当前行内容被识别为内容段落，则将当前行更新至当前叶节点的内容列表中；若当前行内容被识别为非内容段落，则继续下一行内容的识别，直至在所述病例文档被处理完成后，返回整个文档树。

于本申请的第一方面的一些实施例中，所述目标检测模型包括YOLO模型、FasterR-CNN模型或者SSD模型。

于本申请的第一方面的一些实施例中，所述方法包括：根据病例文档结构对病例文档分为多个文档子模块；所述文档子模块包括病例文本类型模块、患者基本信息模块、主诉模块、个人史模块、现病史模块、家族病史模块以及体格检查模块中的任意一种及多种的组合。

于本申请的第一方面的一些实施例中，所述分别将所述多个文档子模块转换成对应的文本信息，包括：分别将所述多个文档子模块输入光学字符识别工具，并输出对应的txt文本。

于本申请的第一方面的一些实施例中，所述文档树的结构包括如下任一种：结构1)初始化一个根节点，在该根节点下延伸出多个叶节点；每个叶节点对应所述病例文档中的一个段落，包括段落名和段落内容；结构2)初始化一个根节点，在该根节点下延伸出与所述多个文档子模块一一对应的多个次根节点；每个所述次根节点延伸出一或多个叶节点；每个叶节点对应该文档子模块中的一个段落，包括段落名和段落内容。

于本申请的第一方面的一些实施例中，在初始化病例文档的结构树根节点之前，所述方法还包括：对转换后的文本信息进行噪声滤波处理；所述噪声滤波处理包括滤除空行、多余空格、页眉及页脚中的任意一种或多种的组合。

为实现上述目的及其他相关目的，本申请的第二方面提供一种应用于纸质病历数字化的目标检测模型训练方法，包括：获取多类型的图片格式的纸质病历文档；根据病历文档结构对各病历文档进行分割标记；利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。

为实现上述目的及其他相关目的，本申请的第三方面提供一种基于人工智能的纸质病历数字化装置，包括：分块检测模块，用于利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块；文本转换模块，用于分别将所述多个文档子模块转换成对应的文本信息；根节点设置模块，用于初始化病例文档的结构树根节点；信息遍历模块，用于遍历每个文档子模块所对应的文本信息的行内容；叶节点设置模块和识别模块；其中，所述识别模块用于识别当前行内容是否为段落标题；若当前行内容被识别为段落标题，则令所述叶节点设置模块初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空；若识别当前行内容为非段落标题，则继续识别其是否为内容段落；若识别当前行内容为内容段落，则令所述叶节点设置模块将当前行更新至当前叶节点的内容列表中；若识别当前行内容为非内容段落，则则继续下一行内容的识别，直至在所述病例文档被处理完成后，返回整个文档树。

为实现上述目的及其他相关目的，本申请的第四方面提供一种应用于纸质病历数字化的目标检测模型训练装置，包括：获取模块，用于获取多类型的图片格式的纸质病历文档；标记模块，用于根据病历文档结构对各病历文档进行分割标记；训练模块，用于利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。

为实现上述目的及其他相关目的，本申请的第五方面提供一种计算机可读存储介质，其上存储有第一计算机程序和/或第二计算机程序，所述第一计算机程序被处理器执行时实现所述基于人工智能的纸质病历数字化方法；所述第二计算机程序被处理器执行时实现所述应用于纸质病历数字化的目标检测模型训练方法。

如上所述，本申请的纸质病历数字化及目标检测模型训练方法、装置、存储介质，具有以下有益效果：本发明旨在解决单纯光学字符识别对纸质病历文档识别造成信息错乱的问题，极大地还原了纯文本的文档结构信息，提高了纸质病历文档的数字化质量，为后续的文本挖掘任务奠定了基础；而且本发明的方法框架可通用，可广泛地应用于纸质扫描文档光学字符识别处理。

附图说明

图1显示为本申请一实施例中基于人工智能的纸质病历数字化方法的流程示意图。

图2显示为本申请一实施例中电子病历文档的示意图。

图3显示为本申请一实施例中应用于纸质病历数字化的目标检测模型训练方法的流程示意图。

图4显示为本申请一实施例中基于人工智能的纸质病历数字化装置的结构示意图。

图5显示为本申请一实施例中应用于纸质病历数字化的目标检测模型训练装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

纸质病历数字化是医院病历无纸化的必然阶段，它能实现巨量病历信息的检索和共享，便于医院之间、医院与其他单位(如社区诊所、学校医务室等)之间共享医疗信息，便于远程医疗会诊和咨询，为医务人员提供及时、准确、完善的病历信息，提高医疗决策效率，为患者提供更好的服务，同时也降低了医院的管理成本。然而，现有技术都是通过光学字符识别来实现数字化，但这个过程中会严重丢失掉很多病历的视觉信息，各个语义段落中的内容互相掺杂，而使数字化病历的信息杂乱无章，造成二次利用的困难等技术难题。

有鉴于此，本发明提供一种基于文档语义信息的纸质病历数字化的技术方案，旨在解决单纯光学字符识别对纸质病历文档识别造成信息错乱的问题，极大地还原了纯文本的文档结构信息，提高了纸质病历文档的数字化质量，为后续的文本挖掘任务奠定了基础；而且本发明的方法框架可通用，可广泛地应用于纸质扫描文档光学字符识别处理。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

实施例一：

如图1所示，展示了本发明一实施例中基于人工智能的纸质病历数字化方法的流程示意图。本实施例的纸质病历数字化方法主要包括步骤S101～S110。

需说明的是，本实施例中提供的纸质病历数字化方法可应用于多种类型的硬件设备。所述硬件设备例如是ARM(Advanced RISC Machines)控制器、FPGA(FieldProgrammable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital SignalProcessing)控制器、或者MCU(Micorcontroller Unit)控制器等；所述硬件设备也可以是台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal DigitalAssistant，简称PDA)等个人电脑；所述硬件设备还可以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

在步骤S101中，利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块。

在本实施例可选的实现方式中，所述目标检测模型包括但不限于如YOLO模型、Faster R-CNN模型或者SSD模型等；其中，YOLO模型又可具体采用YOLO1模型、YOLO2模型、或者YOLO3模型等。

为便于本领域技术人员理解，下文以YOLO模型为例来解释说明目标检测模型的工作原理。YOLO模型是利用整张图片作为神经网络模型的输入，直接在输出层回归边界框(bounding box)的位置及其所属的类别。YOLO的实现方法主要包括如下的步骤。

步骤1)将一副图像分成S×S个网格(grid cell)，如若某个目标物体(object)的中心落在一网格中，那么这个网格就负责预测这个目标物体。

步骤2)每个网格要预测B个边界框，每个边界框除了要回归自身的位置之外，还要附带预测置信度，因此每个边界框要预测(x,y,w,h)和confidence共5个值；其中(x,y,w,h)表示x坐标、y坐标、宽度、高度，confidence表示置信度值。所述置信度值有两个含义，一是这个网格内是否有目标物体，二是这个边界框的准确度，置信度的计算方式如下：

其中，IOU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准。

如若网格内有目标物体，则Pr(Object)＝1，此时的置信度为IOU值；

如若网格内没有目标物体，则Pr(Object)＝0，此时的置信度为0。

步骤3)每个网格还要预测类别信息，记为C个类别。

简而言之，对于被分割为S×S个网格的图片来说，每个网格要预测B个边界框和C个类别，每个边界框要预测5个值，因此整副图片输出的就是(S×S×(5*B+C))的张量。举例来说，若取S＝7，B＝2，C＝20，则在对图像进行目标检测时，先将图像调整至448×448的图片尺寸，然后将调整后的图片输入YOLO模型进行网格和边界框的处理，并进行非极大值抑制处理后得到最终的结果，输出的是7×7×30的张量。由于YOLO模型本身已为现有，故而不再赘述。

在本实施例可选的实现方式中，根据病例文档结构对病例文档分为多个文档子模块。所述病例文档结构可参照图2所示的病例文档示意图，主要包括病例文本类型、患者基本信息、主诉、个人史、现病史、家族病史等等。因此，所述文档子模块包括病例文本类型模块、患者基本信息模块、主诉模块、个人史模块、现病史模块、家族病史模块以及体格检查模块中的任意一种及多种的组合。但应理解的是，出于说明性目的而提供以上示例，并且以上示例不应被理解成是限制性的，不同地区甚至不同医院使用的病例文本会有些许差异；同样的，病例本文可以另外地或替代地包括其它特征或包括较少的模块，而未背离本申请的范围。

在步骤S102中，分别将所述多个文档子模块转换成对应的文本信息。

具体的，分别将所述多个文档子模块输入光学字符识别工具，并输出对应的txt文本。举例来说，可将目标检测模型输出的各个文档子模块分别输入Tesseract工具进行光学字符识别，从而得到txt文本。本实施例涉及的Tesseract工具是一个OCR库，具有极高的精确度和灵活性，可以通过训练识别出任何字体，也可以识别出任何Unicode字符。

在步骤S103中，初始化病例文档的结构树根节点，并遍历每个文档子模块所对应的文本信息的行内容。

由于现有的纸质病历数字化方案中，由于缺少对文本信息的结构构建，所以容易丢失掉很多病历的视觉信息，各个语义段落中的内容互相掺杂，使数字化病历的信息杂乱无章，难以二次利用。有鉴于此，本发明提供的纸质病历数字化方案为病历文档构建了结构树，采用根节点和叶节点的多层结构(可以是两层甚至更多层结构)，为文档信息搭建结构，从而避免现有技术中出现的这些问题。

可选的，本实施例的文档树结构可采用两层结构，具体是指初始化一个根节点，在该根节点下延伸出多个叶节点；每个叶节点对应所述病例文档中的一个段落，包括段落名和段落内容，这种两层结构的文档树结构简单且易于构建。

可选的，本实施例的文档树结构可采用多层结构，具体是指初始化一个根节点，在该根节点下延伸出与所述多个文档子模块一一对应的多个次根节点；每个所述次根节点延伸出一或多个叶节点；每个叶节点对应该文档子模块中的一个段落，包括段落名和段落内容，这种多层结构能更完整地还原病例文档的结构。

在本实施例可选的实现方式中，在执行步骤S103之前，先对转换后的文本信息进行噪声滤波处理；所述噪声滤波处理包括滤除空行、多余空格、页眉及页脚中的任意一种或多种的组合。

在步骤S104中，识别当前行内容是否为段落标题。

具体来说，利用文本分类器来识别当前行内容是否为段落标题。所谓文本分类是对文本集按照一定的分类体系或标准进行自动分类标记，根据一个已经被标注的训练文档集合，找到文档特征和文档类别之间的关系模型，然后利用这种学习得到的关系模型对新的文档进行类别判断。本实施例涉及的文本分类器具体可采用基于贝叶斯算法的文本分类器、基于决策树算法的文本分类器、基于K-元最近邻居算法的文本分类器、基于支持向量机算法的文本分类器等，本实施例不作限定。

在步骤S105中，若当前行内容被识别为段落标题，则初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空。也即，在识别当前行为段落标题时，设置一个叶节点，这一叶节点的段落名就取为行内容，段落内容暂时设置为空，等待后续段落内容的填入。

在步骤S106中，若当前行内容被识别为非段落标题，则继续识别其是否为内容段落。

具体来说，利用文本分类器来识别当前行内容是否为内容段落，主要用到的特征是判断当前行中是否包含句子特征，若包含则可判断当前行是内容段落，若不包含则可判断当前行并非内容段落。前述的句子特征包括但不限于标点符号特征，例如句号、感叹号、问号、逗号等，都可用于判断当前行中包含句子特征。

在步骤S107中，若当前行内容被识别为内容段落，则将当前行更新至当前叶节点的内容列表中。具体来说，在识别当前行内容为内容段落时，将当前行更新至当前叶节点的内容列表的尾部。

在步骤S108中，若当前行内容被识别为非内容段落，则继续判断文档内容是否处理完成。

在步骤S109中，若文档内容未处理完成，则返回步骤S104。

在步骤S110中，若文档内容处理完成，返回整个文档树。

本实施例中提供的基于人工智能的纸质病历数字化方法，巧妙地解决了单纯光学字符识别对纸质病历文档识别造成信息错乱的问题，极大地还原了纯文本的文档结构信息，提高了纸质病历文档的数字化质量，为后续的文本挖掘任务奠定了基础；而且本发明的方法框架可通用，可广泛地应用于纸质扫描文档光学字符识别处理。

实施例二：

如图3所示，展示了本发明一实施例中的应用于纸质病历数字化的目标检测模型训练方法的流程示意图，本实施例的目标检测模型训练方法主要包括步骤S301～S303。应理解的是，本实施例中对目标检测模型进行训练后即可应用于上一实施例中的纸质病历数字化方法中，作为其中使用到的所述预训练的目标检测模型。

需说明的是，本实施例中提供的目标检测模型训练方法可应用于多种类型的硬件设备。所述硬件设备例如是ARM(Advanced RISC Machines)控制器、FPGA(FieldProgrammable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital SignalProcessing)控制器、或者MCU(Micorcontroller Unit)控制器等；所述硬件设备也可以是台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal DigitalAssistant，简称PDA)等个人电脑；所述硬件设备还可以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

在步骤S301中，获取多类型的图片格式的纸质病历文档。具体来说，可收集多种格式的纸质病历文件，将其扫描变成图片格式。

在步骤S302中，根据病历文档结构对各病历文档进行分割标记。

具体来说，可利用标注工具根据病例文档结构标记分割病例分段，例如将病例文档分割为病例文本类型、患者基本信息、主诉、个人史、现病史、家族病史等。本实施例涉及的标注工具例如可采用VoTT工具进行图像标注。

在步骤S303中，利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。目标检测模型可选用YOLO模型、Faster R-CNN模型或者SSD模型。

以YOLO模型的训练为例来进一步说明，可将标记好的图像作为模型训练的源数据，具体可利用Darknet来训练YOLO模型；将部分标记图像作为训练集，剩下的标记图像作为测试集，训练集与测试集的比例可灵活设置(如7:3等)；训练集用来训练YOLO模型，测试集用来测试训练后的YOLO模型；最后根据IOU值来判断模型是否训练得当，例如IOU值接近1，则可认为该YOLO模型已经是个较为完善的模型，可投入使用，用于对待识别的病历文档进行分块检测。

实施例三：

如图4所示，展示本申请一实施例中基于人工智能的纸质病历数字化装置的结构示意图。本实施例的纸质病历数字化装置40包括：分块检测模块41、文本转换模块42、根节点设置模块43、信息遍历模块44、叶节点设置模块45、识别模块46。

分块检测模块41用于利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块；文本转换模块42用于分别将所述多个文档子模块转换成对应的文本信息；根节点设置模块43用于初始化病例文档的结构树根节点；信息遍历模块44用于遍历每个文档子模块所对应的文本信息的行内容；识别模块46用于识别当前行内容是否为段落标题；若当前行内容被识别为段落标题，则令所述叶节点设置模块45初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空；若识别当前行内容为非段落标题，则继续识别其是否为内容段落；若识别当前行内容为内容段落，则令所述叶节点设置模块45将当前行更新至当前叶节点的内容列表中；若识别当前行内容为非内容段落，则则继续下一行内容的识别，直至在所述病例文档被处理完成后，返回整个文档树。

需说明的是，本实施例提供的基于人工智能的纸质病历数字化装置与上文实施例中提供的基于人工智能的纸质病历数字化方法的实施方式类似，故而不再赘述。

另外，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，识别模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上识别模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例四：

如图5所示，展示了本申请一实施例中的应用于纸质病历数字化的目标检测模型训练装置的结构示意图。本实施例的目标检测模型训练装置50包括获取模块51、标记模块52、训练模块53。

获取模块51用于获取多类型的图片格式的纸质病历文档；标记模块52用于根据病历文档结构对各病历文档进行分割标记；训练模块53用于利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。

需说明的是，本实施例提供的应用于纸质病历数字化的目标检测模型训练装置与上文实施例中提供的应用于纸质病历数字化的目标检测模型训练方法的实施方式类似，故不再赘述。

另外，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，训练模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上训练模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例五：

本实施例提供一种计算机存储介质，其上存储有第一计算机程序和/或第二计算机程序，所述第一计算机程序被处理器执行时实现所述基于人工智能的纸质病历数字化方法；所述第二计算机程序被处理器执行时实现所述应用于纸质病历数字化的目标检测模型训练方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供纸质病历数字化及目标检测模型训练方法、装置、存储介质，旨在解决单纯光学字符识别对纸质病历文档识别造成信息错乱的问题，极大地还原了纯文本的文档结构信息，提高了纸质病历文档的数字化质量，为后续的文本挖掘任务奠定了基础；而且本发明的方法框架可通用，可广泛地应用于纸质扫描文档光学字符识别处理。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于人工智能的纸质病历数字化方法，其特征在于，包括：

利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块；

分别将所述多个文档子模块转换成对应的文本信息；

初始化病例文档的结构树根节点，并遍历每个文档子模块所对应的文本信息的行内容；

若当前行内容被识别为段落标题，则初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空；

若当前行内容被识别为非段落标题，则继续识别其是否为内容段落；

若当前行内容被识别为内容段落，则将当前行更新至当前叶节点的内容列表中；

若当前行内容被识别为非内容段落，则继续下一行内容的识别，直至在所述病例文档被处理完成后，返回整个文档树。

2.根据权利要求1所述的纸质病历数字化方法，其特征在于，所述目标检测模型包括YOLO模型、Faster R-CNN模型或者SSD模型。

3.根据权利要求1所述的纸质病历数字化方法，其特征在于，所述方法包括：

根据病例文档结构对病例文档分为多个文档子模块；所述文档子模块包括病例文本类型模块、患者基本信息模块、主诉模块、个人史模块、现病史模块、家族病史模块以及体格检查模块中的任意一种及多种的组合。

4.根据权利要求1所述的纸质病历数字化方法，其特征在于，所述分别将所述多个文档子模块转换成对应的文本信息，包括：分别将所述多个文档子模块输入光学字符识别工具，并输出对应的txt文本。

5.根据权利要求1所述的纸质病历数字化方法，其特征在于，所述文档树的结构包括如下任一种：

结构1)初始化一个根节点，在该根节点下延伸出多个叶节点；每个叶节点对应所述病例文档中的一个段落，包括段落名和段落内容；

结构2)初始化一个根节点，在该根节点下延伸出与所述多个文档子模块一一对应的多个次根节点；每个所述次根节点延伸出一或多个叶节点；每个叶节点对应该文档子模块中的一个段落，包括段落名和段落内容。

6.根据权利要求1所述的纸质病历数字化方法，其特征在于，在初始化病例文档的结构树根节点之前，所述方法还包括：

对转换后的文本信息进行噪声滤波处理；所述噪声滤波处理包括滤除空行、多余空格、页眉及页脚中的任意一种或多种的组合。

7.一种应用于纸质病历数字化的目标检测模型训练方法，其特征在于，包括：

获取多类型的图片格式的纸质病历文档；

根据病历文档结构对各病历文档进行分割标记；

利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。

8.一种基于人工智能的纸质病历数字化装置，其特征在于，包括：

分块检测模块，用于利用预训练的目标检测模型对病例文档进行分块检测，以得到多个文档子模块；

文本转换模块，用于分别将所述多个文档子模块转换成对应的文本信息；

根节点设置模块，用于初始化病例文档的结构树根节点；

信息遍历模块，用于遍历每个文档子模块所对应的文本信息的行内容；

叶节点设置模块和识别模块；

其中，所述识别模块用于识别当前行内容是否为段落标题；若当前行内容被识别为段落标题，则令所述叶节点设置模块初始化一个叶节点，并设置该叶节点的段落名为当前行内容，并设置该叶节点的段落内容暂时为空；若识别当前行内容为非段落标题，则继续识别其是否为内容段落；若识别当前行内容为内容段落，则令所述叶节点设置模块将当前行更新至当前叶节点的内容列表中；若识别当前行内容为非内容段落，则则继续下一行内容的识别，直至在所述病例文档被处理完成后，返回整个文档树。

9.一种应用于纸质病历数字化的目标检测模型训练装置，其特征在于，包括：

获取模块，用于获取多类型的图片格式的纸质病历文档；

标记模块，用于根据病历文档结构对各病历文档进行分割标记；

训练模块，用于利用带有标记的病历文档来训练目标检测模型，以得到用于对病历文档进行分块检测的预训练模型。

10.一种计算机存储介质，其上存储有第一计算机程序和/或第二计算机程序，其特征在于，所述第一计算机程序被处理器执行时实现权利要求1～6中任一项所述基于人工智能的纸质病历数字化方法；所述第二计算机程序被处理器执行时实现权利要求7所述应用于纸质病历数字化的目标检测模型训练方法。