CN111753717B

CN111753717B - 用于提取文本的结构化信息的方法、装置、设备及介质

Info

Publication number: CN111753717B
Application number: CN202010582131.0A
Authority: CN
Inventors: 谢炜坚; 甘露
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-07-28
Anticipated expiration: 2040-06-23
Also published as: CN111753717A

Abstract

本申请实施例公开了一种用于提取文本的结构化信息的方法、装置、电子设备及计算机可读存储介质，涉及图像中文字识别、自然语言处理和知识图谱构建技术领域。该方法的一具体实施方式包括：对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；将该第一文件转换为可标记语言格式的第二文件，并从该第二文件中提取得到各文本块的坐标信息和第二文本；利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；根据该坐标信息提取该第三文本中包含的结构化信息，得到目标结构化信息。应用该实施方式所提供的技术方案可以尽可能的提升识别出的文本和结构化信息的准确度。

Description

用于提取文本的结构化信息的方法、装置、设备及介质

技术领域

本申请实施例涉及图像处理技术领域，进一步涉及图像中文字识别、自然语言处理、知识图谱构建技术领域，尤其涉及一种用于提取文本的结构化信息的方法、装置、设备及可读存储介质。

背景技术

随着电子化信息技术的发展，越来越多的数据需要通过电子化技术转换为二进制数据进行存储。

以各式各样的纸质保单和票据为例，其中包含有大量的结构化信息，现有技术往往由录入人员基于肉眼自行辨别，进而完成保单和票据信息的电子化录入。

发明内容

本申请实施例提出了一种用于提取文本的结构化信息的方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用于提取文本的结构化信息的方法，包括：对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；将第一文件转换为可标记语言格式的第二文件，并从第二文件中提取得到各文本块的坐标信息和第二文本；利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；根据坐标信息提取第三文本中包含的结构化信息，得到目标结构化信息。

第二方面，本申请实施例提出了一种用于提取文本的结构化信息的装置，包括：第一文本获取单元，被配置成对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；坐标信息及第二文本获取单元，被配置成将第一文件转换为可标记语言格式的第二文件，并从第二文件中提取得到各文本块的坐标信息和第二文本；文本纠错单元，被配置成利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；结构化信息提取单元，被配置成根据坐标信息提取第三文本中包含的结构化信息，得到目标结构化信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于提取文本的结构化信息的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于提取文本的结构化信息的方法。

第五方面，本申请实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的用于提取文本的结构化信息的方法。

本申请实施例提供的用于提取文本的结构化信息的方法、装置、电子设备及计算机可读存储介质，首先，对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；然后，将该第一文件转换为可标记语言格式的第二文件，并从该第二文件中提取得到各文本块的坐标信息和第二文本；接着，利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；最后，根据该坐标信息提取该第三文本中包含的结构化信息，得到目标结构化信息。

区别于现有技术，本申请通过上述技术方案提供了一种可自动化执行的文本的结构化信息提取方法，借助XML格式文件的特性解析得到各文本块的坐标信息和除常规光学字符识别技术外的文本，其中，坐标信息可帮助准确确定各文本块在完整文件中的相对位置关系，进而提升结构化信息的准确性，而通过XML格式识别出的文本与光学字符识别技术识别出的文本之间的相互纠错，则可以尽可能的提升识别出的文本的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2为本申请实施例提供的一种用于提取文本的结构化信息的方法的流程图；

图3为本申请实施例提供的另一种用于提取文本的结构化信息的方法的流程图；

图4为本申请实施例提供的一张图片格式的保单文件中的部分保单内容图像；

图5为将图4对应保单内容图像转换为XML格式的结构化信息；

图6为本实施例提供的一张包含表格的保单图像的示意图；

图7为将图6对应的保单图像中表格部分进行涂白处理后的示意图；

图8为本申请实施例提供的一种上下结构的示意图；

图9为本申请实施例提供的一种左右结构的示意图；

图10为本申请实施例提供的一种混合结构的示意图；

图11为本申请实施例提供的另一种用于提取文本的结构化信息的装置的结构框图；

图12为本申请实施例提供的一种适于执行用于提取文本的结构化信息的方法的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于提取文本的结构化信息的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括图像采集设备101、网络102和服务器103。网络102用以在图像采集设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用图像采集设备101通过网络102与服务器103交互，以接收或发送消息等。图像采集设备101和服务器103上可以安装有各种用于实现两者之间进行信息通讯的应用，例如图像上传应用、结构化信息提取类应用、即时通讯类应用等。

图像采集设备101和服务器103可以是硬件，也可以是软件。当图像采集设备101为硬件时，可以是具有显示屏和摄像头的各种电子设备，包括但不限于智能手机、平板电脑、计算机以及各式独立摄像头设备等等；当图像采集设备101为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；当服务器103为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器103通过内置的各种应用可以提供各种服务，以可以提供结构化信息提取服务的结构化信息提取类应用为例，服务器103在运行该结构化信息提取类应用时可实现如下效果：首先，通过网络102从图像采集设备101中获取图片各式的第一文件；然后，对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；接着，将该第一文件转换为可标记语言格式的第二文件，并从该第二文件中提取得到各文本块的坐标信息和第二文本；下一步，利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；最后，根据该坐标信息提取该第三文本中包含的结构化信息，得到目标结构化信息。即服务器103通过执行上述步骤完成了图片格式的第一文件中结构化信息的提取，并将得到的目标结构化信息作为结果输出。

需要指出的是，图片格式的第一文件除可以从图像采集设备101通过网络102获取到之外，也可以通过各种方式预先存储在服务器103本地。因此，当服务器103检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理结构化信息提取任务)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括图像采集设备101和网络102。

由于从图片格式的文件中提取得到结构化信息需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的用于提取文本的结构化信息的方法一般由拥有较强运算能力、较多运算资源的服务器103来执行，相应地，用于提取文本的结构化信息的装置一般也设置于服务器103中。但同时也需要指出的是，在图像采集设备101也具有满足要求的运算能力和运算资源时，图像采集设备101也可以通过其上安装的结构化信息提取类应用完成上述本交由服务器103做的各项运算，进而输出与服务器103同样的结果。尤其是在同时存在多种具有不同运算能力的图像采集设备的情况下。例如结构化信息提取类应用判断所在的图像采集设备拥有较强的运算能力和剩余较多的运算资源时，可以让当前图像采集设备来执行上述运算，从而适当减轻服务器103的运算压力，或者由图像采集设备给出一个所属实际类别的粗分类结果，以适当减轻对服务器103的分类运算压力。相应的，用于提取文本的结构化信息的装置也可以设置于图像采集设备101中。在此种情况下，示例性系统架构100也可以不包括服务器103和网络102。

应该理解，图1中的图像采集设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的图像采集设备、网络和服务器。

继续参考图2，其示出了根据本申请的用于提取文本的结构化信息的方法的一个实施例的实现流程200，包括以下步骤：

步骤201：对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；

本步骤旨在由用于提取文本的结构化信息的方法的执行主体(例如图1所示的服务器103)对(例如从图1所示的图像采集设备101中)对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本。其中，该第一文件可以具体为将保单内容以图片格式表示的第一保单文件，也可以是将票据内容以图片格式表示的第一票据文件，以及其它以文本内容为主的文件，此处不做限定。

其中，图片格式的第一文件通常是将多张图像以PDF(Portable DocumentFormat，可携带文档格式)格式整合为一个文件，当然，也可以直接将每张图像以诸如JPG、BMP等常规图片格式进行存储，即第一文件为多张图像的集合，以保单文件为例，由于保单通常内容较多，因此通过将多达几十张的图片采用PDF格式进行封装，得到一个PDF保单文件；光学字符识别(OCR，Optical Character Recognition)是通过检查图像上字符呈现的暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机可识别文字的过程，本步骤进行的图像处理是为了让图像经处理后更便于进行光学字符识别、提升通过光学字符识别出的文本的准确度，具体可包括二值化处理、锐化、提升对比度等用于突出图像中所属文本的部分像素，从而便于进行文本的提取。

需要指出的是，图片格式的第一文件可以由上述执行主体直接从本地的存储设备获取，也可以从非本地的存储设备(例如图1所示的图像采集设备101)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块，例如服务器硬盘，在此种情况下，图片格式的第一文件可以在本地快速读取到；非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备，例如一些用户终端等，在此情况下，上述执行主体可以从该电子设备发来的包含图片格式的第一文件的结构化信息提取请求中获取到。

步骤202：将第一文件转换为可标记语言格式的第二文件，并从第二文件中提取得到各文本块的坐标信息和第二文本；

在步骤201的基础上，本步骤旨在由上述执行主体通过格式转换，得到格式为XML(Extensible Markup Language，可拓展标记语言)的第二文件，并从XML格式的第二文件中提取得到各文本块的坐标信息和第二文本。

XML格式是一种用于标记电子文件使其具有结构性的标记语言，本质上是一种纯文本格式，由XML元素组成，每个XML元素包括一个开始标记(<title>)、一个结束标记(</title>)以及两个标记之间的内容，标记是对文档存储格式和逻辑结构的描述。

基于XML格式所具有的上述特性，在将图片格式的第一文件转换为可标记语言格式的第二文件时，由于XML格式的纯文本格式本质，其会尽可能的识别出包括各文本块的坐标信息和文本内容在内的结构化信息，而纯粹的图像内容将会被忽视。

步骤203：利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；

在步骤201和步骤202的基础上，本步骤旨在由上述执行主体利用从图像格式的第一文件中经光学字符识别得到的第一文本和从XML格式的第二文件中提取出的第二文本进行相互纠错，从而得到准确率更高的第三文本。之所以进行相互纠错，是因为无论是XML格式提供的结构化信息，还是OCR识别技术，均存在对文本识别出错的可能性，通过两者之间的相互纠错得以较好的发现两种方式识别各自识别出的文本中存在的错误，进而使得最终得到的第三文本中的文本内容更加准确。

具体的，第一文本和第二文本之间的相互纠错，可以采用先由第一文本校对第二文本、再由第二文本校对第一文本的依次校对方式，也可以按照不同识别方式对文件不同部分的识别准确率作为其权重，并将权重高的识别方式识别出的文本作为较准确的文本内容，用于在两者文本内容冲突时作为相对准确的文本内容，例如OCR识别方式下针对图像清晰的部分图像识别出的第二文本的权重较高。

进一步的，为了进一步提升第三文本的识别准确程度，针对第一文本和第二文本均存在识别乱码或者两者冲突且任何一者的可信度都不高时，还可以将这部分图像发给人工审核，已由人工进行识别，并得到准确的第三文本。

步骤204：根据坐标信息提取第三文本中包含的结构化信息，得到目标结构化信息；

在步骤203的基础上，本步骤旨在由上述执行主体根据通过XML格式的第二文件中提取出的坐标信息，来帮助提取第三文本中包含的结构化信息，从而得到最终的目标结构化信息。

以将大量文字按保单内容的标准结构进行组织的保单文件为例，从XML格式的第二保单文件中提取出的各文本块的坐标信息，可以准确体现各文本块在完整第二保单文件中的相对位置关系，从而根据该相对位置关系确定对应文本块之间内容的结构化信息。例如根据坐标信息发现两个文本块拥有相同的高度坐标，水平坐标明显体现为分属一左一右，因此通常就可据此确定出两这个文本块的文本属于明显的左右结构，即右边的文本内容属于左边文本内容的下层、附属或解释部分。同理，上下结构或其它异形结构也可以根据坐标信息更为准确的确定出。

区别于现有技术，本实施例给出的用于提取文本的结构化信息的方法通过上述技术方案提供了一种可自动化执行的文本的结构化信息提取方案，借助XML格式文件的特性解析得到各文本块的坐标信息和除常规光学字符识别技术外的文本，其中，坐标信息可帮助准确确定各文本块在完整文件中的相对位置关系，进而提升结构化信息的准确性，而通过XML格式识别出的文本与光学字符识别技术识别出的文本之间的相互纠错，则可以尽可能的提升识别出的文本的准确率。

在上述实施例的基础上，本申请还通过图3提供了另一种用于提取文本的结构化信息的方法的流程300，包括如下步骤：

步骤301：识别并涂白图片格式的第一文件中的表格部分；

本步骤旨在由上述执行主体先识别出图像格式的第一文件中的表格部分，然后将表格部分所在的图像区域进行涂白处理。之所以要进行涂白处理，是因为通常在提取结构化信息时，重心为其中的纯文本部分，而表格中的信息表述形式过多，且通常作为次要信息被独立以图像存储，以防止信息提取错误。因此，本步骤为了表格部分的信息被错误识别且干扰其它文本内容，将白底黑字的图像中的表格部分进行涂白处理，涂白之后就相当于原表格部分为空白部分。

进一步的，后续可单独针对涂白部分将表格部分的图像完整的提取出来，作为图像附在识别出的结构化信息的相应部分文本之后。

步骤302：对第一文件中的非表格部分依次进行语义分割和光学字符识别操作，得到第一文本；

在步骤301的基础上，本步骤旨在由上述执行主体对第一文件中的非表格部分依次进行语义分割和光学字符识别操作，最终得到第一文本。其中，语义分割是指将第一文件中非表格部分的完整图像分割为一个个文本块，OCR识别操作则用于识别出每个文本块中的实际文本内容。

步骤303：将第一文件转换为可标记语言格式的第二文件，并从第二文件中提取得到各文本块的坐标信息和第二文本；

步骤304：利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；

以上步骤303-304与如图2所示的步骤202-203一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述。

步骤305：根据坐标信息确定呈左右排列的左文本块和右文本块，并将左文本块和右文本块中的第三文本按左右结构保存；

在步骤303和步骤304的基础上，本步骤旨在由上述执行主体根据坐标信息确定呈左右排列的左文本块和右文本块，并将左文本块和右文本块中的第三文本按左右结构保存，即识别结构关系中的左右结构关系。

步骤306：根据坐标信息确定呈上下排序的上文本块和下文本块，并将上文本块和下文本块中的第三文本按上下结构保存；

在步骤303和步骤304的基础上，本步骤旨在由上述执行主体根据坐标信息确定呈上下排序的上文本块和下文本块，并将上文本块和下文本块中的第三文本按上下结构保存，即识别结构关系中的上下结构关系。例如，主标题和副标题，一级分类文本和二级分类文本等。

步骤307：将按左右结构和上下结构保存的第三文本作为目标结构化信息。

在步骤305的步骤306的基础上，本步骤旨在将按左右结构和上下结构保存的第三文本作为目标结构化信息。具体的，为将左右结构和上下结构都转化为统一的结构关系进行表示，可采用将按左右结构和上下结构保存的第三文本均按照键值对的形式进行格式转换，并将以键值对形式保存的第三文本作为目标结构化信息的处理方案，以通过统一的键值对形式完成所有类型结构关系的保存。

在具有上述实施例全部有益效果的基础上，本实施例通过步骤301-步骤302具体提供了一种从图片各式的第一文件中识别得到第一文本的方案，通过对表格部分进行涂白，避免了表格部分内容对其余部分文本内容的干扰，提升了第一文本内容的准确度；通过步骤305-步骤307具体提供了一种如何根据坐标信息从第三文本中提取得到目标结构化信息的方案，通过识别上下排序、左右排序的文本块，得以准确的将文本块中的内容以上下结构、左右结构进行记录和保存，结构化信息提取的更加准确。

应当理解的是，步骤301-步骤302提供的从第一文件中识别得到第一文本的方案和步骤305-步骤307提供的如何根据坐标信息从第三文本中提取得到目标结构化信息的方案之间并不存在因果和依赖关系，两方案分别是针对流程200中的步骤201和步骤204给出的优选方案，完全可以分别结合流程200所示的实施例形成单独的实施例，本实施例仅作为同时存在两部分优选方案的一个优选实施例存在。

在上述任意实施例的基础上，考虑到保单文件的文本内容往往会存在多级关系，例如通常可存在多达4至5个层级，例如形如1.1.1、1.1-1的三层级表示方式，每个小层级下都可能存在大量的文本，以至于忽略分散在不同位置的同层级之间的文本内容之间的结构关系，因此为了尽可能准确、全面的识别出结构化信息，不仅要对文本块之间的结构关系进行准确识别，还需要针对每个文本块中记录的文本信息体现出的其所在层级关系进行识别。一种包括但不限于的实现方式可以包括如下步骤：

获取各文本块的第三文本的形态信息，形态信息可以包括字形大小、字符排序、特殊符号位置、特殊符号前后字符、是否为粗体等等；

根据形态信息确定其中各文本字符之间的层级关系；

根据层级关系确定各文本块的第三文本之间的层级结构信息

例如，一个文本块的文本内容为1.1-3，那么即可明确其与文本内容为1.1-2的文本块之间应属于同层级关系。

为加深理解，本申请还结合基于输入的大量PDF格式的保单文件，构建得到保单知识图谱的实际需求，给出了一种具体的实现方案：

1.使用XML解析工具将PDF格式的保单文件转换为XML格式，并从XML格式的保单文件中获取文档中文本的原始文本及原始坐标信息，图4示出了PDF格式的实际保单文件中的部分保单图像，图5示出了将其转换为XML格式后的对应保单内容。

2.把PDF保单文件中的每一页转为图像，供后续处理步骤使用；

3.对图像中的表格进行定位(运用图像形态学处理)、涂白，避免应该后续结构化信息抽取，图6为识别出保单图像中表格部分的示意图，图7为将表格部分进行涂白处理后得到的示意图；

4.对图像文件进行图像形态学处理(膨胀、腐蚀等操作)，从而对文本块图像进行语义分割，得到文档中的文本块图像；

5.对文本块图像进行OCR，得到文本块中的文本数据；

6.根据OCR识别出的文本数据，对于误分割文本块图像进行重新整合；

7.基于经重新整合的文本块图像，重新进行OCR识别，得到文本块中的文本数据；

8.通过XML格式保单文件对保单文件中包含的文本的解析结果，对经上述步骤7中OCR识别出的文本进行纠错，确保文本文字的正确率；

9.对文本块中的字符串进行整合连接，得到完整的自然段落；

10.将页眉页脚、无内容文本块过滤掉；

11.对跨页文本块进行整合，合成单个文本块；

12.根据坐标信息筛选key(标题)及对应value(内容)文本块，判断是否存在左右结构保单key、value内容；

13.根据上述图像处理过程中过滤页眉页脚的过滤集，过滤解析结果中的页眉页脚；

14.根据解析结果、key的文本特征，抽取上下结构保单条目型、序号型key内容及坐标信息；

15.抽取文档中的分割用文本块，根据其位置来分割文档value范围；

16.若上下结构(可参见如图8所示的文本块结构关系)、左右结构(可参见如图9所示的文本块结构关系)文档内容均存在，则该文档是混合型文档(可参见图10所示的文本块结构关系)，对其分类进行value(内容)抽取及整合；

17.整合上下结构文档中条目型key、value及序号型key、value，使其成为有序的文档结构化解析结果；

18，根据文档结构化解析结果构建保单知识图谱。

进一步参考图11，作为对上述各图所示方法的实现，本申请提供了一种用于提取文本的结构化信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图11所示，本实施例的用于提取文本的结构化信息的装置400可以包括：第一文本获取单元401、坐标信息及第二文本获取单元402、文本纠错单元403、结构化信息提取单元404。其中，第一文本获取单元401，被配置成对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；坐标信息及第二文本获取单元402，被配置成将第一文件转换为可标记语言格式的第二文件，并从第二文件中提取得到各文本块的坐标信息和第二文本；文本纠错单元403，被配置成利用各文本块的第一文本和第二文本进行相互纠错，得到各文本块的第三文本；结构化信息提取单元404，被配置成根据坐标信息提取第三文本中包含的结构化信息，得到目标结构化信息。

在本实施例中，用于提取文本的结构化信息的装置400中：第一文本获取单元401、坐标信息及第二文本获取单元402、文本纠错单元403、结构化信息提取单元404的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，结构化信息提取单元404可以包括：左右结构信息保存子单元，被配置成根据坐标信息确定呈左右排列的左文本块和右文本块，并将左文本块和右文本块中的第三文本按左右结构保存；上下结构信息保存子单元，被配置成根据坐标信息确定呈上下排序的上文本块和下文本块，并将上文本块和下文本块中的第三文本按上下结构保存；目标结构信息形成子单元，被配置成将按左右结构和上下结构保存的第三文本作为目标结构化信息。

在本实施例的一些可选的实现方式中，该目标结构信息形成子单元可以进一步被配置成：将按左右结构和上下结构保存的第三文本均按照键值对的形式进行格式转换，并将以键值对形式保存的第三文本作为目标结构化信息。

在本实施例的一些可选的实现方式中，用于提取文本的结构化信息的装置400还可以包括：形态信息获取单元，被配置成获取各文本块的第三文本的形态信息；层级关系确定单元，被配置成根据形态信息确定其中各文本字符之间的层级关系；层级结构关系确定单元，被配置成根据层级关系确定各文本块的第三文本之间的层级结构信息。

在本实施例的一些可选的实现方式中，第二文本获取单元403可以进一步被配置成：形态信息获取单元，被配置成获取各文本块的第三文本的形态信息；层级关系确定单元，被配置成根据形态信息确定其中各文本字符之间的层级关系；层级结构关系确定单元，被配置成根据层级关系确定各文本块的第三文本之间的层级结构信息。

在本实施例的一些可选的实现方式中，用于提取文本的结构化信息的装置400还可以包括：知识图谱构建单元，被配置成根据目标结构化信息构建知识图谱。

本实施例作为对应于上述方法实施例的装置实施例存在，区别于现有技术，本实施例提供的用于提取文本的结构化信息的装置通过上述技术方案提供了一种可自动化执行的文本的结构化信息提取方案，借助XML格式文件的特性解析得到各文本块的坐标信息和除常规光学字符识别技术外的文本，其中，坐标信息可帮助准确确定各文本块在完整文件中的相对位置关系，进而提升结构化信息的准确性，而通过XML格式识别出的文本与光学字符识别技术识别出的文本之间的相互纠错，则可以尽可能的提升识别出的文本的准确率。

根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

图12示出了一种适于用来实现本申请实施例的用于提取文本的结构化信息的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于提取文本的结构化信息的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于提取文本的结构化信息的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于提取文本的结构化信息的方法对应的程序指令/模块(例如，附图11所示的第一文本获取单元401、坐标信息及第二文本获取单元402、文本纠错单元403、结构化信息提取单元404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于提取文本的结构化信息的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储该电子设备在执行用于提取文本的结构化信息的方法所创建的各类数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至适用于执行用于提取文本的结构化信息的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

适用于执行用于提取文本的结构化信息的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生适用于执行用于提取文本的结构化信息的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

区别于现有技术，本实施例通过上述技术方案提供了一种可自动化执行的文本的结构化信息提取方案，借助XML格式文件的特性解析得到各文本块的坐标信息和除常规光学字符识别技术外的文本，其中，坐标信息可帮助准确确定各文本块在完整文件中的相对位置关系，进而提升结构化信息的准确性，而通过XML格式识别出的文本与光学字符识别技术识别出的文本之间的相互纠错，则可以尽可能的提升识别出的文本的准确率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于提取文本的结构化信息的方法，包括：

对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；

将所述第一文件转换为可标记语言格式的第二文件，并从所述第二文件中提取得到各所述文本块的坐标信息和第二文本；

利用各所述文本块的第一文本和第二文本进行相互纠错，得到各所述文本块的第三文本；

根据所述坐标信息确定呈左右排列的左文本块和右文本块，并将所述左文本块和所述右文本块中的第三文本按左右结构保存；

根据所述坐标信息确定呈上下排序的上文本块和下文本块，并将所述上文本块和所述下文本块中的第三文本按上下结构保存；

将按所述左右结构和所述上下结构保存的第三文本均按照键值对的形式进行格式转换，并将以键值对形式保存的第三文本作为目标结构化信息；

还包括：获取各所述文本块的第三文本的形态信息；其中，所述形态信息包括字形大小、字符排序、特殊符号位置、特殊符号前后字符、是否为粗体中的至少一项；

根据所述形态信息确定其中各文本字符之间的层级关系；

根据所述层级关系确定各所述文本块的第三文本之间的层级结构信息。

2.根据权利要求1所述的方法，其中，对图片格式的第一文件进行图像处理和光学字符识别，得到与各文本块对应的第一文本，包括：

识别并涂白图片格式的第一文件中的表格部分；

对所述第一文件中的非表格部分依次进行语义分割和光学字符识别操作，得到第一文本。

3.根据权利要求1或2所述的方法，还包括：

根据所述目标结构化信息构建知识图谱。

4.一种用于提取文本的结构化信息的装置，包括：

第一文本获取单元，被配置成对图片格式的第一文件进行图像处理和光学字符识别，得到各文本块的第一文本；

坐标信息及第二文本获取单元，被配置成将所述第一文件转换为可标记语言格式的第二文件，并从所述第二文件中提取得到各所述文本块的坐标信息和第二文本；

文本纠错单元，被配置成利用各所述文本块的第一文本和第二文本进行相互纠错，得到各所述文本块的第三文本；

结构化信息提取单元，被配置成根据所述坐标信息确定呈左右排列的左文本块和右文本块，并将所述左文本块和所述右文本块中的第三文本按左右结构保存；根据所述坐标信息确定呈上下排序的上文本块和下文本块，并将所述上文本块和所述下文本块中的第三文本按上下结构保存；将按所述左右结构和所述上下结构保存的第三文本均按照键值对的形式进行格式转换，并将以键值对形式保存的第三文本作为目标结构化信息；

形态信息获取单元，被配置成获取各所述文本块的第三文本的形态信息；其中，所述形态信息包括字形大小、字符排序、特殊符号位置、特殊符号前后字符、是否为粗体中的至少一项；

层级关系确定单元，被配置成根据所述形态信息确定其中各文本字符之间的层级关系；

层级结构关系确定单元，被配置成根据所述层级关系确定各所述文本块的第三文本之间的层级结构信息。

5.根据权利要求4所述的装置，其中，所述第二文本获取单元进一步被配置成：

识别并涂白图片格式的第一文件中的表格部分；

6.根据权利要求4或5所述的装置，还包括：

知识图谱构建单元，被配置成根据所述目标结构化信息构建知识图谱。

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的用于提取文本的结构化信息的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的用于提取文本的结构化信息的方法。