CN109543690A

CN109543690A - 用于提取信息的方法和装置

Info

Publication number: CN109543690A
Application number: CN201811428961.7A
Authority: CN
Inventors: 吕明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-03-29
Anticipated expiration: 2038-11-27
Also published as: CN109543690B

Abstract

本申请实施例公开了用于提取信息的方法和装置。该方法的一具体实施方式包括获取原始图像；对原始图像进行文字识别，得到原始图像的文本信息；对文本信息进行图像化表示，得到原始图像的语义角色位置图像；对语义角色位置图像进行表结构识别，确定原始图像的表结构类别；从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。该实施方式降低了从图像中提取信息的人力成本。

Description

用于提取信息的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于提取信息的方法和装置。

背景技术

随着人工智能的发展，图像识别这一领域也渐渐被人们所关注。图像识别中最贴近人们生活的就是OCR(Optical Character Recognition，光学字符识别)技术了。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

在OCR识别领域中，面向不同的图像格式、内容、结构等类别，业界通常采用基础OCR识别模型加订制化模板辅助进行多种类票据、单据、文字图像、照片等的识别，将不同种类的图像中的文字以不同的形式、结构识别提取出来。

采用订制化模板辅助方式进行多种类图像文字识别，需人工预先根据不同的图像格式与识别要求定义若干种模板。拿医疗行业的医疗票据与单据举例来说，中国34个省级行政区域，每个省级行政区域包含上百家公立、私立医院，每家医院有多大几十种常用医疗票据与单据。因此，针对医疗行业的OCR图像识别需求种类高达上万甚至几十万种级别，这样就需要订制上万甚至几十万种模板。

发明内容

本申请实施例提出了用于提取信息的方法和装置。

第一方面，本申请实施例提供了一种用于提取信息的方法，包括：获取原始图像；对原始图像进行文字识别，得到原始图像的文本信息；对文本信息进行图像化表示，得到原始图像的语义角色位置图像；对语义角色位置图像进行表结构识别，确定原始图像的表结构类别；从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。

在一些实施例中，在对原始图像进行文字识别，得到原始图像的文本信息之前，还包括：对原始图像进行图像预处理，其中，图像预处理包括以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分。

在一些实施例中，对原始图像进行文字识别，得到原始图像的文本信息，包括：利用光学字符识别技术对原始图像进行文字检测、定位和识别，得到原始图像的文本信息，其中，文本信息包括文本、文本的位置、文本的置信度。

在一些实施例中，对文本信息进行图像化表示，得到原始图像的语义角色位置图像，包括：将文本信息在预设语义角色字典库中进行正则匹配，以及对文本信息进行分词和语义角色标注，得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置；将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，得到原始图像的语义角色位置图像。

在一些实施例中，在将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成之前，还包括：利用自然语言处理语义向量空间对匹配成功的文字的语义角色进行效验。

在一些实施例中，对语义角色位置图像进行表结构识别，确定原始图像的表结构类别，包括：基于语义角色位置图像和预先训练的表结构分类识别模型，得到原始图像的表结构类别，其中，表结构分类识别模型用于对图像的表结构进行分类识别。

在一些实施例中，基于语义角色位置图像和预先训练的表结构分类识别模型，得到原始图像的表结构类别，包括：基于语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像；将语义角色表结构图像输入至表结构分类识别模型，得到原始图像的表结构类别。

在一些实施例中，表结构分类识别模型通过如下步骤训练得到：获取样本语义角色位置图像；对样本语义角色位置图像进行表结构类别标注，得到标注样本语义角色位置图像；将样本语义角色位置图像作为输入，将标注样本语义角色位置图像作为输出，训练得到表结构分类识别模型。

在一些实施例中，对语义角色位置图像进行表结构识别，确定原始图像的表结构类别，包括：从语义角色位置图像提取语义角色的语义向量，以及拼接语义角色的语义向量，生成语义角色向量矩阵；将语义角色向量矩阵输入至预先训练的二分类模型，得到原始图像的表结构的第一分类结果，其中，第一分类结果用于表征原始图像的表结构所属的类型；基于第一分类结果，确定原始图像的表结构类别。

在一些实施例中，基于第一分类结果，确定原始图像的表结构类别，包括：若第一分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第一分类结果进行表结构的识别和效验，得到原始图像的表结构类别，其中，第一类型是同一行的文字的语义角色相同的表结构类型。

在一些实施例中，基于第一分类结果，确定原始图像的表结构类别，包括：若第一分类结果表征原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列，其中，第二类型是同一行的文字的语义角色不相同的表结构类型；将语义角色向量序列输入至预先训练的多分类模型，得到原始图像的表结构的第二分类结果，其中，第二分类结果用于表征原始图像的表结构所属的类型；基于第二分类结果，确定原始图像的表结构类别。

在一些实施例中，基于第二分类结果，确定原始图像的表结构类别，包括：若第二分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第二分类结果进行表结构的识别和效验，得到原始图像的表结构类别。

在一些实施例中，基于第二分类结果，确定原始图像的表结构类别，包括：若第二分类结果表征原始图像的表结构不属于第一类型，基于第二分类结果表征的原始图像的表结构所属类型对语义角色位置图像中的子表位置进行标注和检测。

在一些实施例中，基于第二分类结果，确定原始图像的表结构类别，包括：若第二分类结果表征原始图像的表结构不属于第一类型，将语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表，其中，候选知识图谱结构列表中包括匹配成功的实体、概念和关系；计算语义角色位置图像中的语义角色的表结构与候选知识图谱结构列表的相似度，得到知识图谱结构列表；基于语义角色位置图像中的语义角色、知识图谱结构列表对语义角色位置图像进行表结构分类和位置检测。

第二方面，本申请实施例提供了一种用于提取信息的装置，包括：获取单元，被配置成获取原始图像；第一识别单元，被配置成对原始图像进行文字识别，得到原始图像的文本信息；表示单元，被配置成对文本信息进行图像化表示，得到原始图像的语义角色位置图像；第二识别单元，被配置成对语义角色位置图像进行表结构识别，确定原始图像的表结构类别；提取单元，被配置成从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。

在一些实施例中，该装置还包括：预处理单元，被配置成对原始图像进行图像预处理，其中，图像预处理包括以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分。

在一些实施例中，第一识别单元进一步被配置成：利用光学字符识别技术对原始图像进行文字检测、定位和识别，得到原始图像的文本信息，其中，文本信息包括文本、文本的位置、文本的置信度。

在一些实施例中，表示单元包括：匹配子单元，被配置成将文本信息在预设语义角色字典库中进行正则匹配，以及对文本信息进行分词和语义角色标注，得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置；生成子单元，被配置成将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，得到原始图像的语义角色位置图像。

在一些实施例中，表示单元还包括：效验子单元，被配置成利用自然语言处理语义向量空间对匹配成功的文字的语义角色进行效验。

在一些实施例中，第二识别单元包括：识别子单元，被配置成基于语义角色位置图像和预先训练的表结构分类识别模型，得到原始图像的表结构类别，其中，表结构分类识别模型用于对图像的表结构进行分类识别。

在一些实施例中，识别子单元包括：生成模块，被配置成基于语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像；第一输入模块，被配置成将语义角色表结构图像输入至表结构分类识别模型，得到原始图像的表结构类别。

在一些实施例中，第二识别单元包括：拼接子单元，被配置成从语义角色位置图像提取语义角色的语义向量，以及拼接语义角色的语义向量，生成语义角色向量矩阵；输入子单元，被配置成将语义角色向量矩阵输入至预先训练的二分类模型，得到原始图像的表结构的第一分类结果，其中，第一分类结果用于表征原始图像的表结构所属的类型；确定子单元，被配置成基于第一分类结果，确定原始图像的表结构类别。

在一些实施例中，确定子单元包括：识别模块，被配置成若第一分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第一分类结果进行表结构的识别和效验，得到原始图像的表结构类别，其中，第一类型是同一行的文字的语义角色相同的表结构类型。

在一些实施例中，确定子单元还包括：拼接模块，被配置成若第一分类结果表征原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列，其中，第二类型是同一行的文字的语义角色不相同的表结构类型；第二输入模块，被配置成将语义角色向量序列输入至预先训练的多分类模型，得到原始图像的表结构的第二分类结果，其中，第二分类结果用于表征原始图像的表结构所属的类型；确定模块，被配置成基于第二分类结果，确定原始图像的表结构类别。

在一些实施例中，确定模块包括：识别子模块，被配置成若第二分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第二分类结果进行表结构的识别和效验，得到原始图像的表结构类别。

在一些实施例中，确定模块还包括：标注子模块，被配置成若第二分类结果表征原始图像的表结构不属于第一类型，基于第二分类结果表征的原始图像的表结构所属类型对语义角色位置图像中的子表位置进行标注和检测。

在一些实施例中，确定模块包括：匹配子模块，被配置成若第二分类结果表征原始图像的表结构不属于第一类型，将语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表，其中，候选知识图谱结构列表中包括匹配成功的实体、概念和关系；计算子模块，被配置成计算语义角色位置图像中的语义角色的表结构与候选知识图谱结构列表的相似度，得到知识图谱结构列表；分类子模块，被配置成基于语义角色位置图像中的语义角色、知识图谱结构列表对语义角色位置图像进行表结构分类和位置检测。

第三方面，本申请实施例提供了一种服务器，该服务器包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于提取信息的方法和装置，首先对获取到的原始图像进行文字识别，以得到原始图像的文本信息；之后对文本信息进行图像化表示，以得到原始图像的语义角色位置图像；然后对语义角色位置图像进行表结构识别，以确定原始图像的表结构类别；最后从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。无需前期投入大量的人力进行分类模型的数据标注，以及每种垂类图像的模板订制，降低了从图像中提取信息的人力成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2是根据本申请的用于提取信息的方法的一个实施例的流程图；

图3是根据本申请的用于提取信息的方法的又一个实施例的流程图；

图4是根据本申请的用于提取信息的方法的再一个实施例的流程图；

图5是根据本申请的用于提取信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于提取信息的方法或用于提取信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100中可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是支持图像拍摄或图像扫描的各种电子设备，包括但不限于摄像机、摄像头、照相机、智能手机和扫描仪等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务，例如服务器105可以对从终端设备101、102、103获取到的原始图像等数据进行分析等处理，并将处理结果(例如结构化元组信息)存储到结构化存储容器中。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于提取信息的方法一般由服务器105执行，相应地，用于提取信息的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的用于提取信息的方法的一个实施例的流程200。该用于提取信息的方法，包括以下步骤：

步骤201，获取原始图像。

在本实施例中，用于提取信息的方法的执行主体(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从终端设备(例如图1所示的终端设备101、102、103)获取原始图像。其中，原始图像可以是对纸质文件进行拍摄或扫描所得到的图像。纸质文件可以包括但不限于证件、票据、纸质文档等等。证件可以包括但不限于身份证、银行卡、驾驶证、护照、车牌、营业执照等等。票据可以包括但不限于增值税专票、增值税普票、火车票、定额发票等等。

步骤202，对原始图像进行文字识别，得到原始图像的文本信息。

在本实施例中，上述执行主体可以对原始图像进行文字识别，以得到原始图像的文本信息。通常，文字识别过程可以包括特征提取和降维、分类器设计与训练、常见词表后处理纠正等等。OCR技术是常用的文字识别技术。其中，OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。文本信息可以包括但不限于文本、文本的位置、文本的置信度等等。

在本实施例的一些可选的实现方式中，执行步骤202之前，上述执行主体还可以对原始图像进行图像预处理。其中，图像预处理可以包括但不限于以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分等等。由于大多数原始图像是彩色图像，彩色图像所含信息量巨大，先对原始图像进行灰度化和二值化处理，再进行文字识别，可以降低识别工作量。原始图像中不可避免地存在噪声，先对原始图像进行去噪，再进行文字识别，可以提高识别准确度。由于在拍摄原始图像时通常不会正对纸质文件，不可避免的产生倾斜，先对原始图像进行倾斜矫正，再进行文字识别，可以避免由于文字倾斜导致识别准确度降低的情况的发生。由于在拍摄原始图像时，经常会造成文字粘连、断笔等现象，先对原始图像进行文字切分，再进行文字识别，可以避免由于文字粘连、断笔导致无法识别的情况的发生。

步骤203，对文本信息进行图像化表示，得到原始图像的语义角色位置图像。

在本实施例中，上述执行主体可以对文本信息进行图像化表示，以得到原始图像的语义角色位置图像。通常，上述执行主体可以对文本信息中的文字进行语义角色分析，以确定文字的语义角色。同时，上述执行主体还可以对文本信息中的文字进行位置检测，以确定文字的位置。随后，上述执行主体可以根据文字的语义角色和位置，将原始图像中不同语义角色的文字利用不同形式的框框出，以生成原始图像的语义角色位置图像。这样，语义角色位置图像可以既包含文本信息中的文字的语义角色的信息，又包含文本信息中的文字的位置的信息。

由于文本信息中的文本通常以键值对(K-V，key-value)的形式存在，因此文本信息中的任意文字的语义角色可以是K或V。文字的位置可以用包含文字的最小文本框的坐标来表示。例如，将语义角色是K的文字用方形框框出，以及将语义角色是V的文字用圆形框框出。又例如，将语义角色是K的文字用蓝色方形框框出，以及将语义角色是V的文字用红色方形框框出。

步骤204，对语义角色位置图像进行表结构识别，确定原始图像的表结构类别。

在本实施例中，上述执行主体可以对语义角色位置图像进行表结构识别，以确定原始图像的表结构类别。由于文本信息中的文本通常以键值对的形式存储在表中，因此根据语义角色位置图像中的不同语义角色的位置，可以确定原始图像的表结构。

通常，可以通过图像识别能力进行表范围的检测与分类识别。同时，可以结合实际环境的信息复杂度，基于NLP(Natural Language Processing，自然语言处理)能力、KG(Knowledge Graph，知识图谱)能力、Schema元数据等进行基于图像像素的物理空间结构的表结构类别识别与效验。

实践中，结合对二维表的信息组织与表示经验，以及数据样本中的表结构，可以进行表结构类别梳理。其中，常见的表结构类别可以包括但不限于K/V行混合表结构、标准数据库二维表结构、混合表结构(表框架中实际包含多张数据库表或多种Schema实体或多种事件记录或多种明细表)、合并单元格表结构等等。

另外，针对实际应用场景与真实识别目标，基于内置的多种策略组合，可以将表结构类别进行较深层的树形结构的分类，这样可以针对不同的父子叶子节点(分类节点)，引入不同的信息，构建不同的分类模型以进行准确而高效的分类。

然而，当待分类的表结构异常复杂或深度太深时，即需要构建很多分类模型。此种基于树形结构的分类方式则过于复杂，此时可以采用端到端的训练方式引入多种信息表示类型进行分类或采用其它策略算法甚至需要重构表空间结构识别策略环节。

在本实施例的一些可选的实现方式中，上述执行主体可以基于语义角色位置图像和预先训练的表结构分类识别模型，得到原始图像的表结构类别。例如，上述执行主体可以将语义角色位置图像输入至预先训练的表结构分类识别模型，得到原始图像的表结构类别。其中，表结构分类识别模型可以用于对图像的表结构进行分类识别。

在本实施例的一些可选的实现方式中，表结构分类识别模型可以通过如下步骤训练得到：

首先，获取样本语义角色位置图像。

然后，对样本语义角色位置图像进行表结构类别标注，得到标注样本语义角色位置图像。

最后，将样本语义角色位置图像作为输入，将标注样本语义角色位置图像作为输出，训练得到表结构分类识别模型。

由于CNN(Convolutional Neural Network，卷积神经网络)对图像局部和全局特征能有较好的特征抽象能力，表结构特征亦存在局部与全局特征体现，因此可以结合样本语义角色位置图像中像素信息结构，采用CNN搭建与训练表结构分类识别模型。同时，可以利用测试集对表结构分类识别模型的识别效果进行验证与评估。

步骤205，从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。

在本实施例中，上述执行主体可以从语义角色位置图像和表结构类别中提取结构化元组信息，随后将结构化元组信息存储到预设的结构化存储容器中。通常，上述执行主体可以从语义角色位置图像中提取语义角色的信息，即K和V。同时，上述执行主体可以从表结构类别中提取表名、对象、抽象概念、实体概念、关系概念等结构性信息，即S(Schema)。随后，根据K和V，以及S，生成S-K-V三元组信息。最后将S-K-V三元组信息结构化存储到结构化存储容器中。

需要说明的是，在某些更加复杂的识别提取场景中，可能需要进行四元或更多元的结构化元组信息提取，因此，则需要更多的信息表示方式来进行表示与合理运用，所需预构建的NLP、KG和图像信息或能力，也应更复杂。

本申请实施例提供的用于提取信息的方法，首先对获取到的原始图像进行文字识别，以得到原始图像的文本信息；之后对文本信息进行图像化表示，以得到原始图像的语义角色位置图像；然后对语义角色位置图像进行表结构识别，以确定原始图像的表结构类别；最后从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。无需前期投入大量的人力进行分类模型的数据标注，以及每种垂类图像的模板订制，降低了从图像中提取信息的人力成本。同时，本申请实施例采用瀑布式或快速循环迭代式步骤策略形式进行分步识别，不仅保证每一步尽量少的丢失信息(文字信息、语义信息、结构信息、物理空间信息等)，还对每一步的散列的、杂乱的信息进行特征的抽象与表示。而现有技术中的整体策略为端到端的深度学习方案，涉及到的信息内容与结构太过复杂，以及信息种类的繁多，势必会对构造这种端到端的深度学习算法结构本身以及信息分布表示产生很大的复杂度。因此采用分布策略形式进行识别，降低了识别复杂度。

进一步参考图3，其示出了根据本申请的用于提取信息的方法的又一个实施例的流程300。该用于提取信息的方法，包括以下步骤：

步骤301，获取原始图像。

在本实施例中，步骤301的具体操作与图2所示的实施例中步骤201的操作基本相同，在此不再赘述。

步骤302，利用光学字符识别技术对原始图像进行文字检测、定位和识别，得到原始图像的文本信息。

在本实施例中，用于提取信息的方法的执行主体(例如图1所示的服务器105)可以利用光学字符识别技术对原始图像进行文字检测、定位和识别，以得到原始图像的文本信息。其中，文本信息可以包括文本、文本的位置、文本的置信度。

步骤303，将文本信息在预设语义角色字典库中进行正则匹配，以及对文本信息进行分词和语义角色标注，得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置。

在本实施例中，上述执行主体可以将文本信息中的文本对照预设语义角色字典库通过基于规则的正则表达式匹配方法进行匹配。同时，对文本信息中的文本进行分词和语义角色标注，以得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置。随后，将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行关联并存储。其中，语义角色字典库中可以包括大量文字与对应的语义角色。

步骤304，将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，得到原始图像的语义角色位置图像。

在本实施例中，上述执行主体可以将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，以得到原始图像的语义角色位置图像。上述执行主体可以根据匹配成功的文字的语义角色和位置，将原始图像中不同语义角色的文字利用不同形式的框框出，以生成原始图像的语义角色位置图像。

在本实施例的一些可选的实现方式中，在执行步骤304之前，上述执行主体还可以利用自然语言处理语义向量空间对匹配成功的文字的语义角色进行效验，以提升语义角色标注的准确性。

需要说明的是，第一，由于基于语义角色字典库的正则表达式规则匹配无法穷举真实环境中所有K及V的信息表示，因此会出现无法正确匹配语义角色的情况，故通过将文字进行向量化表示加以在统一向量空间进行相似度计算或聚类计算以补足或效验匹配识别的准确度。第二，由于分类的场景为做出K与V的分类，因此可以在实际场景中根据所要识别的语义复杂度进行轻量级的语义向量的训练，同时为了将训练后的K/V信息得以保留，可以采用基于动态的(non static)矩阵向量进行模型训练及向量训练，这一过程通常称为Fine Tune。第三，在识别匹配过程中，除了可以进行K与V的识别与匹配外，也可以结合实际场景复杂性及识别对象将S的语义角色进行识别与匹配。其中，S代表Schema结构化角色信息，通常代表了高级概念的语义角色，如数据库中的Schema表示即表名称，知识图谱中的抽象概念等。如果S的识别准确度不高时，则可能会对接下来的表结构的识别产生干扰，因为S可作为一个表空间结构的关键特征作为输入判断。另外，结合实际场景，可能存在着大量表中并没有基于S的文字信息表示，因此为了降低模型策略的复杂度以及保障模型的泛化能力，在表结构分类识别中，并不将S的语义角色信息特定展现出来。

步骤305，基于语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像。

在本实施例中，上述执行主体可以对语义角色位置图像中的语义角色的表结构进行分析，以生成语义角色表结构图像。

由于语义角色位置图像中既包含了语义角色，又包含了语义角色的表结构，为了降低表结构分类识别模型的计算复杂度，可以去除语义角色位置图像中的语义角色，仅生成语义角色表结构图像。

步骤306，将语义角色表结构图像输入至表结构分类识别模型，得到原始图像的表结构类别。

在本实施例中，上述执行主体可以将语义角色表结构图像输入至表结构分类识别模型，以得到原始图像的表结构类别。其中，表结构分类识别模型以在图2所示的实施例中的步骤204中进行了详细阐述，这里不再赘述。

步骤307，从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。

在本实施例中，步骤307的具体操作与图2所示的实施例中步骤205的操作基本相同，在此不再赘述。

需要说明的是，本实施例提供的方案主要用于对表结构复杂度相对较低的原始图像进行识别，如K/V行混合表结构、标准数据库二维表结构等等。

从图3中可以看出，与图2对应的实施例相比，本实施例中的用于提取信息的方法的流程300突出了利用表结构分类识别模型对语义角色表结构图像进行识别的步骤。由此，去除语义角色位置图像中的语义角色，仅生成语义角色表结构图像。利用表结构分类识别模型对语义角色表结构图像进行识别，降低表结构分类识别模型的计算复杂度，从而提高了识别效率。

进一步参考图4，其示出了根据本申请的用于提取信息的方法的再一个实施例的流程400。该用于提取信息的方法，包括以下步骤：

步骤401，获取原始图像。

步骤402，利用光学字符识别技术对原始图像进行文字检测、定位和识别，得到原始图像的文本信息。

步骤403，将文本信息在预设语义角色字典库中进行正则匹配，以及对文本信息进行分词和语义角色标注，得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置。

步骤404，将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，得到原始图像的语义角色位置图像。

在本实施例中，步骤401-404的具体操作与图3所示的实施例中步骤301-304的操作基本相同，在此不再赘述。

步骤405，从语义角色位置图像提取语义角色的语义向量，以及拼接语义角色的语义向量，生成语义角色向量矩阵。

在本实施例中，用于提取信息的方法的执行主体(例如图1所示的服务器105)可以从语义角色位置图像提取语义角色的语义向量，以及拼接语义角色的语义向量，以生成语义角色向量矩阵。

实践中，对于表结构复杂度相对较高的原始图像来说，需要进入更多丰富的语义信息进行更为细化的分类。其中，表结构复杂度相对较高的表结构类别可以是混合表结构、合并单元格表结构等等。

以混合表结构为例，通过经验判断，此类表结构从整体结构化信息表示上来看，蕴含着多种组合结构，每个组合结构表示某种事实概念、知识概念或对象、类概念。因此要细分识别出一个整体表结构的子结构，结合人类的推理角度与经验，可以引入其中蕴含的丰富语义信息进行细分类。

针对此类表结构细分类，可以基于K行和V行进行基于语义信息及序列特征信息的分类。例如，拼接K行或V行的语义角色的语义向量形成向量矩阵，并继续执行后续步骤。

步骤406，将语义角色向量矩阵输入至预先训练的二分类模型，得到原始图像的表结构的第一分类结果。

在本实施例中，上述执行主体可以将语义角色向量矩阵输入至预先训练的二分类模型，以得到原始图像的表结构的第一分类结果。其中，第一分类结果可以用于表征原始图像的表结构所属的类型。

这里，通过预先训练好的基于CNN的二分类模型进行分类。其中，二分类模型可以将原始图像的表结构分为两种类型，即，第一类型和第二类型。第一类型属于合理结构，是同一行的文字的语义角色相同的表结构类型，即表示一行的K或V表示的是同一类对象概念。第二类型属于不合理结构，同一行的文字的语义角色不相同的表结构类型，即表示一行的K或V表示的不是同一类对象概念。此种基于CNN的二分类模型吸纳了更多的语义特征信息。

在本实施例中，上述执行主体可以基于第一分类结果，确定原始图像的表结构类别。若第一分类结果表征原始图像的表结构属于第一类型，执行步骤407。若第一分类结果表征原始图像的表结构属于第二类型，执行步骤408。

步骤407，若第一分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第一分类结果进行表结构的识别和效验，得到原始图像的表结构类别。

在本实施例中，若第一分类结果表征原始图像的表结构属于第一类型，表明此表结构合理，上述执行主体可以基于预设表结构字典库对第一分类结果进行表结构的识别和效验，以得到原始图像的表结构类别。

二分类场景可以结合语义作为表结构的合理性验证，真或假。如若为假，则说明表框选不合理，进而激活到其它的策略环境进行表细化或多级识别引擎。

在某些场景中，需要先进行上述的二分类策略，以验证表结构体的真假，当结果输出为真，则进入多分类策略，以匹配S，即数据表名或概念对象名。若为假，则进入后续对应的策略识别与检测环节，如进行进一步的表结构体的拆分与识别效验。

在本实施例的一些可选的实现方式中，若第一分类结果表征原始图像的表结构属于第一类型，表明此表结构合理，上述执行主体可以直接执行步骤412。

步骤408，若第一分类结果表征原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列。

在本实施例中，若第一分类结果表征原始图像的表结构属于第二类型，表明此表结构不合理，上述执行主体可以拼接语义角色的语义向量，生成语义角色向量序列。例如，拼接每一行中的K或V的语义角色的语义向量形成语义角色向量序列，并继续执行后续步骤。

步骤409，将语义角色向量序列输入至预先训练的多分类模型，得到原始图像的表结构的第二分类结果。

在本实施例中，上述执行主体可以将语义角色向量序列输入至预先训练的多分类模型，以得到原始图像的表结构的第二分类结果。其中，第二分类结果可以用于表征原始图像的表结构所属的类型。

采用RNN(Recurrent Neural Network，循环神经网络)构建多分类模型。通常通过预先训练好的基于LSTM(Long Short-Term Memory，长短期记忆网络)或GRU(GatedRecurrent Unit，门控循环单元)的多分类模型进行分类。其中，多分类模型可以将原始图像的表结构分为多种类型。例如，第一类型、第二类型和第三类型。这里，第一类型是000000或111111序列结构，第二类型是010101结构，第三类型是000011结构。此种基于RNN的多分类模型吸纳了更多的序列结构特征信息。

在本实施例中，上述执行主体可以基于第二分类结果，确定原始图像的表结构类别。若第二分类结果表征原始图像的表结构属于第一类型，执行步骤410。若第二分类结果表征原始图像的表结构不属于第一类型，执行步骤411。

步骤410，若第二分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第二分类结果进行表结构的识别和效验，得到原始图像的表结构类别。

在本实施例中，若第二分类结果表征原始图像的表结构属于第一类型，表明此表结构合理，上述执行主体可以基于预设表结构字典库对第二分类结果进行表结构的识别和效验，以得到原始图像的表结构类别。

在本实施例的一些可选的实现方式中，若第二分类结果表征原始图像的表结构属于第一类型，表明此表结构合理，上述执行主体可以直接执行步骤412。其中，多分类的结果可对应Schema元数据字典表中的概念对象，即数据表名或概念对象名，已确定表结构的对应对象或概念实体，也可以作为S识别匹配映射输出到对应的S-K-V三元组信息中来。

步骤411，若第二分类结果表征原始图像的表结构不属于第一类型，基于第二分类结果表征的原始图像的表结构所属类型对语义角色位置图像中的子表位置进行标注和检测。

在本实施例中，若第二分类结果表征原始图像的表结构不属于第一类型，而是第二类型或第三类型，表明此表结构不合理，可分别按照010101与000011结构对语义角色位置图像中的子表位置进行标注和检测。

这里，将二分类模型和多分类模型进行端到端合并，即同时引入语义和序列结构信息，合并后的模型架构包括：

1、输入层：语义向量化(word-vector)K或V信息表示。左侧采用CNN结构进行语义特征识别。

2、矩阵拼接：将K或V对应的词语的word-vector依次排列矩阵，生成拼接矩阵。

3、卷积层：通过卷积操作得到若干个Feature Map(特征图)，得到若干个列数为1的Feature Map。

4、池化层：池化层可以简单地从之前一维的Feature Map中提出最大的值。

5、全连接层：可以单独从全连接过渡到Softmax进行分类，同时也可以与右侧的栈式LSTM的输出层进行拼接到Softmax做出分类。

右侧采用栈式LSTM深度网络结构识别出序列特征，并将输出的隐层与右侧CNN进行拼接到Softmax做出分类，同时亦可单独将输出隐层进行全连接加Softmax做出序列的分类。

通过CNN与RNN组合的算法结构，可以实现此场景的端到端较细化的多分类模型，再依据此策略模型的分类结果进行后续步骤的策略识别。

在本实施例的一些可选的实现方式中，若第二分类结果表征原始图像的表结构不属于第一类型，上述执行主体首先将语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表；然后计算语义角色位置图像中的语义角色的表结构与候选知识图谱结构列表的相似度，得到知识图谱结构列表；最后基于语义角色位置图像中的语义角色、知识图谱结构列表对语义角色位置图像进行表结构分类和位置检测。其中，候选知识图谱结构列表中包括匹配成功的实体、概念和关系。

当表结构异常复杂或基于NLP能力-语义、位置序列结构的CNN+RNN组合算法结构识别得出的输出结果为特殊结构标签时，则采用以下步骤进行识别与效验：

首先，需要建立一个领域的知识本体结构(采用实体-关系的FDF三元组或多元组方式)。

而后，针对某些表信息结构体表现出包含了大量而又复杂的结构化信息，包括多种概念信息、关系等结构信息。

之后，将前面几个步骤识别出的属性键-K、属性值-V的词语信息进行初步的模式匹配，匹配出相关性最大的之前建立的领域知识谱图结构中的抽象实体、概念或关系。

需要说明的是，模式匹配可以采用正则表达式的匹配或基于语义向量的聚类匹配，具体那种方式适合需要结合实际应用场景进行合理考量与甄别。

然后，基于上一步骤匹配出的候选知识图谱结构列表，通过之前训练好的语义相似度模型进行图像结构体信息与候选列表中实体概念与关系进行相似度匹配计算。

最后，基于前几步骤已经得到的此种不规则或不合理表结构体的有关K、V语义角色信息、语义信息、对应的预先构建的抽象Schema结构、领域知识图谱结构，可以结合以上信息进行基于规则策略或基于深度学习的端到端表结构分类与位置检测区分。

这里采用下面一种策略算法：

按行和列进行逐行和逐列的累计叠加信息语义相似度计算。

公式为a×b＝>(a+1)×(b+1)＝>(a+2)×(b+2)＝>…＝>(a+n)×(b+m)。

其中，n为识别出的文字信息的行数，b为识别出的文字信息的列数。

即计算某组合文字矩阵与识别出的候选列表中的抽象概念与对象(S)相关实体与关联属性和关系结构的相似度，当反馈结果的相似度置信度较高时，则向固定方向加入累计一行及一列，再进行相似度计算，直到置信度基于某一阈值较低时，则判断所遍历的表结构体属于某一Schema(表名/对象/大类/概念等)，同时在此结构体框选的物理空间位置中，包含了之前几个步骤的K、V语义角色。

步骤412，从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储容器中。

在本实施例中，步骤408的具体操作与图3所示的实施例中步骤307的操作基本相同，在此不再赘述。

需要说明的是，本实施例提供的方案主要用于对表结构复杂度相对较高的原始图像进行识别，如混合表结构、合并单元格表结构等等。

从图4中可以看出，与图3对应的实施例相比，本实施例中的用于提取信息的方法的流程400突出了通过CNN与RNN组合的算法结构，可以实现端到端较细化的多分类模型，从而提高了对表结构类别的识别准确度。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于提取信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于提取信息的装置500可以包括：获取单元501、第一识别单元502、表示单元503、第二识别单元504和提取单元505。其中，获取单元501，被配置成获取原始图像；第一识别单元502，被配置成对原始图像进行文字识别，得到原始图像的文本信息；表示单元503，被配置成对文本信息进行图像化表示，得到原始图像的语义角色位置图像；第二识别单元504，被配置成对语义角色位置图像进行表结构识别，确定原始图像的表结构类别；提取单元505，被配置成从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储表中。

在本实施例中，用于提取信息的装置500中：获取单元501、第一识别单元502、表示单元503、第二识别单元504和提取单元505的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，用于提取信息的装置500还包括：预处理单元(图中未示出)，被配置成对原始图像进行图像预处理，其中，图像预处理包括以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分。

在本实施例的一些可选的实现方式中，第一识别单元502进一步被配置成：利用光学字符识别技术对原始图像进行文字检测、定位和识别，得到原始图像的文本信息，其中，文本信息包括文本、文本的位置、文本的置信度。

在本实施例的一些可选的实现方式中，表示单元503包括：匹配子单元(图中未示出)，被配置成将文本信息在预设语义角色字典库中进行正则匹配，以及对文本信息进行分词和语义角色标注，得到匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置；生成子单元(图中未示出)，被配置成将匹配成功的文字、匹配成功的文字的语义角色和匹配成功的文字的位置进行图像像素化生成，得到原始图像的语义角色位置图像。

在本实施例的一些可选的实现方式中，表示单元503还包括：效验子单元(图中未示出)，被配置成利用自然语言处理语义向量空间对匹配成功的文字的语义角色进行效验。

在本实施例的一些可选的实现方式中，第二识别单元504包括：识别子单元(图中未示出)，被配置成基于语义角色位置图像和预先训练的表结构分类识别模型，得到原始图像的表结构类别，其中，表结构分类识别模型用于对图像的表结构进行分类识别。

在本实施例的一些可选的实现方式中，识别子单元包括：生成模块(图中未示出)，被配置成基于语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像；第一输入模块(图中未示出)，被配置成将语义角色表结构图像输入至表结构分类识别模型，得到原始图像的表结构类别。

在本实施例的一些可选的实现方式中，表结构分类识别模型通过如下步骤训练得到：获取样本语义角色位置图像；对样本语义角色位置图像进行表结构类别标注，得到标注样本语义角色位置图像；将样本语义角色位置图像作为输入，将标注样本语义角色位置图像作为输出，训练得到表结构分类识别模型。

在本实施例的一些可选的实现方式中，第二识别单元504包括：拼接子单元(图中未示出)，被配置成从语义角色位置图像提取语义角色的语义向量，以及拼接语义角色的语义向量，生成语义角色向量矩阵；输入子单元(图中未示出)，被配置成将语义角色向量矩阵输入至预先训练的二分类模型，得到原始图像的表结构的第一分类结果，其中，第一分类结果用于表征原始图像的表结构所属的类型；确定子单元(图中未示出)，被配置成基于第一分类结果，确定原始图像的表结构类别。

在本实施例的一些可选的实现方式中，确定子单元包括：识别模块(图中未示出)，被配置成若第一分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第一分类结果进行表结构的识别和效验，得到原始图像的表结构类别，其中，第一类型是同一行的文字的语义角色相同的表结构类型。

在本实施例的一些可选的实现方式中，确定子单元还包括：拼接模块(图中未示出)，被配置成若第一分类结果表征原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列，其中，第二类型是同一行的文字的语义角色不相同的表结构类型；第二输入模块(图中未示出)，被配置成将语义角色向量序列输入至预先训练的多分类模型，得到原始图像的表结构的第二分类结果，其中，第二分类结果用于表征原始图像的表结构所属的类型；确定模块，被配置成基于第二分类结果，确定原始图像的表结构类别。

在本实施例的一些可选的实现方式中，确定模块包括：识别子模块(图中未示出)，被配置成若第二分类结果表征原始图像的表结构属于第一类型，基于预设表结构字典库对第二分类结果进行表结构的识别和效验，得到原始图像的表结构类别。

在本实施例的一些可选的实现方式中，确定模块还包括：标注子模块(图中未示出)，被配置成若第二分类结果表征原始图像的表结构不属于第一类型，基于第二分类结果表征的原始图像的表结构所属类型对语义角色位置图像中的子表位置进行标注和检测。

在本实施例的一些可选的实现方式中，确定模块包括：匹配子模块(图中未示出)，被配置成若第二分类结果表征原始图像的表结构不属于第一类型，将语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表，其中，候选知识图谱结构列表中包括匹配成功的实体、概念和关系；计算子模块(图中未示出)，被配置成计算语义角色位置图像中的语义角色的表结构与候选知识图谱结构列表的相似度，得到知识图谱结构列表；分类子模块(图中未示出)，被配置成基于语义角色位置图像中的语义角色、知识图谱结构列表对语义角色位置图像进行表结构分类和位置检测。

下面参考图6，其示出了适于用来实现本申请实施例的服务器(例如图1所示的服务器105)的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、第一识别单元、表示单元、第二识别单元和提取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取原始图像的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：获取原始图像；对原始图像进行文字识别，得到原始图像的文本信息；对文本信息进行图像化表示，得到原始图像的语义角色位置图像；对语义角色位置图像进行表结构识别，确定原始图像的表结构类别；从语义角色位置图像和表结构类别中提取结构化元组信息，以及将结构化元组信息存储到预设的结构化存储表中。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于提取信息的方法，包括：

获取原始图像；

对所述原始图像进行文字识别，得到所述原始图像的文本信息；

对所述文本信息进行图像化表示，得到所述原始图像的语义角色位置图像；

对所述语义角色位置图像进行表结构识别，确定所述原始图像的表结构类别；

从所述语义角色位置图像和所述表结构类别中提取结构化元组信息，以及将所述结构化元组信息存储到预设的结构化存储容器中。

2.根据权利要求1所述的方法，其中，在所述对所述原始图像进行文字识别，得到所述原始图像的文本信息之前，还包括：

对所述原始图像进行图像预处理，其中，所述图像预处理包括以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分。

3.根据权利要求1所述的方法，其中，所述对所述原始图像进行文字识别，得到所述原始图像的文本信息，包括：

利用光学字符识别技术对所述原始图像进行文字检测、定位和识别，得到所述原始图像的文本信息，其中，所述文本信息包括文本、所述文本的位置、所述文本的置信度。

4.根据权利要求3所述的方法，其中，所述对所述文本信息进行图像化表示，得到所述原始图像的语义角色位置图像，包括：

将所述文本信息在预设语义角色字典库中进行正则匹配，以及对所述文本信息进行分词和语义角色标注，得到匹配成功的文字、所述匹配成功的文字的语义角色和所述匹配成功的文字的位置；

将所述匹配成功的文字、所述匹配成功的文字的语义角色和所述匹配成功的文字的位置进行图像像素化生成，得到所述原始图像的语义角色位置图像。

5.根据权利要求4所述的方法，其中，在所述将所述匹配成功的文字、所述匹配成功的文字的语义角色和所述匹配成功的文字的位置进行图像像素化生成之前，还包括：

利用自然语言处理语义向量空间对所述匹配成功的文字的语义角色进行效验。

6.根据权利要求1所述的方法，其中，所述对所述语义角色位置图像进行表结构识别，确定所述原始图像的表结构类别，包括：

基于所述语义角色位置图像和预先训练的表结构分类识别模型，得到所述原始图像的表结构类别，其中，所述表结构分类识别模型用于对图像的表结构进行分类识别。

7.根据权利要求6所述的方法，其中，所述基于所述语义角色位置图像和预先训练的表结构分类识别模型，得到所述原始图像的表结构类别，包括：

基于所述语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像；

将所述语义角色表结构图像输入至所述表结构分类识别模型，得到所述原始图像的表结构类别。

8.根据权利要求6或7所述的方法，其中，所述表结构分类识别模型通过如下步骤训练得到：

获取样本语义角色位置图像；

对所述样本语义角色位置图像进行表结构类别标注，得到标注样本语义角色位置图像；

将所述样本语义角色位置图像作为输入，将所述标注样本语义角色位置图像作为输出，训练得到所述表结构分类识别模型。

9.根据权利要求1所述的方法，其中，所述对所述语义角色位置图像进行表结构识别，确定所述原始图像的表结构类别，包括：

从所述语义角色位置图像提取语义角色的语义向量，以及拼接所述语义角色的语义向量，生成语义角色向量矩阵；

将所述语义角色向量矩阵输入至预先训练的二分类模型，得到所述原始图像的表结构的第一分类结果，其中，所述第一分类结果用于表征所述原始图像的表结构所属的类型；

基于所述第一分类结果，确定所述原始图像的表结构类别。

10.根据权利要求9所述的方法，其中，所述基于所述第一分类结果，确定所述原始图像的表结构类别，包括：

若所述第一分类结果表征所述原始图像的表结构属于第一类型，基于预设表结构字典库对所述第一分类结果进行表结构的识别和效验，得到所述原始图像的表结构类别，其中，所述第一类型是同一行的文字的语义角色相同的表结构类型。

11.根据权利要求10所述的方法，其中，所述基于所述第一分类结果，确定所述原始图像的表结构类别，包括：

若所述第一分类结果表征所述原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列，其中，所述第二类型是同一行的文字的语义角色不相同的表结构类型；

将所述语义角色向量序列输入至预先训练的多分类模型，得到所述原始图像的表结构的第二分类结果，其中，所述第二分类结果用于表征所述原始图像的表结构所属的类型；

基于所述第二分类结果，确定所述原始图像的表结构类别。

12.根据权利要求11所述的方法，其中，所述基于所述第二分类结果，确定所述原始图像的表结构类别，包括：

若所述第二分类结果表征所述原始图像的表结构属于所述第一类型，基于预设表结构字典库对所述第二分类结果进行表结构的识别和效验，得到所述原始图像的表结构类别。

13.根据权利要求12所述的方法，其中，所述基于所述第二分类结果，确定所述原始图像的表结构类别，包括：

若所述第二分类结果表征所述原始图像的表结构不属于所述第一类型，基于所述第二分类结果表征的所述原始图像的表结构所属类型对所述语义角色位置图像中的子表位置进行标注和检测。

14.根据权利要求12所述的方法，其中，所述基于所述第二分类结果，确定所述原始图像的表结构类别，包括：

若所述第二分类结果表征所述原始图像的表结构不属于所述第一类型，将所述语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表，其中，所述候选知识图谱结构列表中包括匹配成功的实体、概念和关系；

计算所述语义角色位置图像中的语义角色的表结构与所述候选知识图谱结构列表的相似度，得到知识图谱结构列表；

基于所述语义角色位置图像中的语义角色、所述知识图谱结构列表对所述语义角色位置图像进行表结构分类和位置检测。

15.一种用于提取信息的装置，包括：

获取单元，被配置成获取原始图像；

第一识别单元，被配置成对所述原始图像进行文字识别，得到所述原始图像的文本信息；

表示单元，被配置成对所述文本信息进行图像化表示，得到所述原始图像的语义角色位置图像；

第二识别单元，被配置成对所述语义角色位置图像进行表结构识别，确定所述原始图像的表结构类别；

提取单元，被配置成从所述语义角色位置图像和所述表结构类别中提取结构化元组信息，以及将所述结构化元组信息存储到预设的结构化存储容器中。

16.根据权利要求15所述的装置，其中，所述装置还包括：

预处理单元，被配置成对所述原始图像进行图像预处理，其中，所述图像预处理包括以下至少一项：灰度化、二值化、降噪、倾斜矫正、文字切分。

17.根据权利要求15所述的装置，其中，所述第一识别单元进一步被配置成：

18.根据权利要求16所述的装置，其中，所述表示单元包括：

匹配子单元，被配置成将所述文本信息在预设语义角色字典库中进行正则匹配，以及对所述文本信息进行分词和语义角色标注，得到匹配成功的文字、所述匹配成功的文字的语义角色和所述匹配成功的文字的位置；

生成子单元，被配置成将所述匹配成功的文字、所述匹配成功的文字的语义角色和所述匹配成功的文字的位置进行图像像素化生成，得到所述原始图像的语义角色位置图像。

19.根据权利要求18所述的装置，其中，所述表示单元还包括：

效验子单元，被配置成利用自然语言处理语义向量空间对所述匹配成功的文字的语义角色进行效验。

20.根据权利要求15所述的装置，其中，所述第二识别单元包括：

识别子单元，被配置成基于所述语义角色位置图像和预先训练的表结构分类识别模型，得到所述原始图像的表结构类别，其中，所述表结构分类识别模型用于对图像的表结构进行分类识别。

21.根据权利要求20所述的装置，其中，所述识别子单元包括：

生成模块，被配置成基于所述语义角色位置图像中的语义角色的表结构，生成语义角色表结构图像；

第一输入模块，被配置成将所述语义角色表结构图像输入至所述表结构分类识别模型，得到所述原始图像的表结构类别。

22.根据权利要求20或21所述的装置，其中，所述表结构分类识别模型通过如下步骤训练得到：

获取样本语义角色位置图像；

23.根据权利要求15所述的装置，其中，所述第二识别单元包括：

拼接子单元，被配置成从所述语义角色位置图像提取语义角色的语义向量，以及拼接所述语义角色的语义向量，生成语义角色向量矩阵；

输入子单元，被配置成将所述语义角色向量矩阵输入至预先训练的二分类模型，得到所述原始图像的表结构的第一分类结果，其中，所述第一分类结果用于表征所述原始图像的表结构所属的类型；

确定子单元，被配置成基于所述第一分类结果，确定所述原始图像的表结构类别。

24.根据权利要求23所述的装置，其中，所述确定子单元包括：

识别模块，被配置成若所述第一分类结果表征所述原始图像的表结构属于第一类型，基于预设表结构字典库对所述第一分类结果进行表结构的识别和效验，得到所述原始图像的表结构类别，其中，所述第一类型是同一行的文字的语义角色相同的表结构类型。

25.根据权利要求24所述的装置，其中，所述确定子单元还包括：

拼接模块，被配置成若所述第一分类结果表征所述原始图像的表结构属于第二类型，拼接语义角色的语义向量，生成语义角色向量序列，其中，所述第二类型是同一行的文字的语义角色不相同的表结构类型；

第二输入模块，被配置成将所述语义角色向量序列输入至预先训练的多分类模型，得到所述原始图像的表结构的第二分类结果，其中，所述第二分类结果用于表征所述原始图像的表结构所属的类型；

确定模块，被配置成基于所述第二分类结果，确定所述原始图像的表结构类别。

26.根据权利要求25所述的装置，其中，所述确定模块包括：

识别子模块，被配置成若所述第二分类结果表征所述原始图像的表结构属于所述第一类型，基于预设表结构字典库对所述第二分类结果进行表结构的识别和效验，得到所述原始图像的表结构类别。

27.根据权利要求26所述的装置，其中，所述确定模块还包括：

标注子模块，被配置成若所述第二分类结果表征所述原始图像的表结构不属于所述第一类型，基于所述第二分类结果表征的所述原始图像的表结构所属类型对所述语义角色位置图像中的子表位置进行标注和检测。

28.根据权利要求26所述的装置，其中，所述确定模块包括：

匹配子模块，被配置成若所述第二分类结果表征所述原始图像的表结构不属于所述第一类型，将所述语义角色位置图像中的语义角色在预设知识图谱结构中进行匹配，得到候选知识图谱结构列表，其中，所述候选知识图谱结构列表中包括匹配成功的实体、概念和关系；

计算子模块，被配置成计算所述语义角色位置图像中的语义角色的表结构与所述候选知识图谱结构列表的相似度，得到知识图谱结构列表；

分类子模块，被配置成基于所述语义角色位置图像中的语义角色、所述知识图谱结构列表对所述语义角色位置图像进行表结构分类和位置检测。

29.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-14中任一所述的方法。

30.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-14中任一所述的方法。