CN111160193B

CN111160193B - 关键信息提取方法、装置及存储介质

Info

Publication number: CN111160193B
Application number: CN201911335677.XA
Authority: CN
Inventors: 卢宁; 余文文; 齐宪标
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2024-02-09
Anticipated expiration: 2039-12-20
Also published as: CN111160193A

Abstract

本发明涉及图像检测技术，提出了一种关键信息提取方法、电子装置及存储介质。该方法包括：获取目标文本图像中的关键字段和关键字段对应的关键信息的扫描识别结果，利用扫描得到的关键字段、关键信息与关键字段、关键信息对应的检测框的坐标点组成的第一、第二节点构建文本图像的网络图，对网络图中的节点进行位置修正后，利关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件。利用本发明，有效提升了文本关键信息提取的准确率。

Description

关键信息提取方法、装置及存储介质

技术领域

本发明涉及图像检测技术领域，尤其涉及一种关键信息提取方法、装置及存储介质。

背景技术

在财务、会计和税收、金融等领域，将票据中的关键信息保存为结构化数据在许多场景中起到至关重要的作用，例如高效归档、快速检索票据信息和对票据信息进行文档分析等。目前业内已将光学字符识别技术运用到票据识别中，在一定程度上提高了工作效率。

但是在许多商业应用的过程中，从识别结果中提取出的关键信息部分存在错误，这些错误的关键信息在后续使用时带来诸多不便，导致仍需要不断地人工干预。

发明内容

本发明提供一种关键信息提取方法、装置及存储介质，其主要目的是提高文本关键信息提取的准确率。

为实现上述目的，本发明提供一种关键信息提取方法，该方法包括以下步骤：

获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果，所述扫描识别结果包括用于确定所述关键字段和所述关键信息的位置的检测框的四个坐标点的坐标值；

将各个关键字段对应的检测框左上角的坐标点的坐标值与所述关键字段组成的数组作为第一节点，将各个关键信息对应的检测框左上角的坐标值与所述关键信息组成的数组作为第二节点，根据各个节点坐标的坐标值，构建所述目标文本图像的网络图；

利用基于第一节点坐标的位置的预设修正规则对所述网络图中的第二节点的位置进行修正，得到从左到右第一节点、第二节点间隔排序的网络图；

利用各个第一节点包含的关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件。

优选地，在执行所述获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果之前，该方法还包括：

对原始图像进行预处理，得到黑白文本图像，所述预处理包括二值化处理；

从所述黑白文本图像中提取单行文本；及

利用预设算法对单行文本进行处理，得到多个文本内容块和文本内容块对应的检测框的四个坐标点的坐标值，所述文本内容块包括目标文本图像中的关键字段或关键信息。

优选地，在构建所述网络图的过程中，y坐标值相同的节点视为兄弟节点，y坐标值的绝对值大的节点视为子节点，先生成父、子节点，再生成兄弟节点。

优选地，所述修正规则为：若某个父节点的y坐标值与其一个子节点的y坐标值的差值小于阈值，则将所述父节点移动到所述子节点所在层，并根据移动后的所述子节点所在层的所有节点的x坐标值按照从小到大的顺序对所述所有节点重新进行排列。

优选地，每个正则匹配规则包含一条或多条正则表达式，用于获取对应的第二节点包含的关键信息的文本内容。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的关键信息提取程序，所述关键信息提取程序被所述处理器执行时实现如下步骤：

本发明提出的关键信息提取方法、服务器及计算机可读存储介质，通过获取目标文本图像中的关键字段和关键字段对应的关键信息的扫描识别结果，利用扫描得到的关键字段、关键信息与关键字段、关键信息对应的检测框的坐标点组成的第一、第二节点构建文本图像的网络图，对网络图中的节点进行位置修正后，利用各个第一节点包含的关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件。利用构建网络图对关键信息重新排列的方式，有效提升了文本关键信息提取的准确率。

附图说明

图1为本发明关键信息提取方法一实施例的流程图；

图2为本发明电子装置一实施例的内部结构示意图；

图3为图2中的关键信息提取程序一实施例的程序模块图；

图4为图2中的关键信息提取程序一实施例的节点修正示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1所示，为本发明一实施例提供的关键信息提取方法的流程示意图。该方法可以由一个电子装置执行，该电子装置可以由软件和/或硬件实现。

在本实施例中，该关键信息提取方法包括：

步骤S10，获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果，所述扫描识别结果包括用于确定所述关键字段和所述关键信息的位置的检测框的四个坐标点的坐标值。

在本发明的一个实施例中，在执行获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果之前还包括：对原始图像进行预处理(例如，二值化处理)，得到黑白文本图像，该处理过程是为了增强图像的可读性。从得到的黑白文本图像中提取单行文本，利用预设算法(例如，滑动窗口算法)对单行文本进行处理，得到多个文本内容块和文本内容块对应的检测框的四个坐标点的坐标值，文本内容块包括目标文本图像中的关键字段或关键信息，以目标文本图像的左上角为原点，从左到右的方向为x轴，从上到下的方向为y轴，建立坐标系。通过建立坐标系，可以确定检测框的具体坐标，检测框的坐标点用维度为1x8的数组表示，形式为[x1,y1,x2,y2,x3,y3,x4,y4],数组中的x、y元素分别代表检测框的左上角、右上角、右下角、左下角四个坐标点的横坐标值与纵坐标值。

在本发明的同一个实施例中，得到检测框的四个坐标点后，需判断检测框的坐标点是否按照顺时针的顺序排序，若没有，则对检测框的坐标点进行顺时针排序后，再以左上角的坐标点为第一个坐标按照顺时针的顺序依次将检测框的坐标点保存到数组中。

步骤S20，将各个关键字段对应的检测框左上角的坐标点的坐标值与所述关键字段组成的数组作为第一节点，将各个关键信息对应的检测框左上角的坐标值与所述关键信息组成的数组作为第二节点，根据各个节点坐标的坐标值，构建所述目标文本图像的网络图。

在本发明的一个实施例中，在构建网络图的过程中，y坐标值相同的节点视为兄弟节点，y坐标值的绝对值大的节点视为子节点，先生成父、子节点，再生成兄弟节点。

步骤S30，利用基于第一节点坐标的位置的预设修正规则对所述网络图中的第二节点的位置进行修正，得到从左到右第一节点、第二节点间隔排序的网络图。

在本发明的一个实施例中，所述修正规则可以为：若某个父节点对应的检测框的左下角的y坐标值与其一个子节点的y坐标值的差值小于阈值，则将所述父节点移动到所述子节点所在层，并根据移动后的所述子节点所在层的所述节点的x坐标值按照从小到大的顺序对所述所有节点重新进行排列。

在本发明的同一个实施例中，获取相邻两行的左上角x坐标值相同的两个第一节点(例如，第一行的第一节点和第二行的第一节点)，计算第一行的第一节点的左下角坐标的y坐标值与第二行的第一节点的左上角的y坐标值的差值的绝对值设为阈值。

如图4所示，为本实施例的节点修正示意图，假设阈值大小为5，父节点C与子节点D、E、F的y坐标值相差为3(小于阈值)，且节点C点的x坐标大于节点E的x坐标、小于节点F的x坐标，则将节点C移动到D、E、F所在层，并插入到节点E和F中间。

步骤S40，利用各个第一节点包含的关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件。

在本发明的一个实施例中，利用第一节点包含的关键字段对应的预先编写的正则匹配规则获取预设方向的第二节点包含的关键信息的文本内容，得到关键字段对应的匹配结果。

例如，由于第一节点和第二节点在网络图中间隔排序，每一层先排第一节点，接着排第二节点，再排第一节点，以此依次排序。所述预设方向可以为利用第一节点包含的关键字段对应的正则匹配规则从左到右的顺序对邻近的同一层的第二节点包含的关键信息进行匹配。

按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果组成预设格式文件进行输出。其中，预设格式文件可以为JSON格式文件。

例如，需要从目标文本图像中提取四个关键信息，四个关键信息对应的关键字段分别为date,address,company,total，通过正则匹配规则匹配得到结果后，将四个关键字段和四个关键字段对应关键信息组合成JSON格式{“date”:“2019-xx-xx”,“address”:”china”,“company”:”walmarxxx”,“total”,“34.00”}后，输出该结果。

本发明还提出一种电子装置。参照图2所示，为本发明一实施例提供的电子装置的内部结构示意图。

在本实施例中，所述电子装置1至少包括存储器11、处理器12，网络接口13，以及通信总线。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子装置1的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子装置1的应用软件及各类数据，例如关键信息提取程序10的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行关键信息提取程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线用于实现这些组件之间的连接通信。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-13以及关键信息提取程序10的电子装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子装置1实施例中，存储器11中存储有关键信息提取程序10，处理器12执行存储器11中存储的关键信息提取程序10时实现如下步骤：

具体原理请参照下述图3关于关键信息提取程序10的程序模块图的介绍，在此不作累述。

可选地，在其他的实施例中，关键信息提取程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述关键信息提取程序在电子装置中的执行过程。

例如，参照图3所示，为本发明提供的电子装置1一实施例中的关键信息提取程序的程序模块示意图，该实施例中，关键信息提取程序10可以被分割为获取模块110、构建模块120、修正模块130、输出模块140，示例性地：

获取模块110：用于获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果，所述扫描识别结果包括用于确定所述关键字段和所述关键信息的位置的检测框的四个坐标点的坐标值。

在本发明的一个实施例中，执行获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果之前还包括：对原始图像进行预处理(例如，二值化处理)，得到黑白文本图像，该处理过程是为了增强图像的可读性。从得到的黑白文本图像中提取单行文本，利用预设算法(例如，滑动窗口算法)对单行文本进行处理，得到多个文本内容块和文本内容块对应的检测框的四个坐标点的坐标值，文本内容块包括目标文本图像中的关键字段或关键信息，以目标文本图像的左上角为原点，从左到右的方向为x轴，从上到下的方向为y轴，建立坐标系。通过建立坐标系，可以确定检测框的具体坐标，检测框的坐标点用维度为1x8的数组表示，形式为[x1,y1,x2,y2,x3,y3,x4,y4],数组中的x、y元素分别代表检测框的左上角、右上角、右下角、左下角四个坐标点的横坐标值与纵坐标值。

构建模块120：用于将各个关键字段对应的检测框左上角的坐标点的坐标值与所述关键字段组成的数组作为第一节点，将各个关键信息对应的检测框左上角的坐标值与所述检测框内的关键信息组成的数组作为第二节点，根据各个节点坐标的坐标值，构建所述目标文本图像的网络图。

修正模块130：用于利用基于第一节点坐标的位置的预设修正规则对所述网络图中的第二节点的位置进行修正，得到从左到右第一节点、第二节点间隔排序的网络图。

在本发明的一个实施例中，所述修正规则可以为：若某个父节点对应的检测框的左下角的y坐标值与其一个子节点的y坐标值的差值小于阈值，其中，阈值的大小可以根据实际情况设定，例如，设阈值大小为5，则将所述父节点移动到所述子节点所在层，并根据移动后的所述子节点所在层的所有节点的x坐标值按照从小到大的顺序对所述所有节点重新进行排列。

输出模块140：用于利用各个第一节点包含的关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件。

在本发明的一个实施例中，若采用正则匹配规则无法直接获取到结果，则可以通过间接匹配的方式进行匹配。例如，需要统计购物小票中的total(总金额)关键字段对应的数值时，购物小票中没有total关键字段，则可以通过间接匹配pay关键字段和cash关键字段对应的数值，利用total＝pay-cash后，得到total关键字段的对应的数值。

在本发明的另一实施例中，还可以对匹配到的结果进行格式校验，例如，匹配日期的结果为2019-O1-10，日期格式是“年-月-日”格式，可以通过格式校验表达式“$\d{4}-\d{2}-\d{2}？”来校验日期的格式是否符合要求。通过校验后得知，该日期的匹配结果出现格式错误，月份为01而不是O1，根据匹配反馈，对日期匹配结果进行更正。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有关键信息提取程序，所述关键信息提取程序可被一个或多个处理器执行，以实现如下步骤：

获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果，所述扫描识别结果包括用于确定所述关键字段和所述关键信息得位置的检测框的四个坐标点的坐标值；

本发明存储介质具体实施方式与上述电子装置1和系统各实施例基本相同，在此不作累述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种关键信息提取方法，应用于电子装置，其特征在于，所述方法包括：

利用各个第一节点包含的关键字段对应的预先编写的正则匹配规则对预设方向的第二节点包含的关键信息进行匹配，得到关键字段对应的匹配结果，按照第一节点在坐标系中的位置从左到右、从上到下的顺序获取第一节点的关键字段与关键字段对应的匹配结果生成预设格式的文件并输出所述文件；

其中，在构建所述网络图的过程中，y坐标值相同的节点视为兄弟节点，y坐标值的绝对值大的节点视为子节点，先生成父、子节点，再生成兄弟节点；

所述修正规则为：若某个父节点的y坐标值与其一个子节点的y坐标值的差值小于阈值，则将所述父节点移动到所述子节点所在层，并根据移动后的所述子节点所在层的所有节点的x坐标值按照从小到大的顺序对所述所有节点重新进行排列。

2.如权利要求1所述的关键信息提取方法，其特征在于，在所述获取目标文本图像中的各个关键字段和关键字段对应的关键信息的扫描识别结果之前，该方法还包括：

从所述黑白文本图像中提取单行文本；及

3.如权利要求1所述的关键信息提取方法，其特征在于，每个正则匹配规则包含一条或多条正则表达式，用于获取对应的第二节点包含的关键信息的文本内容。

4.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括关键信息提取程序，该关键信息提取程序被所述处理器执行时实现如下步骤：

5.如权利要求4所述的电子装置，其特征在于，每个正则匹配规则包含一条或多条正则表达式，用于获取对应的第二节点包含的关键信息的文本内容。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括关键信息提取程序，所述关键信息提取程序被处理器执行时，实现如权利要求1至3中任一项所述的关键信息提取方法的步骤。